講演・口頭発表等 - 酒向 慎司

分割表示  252 件中 21 - 40 件目  /  全件表示 >>
  • 作曲の余地を残した既存曲の抽象化

    畑中 哲哉, 酒向 慎司

    情報処理学会第85回全国大会  2023年03月  情報処理学会

     詳細を見る

    開催年月日: 2023年03月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:電気通信大学  

    近年, 計算機を使用した音楽作成の普及により, 手軽に作曲を楽しむことができるようになった. しかし, 作曲は音楽の知識や経験が必要とされるため, 初心者にとって作曲は容易ではないく, また作曲経験者にとっても, 何もない状態で1から作曲を行う事は労力と時間を必要とする. そのため近年の作曲ソフトでは, 音楽制作における様々な過程に応じた支援方法が存在する. 本研究では作曲における最初の段階, メロディやコード進行の作成の過程を支援する方法を考える. メロディやコード進行といった音楽的要素を既存の曲を抽象化し流用することで, ユーザにとってよりスムーズな作曲のスタートを実現する.

  • 楽曲の繰り返し構造に基づいた音楽要約手法の提案

    川地 奎多, 酒向 慎司

    情報処理学会第85回全国大会  2023年03月  情報処理学会

     詳細を見る

    開催年月日: 2023年03月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:電気通信大学  

    近年,時間に対する重要性が高くなり,タイムパフォーマンス志向が動画や音楽などのコンテンツ産業でも増えている.また,音楽配信サービスの普及に伴い,人々は膨大な楽曲にアクセスしやすくなった今,楽曲を短くすることでより多くの楽曲を楽しめると考える.音楽要約に関する手法の提案は数少ないが,楽曲の全体的な雰囲気を把握できるような要約を目指すために,楽曲の繰り返し構造に着目した.楽曲にはAメロ,サビといった構造パートとその内部のメロディの2種類の繰り返し構造が存在すると考え,それらを削減する手法を提案した.本論文では,音楽要約の手法を提案に加え,評価実験を行うことでその有効性の検証を行った.

  • Transformerを用いたファミコン風自動編曲手法の検討

    小木曽 雄飛, 酒向 慎司

    情報処理学会第85回全国大会  2023年03月  情報処理学会

     詳細を見る

    開催年月日: 2023年03月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:電気通信大学  

    本研究は既存のポピュラー音楽をファミコン風の音楽に自動編曲することを目的としている. ファミコン音楽は4パートで構成されており, それぞれ同時に1音しか発音できず, 最大同時発音数が4音という制約を持っている. そのため, 既存の楽曲に対して, 音の削除または追加をして, パートの割り当てをする必要がある. これらを達成するために, 深層学習モデルを用いた編曲手法を提案する. ファミコン風編曲前後のデータを用いて, Music Transformerを教師あり学習を行い, ピアノ楽曲のMIDIデータの変換を行う. MIDIのデータ表現を変えて評価実験を行った.

  • 手話の自動認識・翻訳の研究と展望 招待あり

    酒向 慎司

    電子情報通信学会 コミュニケーションシステム研究会(CS)  2022年11月  電子情報通信学会

     詳細を見る

    開催年月日: 2022年11月

    記述言語:日本語   会議種別:口頭発表(招待・特別)  

    開催地:名古屋工業大学   国名:日本国  

    現在の日本では,身体障害者手帳の所持数のうち,聴覚・言語障害が約34万人いるといわれている.聴覚障害者のコミュニケーション手段は,聴こえの状態の違いや先天性・中途失聴者などに応じて様々な形態があるが,その一つの手段として手話がある.手話は視覚言語の一つであり,独自の文法体系を持つ自然言語である.日本では日本手話と呼ばれる固有の手話が使われており,音声言語としての日本語とは異なる独自の文法体系を持っている.一方で,手話を習得した健聴者が限られていることから,聴覚障害者と健聴者との日常コミュニケーションは筆談や口話によって行われている.どちらの方法も障害者,健聴者の双方,または一方にはストレスを生じさせるコミュニケーション手段である.手話通訳者が介在できる状況も限られており,プライバシーの問題から通訳者が間に入りにくい状況もある.そのような背景から,機械による手話の読み取り(手話認識・翻訳)や手話の表出(手話合成)に関する研究が長年にわたり行われている.本講演では,手話言語の基本的な特性とともにこれまでの手話認識・翻訳技術に関する研究の推移や今後の展望について取り上げる.

  • 周辺環境を含むライフログ収集をめざした装着型MoCapシステムの提案

    三浦 哲平, 酒向 慎司

    電子情報通信学会 HCGシンポジウム2021  電子情報通信学会

     詳細を見る

    開催年月日: 2021年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンラインミーティング(Zoom)  

    本論文では,ライフログとして周辺環境の情報を画像として含んだ個人の身体動作を計測する装着型モーションキャプチャシステムを提案し,そのプロトタイプの開発と評価をおこなう.本システムは,小型の全方位カメラと GPU 搭載シングルボードコンピュータ,その上で動作する 3D ポーズ推定モデルで構成される.推定モデルの学習のために,合成画像データ生成ツールを用いて合成画像を生成し,学習用のデータセットを構築する.評価用の合成データを収集して, 3D ポーズ推定の精度,実行時間,およびカメラ位置と回転の変動に対する頑健性を評価する.また,自然な環境下での実画像データを収集して 3D ポーズ推定の定性評価をおこなう.

  • 3-D motion generation for double bass performance from musical score 国際会議

    Shinji Sako, Takeru Shirai

    14th International Workshop on Machine Learning and Music 

     詳細を見る

    開催年月日: 2021年12月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Online (Zoom)  

    We propose a method for generating 3-D motions of the double bass player from musical score. Generating 3-D motions of performance would be promising to realize performances by virtual player (avatar) or robots, and can also be useful for performance training for
    beginners. There have been many studies to generate musical performances, but not many of them generate the human motion of the performance. There are a few previous studies on generating performance actions for piano and violin. In addition, large dataset which contains 3-D movements of performances are not available.
    In this study, we developed a small 3-D motion dataset for actual double bass performance. PERCEPTION NEURON, inertial motion capture device is used to capture a performance movement. 3-D coordinates of 15 points of the body are recorded at 30 fps for 13 pieces of "Franz Simandl / 30 Etudes for the double bass". Since this is an elementary study, the data set is relatively small, with one male performer and about 30 minutes. We
    utilize a 2-layer LSTM (Long Short Term Memory) network to convert from musical score to 3-D motion. The contribution of this work is effect of combining bowing and fingering information with musical score in the generation of performance motion, and to examine the effectiveness of the model structure in performance generation.
    We conducted the evaluation experiment from two perspectives. The first is to evaluate the geometric accuracy of the generated 3-D trajectory, and the second is to evaluate the naturalness of the generated 3-D motion as a performance. The results showed that the accuracy of generated motion for double bass can be improved using two types of additional information (bowing, fingering) in addition to musical score information.

  • 「音声コミュニケーションと障がい者」の発刊の意義

    市川 熹, 長嶋 祐二, 岡本 明, 加藤 直人, 酒向 慎司, 滝口 哲也, 原 大介, 幕内 充

    電子情報通信学会 第115回福祉情報科学研究会  電子情報通信学会

     詳細を見る

    開催年月日: 2021年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンラインミーティング(Zoom)  

    著者らが執筆した「音声コミュニケーションと障がい者」(日本音響学会編,音響サイエンスシリーズ22,コロナ社)は,音声の知見から,手話や指点字などを横断的に分析し,コミュニケーションの機能の明確化を試みたものである.本書の特徴の一つに,聴覚言語(音声)と視覚言語(手話),触覚言語(指点字や触手話) を横断的に扱い,言語の原点である「対話のことば」の共通基盤特性を示している点がある.福祉情報工学研究会の参加者に向けて,このような視点の書籍の概要とその意義を紹介する.

  • Music Mood Recognition Based on Synchronized Audio and Lyrics 国際会議

    Sho Ikeda, Shinji Sako

    22nd International Society for Music Information Retrieval Conference  International Society for Music Information Retrieval

     詳細を見る

    開催年月日: 2021年11月

    記述言語:英語   会議種別:ポスター発表  

    開催地:Online  

    The aim of our study is to improve the accuracy of music mood recognition using audio and lyrics. As a method, we make a dataset in which audio and lyrics are synchronized, and utilize both lyrics and audio modality for mood recognition. There are few research that deal with the synchronization of audio and lyrics in music mood recognition. Therefore, we make a dataset by extracting the part of lyrics sung in audio. Using the dataset, We investigate the impact of lyric and audio synchronization on music mood recognition tasks. In our experiments, we extract the word embedding representation from lyrics as a feature, and perform music mood recognition using a deep neural network. To verify the effectiveness of synchronizing audio and lyrics, we conduct the experiment in terms of the number of words in the lyrics and the number of music clips.

  • Attribute-Aware Deep Music Transformation For Polyphonic Music 国際会議

    Yuta Matsuoka, Shinji Sako

    22nd International Society for Music Information Retrieval Conference  International Society for Music Information Retrieval

     詳細を見る

    開催年月日: 2021年11月

    記述言語:英語   会議種別:ポスター発表  

    開催地:Online  

    ecent machine learning technology have made it possible to automatically create a variety of new music. And many approaches have been proposed to control musical attributes such as pitch and rhythm of the generated music. However, most of them focus only on monophonic music. In this study, we apply the deep music transformation model, which can control the musical attributes of monophonic music, to polyphonic music. We employ Performance Encoding, which can efficiently describe polyphonic music, as the input to the model. To evaluate the proposed method, we performed music transformation using a polyphonic music dataset.

  • 3D モーションデータを用いた手話データ生成ツール

    三浦 哲平, 酒向 慎司

    電子情報通信学会 第114回福祉情報科学研究会  電子情報通信学会

     詳細を見る

    開催年月日: 2021年10月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンラインミーティング(Zoom)  

  • ラウドなポピュラー音楽のダイナミクス復元

    尾関 日向, 酒向 慎司

    情報処理学会 第132回音楽情報科学研究会  情報処理学会

     詳細を見る

    開催年月日: 2021年09月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンライン開催  

    ポピュラー音楽の制作では,マスタリングの際に曲の音量レベルを過剰に高めようとする傾向がみられる.しかし,このようにして作られたダイナミクスの小さな曲は,近年のリスニングスタイルに適していないことが多いと考えられる.そこで本研究では,ラウドなポピュラー楽曲のスペクトログラムからマスタリング前のラウドネスを推定することで,ダイナミクスの復元を目的とする.

  • 複数パート間のズレを含む演奏音に対するマルチパートビートトラッキング

    福谷 和貴, 酒向 慎司

    情報処理学会 第131回音楽情報科学研究会  情報処理学会

     詳細を見る

    開催年月日: 2021年06月

    記述言語:日本語   会議種別:ポスター発表  

    開催地:オンライン開催  

    本研究では,楽器ごとに一つのビートラベル列が存在し,複数のビートラベル列を持つ音楽演奏を対象とし,その混合音に対して複数パートのビート位置を同時にトラッキングすることを試み,このようなマルチパートビートトラッキングのための新たな手法を提案した.音源分離手法によって分離した単独音に対するビートトラッキングを組み合わせた方法と比較することで提案手法の有効性を確認した.

  • 手話認識への応用を目的としたモバイル MoCap システム ~ OpenPose を利用した 3D ポーズ推定の精度向上 ~

    三浦 哲平, 酒向 慎司

    電子情報通信学会 第112回福祉情報科学研究会  電子情報通信学会

     詳細を見る

    開催年月日: 2021年06月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンラインミーティング(Zoom)  

    手話は,ろう者がコミュニケーションで用いる主要な言語である.しかし,健聴者で手話を扱えるものは少なく,両者の会話は筆談や手話通訳者を介さなければならない.より対話的で,直接に意思を伝えあうコミュニケーションを日常的におこなうために,携帯して常に使える手話の認識・翻訳システムが必要である.著者らはこれまでに,常に利用できる手話認識・翻訳システムへの応用をめざして,手話者の身体動作情報を取得できるモバイルモーションキャプチャシステムの研究開発をおこなってきた.開発しているシステムでは,学習用データの不足によって実環境において2D / 3D ポーズの推定精度の低下がみられた.本稿では,より精度の高いポーズ推定をおこなうために,高精度な2D ポーズ推定ツールであるOpenPose を利用する方法を提案する.

  • 演奏タイミングのズレを含む混合音に対するマルチラベルビートトラッキング

    福谷 和貴, 酒向 慎司

    情報処理学会 第129回音楽情報科学研究会  情報処理学会

     詳細を見る

    開催年月日: 2020年11月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンライン開催  

    本研究では,ビートラベル列が楽器ごとに存在し,マルチラベルとなっている演奏データに対して,それぞれのビートラベル列を認識するマルチラベルビートトラッキングを検討する.楽器演奏の初心者は一定のリズムで演奏しているつもりでも,タイミングがズレてしまうことがある.特に複数の楽器で合奏している場合,自分の演奏がズレているのか判断するのは困難である.そこで,演奏のタイミングがずれてしまう初心者に対して,演奏タイミングを示すことによって,練習支援を行うことができると考える.手法としては,各楽器に対応したビートラベル列を持つ複数楽器の音が混合された音響信号に対して,マルチラベルでのビートトラッキング技術を用いることで楽器ごとの演奏タイミングを認識する.まず,初心者の演奏を模擬した演奏データを作成する.次に,LSTM を用いたビートトラッキング手法をマルチラベルに拡張する.評価実験の結果,従来手法を組み合わせた方法でギター,ドラムについてそれぞれ F 値が 0.578,0.760 であったのに対し,マルチラベルビートトラッキングを行うことでそれぞれ F 値が 0.603,0.754 となった.

  • 全天球カメラを用いた3Dポーズ推定 ~ 手話認識への応用に向けて ~

    三浦 哲平, 酒向 慎司

    電子情報通信学会 第107回福祉情報科学研究会  電子情報通信学会

     詳細を見る

    開催年月日: 2020年09月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンラインミーティング(Zoom)  

    手話は,ろう者が日常のコミュニケーションに用いる言語である.しかし,健聴者で手話を扱えるものは少なく,両者の会話は筆談や手話通訳者を介さなければならない.より対話的で,直接に意思を伝えあうコミュニケーションを日常の生活でおこなうためには,携帯して常に使える手話の認識,翻訳システムが必要である.手話は手指の形や動きだけでなく,目・眉・口や周囲の環境などの空間全体を使って意思を表現する.本研究では,手話の表現に用いる空間の情報を取得できること,手話者が日常的に携帯して使えることを考慮して,ウェアラブルな全天球カメラを用いた手話の認識について検討している.本稿では特に,手話者の動作を認識するために,身体に装着した全天球カメラで取得した画像を入力とした3D ポーズ推定を提案する.3D ポーズ推定には畳込みニューラルネットワーク(CNN) を用いる.全天球カメラで取得した手話の画像と,画像に同期した3D ポーズのデータセットを新たに構築し,そのデータセットによるモデルの学習と評価をおこなう.

  • 20周年を迎えた福祉情報工学研究会の実績

    酒向 慎司

    電子情報通信学会 第105回福祉情報科学研究会  電子情報通信学会

     詳細を見る

    開催年月日: 2020年03月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:筑波技術大学 春日キャンパス  

    福祉情報工学(WIT)研究会は電子情報通信学会のヒューマンコミュニケーショングループの第二種研究会として1999年(平成11年)に設立され、設立20周年を迎えた(現在は第一種研究会として活動中)。これまでに104回の研究会が全国各地で実施され、1,700件以上の研究発表がなされた。障害者や高齢者の情報・通信関連の諸課題に取り組む先端的情報・通信技術や科学をはじめ、認知科学、言語処理、ヒューマンインタフェースなど関連諸研究に従事する研究開発者が一同に会し、発表、討論する場としてWIT 研究会は大きな役割を果たしてきた。これまでの発表実績をもとに、対象領域の広がりや技術の変遷について振り返るとともに、これからのWIT 研究会の在り方について考える。

  • 楽曲の再生履歴を利用した自動メロディ生成

    松岡 優太, 酒向 慎司

    情報処理学会第82回全国大会  情報処理学会

     詳細を見る

    開催年月日: 2020年03月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:金沢工業大学(現地開催中止のためオンライン発表)  

    自動作曲において,音楽的知識などの支援をすることはもちろん,ユーザの好みに合った曲の制作を支援することも重要である.しかし,人間の楽曲に対する嗜好は様々であいまいなものであるため,システムによって正確に捉えることは難しい.また,取得した嗜好をどのようにメロディ生成に反映させるかにも難しさがある.よって本研究ではユーザの嗜好を反映した楽曲を生成するための自動作曲システムの方略として,ユーザの持つ楽曲の再生履歴情報を利用することを検討する.履歴情報には,ユーザの楽曲への嗜好が表れると考えられ,実際に楽曲推薦の分野でユーザの嗜好を得るために現在も広く用いられている情報である.作曲には従来手法でよく用いられている遺伝的アルゴリズム(GA)を利用し,履歴情報の取得にはSpotify APIを利用する.

  • ギターパートを対象とするエンドツーエンド音源分離の検討

    尾関 日向, 酒向 慎司

    情報処理学会第82回全国大会  情報処理学会

     詳細を見る

    開催年月日: 2020年03月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:金沢工業大学(現地開催中止のためオンライン発表)  

    音源分離とは,複数の音源が混ざりあった音響信号から特定の要素を抽出する技術である.なかでも音楽音響信号を対象にした音源分離は,楽曲が含む各パートの音源を必要とする自動採譜技術にとって欠かせない要素技術である.従来はボーカルやドラムパートの分離が多く取り組まれてきたが,一般的に楽曲は他にも様々なパートを含んでおり,任意のパートが抽出できればより実用的な自動採譜や既存曲のリミックス,DJプレイなどに広く活用でき.例えばギターはポピュラー音楽で頻繁に使用され演奏者も多く,先述の用途において需要が高い.そこで本研究では最新のボーカル分離技術を適用したギターパート分離を試みる.特に,ステレオ音源の場合の定位情報,データセットの規模,パートが担う演奏上の役割の違いといった要素が分離精度に及ぼす影響を調査し,ギターにより適した分離手法を検討する.

  • 発話の感情要素と感情強度を考慮した楽曲推薦手法の検討

    池田 将, 酒向 慎司

    情報処理学会第82回全国大会  情報処理学会

     詳細を見る

    開催年月日: 2020年03月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:金沢工業大学(現地開催中止のためオンライン発表)  

    近年の音楽配信サービスでは,視聴履歴などを利用してユーザの好みに合う楽曲を推薦する仕組みが導入されている.一方で,ユーザの現在の状況や心情などに応じた楽曲推薦を行うための研究もなされている.本研究ではユーザの感情を考慮した楽曲推薦手法につい
    て取り組む.この研究の狙いは,楽曲推薦をより柔軟に行うほかにも,ユーザの状況や心情に適した楽曲を推薦することで,心理状態を安定させたりすることなどの音楽療法への応用が考えられる.音楽療法への応用のため,本研究では同質の原理に基づいて楽曲推薦を行う.この原理は音楽療法の基本原理であり,聴取者はその時の感情に同質な印象の音楽を望むというものである.この原理を利用するために,ユーザの感情を推定することが本研究の課題である.

  • 超高齢化時代が対話システムに求める物理層の基盤的特性

    市川 熹,長嶋 祐二,堀内 靖雄,原 大介,酒向慎司

    言語・音声理解と対話処理研究会   人工知能学会

     詳細を見る

    開催年月日: 2019年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:早稲田大学 西早稲田キャンパス  

    Real-time dialogue between people has the basic characteristics of reducing the psychological burden. Elderly people and people with disabilities have the right to achieve a high QOL, but their symptoms are different. On the other hand, it cannot be replaced by another person. Comparing voice, sign language, and music, it was confirmed that the two types of rhythms have a common basic structure. It is important to consider these characteristics in the dialogue system
    used by the elderly and disabled.

このページの先頭へ▲