講演・口頭発表等 - 酒向 慎司
-
日本手話における個人性の研究:運動学的特徴の分析と手話者識別
戴 梓軒, 酒向 慎司
電子情報通信学会 HCGシンポジウム2024 2024年12月 電子情報通信学会
開催年月日: 2024年12月
記述言語:英語 会議種別:口頭発表(一般)
開催地:金沢歌劇座(金沢市) 国名:日本国
-
Song review generation using acoustic information and lyrics 国際会議
25nd International Society for Music Information Retrieval Conference 2024年11月 International Society for Music Information Retrieval
開催年月日: 2024年11月
記述言語:英語 会議種別:ポスター発表
開催地:San Francisco 国名:アメリカ合衆国
-
酒向 慎司
愛知パーカッション・フェア 2024 ~「共鳴~Kyo-mei」が繋ぐさまざまなパーカッションの世界~ 2024年11月 愛知県立芸術大学 社会連携センター
開催年月日: 2024年11月
会議種別:シンポジウム・ワークショップ パネル(指名)
開催地:愛知県立芸術大学 芸術資料館 地下演習室 国名:日本国
-
一人称視点映像によるボディトラッキング技術と手話認識への応用 招待あり
酒向 慎司
ろう者・難聴者がイキイキと働ける環境を目指して! 「スマートグラスやデジタルセンシングを使ったコミュニケーションを体験しよう」 2024年11月 特定非営利活動法人 ウェアラブルコンピュータ研究開発機構
開催年月日: 2024年11月
会議種別:口頭発表(招待・特別)
開催地:QUINTBRIDGE(NTT西日本) 国名:日本国
-
酒向 慎司, 笠間 健太郎
電子情報通信学会 第126回福祉情報科学研究会 2024年10月 電子情報通信学会
開催年月日: 2024年10月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:帝京大学 宇都宮キャンパス 国名:日本国
本研究では,手話の時間的構造(リズム)に関係があるとされる手話中の呼吸の状態を手話のモーションキャプチャデータから推定する手法について検討した.手話のような複雑な身体動作がなされた状態,手話そのものの計測の妨げとならないような計測は容易ではないと考えられる.ここでは高精度に計測された手話の3次元モーションデータから胸部の拡張の変化に着目して呼吸の状態を計測可能であるかを試みた.既存の手話データベース(KoSign)の3次元データを用いて呼吸の推定を行い,その結果の妥当性について検証した.
-
川地 奎多, 酒向 慎司
情報処理学会 第141回音楽情報科学研究会 2024年08月 情報処理学会
開催年月日: 2024年08月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:駒澤大学 駒澤キャンパス
近年,音楽配信サービスの普及により,楽曲へのアクセス性が大幅に向上した.その一方で,音楽の聴取スタイルは受動的かつ BGM として消費する傾向が強まり,深く鑑賞する機会が減少しているのではないかと感じている.そこで,本研究では音楽を言語化して説明することがリスナーの音楽理解を助け,音楽体験の価値を向上させる手段の 1 つであると考えた.音楽の言語化は,音楽キャプションタスク(音楽に関する情報を自然言語の文章形式で記述するタスク)として近年盛んに研究されている.従来の研究では音響情報のみを用いて,楽曲に関する説明文を生成することに焦点が置かれていた.そこで,本研究では音響情報に加えて歌詞にも着目し,楽曲のレビュー文を生成することに試みた.具体的には音楽特徴抽出器と大規模言語モデル(LLM)を用いて音楽記述を生成する MU-LLaMA をベースラインモデルとし,LLaMA に事前に指示を与えるシステムプロンプトを設計することで,歌詞も考慮したレビュー文生成を実現した.さらに,3 つの評価実験を通じて,提案手法が従来手法よりも表現の多様性や楽曲のイメージ形成に有効であることを確認した.
-
アノテーション支援のための日本手話の映像データにおけるマウジング検出の検討
辰巳 花菜, 酒向 慎司
電子情報通信学会 第125回福祉情報科学研究会 2024年08月 電子情報通信学会
開催年月日: 2024年08月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:はこだて未来大学(函館市)
本研究では,手話のアノテーション支援を目的とし,日本手話の口型の一種であるマウジング検出について検討を行った.口型とは,手話中に現れる口の動きのことを指す.現在,日本手話において,より大規模で汎用的なコーパスの開発が急務となっているが,手話の複雑性により,アノテーションは容易ではない作業とされている.そのため,自動アノテーションによるコーパス整備の効率化が望まれている.イギリス手話の大規模なデータ
セットであるBOBSLにおける自動アノテーションの研究[1]では,口型認識を用いた単語検出のアプローチを使用しており,これにより手指信号の認識だけでは検出が難しい語の検出を可能にしている.そこで本研究では,日本手話における口型認識に基づいて,音声言語由来の口の動きであるマウジングを検出する.本提案手法では,既存の機械読唇技術を用いて,日本手話における口型の認識を行う.そして,手話に対応した日本語音声の書き起こしテキスト内からマウジングの候補の語を特定し,口型認識の結果とマッチングさせることで,マウジングに相当する区間を特定する.また本研究では,日本手話映像を用いてマウジング検出の検証用にデータセットを作成し,その中で,マウジングの表出について調査した.その結果,表出パターンにはばらつきがみられ,提案手法におけるマウジング候補の特定方法をさらに検討する必要があることが分かった.最後に,口型のみの認識によるアノテーションの限界,そして,より正確なアノテーションのための手法の検討などの今後の方針を述べる. -
Chironomie に基づいた楽譜と演奏に対応した音楽の可視化
酒向 慎司, 辰巳 花菜
可視化情報シンポジウム2024 2024年07月 一般社団法人 可視化情報学会
開催年月日: 2024年07月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:沖縄産業支援センター 国名:日本国
聴覚障害者が音楽を楽しむ機会を増やすためには、彼らにとって利用しやすい形で音楽を提示することが必要である。本研究では、聴覚に障がいがあっても視覚に障がいのない人々の共通感覚である視覚に着目し、音楽の視覚化を試みる。音楽を視覚化する方法としては、色彩や図形など様々な方法が提案されている。本研究では、足や手の物理的な上げ下げ、空間的な上下の意味を含むキロノミーに着目し、楽譜や演奏に対応したわかりやすく直感的な視覚表現による音楽の視覚化を目指す。
-
照明演出の支援を目的とした音楽音響信号に基づく照明色・明度・動きの推定とその評価
月東 菜乃, 酒向 慎司
情報処理学会 第140回音楽情報科学研究会 2024年05月 情報処理学会
開催年月日: 2024年05月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:日本大学 文理学部キャンパス 百周年記念館
本研究では照明演出構成の支援を目的として,音楽をメインとして観客に聴かせ,多様な照明演出が施されることの多いポピュラー音楽コンサートを対象に,楽曲の特徴から自動で照明演出を決定する手法について検討する.楽曲音声に基づき推定された繰り返し構造ごとに楽曲の雰囲気に合った照明色・明るさ・動きを推定する.また,推定された照明演出のシミュレーション映像視聴による主観評価により本手法の有効性を確認した.
-
戴 梓軒, 酒向 慎司
電子情報通信学会 ヒューマンコミュニケーション基礎(HCS)研究会 2024年03月 電子情報通信学会
開催年月日: 2024年05月
記述言語:英語 会議種別:口頭発表(一般)
開催地:沖縄産業支援センター
-
論文作成・発表アクセシビリティガイドライン -共生社会実現に役立つ研究を進めるために-
布川 清彦, 若月 大輔, 酒向 慎司
電子情報通信学会 第124回福祉情報科学研究会 2024年03月 電子情報通信学会
開催年月日: 2024年03月
記述言語:日本語 会議種別:口頭発表(招待・特別)
開催地:筑波技術大学(春日キャンパス)
世界では,障害者を含め多様性による人類の進化を進める動きが加速している.日本においても,共生社会を実現するための法整備が進められてきた.ヒューマンコミュニケーショングループ(HCG)では,様々な人が研究に参加できることを目指して論文作成・発表アクセシビリティガイドライン[1]を作成し,その改定を進めてきた.本講演では,2023年度に行った論文作成・発表アクセシビリティガイドラインVer.4(以下,ガイドライン)への改訂の背景となるガイドラインの誕生から改訂にいたる経緯,障害者の権利に関する日本の法律である障害者差別解消法[2]について概説し,ガイドラインとの関係について述べる.
-
国際生活機能分類(ICF)と論文作成・発表アクセシビリティガイドライン
布川 清彦, 若月 大輔, 酒向 慎司
電子情報通信学会 第124回福祉情報科学研究会 2024年03月 電子情報通信学会
開催年月日: 2024年03月
記述言語:日本語 会議種別:口頭発表(招待・特別)
開催地:筑波技術大学(春日キャンパス)
本講演では,世界標準の障害観である国際生活機能分類(以後,ICFとよぶ. ICFはInternational Classification of Functioning, Disability and Healthの略)について概説し,ICFと2023年度に改訂された論文作成・発表アクセシビリティガイドラインVer.4(以下,ガイドラインとよぶ)[1]との関係について述べる.ICFでは,障害を生活機能のマイナス面としている.見えない・聞こえないといった身体や精神の特性だけではなく,その人の特性と環境とのミスマッチによって生活上の困難が生じている状況も含んでいる.そこから考えてみると,ユーザの特性に合わせた環境を作ることによって,その困難を解決して生活機能を高めること,つまり障害を低減して「できること」を増やせる可能性がある.ガイドラインは,障害のある研究者が他者と協働して研究を進めて行くときに有効な,研究者の特性に合わせた環境調整の具体例を示している.ガイドラインを利用する事により,研究活動時の障害を低減し,生活機能を高めることが期待できる.
-
照明演出の支援を目的とした楽曲の構造と雰囲気に基づく照明色・明度・動きの推定
月東 菜乃, 酒向 慎司
情報処理学会第86回全国大会 2024年03月 情報処理学会
開催年月日: 2024年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:神奈川大学横浜キャンパス
本研究では,初心者が音楽コンサートにおける照明演出を構成する際の支援を目的とし,楽曲音声をもとに繰り返し構造に基づき分割された楽曲セグメントごとに照明色・明度・動きを決定する.実際の照明演出構成手順にならいながら照明効果を決定することで楽曲の雰囲気に合った照明演出の構成を目指す.
-
笠間 健太郎, 酒向 慎司
情報処理学会第86回全国大会 2024年03月 情報処理学会
開催年月日: 2024年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:神奈川大学横浜キャンパス
本研究は手話の時間的構造に関係があるとされる手話中の呼吸を考慮することによる手話生成の自然性向上を目的として、手話データセットから呼吸情報を取得することを目指した研究である。既存の手話データセットの3次元データを用いて呼吸の推定を行い、推定された呼吸が手話特有の呼吸を示していることを検証する.
-
梅田 唯花, 酒向 慎司
情報処理学会第86回全国大会 2024年03月 情報処理学会
開催年月日: 2024年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:神奈川大学横浜キャンパス
本研究は日本手話のデータ不足解消を目的として日本手話の自動アノテーションを目指した研究である。手話中の口型のアノテーションに焦点を当て、機械読唇のモデルを用いて日本手話における口型の検出と認識を検証する。検証には日本手話の映像をもとに作成したデータセットを使用し、手話中に表れる口型の検出と認識の精度を確認し、評価を行う。
-
Music Visualization using Chironomie 国際共著 国際会議
Kana Tatsumi, Shinji Sako, Rafael Ramirez
24nd International Society for Music Information Retrieval Conference 2023年11月 International Society for Music Information Retrieval
開催年月日: 2023年11月
記述言語:英語 会議種別:ポスター発表
開催地:Milan 国名:イタリア共和国
The purpose of this study is to debilitate the enjoyment of music for both hearing-impaired and normal-hearing individuals by visually representing music. In order to effectively and distinctively portray the musical rhythm, we focus on Chironomie, a conducting technique used in Gregorian chant. Generally, Chironomie is drawn by a curve that corresponds to the musical score, and this curve is determined by whether a short segment of the score represents one of two classes: Arsis or Thesis. In pursuit of our objective, our endeavors encompass two essential facets: the adaptation of Chironomie for Western tonal music to express intuitively perceivable musical features like tension and relaxation, and the evaluation whether Chironomie can effectively convey music visually. We report an automated method for estimating Arsis and Thesis within composite beats to generate Chironomie. Additionally, it presents evaluation experiments involving normal-hearing to assess the effectiveness of Chironomie.
-
聴覚障害者の音楽体験支援のためのChironomieによる音楽可視化手法の提案
辰巳 花菜, 酒向 慎司
電子情報通信学会 第122回福祉情報科学研究会 2023年10月 電子情報通信学会
開催年月日: 2023年10月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:九州工業大学(戸畑キャンパス)
本研究のねらいは, 聴覚障害者と健が共に音楽をしむため,グレゴリオ聖歌の指揮法であるChironomieを用いて音楽可視化する ことである .この目標達成には,Chironomieを西洋調性音楽に適用して聴覚では直感的に得られる音楽特徴である緊張の高まりや緩みを表現すること,Chironomieにより音楽が視覚的に伝達できるかを評価することが課題であ.本報告では,西洋クラシック音楽やその派生を対象とし,Chironomieを描画するために複合拍に対するArsisとThesisを自動推定する手法の検討と,健聴者を対象とした評価実験によるChironomieの有用性調査結果を報告する.
-
ギターアンプのノブ操作による音色の変化に対応したブラックボックスモデリング
江崎 友都, 酒向 慎司
日本音響学会2023年秋季研究発表会 2023年09月 日本音響学会
開催年月日: 2023年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:名古屋工業大学
エレキギターはギターアンプを使うことで音を増幅させ,音色の調整が可能である.一般的にギターアンプはサイズが大きい点や,真空管を使ったギターアンプでは劣化による寿命がある点などの欠点がある.そこでそのような欠点を改善するために計算機によってギターアンプの信号処理をモデリングする研究や製品化が行われている.ノブの操作が伴わない一定の設定におけるギターアンプの信号処理をモデリングした研究では聴感的な差がほとんど感じられないほどの再現性が達成できている.しかしノブの操作を含めてモデリングしたときの研究には再現性の評価に余地があることが課題として挙げられる.そこで本論文ではユーザがノブの操作が可能なモデルの作成を検討し,モデルにおけるギターアンプから出力される信号の再現性の評価を試みる.
-
辰巳 花菜, 田中 愛菜, 酒向 慎司 ほか
情報処理学会 第138回音楽情報科学研究会 2023年08月 情報処理学会
開催年月日: 2023年08月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:明治大学(中野キャンパス)
ポピュラー音楽の制作では,マスタリングの際に曲の音量レベルを過剰に高めようとする傾向がみられる.しかし,このようにして作られたダイナミクスの小さな曲は,近年のリスニングスタイルに適していないことが多いと考えられる.そこで本研究では,ラウドなポピュラー楽曲のスペクトログラムからマスタリング前のラウドネスを推定することで,ダイナミクスの復元を目的とする.
-
松本 優太, 酒向 慎司
情報処理学会第85回全国大会 2023年03月 情報処理学会
開催年月日: 2023年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:電気通信大学
Automatic arrangement by FCN for cylinder music box
-
畑中 哲哉, 酒向 慎司
情報処理学会第85回全国大会 2023年03月 情報処理学会
開催年月日: 2023年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:電気通信大学
近年, 計算機を使用した音楽作成の普及により, 手軽に作曲を楽しむことができるようになった. しかし, 作曲は音楽の知識や経験が必要とされるため, 初心者にとって作曲は容易ではないく, また作曲経験者にとっても, 何もない状態で1から作曲を行う事は労力と時間を必要とする. そのため近年の作曲ソフトでは, 音楽制作における様々な過程に応じた支援方法が存在する. 本研究では作曲における最初の段階, メロディやコード進行の作成の過程を支援する方法を考える. メロディやコード進行といった音楽的要素を既存の曲を抽象化し流用することで, ユーザにとってよりスムーズな作曲のスタートを実現する.
-
川地 奎多, 酒向 慎司
情報処理学会第85回全国大会 2023年03月 情報処理学会
開催年月日: 2023年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:電気通信大学
近年,時間に対する重要性が高くなり,タイムパフォーマンス志向が動画や音楽などのコンテンツ産業でも増えている.また,音楽配信サービスの普及に伴い,人々は膨大な楽曲にアクセスしやすくなった今,楽曲を短くすることでより多くの楽曲を楽しめると考える.音楽要約に関する手法の提案は数少ないが,楽曲の全体的な雰囲気を把握できるような要約を目指すために,楽曲の繰り返し構造に着目した.楽曲にはAメロ,サビといった構造パートとその内部のメロディの2種類の繰り返し構造が存在すると考え,それらを削減する手法を提案した.本論文では,音楽要約の手法を提案に加え,評価実験を行うことでその有効性の検証を行った.
-
Transformerを用いたファミコン風自動編曲手法の検討
小木曽 雄飛, 酒向 慎司
情報処理学会第85回全国大会 2023年03月 情報処理学会
開催年月日: 2023年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:電気通信大学
本研究は既存のポピュラー音楽をファミコン風の音楽に自動編曲することを目的としている. ファミコン音楽は4パートで構成されており, それぞれ同時に1音しか発音できず, 最大同時発音数が4音という制約を持っている. そのため, 既存の楽曲に対して, 音の削除または追加をして, パートの割り当てをする必要がある. これらを達成するために, 深層学習モデルを用いた編曲手法を提案する. ファミコン風編曲前後のデータを用いて, Music Transformerを教師あり学習を行い, ピアノ楽曲のMIDIデータの変換を行う. MIDIのデータ表現を変えて評価実験を行った.
-
手話の自動認識・翻訳の研究と展望 招待あり
酒向 慎司
電子情報通信学会 コミュニケーションシステム研究会(CS) 2022年11月 電子情報通信学会
開催年月日: 2022年11月
記述言語:日本語 会議種別:口頭発表(招待・特別)
開催地:名古屋工業大学 国名:日本国
現在の日本では,身体障害者手帳の所持数のうち,聴覚・言語障害が約34万人いるといわれている.聴覚障害者のコミュニケーション手段は,聴こえの状態の違いや先天性・中途失聴者などに応じて様々な形態があるが,その一つの手段として手話がある.手話は視覚言語の一つであり,独自の文法体系を持つ自然言語である.日本では日本手話と呼ばれる固有の手話が使われており,音声言語としての日本語とは異なる独自の文法体系を持っている.一方で,手話を習得した健聴者が限られていることから,聴覚障害者と健聴者との日常コミュニケーションは筆談や口話によって行われている.どちらの方法も障害者,健聴者の双方,または一方にはストレスを生じさせるコミュニケーション手段である.手話通訳者が介在できる状況も限られており,プライバシーの問題から通訳者が間に入りにくい状況もある.そのような背景から,機械による手話の読み取り(手話認識・翻訳)や手話の表出(手話合成)に関する研究が長年にわたり行われている.本講演では,手話言語の基本的な特性とともにこれまでの手話認識・翻訳技術に関する研究の推移や今後の展望について取り上げる.
-
周辺環境を含むライフログ収集をめざした装着型MoCapシステムの提案
三浦 哲平, 酒向 慎司
電子情報通信学会 HCGシンポジウム2021 電子情報通信学会
開催年月日: 2021年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:オンラインミーティング(Zoom)
本論文では,ライフログとして周辺環境の情報を画像として含んだ個人の身体動作を計測する装着型モーションキャプチャシステムを提案し,そのプロトタイプの開発と評価をおこなう.本システムは,小型の全方位カメラと GPU 搭載シングルボードコンピュータ,その上で動作する 3D ポーズ推定モデルで構成される.推定モデルの学習のために,合成画像データ生成ツールを用いて合成画像を生成し,学習用のデータセットを構築する.評価用の合成データを収集して, 3D ポーズ推定の精度,実行時間,およびカメラ位置と回転の変動に対する頑健性を評価する.また,自然な環境下での実画像データを収集して 3D ポーズ推定の定性評価をおこなう.
-
3-D motion generation for double bass performance from musical score 国際会議
Shinji Sako, Takeru Shirai
14th International Workshop on Machine Learning and Music
開催年月日: 2021年12月
記述言語:英語 会議種別:口頭発表(一般)
開催地:Online (Zoom)
We propose a method for generating 3-D motions of the double bass player from musical score. Generating 3-D motions of performance would be promising to realize performances by virtual player (avatar) or robots, and can also be useful for performance training for
beginners. There have been many studies to generate musical performances, but not many of them generate the human motion of the performance. There are a few previous studies on generating performance actions for piano and violin. In addition, large dataset which contains 3-D movements of performances are not available.
In this study, we developed a small 3-D motion dataset for actual double bass performance. PERCEPTION NEURON, inertial motion capture device is used to capture a performance movement. 3-D coordinates of 15 points of the body are recorded at 30 fps for 13 pieces of "Franz Simandl / 30 Etudes for the double bass". Since this is an elementary study, the data set is relatively small, with one male performer and about 30 minutes. We
utilize a 2-layer LSTM (Long Short Term Memory) network to convert from musical score to 3-D motion. The contribution of this work is effect of combining bowing and fingering information with musical score in the generation of performance motion, and to examine the effectiveness of the model structure in performance generation.
We conducted the evaluation experiment from two perspectives. The first is to evaluate the geometric accuracy of the generated 3-D trajectory, and the second is to evaluate the naturalness of the generated 3-D motion as a performance. The results showed that the accuracy of generated motion for double bass can be improved using two types of additional information (bowing, fingering) in addition to musical score information. -
市川 熹, 長嶋 祐二, 岡本 明, 加藤 直人, 酒向 慎司, 滝口 哲也, 原 大介, 幕内 充
電子情報通信学会 第115回福祉情報科学研究会 電子情報通信学会
開催年月日: 2021年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:オンラインミーティング(Zoom)
著者らが執筆した「音声コミュニケーションと障がい者」(日本音響学会編,音響サイエンスシリーズ22,コロナ社)は,音声の知見から,手話や指点字などを横断的に分析し,コミュニケーションの機能の明確化を試みたものである.本書の特徴の一つに,聴覚言語(音声)と視覚言語(手話),触覚言語(指点字や触手話) を横断的に扱い,言語の原点である「対話のことば」の共通基盤特性を示している点がある.福祉情報工学研究会の参加者に向けて,このような視点の書籍の概要とその意義を紹介する.
-
Music Mood Recognition Based on Synchronized Audio and Lyrics 国際会議
Sho Ikeda, Shinji Sako
22nd International Society for Music Information Retrieval Conference International Society for Music Information Retrieval
開催年月日: 2021年11月
記述言語:英語 会議種別:ポスター発表
開催地:Online
The aim of our study is to improve the accuracy of music mood recognition using audio and lyrics. As a method, we make a dataset in which audio and lyrics are synchronized, and utilize both lyrics and audio modality for mood recognition. There are few research that deal with the synchronization of audio and lyrics in music mood recognition. Therefore, we make a dataset by extracting the part of lyrics sung in audio. Using the dataset, We investigate the impact of lyric and audio synchronization on music mood recognition tasks. In our experiments, we extract the word embedding representation from lyrics as a feature, and perform music mood recognition using a deep neural network. To verify the effectiveness of synchronizing audio and lyrics, we conduct the experiment in terms of the number of words in the lyrics and the number of music clips.
-
Attribute-Aware Deep Music Transformation For Polyphonic Music 国際会議
Yuta Matsuoka, Shinji Sako
22nd International Society for Music Information Retrieval Conference International Society for Music Information Retrieval
開催年月日: 2021年11月
記述言語:英語 会議種別:ポスター発表
開催地:Online
ecent machine learning technology have made it possible to automatically create a variety of new music. And many approaches have been proposed to control musical attributes such as pitch and rhythm of the generated music. However, most of them focus only on monophonic music. In this study, we apply the deep music transformation model, which can control the musical attributes of monophonic music, to polyphonic music. We employ Performance Encoding, which can efficiently describe polyphonic music, as the input to the model. To evaluate the proposed method, we performed music transformation using a polyphonic music dataset.
-
三浦 哲平, 酒向 慎司
電子情報通信学会 第114回福祉情報科学研究会 電子情報通信学会
開催年月日: 2021年10月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:オンラインミーティング(Zoom)
-
尾関 日向, 酒向 慎司
情報処理学会 第132回音楽情報科学研究会 情報処理学会
開催年月日: 2021年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:オンライン開催
ポピュラー音楽の制作では,マスタリングの際に曲の音量レベルを過剰に高めようとする傾向がみられる.しかし,このようにして作られたダイナミクスの小さな曲は,近年のリスニングスタイルに適していないことが多いと考えられる.そこで本研究では,ラウドなポピュラー楽曲のスペクトログラムからマスタリング前のラウドネスを推定することで,ダイナミクスの復元を目的とする.
-
複数パート間のズレを含む演奏音に対するマルチパートビートトラッキング
福谷 和貴, 酒向 慎司
情報処理学会 第131回音楽情報科学研究会 情報処理学会
開催年月日: 2021年06月
記述言語:日本語 会議種別:ポスター発表
開催地:オンライン開催
本研究では,楽器ごとに一つのビートラベル列が存在し,複数のビートラベル列を持つ音楽演奏を対象とし,その混合音に対して複数パートのビート位置を同時にトラッキングすることを試み,このようなマルチパートビートトラッキングのための新たな手法を提案した.音源分離手法によって分離した単独音に対するビートトラッキングを組み合わせた方法と比較することで提案手法の有効性を確認した.
-
手話認識への応用を目的としたモバイル MoCap システム ~ OpenPose を利用した 3D ポーズ推定の精度向上 ~
三浦 哲平, 酒向 慎司
電子情報通信学会 第112回福祉情報科学研究会 電子情報通信学会
開催年月日: 2021年06月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:オンラインミーティング(Zoom)
手話は,ろう者がコミュニケーションで用いる主要な言語である.しかし,健聴者で手話を扱えるものは少なく,両者の会話は筆談や手話通訳者を介さなければならない.より対話的で,直接に意思を伝えあうコミュニケーションを日常的におこなうために,携帯して常に使える手話の認識・翻訳システムが必要である.著者らはこれまでに,常に利用できる手話認識・翻訳システムへの応用をめざして,手話者の身体動作情報を取得できるモバイルモーションキャプチャシステムの研究開発をおこなってきた.開発しているシステムでは,学習用データの不足によって実環境において2D / 3D ポーズの推定精度の低下がみられた.本稿では,より精度の高いポーズ推定をおこなうために,高精度な2D ポーズ推定ツールであるOpenPose を利用する方法を提案する.
-
演奏タイミングのズレを含む混合音に対するマルチラベルビートトラッキング
福谷 和貴, 酒向 慎司
情報処理学会 第129回音楽情報科学研究会 情報処理学会
開催年月日: 2020年11月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:オンライン開催
本研究では,ビートラベル列が楽器ごとに存在し,マルチラベルとなっている演奏データに対して,それぞれのビートラベル列を認識するマルチラベルビートトラッキングを検討する.楽器演奏の初心者は一定のリズムで演奏しているつもりでも,タイミングがズレてしまうことがある.特に複数の楽器で合奏している場合,自分の演奏がズレているのか判断するのは困難である.そこで,演奏のタイミングがずれてしまう初心者に対して,演奏タイミングを示すことによって,練習支援を行うことができると考える.手法としては,各楽器に対応したビートラベル列を持つ複数楽器の音が混合された音響信号に対して,マルチラベルでのビートトラッキング技術を用いることで楽器ごとの演奏タイミングを認識する.まず,初心者の演奏を模擬した演奏データを作成する.次に,LSTM を用いたビートトラッキング手法をマルチラベルに拡張する.評価実験の結果,従来手法を組み合わせた方法でギター,ドラムについてそれぞれ F 値が 0.578,0.760 であったのに対し,マルチラベルビートトラッキングを行うことでそれぞれ F 値が 0.603,0.754 となった.
-
全天球カメラを用いた3Dポーズ推定 ~ 手話認識への応用に向けて ~
三浦 哲平, 酒向 慎司
電子情報通信学会 第107回福祉情報科学研究会 電子情報通信学会
開催年月日: 2020年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:オンラインミーティング(Zoom)
手話は,ろう者が日常のコミュニケーションに用いる言語である.しかし,健聴者で手話を扱えるものは少なく,両者の会話は筆談や手話通訳者を介さなければならない.より対話的で,直接に意思を伝えあうコミュニケーションを日常の生活でおこなうためには,携帯して常に使える手話の認識,翻訳システムが必要である.手話は手指の形や動きだけでなく,目・眉・口や周囲の環境などの空間全体を使って意思を表現する.本研究では,手話の表現に用いる空間の情報を取得できること,手話者が日常的に携帯して使えることを考慮して,ウェアラブルな全天球カメラを用いた手話の認識について検討している.本稿では特に,手話者の動作を認識するために,身体に装着した全天球カメラで取得した画像を入力とした3D ポーズ推定を提案する.3D ポーズ推定には畳込みニューラルネットワーク(CNN) を用いる.全天球カメラで取得した手話の画像と,画像に同期した3D ポーズのデータセットを新たに構築し,そのデータセットによるモデルの学習と評価をおこなう.
-
酒向 慎司
電子情報通信学会 第105回福祉情報科学研究会 電子情報通信学会
開催年月日: 2020年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:筑波技術大学 春日キャンパス
福祉情報工学(WIT)研究会は電子情報通信学会のヒューマンコミュニケーショングループの第二種研究会として1999年(平成11年)に設立され、設立20周年を迎えた(現在は第一種研究会として活動中)。これまでに104回の研究会が全国各地で実施され、1,700件以上の研究発表がなされた。障害者や高齢者の情報・通信関連の諸課題に取り組む先端的情報・通信技術や科学をはじめ、認知科学、言語処理、ヒューマンインタフェースなど関連諸研究に従事する研究開発者が一同に会し、発表、討論する場としてWIT 研究会は大きな役割を果たしてきた。これまでの発表実績をもとに、対象領域の広がりや技術の変遷について振り返るとともに、これからのWIT 研究会の在り方について考える。
-
楽曲の再生履歴を利用した自動メロディ生成
松岡 優太, 酒向 慎司
情報処理学会第82回全国大会 情報処理学会
開催年月日: 2020年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:金沢工業大学(現地開催中止のためオンライン発表)
自動作曲において,音楽的知識などの支援をすることはもちろん,ユーザの好みに合った曲の制作を支援することも重要である.しかし,人間の楽曲に対する嗜好は様々であいまいなものであるため,システムによって正確に捉えることは難しい.また,取得した嗜好をどのようにメロディ生成に反映させるかにも難しさがある.よって本研究ではユーザの嗜好を反映した楽曲を生成するための自動作曲システムの方略として,ユーザの持つ楽曲の再生履歴情報を利用することを検討する.履歴情報には,ユーザの楽曲への嗜好が表れると考えられ,実際に楽曲推薦の分野でユーザの嗜好を得るために現在も広く用いられている情報である.作曲には従来手法でよく用いられている遺伝的アルゴリズム(GA)を利用し,履歴情報の取得にはSpotify APIを利用する.
-
ギターパートを対象とするエンドツーエンド音源分離の検討
尾関 日向, 酒向 慎司
情報処理学会第82回全国大会 情報処理学会
開催年月日: 2020年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:金沢工業大学(現地開催中止のためオンライン発表)
音源分離とは,複数の音源が混ざりあった音響信号から特定の要素を抽出する技術である.なかでも音楽音響信号を対象にした音源分離は,楽曲が含む各パートの音源を必要とする自動採譜技術にとって欠かせない要素技術である.従来はボーカルやドラムパートの分離が多く取り組まれてきたが,一般的に楽曲は他にも様々なパートを含んでおり,任意のパートが抽出できればより実用的な自動採譜や既存曲のリミックス,DJプレイなどに広く活用でき.例えばギターはポピュラー音楽で頻繁に使用され演奏者も多く,先述の用途において需要が高い.そこで本研究では最新のボーカル分離技術を適用したギターパート分離を試みる.特に,ステレオ音源の場合の定位情報,データセットの規模,パートが担う演奏上の役割の違いといった要素が分離精度に及ぼす影響を調査し,ギターにより適した分離手法を検討する.
-
発話の感情要素と感情強度を考慮した楽曲推薦手法の検討
池田 将, 酒向 慎司
情報処理学会第82回全国大会 情報処理学会
開催年月日: 2020年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:金沢工業大学(現地開催中止のためオンライン発表)
近年の音楽配信サービスでは,視聴履歴などを利用してユーザの好みに合う楽曲を推薦する仕組みが導入されている.一方で,ユーザの現在の状況や心情などに応じた楽曲推薦を行うための研究もなされている.本研究ではユーザの感情を考慮した楽曲推薦手法につい
て取り組む.この研究の狙いは,楽曲推薦をより柔軟に行うほかにも,ユーザの状況や心情に適した楽曲を推薦することで,心理状態を安定させたりすることなどの音楽療法への応用が考えられる.音楽療法への応用のため,本研究では同質の原理に基づいて楽曲推薦を行う.この原理は音楽療法の基本原理であり,聴取者はその時の感情に同質な印象の音楽を望むというものである.この原理を利用するために,ユーザの感情を推定することが本研究の課題である. -
超高齢化時代が対話システムに求める物理層の基盤的特性
市川 熹,長嶋 祐二,堀内 靖雄,原 大介,酒向慎司
言語・音声理解と対話処理研究会 人工知能学会
開催年月日: 2019年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学 西早稲田キャンパス
Real-time dialogue between people has the basic characteristics of reducing the psychological burden. Elderly people and people with disabilities have the right to achieve a high QOL, but their symptoms are different. On the other hand, it cannot be replaced by another person. Comparing voice, sign language, and music, it was confirmed that the two types of rhythms have a common basic structure. It is important to consider these characteristics in the dialogue system
used by the elderly and disabled. -
ウェアラブルな全方位カメラの画像を入力とした 3D ポーズ推定 ~ 手話の認識と翻訳に向けて ~
三浦哲平,酒向慎司
電子情報通信学会パターン認識・メディア理解研究会 電子情報通信学会
開催年月日: 2019年10月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京大学生産技術研究所
手話は,ろう者が日常のコミュニケーションに用いる言語である.しかし,健聴者で手話を扱える者は少なく,両者間の会話は筆談や手話通訳者を介さなければならない.より対話的で,直接意思を伝え合うコミュニケーションを日常の生活でおこなうためには,携帯して常に使える手話の認識,翻訳システムが必要である.手話は手指の形や動きだけでなく,目・眉・口や周囲の環境などの空間全体を使って意思を表現する.本研究では,手話の表現に用いる空間の情報を取得できること,手話者が日常的に携帯して使えることを考慮して,ウェアラブルな全方位カメラを用いた手話の認識と翻訳について検討している.本稿では特に,手話者の動作を認識するための,ウェアラブルな全方位カメラで取得した画像を入力とした 3D ポーズ推定を提案する.3D ポーズ推定には畳込みニューラルネットワーク (CNN) の VNect を参考にしたモデルを用いる.全方位カメラで取得した手話の画像と,画像に同期した 3D ポーズのデータセットを新たに収集し,そのデータセットによるモデルの学習と評価をおこなう.
-
グエン トゥ ナム, 酒向 慎司, ボグダン クォーレック
電子情報通信学会 第102回福祉情報科学研究会 電子情報通信学会
開催年月日: 2019年08月
記述言語:英語 会議種別:口頭発表(一般)
開催地:帝京大学宇都宮キャンパス
本研究では日本手話の静的な指文字をカラー画像から認識するための枠組みを提案する。指文字の認識には、ResNet(Residual Network)ベースの畳み込みニューラルネットワーク(CNN)と2つのResNetクォータニオンCNNを組み合わせたアンサンブルモデルを用いた。また、実画像の手画像データセットを拡張するために精密な3次元手モデルを用いて指文字画像を合成した。具体的には41種類の指文字に対してそれぞれ微小な変形を施した指形状を用意し、開始ポーズと終了ポーズ間の補間することで複数の指文字画像をレンダリングした。実験結果は、拡張されたデータセットによって単一のRGBカメラの画像に対して高い認識率が達成できることを示した。ResNetクォータニオンCNNの性能は、ResNet CNNよりも優れており、さらにそれらのアンサンブルモデルが優れた性能を示した。
-
酒向 慎司, 渡邉 樹里
情報処理学会 第123回音楽情報科学研究会 情報処理学会
開催年月日: 2019年06月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:京都大学吉田キャンパス
バイオリンは同じ音に対応する運指が複数ある楽器であり,適切な運指習得の手段として,運指が部分的に併記された教本が用いられている.我々はこれまでに統計モデルによるバイオリンの自動運指推定手法を検討し,条件付き確率場を用いた手法を提案してきた.これまでの問題設定では,与えらえた楽譜すべてに運指を推定することであったが,運指の習得を支援するシステムという観点では,市販されている教本のような運指の習得を促すような部分的な運指標示が有効ではないかと考えた.本報告ではこのような着眼点の元で,これまでに提案してきた運指推定手法を拡張し,演奏技術の習得に効果的な運指標示の推定手法について検討することとする.楽譜や運指推定結果をもとに運指標示の有無に関係する特徴について検討し,楽譜から運指推定を行うとともに運指標示を有無を決定する手法を提案する.市販の教本との比較や,バイオリン演奏者による主観評価実験について報告する.
-
モーションキャプチャデータを用いた日本手話の非手指信号の基本要素抽出の試み
酒向 慎司, 安江 謙太
電子情報通信学会 第101回福祉情報科学研究会 電子情報通信学会
開催年月日: 2019年06月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学 早稲田キャンパス
本研究では,手話の非手指信号として表出される様々な対象部位について,モーションキャプチャーデータを用いて共通する基本的な形状や動きの要素を抽出する手法に取り組んだ.有賀らによって提案された手指信号を対象とした手話の自動認識の研究で提案された,HMM(隠れマルコフモデル)による単語モデル間で共通するモデルパラメタを利用して,手指信号の共通部位を自動抽出する手法を参考にし,手話の非手指信号に対してでも同様に共通した非手指信号の抽出が可能であるか検証する.
-
金子 岬暉, 田嶋 克向, 澤野 弘明, 鈴木 裕利, 石井 成郎, 酒向 慎司
電子情報通信学会 第101回福祉情報科学研究会 電子情報通信学会
開催年月日: 2019年06月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学 早稲田キャンパス
手話の学習に利用される手話映像の制作では,手話者による撮影が一般的であるが,肖像権の確保や撮影の準備など,撮影の手間の問題が挙げられる.
そこで本研究では手話映像の制作支援を目的とした,手話のCG映像が生成できる手話CG Wikiを提案する.
手話CG Wikiでは,ユーザはボタン操作により,手話を構成する表情,手の位置,手の方向,および手の形状の4要素をWikiに入力し,CG映像を生成する.
9人のユーザによる手話CG Wikiのユーザビリティ評価実験の結果,「今後このWikiを使いたい」など,肯定的なコメントが寄せられたが,一方でユーザビリティの問題も明らかになった. -
モーションキャプチャデータを用いた日本手話の非手指信号の基本要素抽出
安江謙太, 酒向慎司
情報処理学会第81回全国大会 情報処理学会
開催年月日: 2019年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:福岡大学
コンピュータを用いた手話認識の研究の中で、様々な手話単語の中に現れる手指信号の共通要素に着目した手話単語認識手法が提案されている。この手法では、手指信号に関する特徴量から単語HMMを学習し、全単語の状態集合をクラスタリングすることで共通要素を抽出する。非手指信号も同様に、様々な単語の中で現れる共通要素が存在すると考えられ、この手法を非手指信号に適用することを試みる。非手指信号の視覚的特徴は複雑であるが、手話動作中の顔の部位を詳細に計測したモーションキャプチャデータを用いることで、主要な要素である眉、口形、頭部動作などからの共通要素の抽出が可能であるか、またそのための効果的な特徴表現を検討する。
-
事例データに基づくベースラインとの対応関係と遺伝的アルゴリズムを用いたメロディ生成
山田航大, 酒向慎司
情報処理学会第81回全国大会 情報処理学会
開催年月日: 2019年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:福岡大学
本稿では与えられるベースラインから対応するメロディを自動生成する作曲手法を提案する。コンピュータによる作曲を行う際、ユーザは事前に何らかのモチーフを与える必要がある。モチーフが複雑であるほど、制御性が高まるが、ユーザには高い創作能力が要求される。ベースラインは一般にパターン化されており、ユーザに高い創作能力を要求しない。一方で、ベースラインは旋律を持っており、楽曲において調性を安定させる役割を担うという点でメロディへの制御性を高めることが期待できる。本稿では既存楽曲のメロディを元に、遺伝的アルゴリズムを用いて、与えられたベースラインに対応するメロディを生成する手法を提案する。
-
渡邉樹里, 酒向慎司
情報処理学会第81回全国大会 情報処理学会
開催年月日: 2019年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:福岡大学
本研究では、市販のバイオリン教本のように指番号を部分的に標記できるような自動運指推定の手法について検討する。従来のバイオリン運指推定では、与えられた楽譜情報から全ての音符について運指を推定していた。この手法を用いて得られた運指を楽譜に標示したものを初級者教育の観点から見ると、判読性の低下を招いたり、運指を判断する能力の向上を妨げてしまうという問題点がある。そこで本研究では、運指推定を行うとともに指番号標示の有無を推定することにより、演奏者の運指判断に必要な部分にのみ標示できるようにすることを目指す。これにより、任意の楽譜情報からのバイオリン教本の形に近い楽譜の生成が期待できる。
-
髙木広大, 酒向慎司
情報処理学会第81回全国大会 情報処理学会
開催年月日: 2019年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:福岡大学
協調フィルタリングを用いた楽曲推薦では、推薦対象曲を推薦の標本となるユーザの消費した曲から選択するため、視聴者の少ないマイナー曲は推薦対象曲になる機会が少ない。この問題に対し、マイナー曲を含む幅広く詳細な楽曲を積極的に推薦することを目的とした協調フィルタリングによる楽曲推薦システムの提案を行う。手法として、従来の協調フィルタリングに幅広く詳細な楽曲を消費しているかという音楽的知識の豊富さを標本ユーザ選択の基準に追加する。
-
福谷和貴, 酒向慎司
情報処理学会第81回全国大会 情報処理学会
開催年月日: 2019年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:福岡大学
本研究では、メドレー曲の自動作成に有用と考えられる曲中の高揚度変化を推定することを目的とする。人が感じるメドレー曲の曲のつなぎ目における違和感の主要な要因は、展開の不一致にあると考えられる。このような問題を解消するために、人が曲をきいた時に感じる高揚度の変化を推定し、将来的にはメドレー曲の自動作成手法を検討している。ここでは、曲中の高揚度の変化を"上昇"・"下降"・"維持"の3種類とし、RWC音楽データベースの楽曲に対してラベル付けを行った。さらにそれらを推定するための特徴量として音量RMS、調波音・打楽器音のオンセット数、スペクトル重心などを検討し、複数の機械学習アルゴリズムを用いて実験を行った。
-
長嶋祐二, 酒向慎司, 渡辺桂子, 原大介, 堀内靖雄, 市川熹
電子情報通信学会 第99回福祉情報科学研究会 電子情報通信学会
開催年月日: 2019年02月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:愛媛大学城北地区キャンパス メディアホール(総合情報メディアセンター内)
手話は言語であるにもかかわらず,音声言語と比べて言語学,工学を含む関連諸分野での研究が進んでいない.この原因の1つは,言語学者や工学者など様々な分野の研究者が共通に利用できる汎用的なデータベース(DB)が存在しないためである.高精度な3次元手話動作データと手話映像が存在すれば,非手指動作を含めた手話の認識や動作分析において精密な解析が可能となり,手話理解のための方法論や工学的応用に寄与すると考えられる.本稿では,手話語彙のDBの構築方法について,手話語彙のデータ形式,DBに収録する手話の語彙の選定方法などについて検討し,構築中の日本手話データベースについて報告する.
-
手話の語彙構造・文法解明に供する3D超高精度DBの開発
長嶋 祐二, 酒向 慎司, 渡辺 桂子, 原 大介, 堀内 靖雄, 市川熹
日本音響学会2018年秋季研究発表会 日本音響学会
開催年月日: 2018年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:大分大学
-
多様な研究分野に利用可能な超高精細・高精度手話言語データベースの開発
長嶋 祐二, 原大介, 堀内 靖雄, 酒向 慎司, 渡辺 桂子, 菊澤 律子, 加藤 直人, 市川 熹
言語資源活用ワークショップ2018 国立国語研究所コーパス開発センター
開催年月日: 2018年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:国立国語研究所
-
山口 達也, 村松 大輔, 澤野 弘明, 石井 成郎, 鈴木 裕利, 酒向 慎司
情報処理学会第80回全国大会 情報処理学会
開催年月日: 2018年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学
手話動画の制作では,肖像権の問題や撮影の準備,専門的な編集ツールの使用などの必要性から,敷居が高い課題がある.先行研究ではWeb上のボタン操作のみでCGキャラクタによる手話映像を生成するWiki (手話CG Wiki)を提案している.提案Wikiにおける評価結果では,手話動作を入力するためのボタンが多く,コンピュータの専門家ではない被験者には負荷が大きいことが示された.そこで本稿では手話動作の入力簡略化手法を提案する.まず手話の辞書データにて頻繁に使用される手型を列挙し,基本的な型として提示する.次にマウス操作による手話動作入力手法ついて述べる.最後に各提案方法の評価とその結果について述べる.
-
多々納 俊治, 繩手 雅彦・伊藤 史人, 酒向慎司, 門脇 和央
第16回情報科学技術フォーラム(FIT2017) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2017年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京大学本郷キャンパス
医療・福祉の現場では学習障がい児に対する読み能力や音韻操作の検査として非語(無意味単語)の読み上げや復唱を要求することがある.発話された非語に対する正誤判定を自動化する目的で音声認識を組み込んだ音韻検査ソフトウエアを開発する場合,一般的には現在の音声認識システムは辞書に存在する語を認識するものであるため非語を認識対象とする際にはいくつか課題がある.そこで本研究では非語に対する音声認識の精度を高めるためフリーで利用できる音声認識エンジンJuliusに機械学習を組み込んだ.また機械に学習させる音声特徴量の最適な組み合わせを探索するとともにフォルマント列による母音の絞り込みなどを行い検査に使用される非語に特化した音声認識を考案した.
-
酒向 慎司, 細江 花, ボクダン クォーレック
電子情報通信学会 第90回福祉情報科学研究会 電子情報通信学会
開催年月日: 2017年05月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:リオン株式会社
本報告では、CNNに基づいた画像ベースの指文字認識システムを提案する。この手法の特徴は3次元の手形状モデルを用いて学習用画像を生成することで認識性能を高めることができる。実画像として5000枚のデータセットを作成したほか、精密な3次元手形状モデルによって手形状データを生成し、学習用データセットを拡張することができる。実験で用いた全データセットとCaffeeモデルについても公開する。
-
楽譜情報を考慮したSCRF に基づく音響信号と楽譜のアライメント
野口 綾子, 酒向 慎司, 北村 正
日本音響学会2017年春季研究発表会 日本音響学会
開催年月日: 2017年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:明治大学生田キャンパス
-
SVMによる非語の正誤判定を用いた音韻検査の自動化の検討
多々納 俊治, 縄手 雅彦, 伊藤 史人, 酒向 慎司
電子情報通信学会 HCGシンポジウム2016 電子情報通信学会
開催年月日: 2016年12月
記述言語:英語 会議種別:口頭発表(一般)
開催地:高知市文化プラザかるぽーと
-
Vowel duration dependent hidden Markov model for automatic lyrics recognition 国際会議
Shohei Awata, Shinji Sako, Tadashi Kitamura
th Joint Meeting of the Acoustical Society of America and Acoustical Society of Japan Acouustical SOciety of America, Acoustical Society of Japan
開催年月日: 2016年11月 - 2016年12月
記述言語:英語 会議種別:ポスター発表
開催地:Honolulu, Hawaii
Recently, due to the spread of music distribution service, a large amount of music is available on the Internet. Accordingly, it is generally increasing the demand of music information retrieval (MIR). In the field of MIR research, there are several researches to extract meaningful information from music audio signals. However, automatic lyrics recognition is still a challenging problem because the variation of singing voice is much larger than that of speaking voice and a large database of singing voice is not available. In the relevant study, lyrics recognition was performed by extending the framework of speech recognition using hidden Markov model (HMM). However, accuracy rate was not sufficient. To recognize singing voice precisely, one promising approach is utilizing musical features. This study considers the task of recognizing syllable from a cappella singing voice. To respond to the variation of the length of a phoneme, we construct the duration dependent HMM. A large database of singing voice is essential for training the acoustic model. We use synthetic singing voice by HMM based singing voice synthesis system to solve the lack of the database of a cappella singing voice. We confirmed the effectiveness of our method.
-
Ayako Noguchi, Shinji Sako, Tadashi Kitamura
th Joint Meeting of the Acoustical Society of America and Acoustical Society of Japan Acouustical SOciety of America, Acoustical Society of Japan
開催年月日: 2016年11月 - 2016年12月
記述言語:英語 会議種別:ポスター発表
開催地:Honolulu, Hawaii
Audio-to-score alignment is useful technique because it can be widely applied to many practical applications for musical performance. However, it is still open problem due to the complexity of audio signal especially in the polyphonic music. Additionally, performing in real-time is also important in practical situation. In this study, we propose a new alignment method based on segmental conditional random fields (SCRFs). The attractive feature of this method is utilizing to distinguish percussion sounds from the other instruments. In general, percussion sounds have a role in managing whole music. Moreover, performers can pick up the percussion sounds from the others by hearing whole sound thanks to their unique features of the sound. In the field of score alignment, hidden Markov models (HMMs) or CRFs was used in previous studies including our previous one. In summary, these methods were formulated as a matching problem of the state sequence of mixed notes with the audio feature sequence. In this study, we extend our previous method by combining an additional state which represents percussion sounds. Furthermore, we introduce the balancing factor to control the importance of classifying feature functions. We confirmed the effectiveness of our method by conducting experiments using RWC music database.
-
加藤 里奈, 酒向 慎司, 北村 正
電子情報通信学会 第85回福祉情報科学研究会 電子情報通信学会
開催年月日: 2016年07月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:山梨大学
手話は手や指の動きにより単語の意味を表す手指信号(Manual Signals)と、頭部動作や表情などによって文法や副詞を表す非手指信号(Non-Manual Signals、以下NMS)から構成される。手指信号と比較しNMSの体系化は難しく、NMSの認識に関する研究は少ない。しかし、手話文全体を理解するためには、手指信号だけでなくNMSの認識も重要である。先行研究では手話文中に出現する頭部動作4種類(頷き、顎上げ、顎下げ、首振り)の認識実験を行ったが、話者の手話経験がなかったことから、現実的な評価データとは異なっていた可能性が考えられる。本研究では手話通訳士を対象としたHMMを用いたNMSの認識を試みる。
-
加藤 里奈, 酒向 慎司, 北村 正
電子情報通信学会2016年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2016年03月
記述言語:日本語 会議種別:ポスター発表
開催地:九州大学 伊都キャンパス
近年,聴覚障害者と健聴者との対話支援を目的としたコンピュータによる手話認識の研究が行われている.手話は手や指の動きにより単語の意味を表す手指信号(Finger Signals)と,頭部動作や表情などによって文法や副詞を表す非手指信号(Non Manual Signals,以下 NMS)から構成される.手指信号と比較しNMSの体系化は難しく,NMSの認識に関する研究は少ない.しかし,手話文全体を理解するためには,手指信号だけでなく NMS の認識も重要である.先行研究では手話文中に出現する頭部動作 4種類 (頷き,顎上げ,顎下げ,首振り) の認識実験を行ったが,話者の手話経験がなかったことから,現実的な評価データとは異なっていた可能性が考えられる.本研究では手話通訳士を対象としたHMMを用いたNMSの認識を試みる.
-
空間的定位に基づく前後の状況を考慮した歩行者の経路選択行動モデル
大廻 佳代, 酒向 慎司, 北村 正
電子情報通信学会2016年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2016年03月
記述言語:日本語 会議種別:ポスター発表
開催地:九州大学 伊都キャンパス
経路選択行動とは,交差点に接続される経路の中から,進む経路を選択することである.経路選択行動をモデル化し,一般的に通行されやすい経路を把握することは,歩行者空間を効果的に整備・管理・運営する上で有効である.従来研究では,空間的定位を用いた汎用性の高い歩行者の経路選択行動モデルが提案されている.従来法において,現在の選択は前後の状況に依存せず独立であると仮定されている.しかし,歩行者は選択前後の経路を俯瞰的に把握して経路選択を行うと考えられるため,本研究では,経路選択行動前後の状況を考慮して従来法を拡張し,汎用性を保ちつつ,経路選択行動の予測精度を向上させることを検討する.
-
細江 花, 酒向 慎司, 北村 正
電子情報通信学会2016年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2016年03月
記述言語:日本語 会議種別:ポスター発表
開催地:九州大学 伊都キャンパス
現在,文字媒体だけでなく映像による情報取得が身近になったが,聴覚障がい者など音声による取得が難しい人は字幕から情報を取得することが多い.しかし,字幕付与の作業が追い付いておらず,より効率的に付与する方法が望まれる.これまでに,落語の役柄交替の検出に関して様々な研究がなされており,川嶋らの研究では,演者の頭部動作の変化量から身体動作と発話のタイミングのモデルが提案されている.そこで,本研究では関連研究の提案したモデルをもとに,発話権の移動が最適化されていると考えられる落語を用い,マルチモーダル情報の特徴量の変化から役柄交替のタイミングを検出し,役柄交替検出に有効となり得るか検討する.
-
粟田 渉平, 酒向 慎司, 北村 正
電子情報通信学会2016年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2016年03月
記述言語:日本語 会議種別:ポスター発表
開催地:九州大学 伊都キャンパス
近年,膨大な数の楽曲を提供する楽曲配信サービスが音楽販売の主流となり,音楽情報検索の需要が高まっている.楽曲を特定するための重要な情報として,曲名,歌手,ジャンル,旋律,歌詞が挙げられる.歌詞認識は,楽曲の歌唱パートの歌詞を書き起こすものであり,音楽情報検索の研究分野の一つである.歌詞認識は,第一段階として伴奏のない歌声のみの楽曲を対象にして行われている.歌詞認識は音声認識技術を拡張して行われているが,大規模な歌声データベースの不足により,音響モデルを歌声から学習することは困難である.従来研究では,朗読音声で学習した音響モデルを少量の歌声で適応学習して歌声に対応させた.しかし,歌声は様々な長さの音韻の引き伸ばしにより挿入誤りが増加するため,音韻の引き伸ばしに頑健な音響モデルが必要である.本研究では,音韻の引き伸ばしに対応するために,様々な音長の歌声データを歌声合成によって確保する.さらに,その歌声データを使用して,音長に応じて母音のモデルを分けた音響モデルを構築する.
-
寺島 大樹, 酒向 慎司, 北村 正
電子情報通信学会2016年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2016年03月
記述言語:日本語 会議種別:ポスター発表
開催地:九州大学 伊都キャンパス
近年,キーワードを用いた楽曲検索の他にもさまざまな検索手法が研究されている.そのひとつの手法として印象に基づく検索があり,具体的なタイトルなどがわからない時に有効である.従来の印象に基づく検索に関する研究は,楽曲の印象が時間によって変化することを考慮していないという問題があった.しかし,音楽は時間とともに印象が変化していくと考えられ,また過去の印象の影響を受けると考えられる.そのためこれらを考慮した楽曲検索の手法を検討する.本研究では印象の時間変化を印象値時系列として表す.楽曲を細かく分けたフレームごとに印象を推定することで印象時系列を生成し,DPマッチングを用いることで印象の時間変化と過去の印象による影響を考慮した楽曲検索を行う.
-
地震前兆検出のための環境電磁波の自動ラベリングと複数地点への適用による汎用性の検証
曽我 昌士, 酒向 慎司, 北村 正
電子情報通信学会2016年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2016年03月
記述言語:日本語 会議種別:ポスター発表
開催地:九州大学 伊都キャンパス
地震被害を軽減するには発生時期を事前に把握することも重要である.地震直前の 2週間以内に環境電磁波の異常放射が観測されることが知られているため,これを検出して地震の発生を予測する研究が行われている.環境電磁波は,1日周期で放射レベルが変動する定常状態,地震に起因する異常 (地震前兆),その他の要因による異常 (異常) が重畳した信号が観察される.これらの特徴を隠れマルコフモデル (HMM) や混合ガウスモデル(GMM) でモデル化し,地震前兆を検出する方法が提案されている.しかし,従来法では異常・地震前兆のモデル学習に必要なデータを視察でラベリングするため,大量の観測データを用いるにはラベリングの自動化が望まれる.また,地域によって観測データの量や地震発生数に差があり,地震GMMが十分に学習できない地域もある.これは,学習データが豊富な地域で作成された統計モデルを代用できれば,検出を行えると考えられる.そこで本研究では,統計モデルと地震の発生情報を用いて観測データのラベリングを自動化する.そして,地点毎に地震前兆検出を行い,自動ラベリングの汎用性を検証し,作成された統計モデルを他地点で代用して,特定地点で作成された統計モデルの汎用性を検証する.
-
佐藤 直人, 酒向 慎司, 北村 正
情報処理学会第76回全国大会 情報処理学会
開催年月日: 2016年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:慶應義塾大学 矢上キャンパス
本研究では原曲メロディの自動ジャズアレンジを目的とし、事例を用いてリズムと音高に関するジャズ特有の変化パターンをモデル化することにより、メロディをジャズ風に変形させる手法を提案する。提案手法では、原曲とジャズアレンジされた曲のペアからなる事例データを用意し、セグメンテーションと抽象化により、原曲とアレンジ後の対応付けを行う。入力された原曲メロディが変化し得るリズムと音高のアレンジパターンを事例データから探索し、動的計画法により最適なアレンジ系列を出力する。
-
Kinect v2による手話動作の3要素に基づく実時間手話認識
波多野 美歌, 酒向 慎司, 北村 正
電子情報通信学会 第83回福祉情報科学研究会 電子情報通信学会
開催年月日: 2016年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:筑波技術大学
手話認識の研究は途上であり,小語彙を対象としたものに留まっている.その理由として,音声言語のように表記体系が確立されていないことが挙げられる.さらに,大規模な手話認識用のデータベースが存在しないことも挙げられるが,手話の音韻学的知識の活用によって,手話単語の効率的なモデル化が期待できる.そこで本研究では,手話電子辞書の表記に基づき,手話単語を手形状,手の位置,動きの3要素によって定義し,手話単語認識システムを構成した.手話動作からの特徴量の取得にはKinect v2を用いた.複雑な形状変化を伴うため,3要素の中で特に実時間化が困難である手形状の認識には,輪郭線による認識手法を導入した.また,大量の単語データを必要としない方法で学習を行い,本認識システムの評価実験として,手話通訳士を起用した手話単語の認識実験を行った.
-
統計モデルに基づく環境電磁波の自動ラベリングと地震前兆検出
曽我 昌士, 酒向 慎司, 北村 正
第38回情報理論とその応用シンポジウム 電子情報通信学会 情報理論とその応用サブソサイエティ
開催年月日: 2015年11月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:下電ホテル(岡山県倉敷市児島)
-
野口 綾子, 酒向 慎司, 北村 正
情報処理学会 第109回音楽情報科学研究会 情報処理学会
開催年月日: 2015年11月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:金沢大学サテライトプラザ
本稿では,人間に合わせて計算機に伴奏を出力させることで合奏や演奏に関する支援を行うことを目標として,音響信号と楽譜のオンラインアライメントの精度の向上のためのモデルを提案する.本研究ではポピュラー音楽に焦点をあてており,その全体の演奏を取りまとめる重要な役割として打楽器がある.打楽器音は他の楽器音とは全く異なる響きを持ち,また打楽器音を含む和音のオンセットは他の楽器音のみからなる和音のオンセットよりもアライメントにおける重要度が高くなると予想されるため,他の楽器音とは区別した方が良いのではないかと考えられる.しかし従来法では,打楽器音を他の楽器音と同じ枠組みで扱っており,楽器種の違いを区別することができなかった.そこで本研究では,打楽器音の有無によってオンセットの重みを変えるよう従来モデルのアライメントアルゴリズムの拡張を行った.提案モデルによって楽器種を区別し,最適な重みづけを行った実験の結果,全ての許容誤差においてアライメント精度の向上と提案モデルの有効性を確認した.
-
林 勇佑, 酒向 慎司, 北村 正
情報処理学会 第109回音楽情報科学研究会 情報処理学会
開催年月日: 2015年11月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:金沢大学サテライトプラザ
本研究では,遺伝的アルゴリズムを用いた自動メロディ生成を取り扱っている.この際,生成されるメロディに,リズムや音高の変化などといったユーザの希望を適切に反映するために,ユーザにとって 「このような楽曲を作りたい」 という目標となるメロディとなる目標旋律を直接入力に用いた.これにより,ユーザが直感的に入力することを可能となり,ユーザーの希望をより適切に反映する手法を提案した.目標旋律は,メロディをランダム生成する際の音符列生成確率の最適化と,楽曲から抽出した特徴量の最適化に使用する.主観評価実験を行った結果,本研究で提案した目標旋律を用いて特徴量の最適化を行う手法の有効性が確認できた.しかし,目標旋律の音高変化の特徴が生成されたメロディに十分に反映されていないなどといった問題があり,その解決のために使用する特徴量の新規追加や削除を行い,主観評価実験によってその有効性を確認した.
-
奥村 健太, 酒向 慎司, 北村 正
第17回日本感性工学会大会 感性工学会
開催年月日: 2015年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:文化学園大学 新都心キャンパス
There is a complex phenomenon in the performance expression of Western music. It is difficult even for performers themselves to describe the causality of "score directions" and "instrument operation" clearly and objectively. In this paper, we propose a method that can help to elucidate the factors contributing to performance expression. It is based on a technique to obtain the systematized structure of the statistical models. The model associates the feature quantities of performance expression and the combination of simple musical directions that can be surely retrieved from the score. In this method, degrees to which those directions contribute to the performance expression are also defined. It allows the application of standard multivariate analysis techniques for comparative analysis of the expressions between performances. Evaluation showed the utility of the proposed method in contributing to an objective understanding of the factors that performers emphasized for control of expression in their performances.
-
波多野 美歌, 酒向 慎司, 北村正
電子情報通信学会 第79回福祉情報科学研究会 電子情報通信学会
開催年月日: 2015年06月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:新潟大学駅南キャンパス
手話は音韻学的に主に手の位置,手の動き,手形状の3 要素から構成されていると言われている.本研究ではこの考えに基づき,Kinect v2センサから得られた手座標や深度画像を,3要素における抽象化されたパターンに変換し,手話単語の学習・認識を行う手話認識システムの検討を進めてきた.本稿では3要素の認識のうち,複雑な形状変化を伴うため実時間での認識が困難であった,手形状の認識について検討を行う.本研究では実時間性を重視し,Keoghらによって提案された輪郭線ベースの手法を用いた手形状認識を行う.この手法では1つの領域を囲む輪郭線を認識対象とし,複数の輪郭線から学習された識別器を用いて認識を行う.本稿では,全国手話検定5級の出題単語400語を認識対象とした手話認識システムを想定し,400語に含まれる手形状23種類の認識実験を行う.
-
佐藤直人, 酒向 慎司, 北村 正
情報処理学会 第107回音楽情報科学研究会 情報処理学会
開催年月日: 2015年05月
記述言語:日本語 会議種別:ポスター発表
開催地:電気通信大学
本研究では原曲メロディの自動ジャズアレンジを目的とし,その第一段階としてジャズアレンジの重要な要素であるリズムを変形させる手法を提案する.提案手法では,原曲とジャズアレンジされた曲のペアからなる事例データを用いて,ジャズ特有のリズム変化のパターンをモデル化することにより,原曲のメロディをジャズ特有のリズムに変形させる.生成実験の結果,ジャズらしいリズムの 1 つである Swing が多く見られ,統一性のあるジャズアレンジ結果が得られた.
-
楽譜と表情を関連付けた統計モデルに基づく楽器演奏の比較分析の検討
奥村 健太, 酒向 慎司, 北村 正
情報処理学会 第107回音楽情報科学研究会 情報処理学会
開催年月日: 2015年05月
記述言語:日本語 会議種別:ポスター発表
開催地:電気通信大学
本稿では,楽器演奏に付与される表情について,特定の演奏者と楽曲の組合せにおける比較分析を行う問題を考える.表情付けに寄与する要因を説明可能な枠組みとして,表情の特徴量を近似した生成モデルに楽譜の指示を関連付け,各特徴量の生成過程を楽譜の指示に基づく規則を用いて体系化する手法が提案されている.本稿ではその体系の構築過程に着目し,表情付けに寄与した規則について,その寄与の度合いや関係性を楽譜の指示に基づき分析する手法を提案する.また,複数の楽曲と演奏者による演奏の組合せを用い,その有用性を検討する.
-
林 勇佑, 酒向 慎司, 北村 正
情報処理学会 第107回音楽情報科学研究会 情報処理学会
開催年月日: 2015年05月
記述言語:日本語 会議種別:ポスター発表
開催地:電気通信大学
本研究では,遺伝的アルゴリズムを用いた自動メロディ生成を行った.このとき,ユーザの希望を適切に生成されるメロディに反映するために,ユーザにとって 「このような楽曲を作りたい」 という目標となるメロディ (本研究では 「目標旋律」 と呼ぶ) を入力に用いる手法を提案した.目標旋律は,メロディをランダム生成する際の音符列生成確率の最適化と,楽曲から抽出した特徴量の最適化の 2 つの用途で使用する.本研究で提案した手法で生成されたメロディを用いて主観評価実験を行った結果,目標旋律を用いて特徴量の最適化を行う手法の有効性が確認できた.
-
共起確率と音楽関連語に基づく印象空間を用いた任意の言葉による楽曲検索
前本 明宏, 酒向 慎司, 北村 正
電子情報通信学会2015年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2015年03月
記述言語:日本語 会議種別:ポスター発表
開催地:立命館大学 びわこ・くさつキャンパス
近年,インターネットを介した楽曲配信サービスの普及が進み,利用可能な楽曲数は 4300万曲以上とも言われている.このような膨大な数の楽曲から効率良く楽曲を検索するための研究が盛んに行われており,その一つに言葉の印象に合致した楽曲検索手法が提案されている.この研究は,代表的な言葉を用いて印象空間上に任意の言葉を配置することで楽曲の検索を行うものであった.しかし,この代表的な言葉は一般的な言葉を基に設定されているため,楽曲の印象を表現するのに不適切な言葉が含まれているという問題があった.本稿では,先行研究で使われていた代表的な言葉を楽曲に関連した言葉にすることで楽曲を表現するのに適切な言葉を代表的な言葉として用いる方法を検討する.
-
林 勇佑, 酒向 慎司, 北村 正
電子情報通信学会2015年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2015年03月
記述言語:日本語 会議種別:ポスター発表
開催地:立命館大学 びわこ・くさつキャンパス
近年では,自動作曲の研究が多くされており,様々な作曲支援システムが存在する.それらは,誰でも簡単に作曲を可能にしているが,ユーザが曲のイメージを適切に反映させることは難しい.本研究では,適切にユーザの希望を反映することに重点を置く.それを実現するために,目標旋律を用いた自動メロディ生成の手法を提案する.
-
不破 大樹, 酒向 慎司, 北村 正
電子情報通信学会2015年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2015年03月
記述言語:日本語 会議種別:ポスター発表
開催地:立命館大学 びわこ・くさつキャンパス
近年,障がい者が健常者と変わらない生活を営めるような環境づくりが進められおり,難聴者と健聴者との対話支援を目的とした,コンピュータによる手話認識の研究がなされている.手話は手や指、腕を使う手指動作と,手指動作以外からなる非手指信号の二つで構成される視覚言語である.主に手指動作は単語を表し,非手指信号は文法,副詞,語彙の一部などを表すため,手話文全体を理解するためには手指動作の認識のみではなく,非手指信号の認識も必要である.また,手話認識では動作の特徴表現をどのように取得するかという問題がある.これまでの研究でも特徴量を抽出する方法は複数存在し,例として,被験者の身体に直接センサを取り付け,特徴点の動きを計測する方法,カメラ等で動画像を取得する方法などがある.前者の方法では,被験者に身体的な拘束や煩わしさが生じるため,本研究では非接触型であり身体動作の取得に適した Kinectを用いて特徴抽出を行う.
-
杉 果穂, 酒向 慎司, 北村 正
電子情報通信学会2015年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2015年03月
記述言語:日本語 会議種別:ポスター発表
開催地:立命館大学 びわこ・くさつキャンパス
手話は視覚言語の1つであり,手や指の運動から成る手指動作と,視線や表情などで表される非手指動作の2つを用いて意思伝達が行われる.神田氏らが定めた日本手話音韻表記法によれば,手話は主に手の形状,位置,運動の3要素から成り立つと言われている.このような背景から,自動手話認識においても音韻構造を考慮することが望ましいと考えられ,有賀により手話の言語的特性を考慮した手法が提案された.この研究では,要素間の重要性を重みによって調整することができ、認識対象単語全体に対して適切な重み(位置:運動:局所=0.25:0.60:0.15)が設定されていた.しかし,手話単語ごとに,3要素の重要度は異なると考えられる.そこで本研究では,手話単語ごとに適切な重みを付与することによって認識率が向上するか検討する.
-
平松 晃成, 酒向 慎司, 北村 正
電子情報通信学会2015年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2015年03月
記述言語:日本語 会議種別:ポスター発表
開催地:立命館大学 びわこ・くさつキャンパス
近年では様々な場面で音声認識システムが導入されている.それらは丁寧な発話を入力対象にしているため,実際の会話のような話し言葉を入力としたシステムの実用化は長年研究され続けてきた.しかし会話中で話し手の言語情報だけでは意図や感情を理解したとは言えず,それに付随する話し手の声の抑揚,顔の表情,ジェスチャーなどの情報を活用して理解していると考えられる.このような背景から頑健な音声認識を実現するために, 対話で現れる言語情報に付随して現れる非言語情報を用い,意図を考慮することが重要になると考えられる.先行研究では自由対話中で頭部動作と,音声から得られる非言語情報を組み合わせて意図の識別を行った.しかしタスクが意図に寄与しない頭部動作が多く含まれる内容であった.そのため音響特徴のみの識別率と頭部動作を合わせた時の識別率に変化が見られなかった.そこで本研究では先行研究での識別率と,タスク内容を頭部動作が意図に反映させるように考慮しなおした場合の識別率を比較し,また意図に寄与とすると思われる顔の特徴量も新たに追加し識別を行う.
-
長田 若奈, 酒向 慎司, 北村 正
情報処理学会 第106回音楽情報科学研究会 情報処理学会
開催年月日: 2015年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:甲府富士屋ホテル
我々は条件付き確率場を用いた習熟度に対応したバイオリン運指推定手法を提案してきた.しかし,推定運指は運指の自然さや演奏表現の適切さが不十分である問題があった.本論文では,従来よりも多くの楽譜情報を用いて素性の設計を行う.運指に関連する素性には様々なものが考えられるが,素性重みの学習に L1 正則化を用いることで,運指推定に寄与する重要な素性を判別する.実験では,基本的な素性だけを用いた従来法に対して教本運指との一致率が向上することを確認し,また,推定された運指の自然さに関してバイオリン経験者による主観評価を実施したところ提案法による有効性が確認できた.
-
曽我 昌士, 酒向 慎司, 北村 正
電子情報通信学会2014年ソサイエティ大会 電子情報通信学会
-
自動ジャズアレンジにおける曲の統一性を考慮したリズム転写
佐藤 直人, 酒向 慎司, 北村 正
日本音響学会2014年秋季研究発表会 日本音響学会
開催年月日: 2014年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:北海学園大学
-
印象の変化を考慮した楽曲の印象推定
寺島 大樹, 酒向 慎司, 北村 正
日本音響学会2014年秋季研究発表会 日本音響学会
開催年月日: 2014年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:北海学園大学
-
波多野 美歌, 酒向 慎司, 北村正
電子情報通信学会第73回 福祉情報科学研究会 電子情報通信学会
開催年月日: 2014年06月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:近江町交流プラザ
手話を認識するためには手話動作から特徴抽出を行う必要があるが,視覚言語である手話は複数の構成素から成り立つため,認識対象とする構成素や使用特徴量として様々な組み合わせが考えられる.そのため,使用するセンサや特徴量が個々の研究によって異なり,手話データの汎用化が難しい.このような手話認識における研究背景を踏まえると,センサや使用特徴量に依存しない認識方法を確立することが望ましい.手話は音韻学的に,主に「手の位置」,「手の動き」,「手の形」の3要素から構成されていると言われており,本研究ではこの考えに基づき,センサから得られた特徴量を3要素における抽象化されたパターンに変換し,認識を行う手法を提案する.これにより,各パターンへの変換以降の処理を統一することができ,パターンの組み合わせにより手話単語の認識を行うため,計算コストを大幅に削減し,実時間での認識を可能にする.パターンの抽象化は手話単語辞書である日本手話・日本語辞書システムの表記法に基づいて行う.手話認識の辞書データとして大語彙が収録されているものを採用することで,大語彙認識への発展に期待できる.また,本手法の有効性を検証するために,手話単語の認識実験を行う.手の動きの認識にはHMM,手形状の認識には深度画像によるテンプレートマッチング手の位置の認識には最尤推定法による正規分布を用いる.辞書の表記法に基づいた3要素の認識モデルを用意し,深度センサKinectを用いた,100単語を対象とした実時間での孤立単語認識実験を試みる.
-
認知症高齢者に向けた回想法における親しい人の声の有効性に関する一考察 ~ 長久手市「愛知たいようの杜」における実証実験 ~
浜口 祐子, 三矢 勝司, 加藤 昇平, 酒向 慎司
電子情報通信学会第73回 福祉情報科学研究会 電子情報通信学会
開催年月日: 2014年06月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:近江町交流プラザ
認知症の治療や予防に役立つとされる非薬物療法の一つに「回想法」がある。回想法において認知症高齢者に発話を促す際に、本人にとって親しい人の声で語りかけることが、そうでない人の声の場合よりも記憶を蘇らせることに有効ではないか、という仮説のもとに、特別養護老人ホームで暮らす認知症高齢者3名を対象に、実証実験を行ない、その反応を評価・考察した。その結果、親しい人の声が記憶を蘇らせることに有効であるとまでは言い切れないが、笑顔の表出が増え、発話意欲が増えたため、脳の活性化を促す可能性が推察できた。
-
Laminae: 演奏表情と楽譜情報を関連付けた統計モデルに基づく自動鍵盤楽器演奏表情付けシステム
奥村 健太, 酒向 慎司, 北村 正
情報処理学会 第103回音楽情報科学研究会 情報処理学会
開催年月日: 2014年05月
記述言語:日本語 会議種別:ポスター発表
開催地:日本大学 文理学部
演奏者が持つ特徴の再現性を重視した自動演奏生成システムの提案のため,未知の演奏指示に対して最適な表情を持つ事例を既知の実演奏から探索し,その表情の転写によって仮想演奏を生成する問題を考える.その際に論点となるのは,どのようにして最適な事例を探索するかと,その探索をどれだけ効率化できるかである.本稿では,実演奏における楽譜とその逸脱を関連付けた統計モデルの体系的構造を指標として活用する枠組みについて説明するほか,評価実験から探索対象とする事例群の制御にその体系的構造を活用することが仮想演奏の生成に最適な事例の効率的な探索に有効であることを示す.
-
半教師あり学習を用いたGMMによる異常放射からの地震前兆識別
曽我 昌士, 酒向 慎司, 北村 正
電子情報通信学会2014年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2014年03月
記述言語:日本語 会議種別:ポスター発表
開催地:新潟大学 五十嵐キャンパス
-
寺島 大樹, 酒向 慎司, 北村 正
電子情報通信学会2014年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2014年03月
記述言語:日本語 会議種別:ポスター発表
開催地:新潟大学 五十嵐キャンパス
-
佐藤直人, 酒向 慎司, 北村 正
電子情報通信学会2014年総合大会学生ポスターセッション 電子情報通信学会
開催年月日: 2014年03月
記述言語:日本語 会議種別:ポスター発表
開催地:新潟大学 五十嵐キャンパス
-
宮田 佳奈, 酒向 慎司, 北村 正
情報処理学会第76回全国大会 情報処理学会
開催年月日: 2014年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京電機大学 北千住キャンパス
従来の伴奏生成システムは,ユーザが,曲のジャンルなどを選択肢の中からイメージしながら選択する必要や,複雑なパラメータ調整をする必要があり素人には扱い難いことなどが問題であった.本研究では演奏表情により曲のイメージが変化する点に着目をし,演奏表情を伴う旋律を入力とし,旋律に相応しい伴奏の和音とリズムを決定する手法を提案する.曲は音楽的同時性と連続性が自然となるよう作成されることが望ましい.和音は,確立されている音楽理論を基に決定をする.リズムの決定においては,理論がほとんど確立されていない.そこで,言語モデルにより楽曲からリズムを学習し,リズム決定を行う手法を提案する.最後に評価実験から本手法の有効性を検証する.
-
印象空間を用いた任意の言葉による楽曲検索:言葉の写像方法の改善と評価方法の再構築
頭川 愛, 酒向 慎司, 北村 正
情報処理学会第76回全国大会 情報処理学会
開催年月日: 2014年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京電機大学北千住キャンパス
近年感性語を用いた楽曲検索に関する研究が多くなされているが、楽曲の印象は複雑に表現されることもあるため、あらゆる言葉に対応した楽曲検索が望ましいと考えられる。従って、印象を表す空間に楽曲と言葉を写像する手法を提案した。この手法の実現にあたり14の感性語対を用いて楽曲の印象評価を行った聴取実験の結果から印象空間を生成した。共起確率を用いて感性語と関係が深い言葉を調べ代表語とし、それらの言葉を利用して任意の言葉の座標を決定する。しかし、従来は適切に写像できなかった言葉も存在し、また検索性能の評価方法にも問題があった。本報告では、任意の言葉を写像するための代表語の選択方法や評価方法について更に詳細な検討を行う。
-
Pressivo: 旋律の演奏表情を考慮した自動伴奏生成システム
宮田 佳奈, 酒向 慎司, 北村 正
インタラクション2014 情報処理学会 ヒューマンコンピュータインタラクション研究会,グループウェアとネットワークサービス研究会,ユビキタスコンピューティングシステム研究会,エンタテインメントコンピューティング研究会
開催年月日: 2014年02月 - 2014年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:日本科学未来館 (Miraikan)
本稿では,ユーザが演奏表情を伴う旋律をコンピュータに入力すると,相応しい伴奏を自動生成し曲として出力するシステムを提案する.従来の自動伴奏生成システムは,ユーザが,曲のジャンルや雰囲気などを選択肢の中からイメージしながら選択する必要や,複雑なパラメータ調整の必要があり素人には扱い難いことなどが問題であった.本研究では,楽譜上同一の旋律であっても演奏方法により雰囲気が変化する点に着目し,演奏表情を伴った旋律に対し最も相応しい伴奏の生成を目指す.曲は音楽的同時性と音楽的連続性が自然となるよう作成されることが望ましい.和音は,確立されている音楽理論を基に決定をする.しかしリズムの決定においては,理論がほとんど確立されていない.そこで,言語モデルにより楽曲からリズムのパターンの同時性と連続性を学習し,リズム決定を行うことを検討する.
-
隠れマルコフモデルによる習熟度に対応したバイオリン運指推定
長田 若奈, 酒向 慎司, 北村 正
情報処理学会 第102回音楽情報科学研究会 情報処理学会
開催年月日: 2014年02月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:筑波大学 東京キャンパス
バイオリンの運指は演奏者の習熟度によって異なる事が多い.本研究では,そのような運指の違いは,運指の容易さと演奏表現の適切さの優先度が習熟度により変化した結果であると考える.運指推定は,隠れマルコフモデルの内部状態を手の形や位置に見立て,出力シンボルを音符として運指をモデル化する.演奏表現は音符長の影響を受けると考え,遷移確率,出力確率に音符長を考慮する事で優先度に対応した運指を推定する.実験により習熟度に対応した運指が推定されていることを確認した.
-
凌 曦, 酒向慎司, 北村正
2013年度 HCGシンポジウム 電子情報通信学会
開催年月日: 2013年12月
記述言語:日本語 会議種別:ポスター発表
開催地:松山市総合コミュニティセンター
近年,音声認識・音声合成技術の進歩により,音声対話システムも人々の日常生活に関わっている.情報案内,カーナビのような,明確な目的を持つ音声対話システムは,幅広い領域で実用されている.一方,明確な目的を持たない雑談のような会話は,対話制御の難しさなどがあり難しい課題であるが,日常生活の様々なシーンで活用が期待できる.本研究は対話履歴を用い,ユーザの興味を探りつつ,より興味深い情報を提示する,様々な話題について雑談を行う音声対話システムを目指している.
-
Kinectを用いた手話認識
小山 智己, 齊藤 剛史, 酒向 慎司, 北村 正
計測自動制御学会第32回九州支部学術講演会 計測自動制御学会九州支部
開催年月日: 2013年11月 - 2013年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:長崎大学工学部
-
EEG signals in hearing emotional voice by PCA 国際会議
Arao Funase, Shinji Sako, Tadashi Kitamura, Ichi Takumi
IEEE Neural Engineering Conference (Neuro 2013) IEEE Neural Engineering Conference (Neuro 2013)
開催年月日: 2013年11月
記述言語:英語 会議種別:ポスター発表
開催地:San Diego California
-
習熟度に応じたバイオリン運指推定のための確率モデルとパラメータ学習
長田 若奈, 酒向 慎司, 北村 正
第12回情報科学技術フォーラム(FIT2013) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
-
頭川 愛, 酒向 慎司, 北村 正
第12回情報科学技術フォーラム(FIT2013) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
-
宮田 佳奈, 酒向 慎司, 北村 正
情報処理学会 第100回音楽情報科学研究会 情報処理学会
開催年月日: 2013年08月 - 2013年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京大学本郷キャンパス
旋律を入力とし,伴奏の自動生成を行う先行研究のほとんどは,入力が打ち込みや楽譜であり,曲のイメージやユーザーの意図までは考慮ができなかった.本研究では旋律を演奏による入力とすることで,演奏表情を考慮し最も相応しい伴奏の和音とリズムを決定する手法を提案する.曲は音楽的連続性と音楽的同時性が自然となるよう作成されることが望ましい.伴奏の和音は確立されている音楽理論を基に決定が可能である.しかし,伴奏のリズムの決定においては理論がほとんど確立されていない.そこで本研究では,可変長クラス N-gram モデルと N-gram 確率に重み付けをする調和関数により,楽曲からリズムの連続性と同時性を学習し,リズム決定を行う手法を提案する.評価実験から可変長クラス N-gram モデルの有効性が確認された.和音については実演奏の構成音と 63.1% の一致が確認された.
-
Ryry: 弾き飛ばし・弾き直しを含む演奏に追従する音響信号による自動伴奏システム
酒向 慎司, 山本 龍一, 北村 正
電子情報通信学会第68回 福祉情報科学研究会 電子情報通信学会
開催年月日: 2013年06月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:新潟大学駅南キャンパス
本研究では、人間の演奏に自動的に追従する音響入力版の自動伴奏システムを提案する。人間の演奏にはある楽譜に沿った演奏であっても、テンポの揺らぎ、演奏誤りなどの不確実性が含まれるが、人はそのような演奏を聴き、相手に合わせて演奏を行うことができる。本研究では、予期しない演奏に対しても人間のようにうまく追従する働きを機械で実現することを目的としている。これを実現するためには、計算機によって奏者が楽譜上のどの位置を演奏しているのかを瞬時に認識するとともに、次の演奏位置を予測する楽譜追跡の技術が重要となる。本研究では、テンポの揺らぎ、演奏誤りなどを含む人の演奏を確率モデルとして記述し、一定の遅延の元で演奏位置を精度よく追跡し、予測テンポに基づいて演奏位置を推定する遅延決定アルゴリズムを提案する。これにより演奏の不確実性に頑健なリアルタイム楽譜追跡を実現し、多声楽器に対応可能な音響入力自動伴奏システムを実装した。
-
芸術的逸脱の生成モデルにおける決定木のバックオフに基づく鍵盤楽器演奏の自動表情付け
奥村 健太, 酒向 慎司, 北村 正
情報処理学会 第99回音楽情報科学研究会 情報処理学会
開催年月日: 2013年05月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:お茶の水女子大学
自動演奏表情付けの問題を考え,それを解くための一手法を提案する.提案手法では,既存のあらゆる演奏事例に対して演奏者自身の楽曲解釈を代替する情報を関連付けた生成モデルを使用することで,そのような演奏事例が生成されるためのルールの組み合わせを体系化する.また,生成モデルの持つ決定木の構造に従って適切な事例の選択するための指標を導入することで,既存の演奏事例に含まれる演奏者の特徴を忠実に反映した演奏表情を未知の系列に転写する.各種評価の結果から,提案手法により生成された未知の演奏は,既存の演奏に見られた人間性や音楽性を示す特徴を備えたものとなることが示された.
-
中村 祐二朗, 酒向 慎司, 北村 正
電子情報通信学会2013年総合大会 電子情報通信学会
-
主成分分析を用いた感情音声聴取時の脳波活動
飯島 佑紀酒向 慎司, 船瀬 新王, 北村 正
電子情報通信学会2013年総合大会 電子情報通信学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:ポスター発表
開催地:岐阜大学
-
メロディの調和を考慮した合唱の歌声パートに対する多重音高推定
河合 彬弘, 酒向 慎司, 北村 正
情報処理学会 第98回音楽情報科学研究会 情報処理学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:はこだて未来大学
本研究では,合唱を構成する複数の歌声パートを対象とした多重音高推定を扱う.合唱には歌声パートが調和を保ちながら進行していく特有の性質があり,その性質を利用した手法を提案する.本研究では,調和の要素として歌声パート間の音高の調和と,拍位置における音高変化の有無の同期の 2 つを考える.提案法は,フレームごとのピッチ候補からパート別音高軌跡候補を構成するステップと,候補から考えられる組み合わせの中から歌声パート間の調和を考慮した最良なものを選出するステップに分けられる.実験結果から,比較的推定の困難な部分では,パート間の調和を考慮することで若干の推定精度改善が見られた.
-
過去の音声資料を用いた音声合成システムの構築
酒向 慎司, 矢野 久美子, 江本 善洋, 北村 正
日本音響学会2013年春季研究発表会 日本音響学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東京工科大学 八王子キャンパス
-
演奏位置とテンポの統合確率モデルに基づく楽譜追跡と音響入力自動伴奏への応用
山本 龍一, 酒向 慎司, 北村 正
日本音響学会2013年春季研究発表会 日本音響学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京工科大学 八王子キャンパス
-
歌声パート間における音高の調和と音高変化の類似性を利用した合唱に対する多重音高推定
河合 彬弘, 酒向 慎司, 北村 正
日本音響学会2013年春季研究発表会 日本音響学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京工科大学 八王子キャンパス
-
小山 智己, 酒向 慎司, 北村 正
情報処理学会第75回全国大会 情報処理学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 川内キャンパス
手話の手指動作には3次元の位置や形状の情報が含まれる。従来の手話認識では、それらの情報の取得方法として複数台のカメラを使用する方法などが行われてきたが、これらの方法は装置の複雑化等の問題があった。そのため本研究では、物体の3次元情報を容易に測定することのできるTOFカメラを使用し、手指動作の必要な情報の取得を試みる。また、手話動作は手話音韻学的に手の位置、動き、形の3要素から成り立っているとされている。そのため、これらの情報を手話動作から抽出し、マルチストリームHMMを用いて統合し認識を行う方法を提案する。実験に使用する手話データは選定された手話単語337単語が含まれる500文章を対象とする。
-
高齢者の語りかけ情報を利用した心の見守りサービスのRSNPによる実装
杉本 健, 中村 剛士, 加納 政芳, 山田 晃嗣, 酒向 慎司
情報処理学会第75回全国大会 情報処理学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 川内キャンパス
近年独居高齢者の増加が大きな社会問題となっており,それに応じて様々な見守りサービスが展開されている.こうした従来のサービスでは高齢者の生活状態の通知ができる反面,心理面の変化はあまり考慮されてこなかった.そこで本稿では,心理面に着目した見守りシステムについての提案を行う.本システムでは,赤ちゃん型ロボット"Babyloid"を通して取得した語りかけ情報から快の形容詞を抽出し,その出現頻度をRSNP通信を用いて遠隔>地の家族に通知する.こうした形で独居高齢者の情報を家族に通知することで,家族がシステムに頼り切らずに,こまめに連絡を取るなどの効果が期待でき,高齢者がより強い安心感や家族とのつながりを得ることができると期待される.
-
パートの重要度を考慮したオーケストラ譜の縮約によるアンサンブル譜の自動編曲
伊藤 悟, 酒向 慎司, 北村 正
情報処理学会第75回全国大会 情報処理学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 川内キャンパス
音楽の演奏形態の一つであるアンサンブルは、自由な楽器構成が可能な反面、希望の編成の楽譜が入手しにくいという問題がある。そこで、この問題を解決する手法の一つとして、オーケストラ譜の縮約を自動化する方法を検討する。この方法では、元々存在するフレーズを部分的にそのまま使用するため、 音楽的に問題が少ないアンサンブル譜の生成が期待できる。このとき重要となるのが、原曲の雰囲気を損なわないようなパートの選択である。そこで本論文では、再現度の高いアンサンブル譜の生成を目標として、音響心理学と和声の観点からパートの重要度を定義し、オーケストラ譜から重要なパートを抽出する方法を提案する。
-
リズム木構造を用いたクラスNグラムによる旋律の演奏表情を考慮した伴奏のリズム生成
宮田 佳奈, 酒向 慎司, 北村 正
情報処理学会第75回全国大会 情報処理学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 川内キャンパス
本研究では、重要な楽曲構成要素の一つである伴奏のリズム生成について検討する。実演奏データから伴奏のリズムを抽出し、楽曲ごとにリズムのモデルを生成することで、まとまりのあるリズム生成を行う。抽出したリズムを、前後の流れを考慮するためNグラムによりモデル化し、その際、学習の希薄性の問題を解決するため、クラスNグラムを用いる。クラス分類にリズム木構造を用いることで、類似したリズムを同じクラスへ分類する。また、演奏表情を持った旋律を入力とすることで、演奏表情を考慮した上で最も相応しいリズム列を決定し、より曲の雰囲気に合ったリズムを生成する。また、聴取実験により、本手法の有効性を検証する。
-
長田 若奈, 酒向 慎司, 北村 正
情報処理学会第75回全国大会 情報処理学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 川内キャンパス
バイオリンは1つの音高に複数の弦の押さえ方が存在するため,楽曲を演奏する際には適切な運指を決定する必要がある.しかし,楽譜には運指は書かれていないことが多く,特に初級者にとって運指決定は難しいとされている.そのため,本研究では楽譜から最適運指を推定する方法を提案する.提案法では,音符列に対応する様々な押弦の状態列を考え,押弦とその遷移の難易度に基づいてバイオリンの最適運指を決定する.また,ビブラートの有無や弦の選択が音符長に依存すると考え,これらを考慮した最適運指を動的計画法により推定する.提案法で推定された運指と教本の運指を比較することにより,提案法の有効性を確認した.
-
岩月 靖典, 酒向 慎司, 北村 正
情報処理学会第75回全国大会 情報処理学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 川内キャンパス
本研究では個人性を考慮した楽曲の印象推定を行う.楽曲の印象が個人により異なるため,個人性の考慮は高精度な印象推定に必要不可欠な要素である.しかしながら,印象は個人毎に完全に独立ではなく,類似した嗜好を持つ人々は印象も類似していることが報告されている.この類似性を捉えるために,プロフィール情報を用いたグルーピングを行い,個人性を考慮する.一方,印象の傾向が類似していても,印象の評価の幅は個人により大きく異なるという問題がある.そこで,間隔尺度の印象データを順序尺度として捉えることで印象の正規化を試みる.実験では印象の個人性と順序関係が考慮されたモデルと従来の考慮されていないモデルの精度を比較する.
-
任意の言葉による楽曲感性検索のための感性語による印象空間生成
頭川 愛, 酒向 慎司, 北村 正
情報処理学会第75回全国大会 情報処理学会
開催年月日: 2013年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 川内キャンパス
現在感性による楽曲検索に関する研究が多くなされているが,与えられた感性語から選択する方法など入力方法が限定されているものが多く,様々な表現には対応していない.本研究は,任意の言葉による楽曲感性検索を実現する手法として,任意の言葉と楽曲を同じ印象空間に配置することで,それらの類似関係を定める方法を提案する.そこで,あらゆる言葉を配置できるような印象空間が必要となるが,既存の印象空間では言語間のずれが生じる可能性があるため,実データである14対の感性語対による聴取実験の結果を用いて印象空間を生成する.そして,感性語との類似関係を明らかにすることによって,任意の言葉を印象空間に写像する.
-
山本 龍一, 酒向 慎司, 北村 正
インタラクション2013 情報処理学会 ヒューマンコンピュータインタラクション研究会,グループウェアとネットワークサービス研究会,ユビキタスコンピューティングシステム研究会,エンタテインメントコンピューティング研究会
開催年月日: 2013年02月 - 2013年03月
記述言語:日本語 会議種別:ポスター発表
開催地:日本科学未来館 (Miraikan)
協奏とは,複数人が同時に演奏を行う演奏形態である.人の演奏にはテンポの揺らぎ,演奏誤りなどの不確実性が含まれるが,人はそのような演奏を聴き,相手に合わせて演奏を行うことができる.本稿では,そのような人の働きを機械で実現する試みとして,楽器演奏者の演奏に自動的に追従して伴奏を再生させる自動伴奏システムを提案する.協奏において人の演奏に合わせようとする働きは,計算機によって奏者が楽譜上のどの位置を演奏しているのかを瞬時に認識し,次の演奏位置を予測する問題と捉えられ,楽譜追跡と呼ばれる.本研究では,テンポの揺らぎ,演奏誤りなどを含む人の演奏を確率モデルとして記述することで,演奏の不確実性に頑健な楽譜追跡を実現し,多声楽器に対応可能な音響入力自動伴奏システムを構築した.
-
利用者のプロフィールを用いた個人性を考慮した楽曲の印象推定
岩月 靖典, 酒向 慎司, 北村 正
2012年度 HCGシンポジウム 電子情報通信学会
開催年月日: 2012年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:くまもと森都心(しんとしん)プラザ
-
隠れマルコフモデルを用いたバイオリンの運指推定
長田 若奈, 酒向 慎司, 北村 正
平成24年度電気関係学会東海支部連合大会 電気関係学会東海支部
開催年月日: 2012年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:豊橋技術科学大学
-
スペクトル包絡を考慮した環境電磁波の季節別HMMによる異常検出
中村 祐二朗, 水野 隼輔, 酒向 慎司, 北村 正
平成24年度電気関係学会東海支部連合大会 電気関係学会東海支部
開催年月日: 2012年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:豊橋技術科学大学
-
感情音声の聴取時における脳波活動の時間的変化の解析
飯島 佑紀, 酒向 慎司, 船瀬 新王, 北村 正
平成24年度電気関係学会東海支部連合大会 電気関係学会東海支部
開催年月日: 2012年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:豊橋技術科学大学
-
多声MIDI 演奏の楽譜追跡における装飾音のモデル化と自動伴奏への応用
中村 栄太, 山本 龍一, 酒向 慎司, 齋藤 康之, 嵯峨山 茂樹
日本音響学会2012年秋季研究発表会 日本音響学会
開催年月日: 2012年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:信州大学長野(工学)キャンパス
-
パート間のメロディの調和を考慮した合唱に対する音高推定
河合 彬弘, 酒向 慎司, 北村 正
日本音響学会2012年秋季研究発表会 日本音響学会
開催年月日: 2012年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:信州大学長野(工学)キャンパス
-
セミマルコフ条件付き確率場を用いた音楽音響信号と楽譜のアライメント
山本 龍一, 酒向 慎司, 北村 正
日本音響学会2012年秋季研究発表会 日本音響学会
開催年月日: 2012年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:信州大学長野(工学)キャンパス
-
ロボット見守りサービスに先駆けた利用者の心理状態推定
杉本 健, 加納 政芳, 中村 剛士, 酒向 慎司
第30回ロボット学会学術講演会 日本ロボット学会
開催年月日: 2012年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:札幌コンベンションセンター
-
単語共起頻度データベースを使用した任意の言葉の印象に合った楽曲検索
頭川 愛, 酒向 慎司, 北村 正
第11回情報科学技術フォーラム(FIT2012) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2012年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:法政大学 小金井キャンパス
近年の楽曲検索において,キーワードを用いた検索以外にも多様な手法が提案されている.その一例として感性検索が挙げられ,ユーザが求める楽曲の印象を入力とすることから,具体的な曲名などがわからないときにも有効であり,未知の音楽を発見できる効能も期待できる.このような感性に基づいた楽曲検索の研究はこれまでにもいくつかなされているが,一定の印象語から選択する方法など,検索システムの入力方法が限定的なものが多かった.しかし,音楽を言葉で言い表す際には様々な語が用いられ,複数の語や文章のような形で表現されることも多いことから,音楽を形容するための語は種類や数に制約のない形が望ましいと考えた.そこで,限られた印象語と楽曲の対応付けを明らかにしたHevnerの研究を利用し,あらゆる言葉をHevnerの印象語群で表すことで任意の言葉の入力を可能とした楽曲検索を提案する.各軸を印象語群と対応させた空間を設定し,印象が明らかである言葉を代表語としていくつか配置することで,それらを基準として入力語の位置を決定する.その点に最も近い楽曲が入力語にふさわしいものであるといえる.先行研究では,ある言葉と類似している語として共起確率の上位100語を使用したが,代表語が少ないため入力語が適切に印象空間に写像されないという問題が生じた.これは,より下位にある言葉も類似語として用いることで解決されると思われる.本研究では,類似語を増やすことで検索できる語数を多くし,かつ共起確率をどれほどの語数用いると最適であるかを実験によって調べた.
-
隠れセミマルコフモデルと線形動的システムを組み合わせた音楽音響信号と楽譜の実時間アライメント手法
山本 龍一, 酒向 慎司, 北村 正
情報処理学会 第96回音楽情報科学研究会 情報処理学会
開催年月日: 2012年08月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:近江町交流プラザ
本稿では,楽譜に基づく音楽音響信号から,演奏位置とテンポを推定する問題について論じる.隠れセミマルコフモデル (HSMM) に基づく演奏位置推定と,線形動的システム (LDS) に基づくテンポ推定を組み合わせることで,入力信号の未来の情報が使えない制約の元で効果を発揮する実時間拍予測アルゴリズムを提案する.具体的には,遅延を許容して信頼性のある演奏位置を推定し,テンポを用いて現在位置を予測する.クラシック音楽およびジャズ音楽データベースを用いてオンセット検出に関する評価実験を行った結果,提案する実時間拍予測アルゴリズムを用いることで,許容誤差 300ms において約 15% 精度が向上することが確認された.
-
多声MIDI演奏の楽譜追跡における演奏の即興性のモデル化と自動伴奏への応用
中村 栄太, 山本 龍一, 酒向 慎司, 齋藤 康之, 嵯峨山 茂樹
情報処理学会 第96回音楽情報科学研究会 情報処理学会
開催年月日: 2012年08月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:近江町交流プラザ
人間の演奏に対して自動的に伴奏を同期する,自動伴奏において楽譜追跡は重要な問題である.本稿では,装飾音や即興的な楽句を含む楽曲・演奏に対して追従可能な楽譜追跡について述べる.装飾音のモデル化を演奏生成を記述する隠れマルコフモデルを用いて行うとともに,さらに一般の即興的楽句の構造を記述する方法について議論する.このモデルを用いた楽譜追跡アルゴリズムを示し,その有効性を実際の演奏を用いて評価する.また,このアルゴリズムを用いた自動伴奏システムを構築し,その動作を確認する.
-
関係調を考慮したHMMに基づく音響信号の自動和音認識と類似曲分類
杉山 雄一, 酒向 慎司, 北村 正
情報処理学会第74回全国大会 情報処理学会
開催年月日: 2012年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:名古屋工業大学
音楽コンテンツの多様化・大規模化に伴い,柔軟な楽曲検索の枠組みが求められている.既存の楽曲検索として,楽曲に付与された情報を基にした検索手法が一般的であるが,加えて楽曲の持つ音響的な特徴を解析し利用することで,より柔軟な検索が可能になると考える.本稿では,基礎的研究として,音響的な特徴を用いて楽曲間の類似性を評価する手法を提案する.楽曲の大域的な特徴を表現する要素として和音進行に着目し,確率モデルに基づき音響信号から和音進行を推定し,楽曲間の和音進行を比較することで楽曲間の類似性を推定する.その際,和音進行に関する音楽的知見として,和音間の関係性を表す関係調の理論を考慮することで,人間の聴覚機能により特化した形での推定を試みる.また主観評価実験により,本手法の有用性を示す.
-
趙 洪岩, 酒向 慎司, 北村 正
情報処理学会第74回全国大会 情報処理学会
開催年月日: 2012年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:名古屋工業大学
個人情報流出や不正アクセスが相次ぎ、情報保護への関心が高まっている。その中で、利用者に低負担な個人認証の手法として話者認識が注目されている。これまでに、ケプストラムをGMMによりモデル化する手法が提案されている。この手法では全音素を統合して学習、認識を行うが、個人認証を行うには不十分な精度であった。そこで、音素の情報によりモデルを分割し、GMMを学習することで精度の向上を図る。しかしながら、全音素を分割した学習では、モデル数が増加し、学習データが不足するため、認識精度が低下する恐れがある。本研究では、決定木により音素をクラスタリングし、類似した音素を連結学習することにより、この問題を解決する。
-
宮田 佳奈, 酒向 慎司, 北村 正
情報処理学会第74回全国大会 情報処理学会
開催年月日: 2012年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:名古屋工業大学
作曲を支援する手法を提案する。作曲を行う際に、旋律だけを思いつくことはできても、その旋律に伴奏をつけることは一般的には難しく、面倒な作業である。そこで、旋律に対して伴奏を自動で生成することで、ユーザーの作曲活動の負荷を軽減する。演奏表情を持ったシンボリックな旋律を入力し、入力に対して自動で伴奏生成を行う。また、入力された演奏情報の音量や音の長さなどを、生成される伴奏の和音やリズムに反映させる。これにより、ユーザーの意思をより反映した曲の生成を行う。また、評価実験を通じて提案手法の妥当性を問う。
-
水野 隼輔, 酒向 慎司, 北村 正
情報処理学会第74回全国大会 情報処理学会
開催年月日: 2012年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:名古屋工業大学
地震発生時に地殻から異常放射される電磁波から地震予知を行う研究が進められている。我々の研究グループでは、全国約40ヶ所でELF帯(233Hz)の環境電磁波を観測している。環境電磁波は日変動を有し、さらに季節や天候による影響により複雑な変動を伴う。そこで、隠れマルコフモデル(HMM)を用いて定常的な日変動パターンをモデル化し、その尤度変化から異常を検出する方法を提案する。提案法では、過去に発生した地震の2週間前に尤度の低下を確認することができる。しかし、地震前兆と無関係と思われる日でも季節的な特徴から発生する雑音により、尤度の低下がみられる。そこで季節別のモデルを作成することにより、異常検出率の精度向上を目指す。
-
任意の言葉の印象に合った楽曲検索に関する研究
頭川 愛, 酒向 慎司, 北村 正
第7回日本感性工学会大会 日本感性工学会
開催年月日: 2012年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:サンポートホール高松
-
森口 拓哉, 酒向 慎司, 北村 正
電子情報通信学会第61回 福祉情報科学研究会 電子情報通信学会
-
周波数解析を用いた感情音声聴取時の脳波活動に関する研究
小野 嘉裕, 酒向 慎司, 北村 正
平成23年度電気関係学会東海支部連合大会 電気関係学会東海支部
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:三重大学
-
HMMに基づく環境電磁波の異常検出の改善
水野 隼輔, 酒向 慎司, 北村 正
平成23年度電気関係学会東海支部連合大会 電気関係学会東海支部
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:三重大学
-
HMM音声合成のための話者モデルにおける声質再現性の評価
後藤 哲平, 酒向 慎司, 趙 國, 山下 洋一
日本音響学会2011年秋季研究発表会 日本音響学会
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:島根大学
-
森口 拓哉, 酒向 慎司, 北村 正
第10回情報科学技術フォーラム(FIT2011) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:函館大学
近年,障害者が健常者と変わらない生活を営めるような環境づくりが進められている.その一つとして,聴覚障害者と健聴者の対話支援を目的としたコンピュータによる手話認識の研究がある.手話認識には手指動作の取得が必要であり,従来研究では手話動作の動画像を用いる方法やセンサを装着する方法などが用いられてきた.センサを用いた手法では,装置の特殊性や装着する煩わしさが問題となり,身体的に拘束のないカメラを用いたものが好ましいといえる.しかし,手話の動きは 3 次元的であることから,単眼では限界であるといえる.複数台のカメラで 3 次元計測を行う方法も提案されているが,装置の煩雑化もまた問題となる.奥行き情報を容易に計測でき,かつ身体的な拘束のない方法として,TOF(Time-of-Flight)カメラを用いることが考えられる.TOF カメラによる手話認識の先行研究では,実験に使用された手話単語は数種類しかなく,小規模な認識実験であったといえる.よって本研究では,先行研究より実験に使用する語彙を増やし,TOFカメラを用いて手話のデータベースを作成する.そしてこのデータベースを使用し,これまでに提案してきたHMM(隠れマルコフモデル)に基づいた手話認識の枠組みを用いて,連続手話認識を試み,その効果の検討を行った.
-
岩月 靖典, 酒向 慎司, 北村 正
第10回情報科学技術フォーラム(FIT2011) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:函館大学
近年,インターネットを介した楽曲の配信が発達し,音楽販売の主流となりつつある.多くの楽曲配信サービスでは,古い曲から最近の曲まで膨大な数の曲が保管されているため,利用者が目的の曲を瞬時に検索できるよう,楽曲を分類する技術が期待されている.楽曲の分類,検索のアプローチとしては,アーティスト名やアルバム名といった楽曲情報を利用したキーワード検索が一般的である.その他にもメロディやリズムを入力としたコンテンツベースの方法も研究され,実用化されているものもある.しかし,これらの検索方法を利用するには,ユーザが所望の楽曲の断片的な情報をあらかじめ得ている必要があり,検索範囲が限定的になる.一方で,より直感的な検索の手法として,人が楽曲を聴いたときに感じる印象を手がかりとした検索手法も有望であり,研究が進められている.先行研究 [1] では,感性に個人差があることを考慮し,個人に対してのみ印象推定を行い,有効性が確認されている.しかしながら,個人別に学習し,楽曲の印象を得る方法では,未知の人物に対応することが困難である.そこで,被験者の付加情報 (プロフィール) に着目し,類似した印象傾向を持つグループに分類することで,未知の利用者にも適応可能な印象推定モデルを提案する.本研究では,感性の個人性と共通性の双方を考慮するために,被験者のプロフィールにより印象推定モデルを木構造的に自動分類し,その有効性を評価する.
-
河合 彬弘, 酒向 慎司, 北村 正
第10回情報科学技術フォーラム(FIT2011) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:函館大学
自動採譜に関する要素技術として,音響信号に対する基本周波数推定が盛んに研究されている.特に多重音に対する基本周波数推定は,音源数や調波構造など,収録状況や演奏位置によって変動し得る未知パラメータの存在から困難な問題となっている.これまでの研究では,主に楽器音を対象とするものが多かったが,合唱における多重音の基本周波数推定でも同様の難しさがあり,また歌詞によって音響信号が大きく変化する歌声では,別種の難しさがあると考えられる.合唱の基本周波数を取得することができれば,プロの合唱団の技術向上や小中学校の音楽教育の支援など,様々な応用が期待できる.合唱は,複数の旋律がハーモニーを成しながら進行していくという特徴がある.そこで本研究では,合唱における各パートの基本周波数は調和するような関係にある傾向が強いと仮定し,その傾向を利用した推定精度の改善を試みる.
-
関係調を考慮したパラメータ共有HMMに基づく音響信号の自動和音認識の検討
杉山 雄一, 酒向 慎司, 北村 正
第10回情報科学技術フォーラム(FIT2011) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:函館大学
近年,計算機やネットワークの普及により,音楽コンテンツの多様化・大規模化が進んでいる.一方で多量の音楽を柔軟かつ効率的に検索する技術は十分とはいえず,音響信号の内容そのものを音楽的な側面で解析する技術が求められている.本稿では,楽曲の内容を表す情報の一つとして和音進行に着目し,音響信号の自動和音認識の問題を扱う.自動和音認識においては,隠れマルコフモデル (HMM) を用いた手法として,前後和音に依存した詳細な環境依存和音 HMM による自動和音認識手法が提案されているが,環境依存モデルの分類の偏りにより局所的にモデルの過学習が起こり,結果としてモデルの汎用性が失われるという問題点があった.本稿では,関係調の知見に基いてモデルパラメータの共有を柔軟に行う手法を提案し,その有効性を検討する.
-
山本 龍一, 酒向 慎司, 北村 正
情報処理学会 第85回音楽情報科学研究会 情報処理学会
開催年月日: 2011年07月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:関西学院大学
本稿では,複数パートを含む楽譜が与えられた際に,演奏者の一部演奏に合わせて,伴奏に適切な演奏表情を付与するための伴奏の予測モデルを提案する.複数パートを含む演奏の場合,それぞれのパートは旋律としての自然さを保ちながら,パート同士が調和して進行すると考える.本研究では,それらの関係を CRF(Conditional Random Fields,条件付き確率場) を用いて統計的に学習し,伴奏の演奏表現の予測モデルの予測精度について評価実験及び考察を行った.また,その応用として実時間で演奏位置を推定し,演奏表情が付与された伴奏を自動再生する協調演奏システムを提案する.
-
酒向 慎司, 有賀 光希, 北村 正
電子情報通信学会第58回 福祉情報科学研究会 電子情報通信学会
開催年月日: 2011年05月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:新潟大学駅南キャンパス
手話認識の分野では、隠れマルコフモデル(Hidden Markov Model; HMM)に基づいた手法が提案されている。単語ごとに個別のHMMを構成する場合、語彙の増加に伴ってモデル数が増加するため非効率である。そのため、音素のような手話の構成素(サブユニット)を定め、それらの組合せから単語モデルを構成するアプローチが有望である。このような観点から、これまでに単語単位で学習された複数のHMMの状態パラメータを分類することで、単語間の共通要素をサブユニットとして集約する手法を提案してきた。本提案では、サブユニットの生成過程に手話の音韻構造を考慮することで、共通要素の集約を効率化する手法を提案し、手話単語の認識タスクにおける評価実験について報告する。
-
HMM歌声合成におけるパラメータ毎の話者性の反映に関する研究
大木 久徳, 酒向 慎司, 北村 正
電子情報通信学会2011年総合大会 電子情報通信学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東京都市大学 世田谷キャンパス
-
コード進行に基づくジャズベース演奏の演奏位置推定
伊藤 亘平, 酒向 慎司, 北村 正
電子情報通信学会2011年総合大会 電子情報通信学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東京都市大学 世田谷キャンパス
-
和声構造を用いたアンサンブル自動編曲
本多 翔, 酒向 慎司, 北村 正
電子情報通信学会2011年総合大会 電子情報通信学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東京都市大学 世田谷キャンパス
-
3次元データベースを用いたHMM手話認識
森口 拓哉, 酒向 慎司, 北村 正
電子情報通信学会2011年総合大会 電子情報通信学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東京都市大学 世田谷キャンパス
-
楽譜を考慮した演奏者の統計的モデル化手法-個人性と演奏傾向の比較分析-
奥村 健太, 酒向 慎司, 北村 正
日本音響学会2011年春季研究発表会 日本音響学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学 西早稲田キャンパス
-
自由対話における視聴覚特徴を用いた発話意図推定の検討
伊藤 大介, 酒向 慎司, 北村 正
日本音響学会2011年春季研究発表会 日本音響学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学 西早稲田キャンパス
-
酒向 慎司, 北村 正
電子情報通信学会第56回 福祉情報科学研究会 電子情報通信学会
開催年月日: 2011年01月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:立命館大学 びわこ・くさつキャンパス
本報告では、任意の文字列から3次元CGによる指文字アニメーションを合成するために、データグローブ等から得られたデータからその生成モデルを学習的に構成する手法と、そのアニメーション提示ソフトウエアの試作について述べる。本手法では、データグローブから得られる手形状のパラメータの系列から、手形状とその時間変化を隠れマルコフモデルによって学習し、任意の文字列から対応する手形状のパラメータを直接生成する手法である。これは、隠れマルコフモデルに基づいた音声合成の枠組みを応用したものである。これにより、自然な手指の形状変化の生成モデルを、実際の人の動作をもとに自動学習することが可能となる。実験では、902単語の指文字データから手形状や手の位置などの情報を考慮したモデルを学習し、それを組み込んだ3次元指文字CGアニメーション合成プログラムを開発した。
-
伊藤 大介, 酒向 慎司, 北村 正
第12回音声言語シンポジウム 電子情報通信学会 言語理解とコミュニケーション研究会,電子情報通信学会・日本音響学会 音声研究会,情報処理学会 音声言語情報処理研究会
開催年月日: 2010年12月
記述言語:日本語 会議種別:ポスター発表
開催地:国立オリンピック記念青少年総合センター
計算機が人の意図を理解する事で,人と機械のコミュニケーションはより円滑なものになると期待できる.我々は,意図理解を複数のクラスに分類した意図の識別問題として扱い,自由対話からの発話意図推定手法について検討してきた.連続発話から意図を推定する為には,その意図の変化のタイミングである意図境界を推定する必要がある.本稿では,意図識別に一般的に用いられる視聴覚特徴を用いて,意図の継続と変化の特徴を決定木で学習し,未知の連続発話データに対して意図境界推定を試みる.
-
個人性を考慮したGMMに基づいた音楽の印象推定モデルに関する研究
西尾 圭一郎, 酒向 慎司, 北村 正
2010年度 HCGシンポジウム 電子情報通信学会
開催年月日: 2010年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:宮崎 フェニックスシーガイアリゾート
-
パラメータ共有HMMに基づく音響信号からの自動和音認識の検討
伊藤 綾, 酒向 慎司, 北村 正
情報処理学会 第88回音楽情報科学研究会 情報処理学会
開催年月日: 2010年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:昭和音楽大学
本稿では,隠れマルコフモデルに基づいた自動和音認識において,和音に依存した音響特徴を精密にモデル化する試みについて報告する.観測されるクロマベクトルの系列が,該当の和音だけでなく,一連の和音連鎖に依存していると考え,単独の和音だけでなく,前後の和音に依存した詳細な環境依存の和音連鎖 HMM を考える.このようなモデルの詳細化によって,統計モデルの学習が困難になるため,クラスタリングによるモデルパラメータの共有化を行う手法を提案し,その有効性を検討する.
-
複数地点における異常検出のための環境電磁波HMM間の関係
竹本 一彦, 酒向 慎司, 北村 正, 内匠 逸
第25回信号処理シンポジウム 電子情報通信学会
開催年月日: 2010年11月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:奈良女子大学
-
有賀 光希, 酒向 慎司, 北村 正
電子情報通信学会 第55回福祉情報科学研究会 電子情報通信学会
開催年月日: 2010年10月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:幕張メッセ(CEATEC会場)
隠れマルコフモデルに基づいた手話認識において,単語を構成する手話構成素(サブユニット)の自動生成手法を提案してきた.手話の表現は,手の局所情報,位置,運動という性質の異なる要素が同時的に出現し,これらの組合せによって多様な動作を構成するとみなせる.そこで本稿では,このような手話の音韻構造に着目し,片手分のパラメータを持つ手の局所情報,位置,運動という3種のサブユニットモデルを自動生成する方法について述べる.そして,これらサブユニットの組合せにより,並行して変化する6系列(音韻3種×両手)からなる単語モデルを構築し,孤立単語認識実験によって評価を行う.
-
杉山 雄一, 酒向 慎司, 北村 正
電子情報通信学会2010年ソサイエティ大会 電子情報通信学会
開催年月日: 2010年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:大阪府立大学 中百舌鳥キャンパス
コンピュータを用いて音響信号から構成楽器とその音高を推定する技術は,音響信号からの自動採譜や聴覚情景分析など様々な分野での応用が可能となる.このため,HTCなど様々なアプローチで研究がなされている.混合音と楽器のもつ調波構造の相関により楽器と音高を推定する手法国では,調波構造の時間変化を考慮する必要があった.そこで本研究では,時間的に変化する複数の調波構造パターンを用いて推定することの有意性を示す.
-
音声合成のための話者モデルにおける話者再現性の分析
後藤 哲平, 酒向 慎司, 趙 國, 山下 洋一
日本音響学会2010年研究発表会 日本音響学会
開催年月日: 2010年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:関西大学
-
HMM歌唱合成のための歌唱データベースの構築
酒向 慎司, 北村 正
日本音響学会2010年研究発表会 日本音響学会
開催年月日: 2010年09月
記述言語:日本語 会議種別:ポスター発表
開催地:関西大学
-
楽譜を考慮した統計的演奏者モデル化手法と演奏者識別による評価
奥村 健太, 酒向 慎司, 北村 正
日本音響学会2010年研究発表会 日本音響学会
開催年月日: 2010年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:関西大学
-
音楽の印象推定モデルにおける個人性の適用に関する検討
西尾 圭一郎, 酒向 慎司, 北村 正
第12回日本感性工学会大会 日本感性工学会
開催年月日: 2010年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京工業大学 大岡山キャンパス
-
状態共有型HMMに基づく音楽音響信号からの自動和音認識の検討
伊藤 綾, 酒向 慎司, 北村 正
第9回情報科学技術フォーラム 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2010年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:九州大学 伊都キャンパス
計算機やネットワークの普及により,音楽コンテンツの多様化・大規模化が進むなかで,より柔軟な音楽検索やコンテンツ作成支援のための環境はまだ十分ではなく,音響信号の内容そのものを音楽的な側面で解析する技術が求められている.本稿では音楽の内容を表す情報として和音進行に注目し,音響信号からの自動和音認識を扱う.これは一般に和声解析や自動採譜に寄与する技術である一方で,音楽検索や音楽分類への応用も期待できる.自動和音認識ではクロマベクトルを特徴量とした隠れマルコフモデル(HMM)がよく用いられるが,本稿では前後関係を考慮した環境依存HMMを用い,クラスタリングによるモデルパラメータの共有の有効性を検討する.
-
伊藤 大介, 酒向 慎司, 北村 正
第9回情報科学技術フォーラム 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2010年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:九州大学 伊都キャンパス
計算機が人の意図を理解する事で,人と機械のコミュニケーションはより円滑なものになると期待される.近年では,音声認識によって得られた言語情報から意図を推定する研究が数多く行われている叫しかし,言語庸報だけでは的確な意図の推定は難しいといえる.たとえば,「はい」という発話は,相手の発話に同意する場合にも,相手の発話が聞き取れなかった場合にも用いられるが,それらの示す意図が違うのは明らかである.人同士のコミュニケーションにおいて,意図を伝える視聴覚情報の割合に関して諸説があるが,文献図によると,言語情報によって伝わる話し手の意思は全体の約35%であり,残りの65%は話し方,動作,その人の身体的特徴などの非言語情報によって伝わるとされている,このような背景から,我々は,言語情報に加えて複数の視聴覚情報から意図を推定する手法を検討している.本稿では,その基礎検討として,音響特徴である基本周波数パターンからの意図推定の可能性について検討した.自由対話における音声から,意図に寄与するであろう特徴量を分散分析によって調査した.
-
HMMに基づく手の動きと形状特徴のストリーム別クラスタリングを用いた手話認識手法
有賀 光希, 酒向 慎司, 北村 正
第9回情報科学技術フォーラム 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2010年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:九州大学 伊都キャンパス
手話は主に手や指の様々な動き(手指動作)によって意味を成すが,これらの動作は単語ごとに独立したものではなく,単語間で共通する基本動作の逐次的な連鎖から様々な単語を表現していると言える.また手指動作は,おおまかに大域的な手の位置変化(動き)と局所的な掌の形状変化(形状)という性質の異なる2つの表現要素があり,それぞれの基本動作が時間的に遷移していくと考えられる.このような視点から手話認識を考えると,個々の単語を個別にモデル化するよりも,動き要素と形状要素それぞれの基本動作モデルを単語間で共有する方が効率的であるが,表現要素ごとに基本動作をどう分類するかが問題となる.本研究では複数の単語に含まれる共通要素を,手話の動画像から学習される統計モデルに基づいて,手の動き特徴と形状特徴それぞれにっいて個別に自動分類することを目指す.そのために,動きと形状の2つのストリームについて単語単位で隠れマルコフモデル(Hidden Marcov Model; HMM)を学習し,単語全体の状態パラメータをストリーム別にクラスタリングする.
-
楽譜を考慮した演奏者の統計的モデル化手法の改善と演奏者識別による評価
奥村 健太, 酒向 慎司, 北村 正
情報処理学会 第86回音楽情報科学研究会 情報処理学会
開催年月日: 2010年07月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:つくばグランドホテル
個性を備えた演奏は,楽譜の演奏指示に対して演奏者の意図による逸脱が加わることで生じると考えられる.我々はそのような逸脱の振る舞いが確率的な偏りを持つと仮定し,実演奏とその楽譜に基づいて両者の依存関係を統計学習する手法を提案してきた.従来法では楽譜から扱える演奏指示の種類が限られており,演奏指示の限られる楽曲には柔軟な対応ができないことが課題となっていたが,本稿では音符単位で付与できる演奏指示情報を拡充し,より楽曲に適合したモデルの生成について検討した.また,演奏者モデルの木構造についてもより効率的な生成手法を検討し,得られた演奏者モデルに未知の演奏における演奏者を識別させる評価を行った.これによって提案手法の有効性を検討し,今後の課題についても述べる.
-
デモンストレーション:音楽情報処理の研究紹介IX
中野 倫靖, 大沼 翔, 金 泰憲, 黒沢 佳史, 斉藤 優理, 斎藤 佳紀, 奥村 健太, 田中 駿二, 浜中 雅俊, 帆足 啓一郎, 森山 剛, 吉田 周平, 吉谷 幹人, 安藤 大地
情報処理学会 第86回音楽情報科学研究会 情報処理学会
開催年月日: 2010年07月
記述言語:日本語 会議種別:ポスター発表
開催地:つくばグランドホテル
-
酒向 慎司, 水野 理央, 北村 正
情報処理学会 第85回音楽情報科学研究会 情報処理学会
開催年月日: 2010年05月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 青葉山キャンパス
本報告では,管楽器アンサンブル奏者が自分たちの好みと希望に合わせた編曲楽譜を自動生成・支援するシステムを目的として,メロディ構造や各楽器の演奏難易度に基づいて入力メロディのパートを分配する問題を経路探索問題として定めた.伴奏・副旋律を生成する手法と組み合わせた編曲システムを実装し,得られた楽譜を用いて,アンサンブル演奏者による主観評価を実施した.評価結果を元に今後の課題と展望について考察する.
-
有賀 光希, 酒向 慎司, 北村 正
電子情報通信学会 第53回福祉情報科学研究会 電子情報通信学会
開催年月日: 2010年05月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:新潟大学 駅南キャンパス
手話認識における主要な課題として,適切な特徴抽出やモデリングがある.特徴量としては手などの特徴部位の軌跡情報などが,モデルとしては隠れマルコフモデル(HMM)がよく用いられる.特徴量は動画像から抽出することにより,センサ等の装着による利用者の負担を軽減することが期待できるが,一方でカメラに対する人物の位置や体格差次第で同じ動作でも手の軌跡の座標値が大きく異なることがあり,実用上の課題となる.そこで,両手の中間点を原点とする座標系に変換した上で,体格差やカメラとの距離差を是正するためスケールの正規化を行う.また別種の問題として,個人差や文脈などの影響から同じ手話単語であっても発話ごとに動作の振る舞いが異なる可能性があり,このような性質を反映させて扱えるような柔軟なモデル構造の生成も重要である.そこで,HMMをこのような構造に対応させるため,複数の発話間で類似する部分は共通の状態を割り当て,それ以外の部分はその発話固有の状態として割り当てることができるような状態遷移構造を生成する.評価実験として単語認識を行い,人物および動作の多様性を考慮したことによるそれぞれの有効性を検討する.
-
加速度センサを用いたSOMに基づく非日常動作の検出
渡邊 将基, 酒向 慎司, 北村 正
電子情報通信学会2010年総合大会 電子情報通信学会
開催年月日: 2010年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東北大学 川内キャンパス
-
感情音声が脳波に及ぼす影響に関する基礎的研究
坪内 元治, 酒向 慎司, 北村 正
電子情報通信学会2010年総合大会 電子情報通信学会
開催年月日: 2010年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東北大学 川内キャンパス
-
車両フロント領域を用いた階層化部分空間に基づく車種認識
大倉 聖也, 酒向 慎司, 北村 正
電子情報通信学会2010年総合大会 電子情報通信学会
開催年月日: 2010年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東北大学 川内キャンパス
-
相互相関関数を用いた混合音の音高・楽器推定
杉山 雄一, 酒向 慎司, 北村 正
電子情報通信学会2010年総合大会 電子情報通信学会
開催年月日: 2010年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 川内キャンパス
-
骨導音声を用いたGMMに基づく話者識別
趙 洪岩, 酒向 慎司, 北村 正
電子情報通信学会2010年総合大会 電子情報通信学会
開催年月日: 2010年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 川内キャンパス
-
酒向 慎司, 北村 正
電子情報通信学会 第52回福祉情報科学研究会 電子情報通信学会
開催年月日: 2010年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:NTT 武蔵野研究開発センター
動画像から手話を認識することは,センサー等の特殊な装置の使用やその身体的拘束を伴わない方法として有効であるが,撮像されている人物から手話の動作特徴を的確に取得する必要がある.しかし,手話動作において,両手が交差することなどよって特徴となる部位が隠れてしまう状況は避けられず,とくに単眼カメラの映像から手動作の軌跡を正確に抽出することは難しいと言える.しかし,そのような状況を回避するために,多数のカメラを用いることは先に述べた装置の特殊化にも繋がる点で問題である.本報告では,特徴部位が隠れることも手話動作の特徴としてとらえるという着想から,手話動作を表す特徴部位の可視状態と不可視状態が混在した一連の現象を説明することができるモデル化方法として,多空間分布に基づいた隠れマルコフモデル(multi-space distribution hidden Markov model: MSD-HMM)を適用した手法を提案する.手話単語データべースを用いた実験によって,MSD-HMMによるモデル化が機能していることを示し,単語認識実験によってその有効性を確認するとともに,今後の課題について述べる.
-
西尾 圭一郎, 酒向 慎司, 北村 正
情報処理学会創立50周年記念全国大会 情報処理学会
-
稲垣 有紗, 酒向 慎司, 北村 正
情報処理学会創立50周年記念全国大会 情報処理学会
-
楽譜情報を用いたストリーム別コンテキストクラスタリングに基づく演奏者モデリング手法
奥村 健太, 酒向 慎司, 北村 正
日本音響学会2010年春季研究発表会 日本音響学会
開催年月日: 2010年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:電気通信大学
-
単旋律のパート分配と伴奏・副旋律生成によるアンサンブルのための自動編曲システム
水野 理央, 酒向 慎司, 北村 正
インタラクション2010 情報処理学会 ヒューマンコンピュータインタラクション研究会,グループウェアとネットワークサービス研究会,ユビキタスコンピューティングシステム研究会,エンタテインメントコンピューティング研究会
開催年月日: 2010年03月
記述言語:日本語 会議種別:ポスター発表
開催地:学術総合センター 一橋記念講堂
-
有賀 光希, 酒向 慎司, 北村 正
電子情報通信学会 第51回福祉情報科学研究会(WIT) 電子情報通信学会
開催年月日: 2010年01月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:芝浦工業大学 豊洲キャンパス
手話は,複数の細かい動作(サブユニット)の逐次的な組み合わせにより表現されており,これらの動作は異なる手話間で共有できると考えられる.ここでは単語間の類似動作を分類する方法として,単語単位で学習された複数の隠れマルコフモデルの全状態をクラスタリングすることでサブユニットを生成する.単語認識タスクを考えた場合,個々の手話単語モデルをサブユニットの連結により構成する.単語間で共有構造を用いることで,単語単位で学習する場合に比べてモデル当りの学習データ数をより多く確保できるという利点がある.また,手話は発話ごとに動作の振る舞いが大きく異なる可能性があるため,同じ単語でも複数の動作遷移パターンが考えられる.よって手話認識においても,このような性質を反映させて扱えるような,より詳細化されたモデル構造の生成が望まれる.このような観点から,本研究では複数の発話間で類似する部分のみを共有し,それ以外の部分はその発話固有の遷移パターンとして扱うことが可能であるような状態遷移構造の自動生成手法を提案し,認識率の向上をはかる.
-
楽譜情報のコンテキストクラスタリングに基づく演奏者のモデリング手法
奧村 健太, 酒向 慎司, 北村 正
情報処理学会 第83回音楽情報科学研究会 情報処理学会
開催年月日: 2009年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:国立音楽大学
本稿では,実演奏 MIDI データから演奏者の特徴を確率モデルとして学習するため,芸術的逸脱の要素を楽譜の情報を用いたコンテキストクラスタリングにより効率的に分類する手法を提案する.これによって演奏者が楽曲に対して独自に持つ解釈の内容をモデルに反映させ,その内容を観測することが可能となった.また,演奏者識別実験による検証でも提案手法の有効性を確認できた.
-
HMMを用いた日変動パターンに基づく環境電磁波のモデル化と異常検出
高瀬 裕矢, 酒向 慎司, 北村 正, 内匠 逸, 畑 雅恭
電子情報通信学会信号処理研究会(SIP) 電子情報通信学会
開催年月日: 2009年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:広島大学東千田キャンパス
日本は世界有数の地震大国であり,古くから多くの甚大な被害を受けてきた.地震による被害を軽減するためには,地震の発生を事前に予測することが極めて有益である.その中で,地震発生以前に環境電磁波から地震発生に由来する異常な放射が観測されることが報告されている.我々の研究グループでもELF帯の環境電磁波を日本全国約40ヶ所で観測しており,地震と異常放射の関連を明らかにすべく様々な研究を行っている.そこで本稿では環境電磁波の異常放射検出を目的とし,HMMを用いて日変動パターンをモデル化し,その尤度変化から異常を検出する手法を提案する.最後に,過去に発生した2つの大地震に対する実験結果から本手法の有効性を検討する.
-
HMM歌唱音声合成における日本語音響モデルを用いた英語歌唱合成の検討
酒向 慎司, 北村 正
日本音響学会2009年秋季研究発表会 日本音響学会
開催年月日: 2009年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:日本大学工学部
-
楽譜情報のコンテキストクラスタリングに基づく実演奏データからの演奏者モデリング手法の検討
奥村 健太, 酒向 慎司, 北村 正
日本音響学会2009年秋季研究発表会 日本音響学会
開催年月日: 2009年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:日本大学工学部
-
HMM歌声合成システムのためのビブラートモデルの導入
山田 知彦, 武藤 聡, 南角 吉彦, 酒向 慎司, 徳田 恵一
日本音響学会2009年秋季研究発表会 日本音響学会
開催年月日: 2009年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:日本大学工学部
-
重奏用譜面を生成するための経路探索をもちいたメロディのパート分配
水野 理央, 酒向 慎司, 北村 正
平成22年度電気関係学会東海支部連合大会 電気関係学会東海支部
開催年月日: 2009年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:愛知工業大学
-
楽曲の音響信号から印象を推定するGMMに基づいた感性モデルの研究
西尾 圭一郎, 酒向 慎司, 北村 正
第11回日本感性工学会大会 日本感性工学会
開催年月日: 2009年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:芝浦工業大学 豊洲キャンパス
-
印象に合致した楽曲生成のための任意の言葉と音楽の対応性に関する検討
稲垣 有紗, 酒向 慎司, 北村 正
第11回日本感性工学会大会 日本感性工学会
開催年月日: 2009年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:芝浦工業大学 豊洲キャンパス
-
コード進行クラスタリングによる楽曲のモデル化と楽曲間類似度の評価
伊藤 綾, 酒向 慎司, 北村 正
第8回情報科学技術フォーラム 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
-
中村 光希, 酒向 慎司, 北村 正
第8回情報科学技術フォーラム 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
-
GMMを用いた環境電磁波の異常検出と地震のエネルギーとの相関の評価
竹本 一彦, 芦谷 嘉文, 酒向 慎司, 北村 正
第8回情報科学技術フォーラム 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
-
音声と画像の時系列上のずれのモデルを用いたバイモーダル大語彙連続音声認識
伊藤 大介, 酒向 慎司, 北村 正
音声若手研究者フォーラム 音声若手の会
開催年月日: 2009年07月
記述言語:日本語 会議種別:ポスター発表
開催地:飯坂温泉 プラザホテル吾妻
-
山田 知彦, 武藤 聡, 南角 吉彦, 酒向 慎司, 徳田 恵一
情報処理学会 第80回音楽情報科学研究会 情報処理学会
開催年月日: 2009年05月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:筑波大学 春日キャンパス
HMM に基づく歌声合成は歌い手の特徴を歌声データと楽譜から自動学習し,任意のメロディからその特徴を再現した歌声を合成できる.その際,歌声の音色・発音と音高における歌い手の特徴を,それぞれスペクトルと基本周波数の時間変化として HMM でモデル化している.本稿では,歌唱表現のひとつであるビブラートを音高の周期的な揺らぎと仮定し正弦波でモデル化する.そのパラメータをスペクトル及び基本周波数と同時に HMM でモデル化する.歌声の合成実験では,女性 1 名による童謡 60 曲の歌声データを学習し,主観評価実験によってビブラートモデルの導入による自然性の向上が確認できた.
-
中村 光希, 酒向 慎司, 北村 正
電子情報通信学会2009年総合大会 電子情報通信学会
-
奥村 健太, 酒向 慎司, 北村 正
電子情報通信学会2009年総合大会 電子情報通信学会
-
高瀬 裕矢, 酒向 慎司, 北村 正
電子情報通信学会2009年総合大会 電子情報通信学会
-
HMM 音声合成のための音響モデル簡易学習ツールキットVoiceMaker
酒向 慎司, 徳田 恵一, 北村 正
日本音響学会2009年春季研究発表会 日本音響学会
開催年月日: 2009年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京工業大学 大岡山キャンパス
-
環境電磁波の日平均特徴量の抽出
竹本 一彦, 井川 博貴, 酒向 慎司, 北村 正
平成21年度電気関係学会東海支部連合大会 電気関係学会東海支部
開催年月日: 2008年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:愛知県立大学
-
楽曲の印象特徴抽出を目的としたクラシック音学の音響信号の分析
西尾 圭一郎, 酒向 慎司, 北村 正
平成21年度電気関係学会東海支部連合大会 電気関係学会東海支部
開催年月日: 2008年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:愛知県立大学
-
重回帰に基づく楽器音を対象とした感性モデル
稲垣 有紗, 酒向 慎司, 北村 正
平成21年度電気関係学会東海支部連合大会 電気関係学会東海支部
開催年月日: 2008年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:愛知県立大学
-
実演奏MIDIデータにおける演奏者の個性を特徴付ける逸脱の調査
奥村 健太, 酒向 慎司, 北村 正
日本音響学会2008年研究発表会 日本音響学会
開催年月日: 2008年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:九州大学 大橋キャンパス
-
The Effect of Size and Position Normalization on HMM-based JSL Recognition
AbdulhakimElghadi, ShingoAsai, ShinjiSako, TadashiKitamura
第7回情報科学技術フォーラム 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2008年09月
記述言語:英語 会議種別:口頭発表(一般)
開催地:慶應義塾大学 湘南藤沢キャンパス
This paper shows a technique of continuous Japanese Sign Language (JSL) recognition based on Hidden Markov models (HMMs). The system aims for an automatic signer independent recognition of JSL sentences. Stereo video camera is utilized for extracting geometric properties of the head and hands trajectory. Size and position normalization is employed in order to account for differences in body-size and proportions. The system was implemented and evaluated using the RWC JSL database consisting of 64 sentences and 4 signers. The recognition results are then compared to the conclusion that normalization indeed increases the recognition rate of the system.
-
深山 覚, 中妻 啓, 米林 裕一郎, 酒向 慎司, 西本 卓也, 小野 順貴, 嵯峨山 茂樹
情報処理学会音楽情報科学研究会 情報処理学会
開催年月日: 2008年08月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:名古屋大学
本稿では歌詞の韻律を用いた歌唱曲の新しい自動作曲手法を提案する。旋律を音の経路と捉え作曲を経路探索問題として定式化することで、任意の日本語の歌詞を用いた歌唱曲の自動作曲が、歌詞の韻律に基づく制約条件下での最尤経路探索問題を解くことで実現できることを示す。さらにこの作曲原理を実装した自動作曲システム "Orpheus" を用いて実際に楽曲生成を行い、作曲家による生成された楽曲に対する評価を踏まえて、今回の手法によって妥当な音楽性をもった歌唱曲が生成されたことを検証する。
-
変分ベイズ法に基づいた声質変換
丸目 雅浩, 南角 吉彦, 酒向 慎司, 徳田 恵一, 北村 正
日本音響学会2008年春季研究発表会 日本音響学会
開催年月日: 2008年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:千葉工業大学 津田沼キャンパス
-
酒向 慎司, 才野 慶二郎, 南角 吉彦, 徳田 恵一, 北村 正
情報処理学会 第74回音楽情報科学研究会 情報処理学会
開催年月日: 2008年02月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:伊東温泉 ホテル暖香園
声質や歌唱法など歌い手の特徴を歌声データと楽譜から自動学習し,それらを再現するような歌声合成システムについて述べる.本システムでは,歌い手の声質とピッチに関する特徴を確率モデルによる統一的な枠組みでモデル化している.特に,リズムやメロディといった音楽特有の表現要素が,音声信号のスペクトルや基本周波数パターンの変動に大きく関係していることから,楽譜から得られる音階や音長などを考慮したモデル化を行い,楽譜と歌詞を入力として,個人性を備えた歌声を合成するシステムを構築してきた.本手法の特徴は,このような歌声合成モデルを楽譜と歌声データから自動学習できることにある.本報告では,音楽固有のコンテキストの導入,実際の歌声データと楽譜の音符列の間のずれに着目した時間構造モデルについて検討する.実験では,童謡60曲の男性1名の歌声データを用いた歌声合成システムを構成し,ずれモデルの導入による自然性の向上が確認できた.
-
丸目 雅浩, 南角 吉彦, 酒向 慎司, 徳田 恵一, 北村 正
第8回音声言語シンポジウム 電子情報通信学会 言語理解とコミュニケーション研究会,電子情報通信学会・日本音響学会 音声研究会,情報処理学会 音声言語情報処理研究会
開催年月日: 2007年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:NTT京阪奈ビル
音声合成の需要の高まりにより,多様な話者性や発話スタイルを持った音声の合成が望まれている.しかし,このような音声の合成には,話者や発話スタイルに応じてモデルを用意する必要があり現実的ではない.そこで,少量の学習データにより,多様な話者性を持つ音声の合成を可能とする混合ガウスモデル(GMM)に基づく声質変換が提案されている.しかし,従来のGMMに基づく声質変換では,尤度最大化(ML)基準によりモデルパラメータを点推定しているため,学習データが十分に得られない場合,モデルの推定精度が低下する可能性がある.そこで,GMMに基づく声質変換に変分ベイズ法を適用し,ベイズ基準による声質変換を行う.提案法では,ML基準に比べて,声質変換の音質と話者性において,品質向上が確認でき,推定精度の高いモデルが得られることがわかった.
-
全 炳河, 大浦 圭一郎, 能勢 隆, 山岸 順一, 酒向 慎司, 戸田 智基, 益子 貴史, アラン ブラック, 徳田 恵一
第8回音声言語シンポジウム 電子情報通信学会 言語理解とコミュニケーション研究会,電子情報通信学会・日本音響学会 音声研究会,情報処理学会 音声言語情報処理研究会
開催年月日: 2007年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:NTT京阪奈ビル
近年,隠れマルコフモデル(HMM)に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存HMMにより同時にモデル化される.音声合成時は,合成したい文章に対応するHMMからの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002年より我々は,HMMに基づく音声合成のための研究・開発ツール「HMM音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
-
ベイズ的アプローチによる声質変換
丸目 雅浩, 南角 吉彦, 酒向 慎司, 徳田 恵一, 北村 正
日本音響学会2007年秋季研究発表会 日本音響学会
開催年月日: 2007年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:山梨大学
-
鬼頭 孝宏, 北村 正, 酒向 慎司
電子情報通信学会2007年ソサイエティ大会 電子情報通信学会
-
ストローク単位の確率文脈自由文法を用いたオンライン手書き数式データベースの作成
山本 遼, 酒向 慎司, 西本 卓也, 嵯峨山 茂樹
電子情報通信学会パターン認識メディア理解研究会 電子情報通信学会
開催年月日: 2007年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:岡山大学 津島キャンパス
本研究では、オンライン手書き数式認識手法の性能評価とモデルの学習を目的としたオンライン手書き数式データベースの作成を行った。100筆者による科学技術レベルの数式200種約1000データ、シンボル245種約20000データを収集した。さらにデータ内のストロークと数式内のシンボルの対応情報を自動的に推定する手法を検討し、我々の提案してきた確率文脈自由文法による数式認識手法を正解数式範囲内の文法制約下で利用することにより、半自動的なシンボルアラインメント推定を実現し、データベースのアラインメント付けの作業を大きく軽減することができた。
-
ストローク間の位置関係の文法記述に基づくオンライン手書き漢字認識
大田 郁実, 山本 遼, 酒向 慎司, 嵯峨山 茂樹
電子情報通信学会パターン認識メディア理解研究会 電子情報通信学会
開催年月日: 2007年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:岡山大学 津島キャンパス
本論文では、オンライン手書き漢字認識において構造を文法記述する手法を検討する。本手法では、文字部品やストローク(画)で構成される漢字の階層構造に着目し、すべての漢字が確率文脈自由文法(SCFG)で生成できるとした。ストローク認識結果と文字部品間の相対的な位置関係の両方を構文木を生成する過程で用いることによって、ストロークと位置関係の誤認識を相互に補償することが期待できる。さらに、位置関係を数種類の簡単なモデルで表現し、異なる漢字と共有することによって、少ない学習データでも十分な認識精度を出すことが可能になり、また、未学習の漢字に対しても、生成規則を書き込むことによって対応できるようになる。本手法を、JAIST(北陸先端科学技術大学院大学)のオンライン手書き漢字データベースに含まれる、筆順通りに比較的丁寧に書かれた新旧教育漢字1,016字のデータセットを用いて評価したところ、未学習文字に対しても既学習文字と比べて遜色ない認識率が得られた。
-
視覚障害者用早口合成音声に対する慣れの効果
西本 卓也, 酒向 慎司, 嵯峨山 茂樹, 小田 浩一, 渡辺 隆行
日本音響学会2007年春季研究発表会 日本音響学会
開催年月日: 2007年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:芝浦工業大学 豊洲キャンパス
-
歌詞の韻律を用いた自動作曲
中妻 啓, 酒向 慎司, 小野 順貴, 嵯峨山 茂樹
日本音響学会2007年春季研究発表会 日本音響学会
開催年月日: 2007年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:芝浦工業大学 豊洲キャンパス
-
HMM音声合成ツールキットver.2.0
全 炳河, 能勢 隆, 山岸 順一, 酒向 慎司, 徳田 恵一
日本音響学会2007年春季研究発表会 日本音響学会
開催年月日: 2007年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:芝浦工業大学 豊洲キャンパス
-
視聴覚センサと擬人化音声対話エージェントによるソフトウエアロボット
酒向 慎司, 西本 卓也, 嵯峨山 茂樹
シンポジウム「実世界を核とした情報技術の新展開」 21世紀COE情報科学技術戦略コア
開催年月日: 2006年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京大学 本郷キャンパス 浅野地区
-
確率文脈自由文法を用いた音楽演奏MIDIデータのリズム・テンポの認識
山本 遼, 酒向 慎司, 嵯峨山 茂樹
日本音響学会2006年秋季研究発表会 日本音響学会
開催年月日: 2006年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:金沢大学 角間キャンパス
本論文ではオンライン手書き数式認識のための新しい手法を提案する.我々は,手書き数式を,ストローク列を生成する確率文脈自由文法としてモデル化し,数式の文法構造と2次元構造,シンボル内の構造を全て1つの文法で統一的に記述する手法を提案する.この手法によりシンボル認識・構造認識・数式文法解析といった独立の認識ステップを経ずに,これらの情報を同時に利用して数式認識を行うことができ,頑健な数式認識が期待できる.また数式の2次元構造モデルとして,さまざまな形状の非終端記号を統一的に扱うために,隠れ筆記領域という概念を提案し,これを用いて「シンボル形状に依存しない位置」をモデル化する.このモデルはデータからのパラメタ学習が可能であるため,十分な学習データが存在すれば頑健なモデルとなる期待がある.同一筆者が入力した,学術論文における中程度複雑さの8種80数式による評価実験の結果,数式のシンボル・構造の同時推定によってシンボル分割・認識精度が向上することが確かめられた.隠れ筆記領域は学習データが非常に限定されていた中で,シンボルのベースライン正解率約95%が得られた.
-
HMM音声合成の話者モデル作成の効率化に関する検討
酒向 慎司, 西本 卓也, 嵯峨山 茂樹
日本音響学会2006年秋季研究発表会 日本音響学会
開催年月日: 2006年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:金沢大学 角間キャンパス
-
100時間ワークショップによる融合教育研究プラットフォームの開発
大武 美保子, 金田 憲二, 鴨志田 良和, 深野 亮, 白木 孝義, 伊藤 聡, 石黒 勝彦, 白井 達也, 斎藤 秀雄, 堀田 勇樹, 南里 卓也, 下畠 康幸, 吉本 晴洋, 酒向 慎司, 杉 正夫, 小谷 潔, 米田 隆一, 林 淳哉, 野口 博史, 田浦 健次朗, 大津 展之, 佐藤 知正
日本機械学会ロボティクスメカトロニクス講演会2006 日本機械学会
開催年月日: 2006年05月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学理工学部大久保キャンパス
The importance of integrating different discipline of information science and technology is growing for the realization of information system which works robust in real world. Such system should be achieved by integrating super robust algorithm, large-scale dependable network and devices or interfaces which sense and/or actuate in the real world. It is necessary to encourage collaboration among specialists of different disciplines, since it is difficult to cover all area in information science and technology by only one person or group. In order to support collaboration among various kinds of experts, the autonomous collaborative environment for project based learning was developed. The environment comprises the workshop protocol and the community site. The workshop named "A Hundred Hour Workshop" for graduate students who belong to different departments was carried out during summer holidays. The community site named "WS100H.NET" was developed for supporting and analyzing autonomous collaboration process. Novel interdisciplinary technology, fusion of recognition and parallel computation was successfully developed. Collaboration process among the participants was autonomous with minimal facilitation by the tutor in the environment.
-
複合ウェーブレットモデルによる音声合成の検討
槐 武也, 松本 恭輔, 酒向 慎司, 嵯峨山 茂樹
日本音響学会2006年春季研究発表会 日本音響学会
開催年月日: 2006年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:日本大学 駿河台キャンパス
-
ストローク単位の確率文脈自由文法を用いたオンライン手書き数式認識
山本 遼, 酒向 慎司, 西本 卓也, 嵯峨山 茂樹
電子情報通信学会パターン認識メディア理解研究会 電子情報通信学会
開催年月日: 2006年02月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:産業技術総合研究所 本部
本論文ではオンライン手書き数式認識のための新しい手法を提案する.我々は,手書き数式を,ストローク列を生成する確率文脈自由文法としてモデル化し,数式の文法構造と2次元構造,シンボル内の構造を全て1つの文法で統一的に記述する手法を提案する.この手法によりシンボル認識・構造認識・数式文法解析といった独立の認識ステップを経ずに,これらの情報を同時に利用して数式認識を行うことができ,頑健な数式認識が期待できる.また数式の2次元構造モデルとして,さまざまな形状の非終端記号を統一的に扱うために,隠れ筆記領域という概念を提案し,これを用いて「シンボル形状に依存しない位置」をモデル化する.このモデルはデータからのパラメタ学習が可能であるため,十分な学習データが存在すれば頑健なモデルとなる期待がある.同一筆者が入力した,学術論文における中程度複雑さの8種80数式による評価実験の結果,数式のシンボル・構造の同時推定によってシンボル分割・認識精度が向上することが確かめられた.隠れ筆記領域は学習データが非常に限定されていた中で,シンボルのベースライン正解率約95%が得られた.
-
槐 武也, 松本 恭輔, 酒向 慎司, 嵯峨山 茂樹
電子情報通信学会 第78回音声研究会(SP) 電子情報通信学会
開催年月日: 2005年10月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京大学 本郷キャンパス
本稿では、パラメトリックな音声分析合成モデルとして、複合ウェーブレットモデル(Composite Wavelet Model、以下CWM)法を提案し、その有効性について議論する。従来の巡回型フィルタによる音声合成では、その時間特性が音声品質低下の一要因である可能性があり、提案法ではこれを改善することが期待できる。提案法では音声のスペクトル包絡を混合ガウス関数モデル(GMM)で近似することで少数のパラメータによって表現する。合成時にはこのGMMの逆フーリエ変換である複合Gaborウェーブレットを基本波形として、これをピッチ周期ごとに重ね合わせて有声音を合成する。検証のため、提案法により音声を分析合成し、時間特性が改善されていることを確認した。
-
早口合成音声に対する聴取者の慣れの効果の検討
西本 卓也, 酒向 慎司, 嵯峨山 茂樹, 大島 一恵, 小田 浩一, 渡辺 隆行
日本音響学会2005年秋季研究発表会 日本音響学会
開催年月日: 2005年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 川内キャンパス
-
HMM音声合成手法による早口音声合成の検討
酒向 慎司, 西本 卓也, 嵯峨山 茂樹
日本音響学会2005年秋季研究発表会 日本音響学会
開催年月日: 2005年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東北大学 川内キャンパス
-
西本 卓也, 酒向 慎司, 嵯峨山 茂樹, 小田 浩一, 渡辺 隆行
電子情報通信学会 第25回福祉情報科学研究会 電子情報通信学会
開催年月日: 2005年05月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:屋久島環境文化村センター
視覚障害者はスクリーンリーダなどの利用において, 速い話速でありながら聞き取りやすい合成音声を求めている.我々は, テキスト音声合成エンジンGalateaTalkと早口音声コーパスを用いて, 聞き取りやすい早口の合成音声を実現した.また, 4桁の乱数の読み上げ音声を聴取する実験を行い, 早口コーパスから学習した統計量を用いることで早口でかつ十分な音質の合成音声を得られること, 早口音声の聴取タスクにおいては短時間の訓練によって大きな学習効果が得られ, その効果は時間が経過しても持続すること, などの知見を得た.
-
実世界システムにおける視聴覚センシングとその統合
酒向 慎司
情報科学技術戦略コア融合プロジェクト合同ワークショップ 21世紀COE情報科学技術戦略コア
開催年月日: 2005年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京大学 本郷キャンパス
-
HMM歌声合成における楽譜情報を用いたラベル設計
桑原 宏明, 都築 亮介, 全 炳河, 酒向 慎司, 徳田 恵一, 北村 正
日本音響学会2004年秋季研究発表会 日本音響学会
開催年月日: 2004年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:琉球大学
-
柳 哲, 井上 涼子, 柳生 雄午, 酒向 慎司, 宮島 千代美, 徳田 恵一, 北村 正
電子情報通信学会2003年ソサイエティ大会 電子情報通信学会
-
信頼度尺度に基づく音声認識誤りの検出および訂正
山口 辰彦, 酒向 慎司, 山本 博史, 菊井 玄一郎
日本音響学会2003年秋季研究発表会 日本音響学会
開催年月日: 2003年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:大同工業大学 滝春校舎
-
山口 辰彦, 酒向 慎司, 山本 博史, 菊井 玄一郎
電子情報通信学会 第65回音声研究会(SP) 電子情報通信学会
開催年月日: 2003年08月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:はこだて未来大学
本稿では,N-gramでは表現できない広範囲の文脈に依存した言語知識をモデル化するために,用例文を用いた新しい言語モデルである用例文モデルの提案を行う.用例文モデルでは収集された用例文の中から,最も単語列および音順列の近いものが候補として選択される.この後,N-gramでの認識結果と用例文モデルでの結果を対応する単語ごとに比較し,N-gramでの認識結果が誤りである可能性が高い単語に対しては積極的に用例文モデルでの結果を採用し,誤りである可能性が低い単語に対しては用例文モデルでの結果が信頼性の高いものである場合のみ用例文モデルでの結果を採用する.この各単語に対する判定に対しては,N-gramでの認識結果から得られる信頼度尺度と,用例文モデルで用いられる単語列および音順列の近さの尺度である編集距離を入力とするサポートベクターマシン(SVM)を用いる.本手法は旅行対話表現集コーパスを用いた実験において約20%の誤認識率の改善が見られ,有効性が確認できた.
-
酒向 慎司, 宮島 千代美, 徳田 恵一, 北村 正
情報処理学会 第51回音楽情報科学研究会 情報処理学会
開催年月日: 2003年08月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京大学 本郷キャンパス
隠れマルコフモデルに基づく音声合成方式を歌声合成に拡張することにより構築した歌声合成システムについて述べる.本システムでは,歌い手の声の質と基本周波数パターンに関する特徴をモデル化するため,スペクトルと基本周波数パターンをHMMにより同時にモデル化している.特に,自然な歌声を合成する上で重要な要素となる音符の音階や音長の基本周波数パターンへの影響を精度良くモデル化するため,楽譜から得られる音階と音長を考慮したコンテキスト依存モデルを構築している.これらのモデルに対して決定木によるコンテキストクラスタリング行うことで,未知の楽曲からの歌声合成が可能となっている.実験から,歌い手の特徴を再現し,なめらかで自然性の高い歌声の合成が可能であることを示す.
-
極低ビットレート音声符号化システムにおける決定木を用いたコードブックの自動決定
星屋 剛宏, 酒向 慎司, 全 炳河, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
日本音響学会2003年春季研究発表会 日本音響学会
-
徳田 恵一, 水谷 伸晃, 酒向 慎司, 石松 喜伸, 吉村 貴克, 河井 恒
日本音響学会2003年春季研究発表会 日本音響学会
-
HMMに基づいた極低ビットレート音声符号化システムの性能改善
星屋 剛宏, 酒向 慎司, 全 炳河, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
日本音響学会2002年秋季研究発表会 日本音響学会
開催年月日: 2002年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:秋田大学 手形キャンパス
-
誤り単語の検出・訂正システムの統合と評価
酒向 慎司, 山本 博史, 菊井 玄一郎
日本音響学会2002年秋季研究発表会 日本音響学会
開催年月日: 2002年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:秋田大学 手形キャンパス
-
井上 涼子, 柳生 雄午, 酒向 慎司, 宮島 千代美, 徳田 恵一, 北村 正
第1回情報科学技術フォーラム(FIT2002) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
-
石川 ちさと, 伊藤 正典, 酒向 慎司, 宮島 千代美, 徳田 恵一, 北村 正
第1回情報科学技術フォーラム(FIT2002) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
-
主成分分析を用いた基本動作HMMによるジェスチャー認識
柳生 雄午, 酒向 慎司, 宮島 千代美, 徳田 恵一, 北村 正
第63回全国大会情報処理学会全国大会 情報処理学会
開催年月日: 2001年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:山口大学 吉田地区キャンパス
-
中谷 博美, 酒向 慎司, 徳田 恵一, 北村 正
2001年電子情報通信学会総合大会 電子情報通信学会
-
HMMに基づいた極低ビットレート音声符号化におけるピッチ情報のベクトル量子化
川角 佳弘, 酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
日本音響学会2001年春季研究発表会 日本音響学会
-
酒向 慎司, 近藤 重一, 益子 貴史, 徳田 恵一, 小林 隆夫, 北村 正
日本音響学会2001年春季研究発表会 日本音響学会
-
酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
電子情報通信学会2000年総合大会 電子情報通信学会
-
ピクセルベースアプローチによるHMMに基づいた唇動画像の生成
酒向 慎司, 徳田 恵一, 益子 貴史, 小林 隆夫, 北村 正
電子情報通信学会 パターン認識・メディア理解研究会 電子情報通信学会
開催年月日: 1999年11月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:琉球大学
隠れマルコフモデル(HMM)に基づき,任意の入カテキストから実画像に近い唇動画像を生成するシステムを提案する.我々がこれまでに提案してきたHMMに基づく音声合成法により,高品質なテキスト音声合成システムが実現されているが,これと同一の枠組みを,ピクセルベースの唇画像生成に適用する.音素単位でモデル化された唇動画像HMMを連結し,尤度最大化基準によりHMMの各状態から最適な画像系列を求める.この際,静的特徴量(唇の形状)のみでなく,動的特徴量(唇の動き)を考慮することにより,なめらかに変化する唇動画像を合成することができる.本研究では,新たに作成した日本語連続文章による大規模な唇動画像データベースを用いて,唇動画像合成システムを構築した.任意の入力テキストから合成された唇動画像では,実写画像に近い唇の動きを確認することができた.