講演・口頭発表等 - 酒向 慎司
-
HMM音声合成のための話者モデルにおける声質再現性の評価
後藤 哲平, 酒向 慎司, 趙 國, 山下 洋一
日本音響学会2011年秋季研究発表会 日本音響学会
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:島根大学
-
森口 拓哉, 酒向 慎司, 北村 正
第10回情報科学技術フォーラム(FIT2011) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:函館大学
近年,障害者が健常者と変わらない生活を営めるような環境づくりが進められている.その一つとして,聴覚障害者と健聴者の対話支援を目的としたコンピュータによる手話認識の研究がある.手話認識には手指動作の取得が必要であり,従来研究では手話動作の動画像を用いる方法やセンサを装着する方法などが用いられてきた.センサを用いた手法では,装置の特殊性や装着する煩わしさが問題となり,身体的に拘束のないカメラを用いたものが好ましいといえる.しかし,手話の動きは 3 次元的であることから,単眼では限界であるといえる.複数台のカメラで 3 次元計測を行う方法も提案されているが,装置の煩雑化もまた問題となる.奥行き情報を容易に計測でき,かつ身体的な拘束のない方法として,TOF(Time-of-Flight)カメラを用いることが考えられる.TOF カメラによる手話認識の先行研究では,実験に使用された手話単語は数種類しかなく,小規模な認識実験であったといえる.よって本研究では,先行研究より実験に使用する語彙を増やし,TOFカメラを用いて手話のデータベースを作成する.そしてこのデータベースを使用し,これまでに提案してきたHMM(隠れマルコフモデル)に基づいた手話認識の枠組みを用いて,連続手話認識を試み,その効果の検討を行った.
-
岩月 靖典, 酒向 慎司, 北村 正
第10回情報科学技術フォーラム(FIT2011) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:函館大学
近年,インターネットを介した楽曲の配信が発達し,音楽販売の主流となりつつある.多くの楽曲配信サービスでは,古い曲から最近の曲まで膨大な数の曲が保管されているため,利用者が目的の曲を瞬時に検索できるよう,楽曲を分類する技術が期待されている.楽曲の分類,検索のアプローチとしては,アーティスト名やアルバム名といった楽曲情報を利用したキーワード検索が一般的である.その他にもメロディやリズムを入力としたコンテンツベースの方法も研究され,実用化されているものもある.しかし,これらの検索方法を利用するには,ユーザが所望の楽曲の断片的な情報をあらかじめ得ている必要があり,検索範囲が限定的になる.一方で,より直感的な検索の手法として,人が楽曲を聴いたときに感じる印象を手がかりとした検索手法も有望であり,研究が進められている.先行研究 [1] では,感性に個人差があることを考慮し,個人に対してのみ印象推定を行い,有効性が確認されている.しかしながら,個人別に学習し,楽曲の印象を得る方法では,未知の人物に対応することが困難である.そこで,被験者の付加情報 (プロフィール) に着目し,類似した印象傾向を持つグループに分類することで,未知の利用者にも適応可能な印象推定モデルを提案する.本研究では,感性の個人性と共通性の双方を考慮するために,被験者のプロフィールにより印象推定モデルを木構造的に自動分類し,その有効性を評価する.
-
河合 彬弘, 酒向 慎司, 北村 正
第10回情報科学技術フォーラム(FIT2011) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:函館大学
自動採譜に関する要素技術として,音響信号に対する基本周波数推定が盛んに研究されている.特に多重音に対する基本周波数推定は,音源数や調波構造など,収録状況や演奏位置によって変動し得る未知パラメータの存在から困難な問題となっている.これまでの研究では,主に楽器音を対象とするものが多かったが,合唱における多重音の基本周波数推定でも同様の難しさがあり,また歌詞によって音響信号が大きく変化する歌声では,別種の難しさがあると考えられる.合唱の基本周波数を取得することができれば,プロの合唱団の技術向上や小中学校の音楽教育の支援など,様々な応用が期待できる.合唱は,複数の旋律がハーモニーを成しながら進行していくという特徴がある.そこで本研究では,合唱における各パートの基本周波数は調和するような関係にある傾向が強いと仮定し,その傾向を利用した推定精度の改善を試みる.
-
関係調を考慮したパラメータ共有HMMに基づく音響信号の自動和音認識の検討
杉山 雄一, 酒向 慎司, 北村 正
第10回情報科学技術フォーラム(FIT2011) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2011年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:函館大学
近年,計算機やネットワークの普及により,音楽コンテンツの多様化・大規模化が進んでいる.一方で多量の音楽を柔軟かつ効率的に検索する技術は十分とはいえず,音響信号の内容そのものを音楽的な側面で解析する技術が求められている.本稿では,楽曲の内容を表す情報の一つとして和音進行に着目し,音響信号の自動和音認識の問題を扱う.自動和音認識においては,隠れマルコフモデル (HMM) を用いた手法として,前後和音に依存した詳細な環境依存和音 HMM による自動和音認識手法が提案されているが,環境依存モデルの分類の偏りにより局所的にモデルの過学習が起こり,結果としてモデルの汎用性が失われるという問題点があった.本稿では,関係調の知見に基いてモデルパラメータの共有を柔軟に行う手法を提案し,その有効性を検討する.
-
山本 龍一, 酒向 慎司, 北村 正
情報処理学会 第85回音楽情報科学研究会 情報処理学会
開催年月日: 2011年07月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:関西学院大学
本稿では,複数パートを含む楽譜が与えられた際に,演奏者の一部演奏に合わせて,伴奏に適切な演奏表情を付与するための伴奏の予測モデルを提案する.複数パートを含む演奏の場合,それぞれのパートは旋律としての自然さを保ちながら,パート同士が調和して進行すると考える.本研究では,それらの関係を CRF(Conditional Random Fields,条件付き確率場) を用いて統計的に学習し,伴奏の演奏表現の予測モデルの予測精度について評価実験及び考察を行った.また,その応用として実時間で演奏位置を推定し,演奏表情が付与された伴奏を自動再生する協調演奏システムを提案する.
-
酒向 慎司, 有賀 光希, 北村 正
電子情報通信学会第58回 福祉情報科学研究会 電子情報通信学会
開催年月日: 2011年05月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:新潟大学駅南キャンパス
手話認識の分野では、隠れマルコフモデル(Hidden Markov Model; HMM)に基づいた手法が提案されている。単語ごとに個別のHMMを構成する場合、語彙の増加に伴ってモデル数が増加するため非効率である。そのため、音素のような手話の構成素(サブユニット)を定め、それらの組合せから単語モデルを構成するアプローチが有望である。このような観点から、これまでに単語単位で学習された複数のHMMの状態パラメータを分類することで、単語間の共通要素をサブユニットとして集約する手法を提案してきた。本提案では、サブユニットの生成過程に手話の音韻構造を考慮することで、共通要素の集約を効率化する手法を提案し、手話単語の認識タスクにおける評価実験について報告する。
-
HMM歌声合成におけるパラメータ毎の話者性の反映に関する研究
大木 久徳, 酒向 慎司, 北村 正
電子情報通信学会2011年総合大会 電子情報通信学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東京都市大学 世田谷キャンパス
-
コード進行に基づくジャズベース演奏の演奏位置推定
伊藤 亘平, 酒向 慎司, 北村 正
電子情報通信学会2011年総合大会 電子情報通信学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東京都市大学 世田谷キャンパス
-
和声構造を用いたアンサンブル自動編曲
本多 翔, 酒向 慎司, 北村 正
電子情報通信学会2011年総合大会 電子情報通信学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東京都市大学 世田谷キャンパス
-
3次元データベースを用いたHMM手話認識
森口 拓哉, 酒向 慎司, 北村 正
電子情報通信学会2011年総合大会 電子情報通信学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:ポスター発表
開催地:東京都市大学 世田谷キャンパス
-
楽譜を考慮した演奏者の統計的モデル化手法-個人性と演奏傾向の比較分析-
奥村 健太, 酒向 慎司, 北村 正
日本音響学会2011年春季研究発表会 日本音響学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学 西早稲田キャンパス
-
自由対話における視聴覚特徴を用いた発話意図推定の検討
伊藤 大介, 酒向 慎司, 北村 正
日本音響学会2011年春季研究発表会 日本音響学会
開催年月日: 2011年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学 西早稲田キャンパス
-
酒向 慎司, 北村 正
電子情報通信学会第56回 福祉情報科学研究会 電子情報通信学会
開催年月日: 2011年01月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:立命館大学 びわこ・くさつキャンパス
本報告では、任意の文字列から3次元CGによる指文字アニメーションを合成するために、データグローブ等から得られたデータからその生成モデルを学習的に構成する手法と、そのアニメーション提示ソフトウエアの試作について述べる。本手法では、データグローブから得られる手形状のパラメータの系列から、手形状とその時間変化を隠れマルコフモデルによって学習し、任意の文字列から対応する手形状のパラメータを直接生成する手法である。これは、隠れマルコフモデルに基づいた音声合成の枠組みを応用したものである。これにより、自然な手指の形状変化の生成モデルを、実際の人の動作をもとに自動学習することが可能となる。実験では、902単語の指文字データから手形状や手の位置などの情報を考慮したモデルを学習し、それを組み込んだ3次元指文字CGアニメーション合成プログラムを開発した。
-
伊藤 大介, 酒向 慎司, 北村 正
第12回音声言語シンポジウム 電子情報通信学会 言語理解とコミュニケーション研究会,電子情報通信学会・日本音響学会 音声研究会,情報処理学会 音声言語情報処理研究会
開催年月日: 2010年12月
記述言語:日本語 会議種別:ポスター発表
開催地:国立オリンピック記念青少年総合センター
計算機が人の意図を理解する事で,人と機械のコミュニケーションはより円滑なものになると期待できる.我々は,意図理解を複数のクラスに分類した意図の識別問題として扱い,自由対話からの発話意図推定手法について検討してきた.連続発話から意図を推定する為には,その意図の変化のタイミングである意図境界を推定する必要がある.本稿では,意図識別に一般的に用いられる視聴覚特徴を用いて,意図の継続と変化の特徴を決定木で学習し,未知の連続発話データに対して意図境界推定を試みる.
-
個人性を考慮したGMMに基づいた音楽の印象推定モデルに関する研究
西尾 圭一郎, 酒向 慎司, 北村 正
2010年度 HCGシンポジウム 電子情報通信学会
開催年月日: 2010年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:宮崎 フェニックスシーガイアリゾート
-
パラメータ共有HMMに基づく音響信号からの自動和音認識の検討
伊藤 綾, 酒向 慎司, 北村 正
情報処理学会 第88回音楽情報科学研究会 情報処理学会
開催年月日: 2010年12月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:昭和音楽大学
本稿では,隠れマルコフモデルに基づいた自動和音認識において,和音に依存した音響特徴を精密にモデル化する試みについて報告する.観測されるクロマベクトルの系列が,該当の和音だけでなく,一連の和音連鎖に依存していると考え,単独の和音だけでなく,前後の和音に依存した詳細な環境依存の和音連鎖 HMM を考える.このようなモデルの詳細化によって,統計モデルの学習が困難になるため,クラスタリングによるモデルパラメータの共有化を行う手法を提案し,その有効性を検討する.
-
複数地点における異常検出のための環境電磁波HMM間の関係
竹本 一彦, 酒向 慎司, 北村 正, 内匠 逸
第25回信号処理シンポジウム 電子情報通信学会
開催年月日: 2010年11月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:奈良女子大学
-
有賀 光希, 酒向 慎司, 北村 正
電子情報通信学会 第55回福祉情報科学研究会 電子情報通信学会
開催年月日: 2010年10月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:幕張メッセ(CEATEC会場)
隠れマルコフモデルに基づいた手話認識において,単語を構成する手話構成素(サブユニット)の自動生成手法を提案してきた.手話の表現は,手の局所情報,位置,運動という性質の異なる要素が同時的に出現し,これらの組合せによって多様な動作を構成するとみなせる.そこで本稿では,このような手話の音韻構造に着目し,片手分のパラメータを持つ手の局所情報,位置,運動という3種のサブユニットモデルを自動生成する方法について述べる.そして,これらサブユニットの組合せにより,並行して変化する6系列(音韻3種×両手)からなる単語モデルを構築し,孤立単語認識実験によって評価を行う.
-
杉山 雄一, 酒向 慎司, 北村 正
電子情報通信学会2010年ソサイエティ大会 電子情報通信学会
開催年月日: 2010年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:大阪府立大学 中百舌鳥キャンパス
コンピュータを用いて音響信号から構成楽器とその音高を推定する技術は,音響信号からの自動採譜や聴覚情景分析など様々な分野での応用が可能となる.このため,HTCなど様々なアプローチで研究がなされている.混合音と楽器のもつ調波構造の相関により楽器と音高を推定する手法国では,調波構造の時間変化を考慮する必要があった.そこで本研究では,時間的に変化する複数の調波構造パターンを用いて推定することの有意性を示す.