MISC - 李 晃伸
-
母音区間情報を用いた実時間ケプストラム平均正規化(CMN)の検討(特徴量, 区間検出)
追立 真吾, 李 晃伸, 猿渡 洋, 鹿野 清宏
電子情報通信学会技術研究報告. SP, 音声 105 ( 133 ) 7 - 12 2005年06月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
話者, 空間, 収録機器等の違いに起因する周波数特性の乗法性ひずみを正規化する手法としてケプストラム平均正規化(CMN)が広く用いられている.公共の音声認識システムでは, 空間や収録機器の特性が急激な変化をすることは少ないので, CMNは主に話者正規化の効果を果たす.よって, ケプストラム平均(CM)には話者性の影響が大きく表れる.各フレーム毎においては, この話者性は母音区間によく表れる.母音区間は短い発話にも含まれており, 一般に雑音にも頑健であるので, 母音区間情報を用いることで短時間の発話からでも効果的にCMが推定できると考えられる.本報告では, 認識処理過程で得られる最尤状態系列から母音区間を検出し, コードブックを用いてCMを推定することで実時間処理可能なCMNを提案する.従来手法のCMNを用いて得られる認識結果を最尤状態系列と仮定することで, 音声対話情報案内システム「たけまるくん」により収集した実環境データを用いて実験を行った.その結果, 発話単位でCMを算出するCMNに比べて, 提案法では実時間処理が可能であるにもかかわらず, 単語認識精度で0.26%〜1.14%の向上が得られることを確認した.また, 代表的な従来の実時間処理CMNと比較しても, 提案法が優位であることが分かった.
-
AS-4-4 実環境下における多段独立成分分析の音声認識評価(AS-4. 多チャンネル音響信号処理, 基礎・境界)
西川 剛樹, 猿渡 洋, 李 晃伸, 鹿野 清宏, 斎藤 大介, 神沼 充伸
電子情報通信学会総合大会講演論文集 2005 "S - 67"-"S-68" 2005年03月
-
信頼度基準デコーディングを用いた高効率な単語グラフ生成法
李 晃伸, 河原 達也, 鹿野 清宏
情報処理学会研究報告音声言語情報処理(SLP) 2005 ( 12 ) 71 - 76 2005年02月
記述言語:日本語 出版者・発行元:一般社団法人情報処理学会
音声認識結果の単語集合をグラフ形式で表現する方法が広く用いられている.本報告では,2パストリートレリスデコーダーにおいてオンラインで得られる単語信頼度を用いて単語グラフを効率よく生成する手法を提案する.後段パスのスタックデコーディング中に,(1)同一箇所に現れる同一単語候補をマージすることで検索中に動的に単語グラフを生成し,(2)これまでに得られた仮説パスと重複する部分文仮説の探索を中断する.さらに,(3)探索中に得られる単語信頼度に基づく枝刈りにより,信頼度の低い単語の展開を抑制する.これらの手法により,不要な探索を抑えて効率よく単語グラフを生成する.認識実験の結果,グラフの動的生成によりN-best候補に比べてより少ない計算量で多くの単語仮説を残すことができ,最小のGERを改善できることが示された.信頼度による枝刈りは一定の効果が確認できたが,探索中の信頼度を用いることによる信頼度値の不安定さの影響が大きいことが分かった.An efficient search algorithm to generate word graph on tree-trellis decoder using search-time confidence score is investigated. In the 2nd pass of tree-trellis search, the stack decoding is modified to fixate word candidates on-the fly in order to generate word graph dynamically by merging paths by sharing same words at the same frame. The hypotihent will be terminated if the last word has already been in the current partial word graph and expanded so far. Furthermore, a word puruning by confidence score is applied at word expansion to suppress unpromissing words to appear. Experimental results show that the proposed method can generate a word graph faster than using N-best sentence list, and also can generate more word graphs to improve minimal GER. Pruning by confidence score showed a certain effect to reduce the number of word expansion, but has little effect on the total search time due to the unstableness of the searchtime confidence scoring especially for a short words.
-
連続音声認識ソフトウェアJulius(<特集>研究のツールボックス(2))
河原 達也, 李 晃伸, Tatsuya Kawahara, Akinobu Lee, 京都大学学術情報メディアセンター, Kyoto University Academic Center and Media Studies, Nara Institute of Science and Technology School of Information Science
人工知能学会誌 = Journal of Japanese Society for Artificial Intelligence 20 ( 1 ) 41 - 49 2005年01月
記述言語:日本語 出版者・発行元:人工知能学会
その他リンク: http://hdl.handle.net/10061/7801
-
Rapid unsupervised speaker adaptation based on multi-template HMM sufficient statistics in noisy environments. 査読あり
Randy Gomez, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano
INTERSPEECH 2005 - Eurospeech, 9th European Conference on Speech Communication and Technology, Lisbon, Portugal, September 4-8, 2005 293 - 296 2005年
-
Noise-robust hands-free speech recognition based on spatial subtraction array and known noise superimposition. 査読あり
Yasuaki Ohashi, Tsuyoki Nishikawa, Hiroshi Saruwatari, Akinobu Lee, Kiyohiro Shikano
2005 IEEE/RSJ International Conference on Intelligent Robots and Systems, Edmonton, Alberta, Canada, August 2-6, 2005 2328 - 2332 2005年
-
子供音声認識のための音響モデルの構築および適応手法の評価(ポスターセッション)(第6回音声言語シンポジウム)
鮫島 充, 李 晃伸, 猿渡 洋, 鹿野 清宏
情報処理学会研究報告. SLP, 音声言語情報処理 2004 ( 131 ) 199 - 204 2004年12月
記述言語:日本語 出版者・発行元:一般社団法人情報処理学会
子供音声は自由な発話形式のものが多く,既存の読み上げ音声コーパスでは対応が難しい.また一般に子供音声の収録には多大な労力やコストがかかるため,整った音声コーパスを作成することも難しい.本研究では,音声情報案内システムにおいて自動収集した子供の音声に基づく音響モデルの作成および認識性能の評価を行った.また,自動収集した子供音声に対する自動話者クラスタリングを提案し,それを用いた十分統計量に基づく教師なし話者適応を行った.収集した子供音声から作成した音響モデルにより,年齢層ごとに幼児53.6%,低学年子供82.1%,高学年子供77.6%の認識性能が得られ,既存のモデルに比べ大幅に認識性能の改善が得られた.また提案した自動話者クラスタリングとそれを用いた十分統計量に基づく教師なし話者適応の結果,子供用不特定話者モデルに対して一定の認識性能の改善が得られ,年齢層ごとのMAP適応モデルよりも高い認識性能が得られたことを示す.
-
子供音声認識のための音響モデルの構築および適応手法の評価(ポスターセッション)(第6回音声言語シンポジウム)
鮫島 充, 李 晃伸, 猿渡 洋, 鹿野 清宏
電子情報通信学会技術研究報告. SP, 音声 104 ( 542 ) 109 - 114 2004年12月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
子供音声は自由な発話形式のものが多く,既存の読み上げ音声コーパスでは対応が難しい.また一般に子供音声の収録には多大な労力やコストがかかるため,整った音声コーパスを作成することや難しい.本研究では,音声情報案内システムにおいて自動収集した子供の音声に基づく音響モデルの作成および認識性能の評価を行った.また,自動収集した子供音声に対する自動話者クラスタリングを提案し,それを用いた十分統計量に基づく教師なし話者適応を行った.収集した子供音声から作成した音響モデルにより,年齢層ごとに幼児53.6%,低学年子供82.1%,高学年子供77.6%の認識性能が得られ,既存のモデルに比べ大幅に認識性能の改善が得られた.また提案した自動話者クラスタリングとそれを用いた十分統計量に基づく教師なし話者適応の結果,子供用不特定話者モデルに対して一定の認識性能の改善が得られ,年齢層ごとのMAP適応モデルよりも高い認識性能が得られたことを示す.
-
公共音声情報案内システム「たけまるくん」の運用 および収集発話の分析
李晃伸, 山田 真士, 西村 竜一, 鹿野 清宏
情報処理学会研究報告音声言語情報処理(SLP) 2004 ( 103 ) 49 - 54 2004年10月
記述言語:日本語 出版者・発行元:一般社団法人情報処理学会
機械に対するユーザの自然な実発話の収集と統計的な分析のために,我々は音声情報案内エージェントシステム「たけまるくん」を公共施設に設置し,2004年5月までの19ヶ月間で約17万発話を収集・整備した.本稿では現在のシステム構成,収集データの分析結果および雑音・不要音棄却実験の結果を報告する.全体のおよそ 30%が雑音などの非音声入力であった.音声入力のうち81%が有効発話であり,残りは背景会話・無意味な発声・不明瞭で聞き取れない発声・発話断片・オーバフローなどの応答不能な無効発話であった.これらの無効発話に対して,入力長とGMMに基づく雑音・不要音棄却の性能を評価した.1か月分8 248個のデータで実験した結果,雑音・息・咳・笑い声などの非音声入力は99%棄却でき,叫び声や遠隔で発声された背景会話もある程度棄却できることが分かった.一方で,発話断片やドメイン外発話については音響的特徴からの弁別は難しかった.In order to collect user's actual utterances to a speech dialogue system on real situation, we have located a speech-oriented information guidance system called ``Tekemaru-kun'' at a public civil hall, and collected 177,789 inputs via 19 months' operation. This paper will report the current system architecture, details of collected data and experimental results of invalid input rejection. As a result, non-voice (noise) inputs occupies about 30% of total input, and 81% of voice inputs are valid inputs. The rests are invalid voice inputs that includes background speech, incomprehensible voice, obscure speech, fragmented speech, level overflow and so on. Rejection of those invalid inputs has been examined based on input length threshold and GMM-based identification. Experiments on 8,248 inputs of one month showed that almost all of noise and non-verbal inputs such as breath, coughing and laughter can be rejected successfully, and distant background speech and shouts were also discriminative, whereas out-of-domain utterance, obscure speech and fragments cannot be detected only by the acoustic property.
-
実環境研究プラットホームとしての音声情報案内システムの運用(音声,聴覚)
西村 竜一, 西原 洋平, 鶴身 玲典, 李 晃伸, 猿渡 洋, 鹿野 清宏
電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 87 ( 3 ) 789 - 798 2004年03月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
実環境下での音声インタフェースの研究プラットホームとして,生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムは,大語彙連続音声認識を基礎とする一問一答形式の音声インタフェースをもち,同センターや生駒市に関する受付案内を可能とする.システムはセンターのエントランスに常設され,開館時は誰でも自由にエージェントとのコミュニケーションを楽しむことができる.ユーザとシステムとのインタラクションの観察を目的とした5か月間にわたる本システムのフィールドテストを実施し,ユーザによる発話ログの収集を行った.本論文では,はじめに音声インタフェース部を中心に本システムの構成について説明する.フィールドテストの結果,男女幅広い年齢層のユーザによる発話を含む約1,362分の音声データを収集した.その分析の結果から,大人と子供で発話内容の傾向に違いはあるが,本システムは有効に利用されていることを示す.実験では,実際のユーザ発話によるベースラインの認識性能の評価を行い,大人に対して86%の単語認識率と76%の応答正解率を得ることができた.しかし,子供のユーザに対する精度が十分でないなど,音声インタフェースの実用化に向けて多くの課題が残されていることを確認した.
-
実環境音声情報案内システムにおける環境雑音及び不要発話の識別
中村 敬介, 西村 竜一, 李 晃伸, 猿渡 洋, 鹿野 清宏
電子情報通信学会技術研究報告. SP, 音声 103 ( 632 ) 13 - 18 2004年01月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
実環境における音声インタフェースでは笑い声や咳などのユーザが意図しない入力や周囲の雑音による誤入力,あるいは笑い声などの通常の発話と区別すべき入力が多く存在する.本研究では,音声/雑音,および通常発話/不要音を識別する頑健な音声対話システムを目指し,そのためのGaussian Mixture Model(GMM)を用いた環境雑音および不要発話の識別法およびその効果について報告する.生駒市北コミュニティセンターの公共音声情報案内システム「たけまるくん」におけるフィールドテストで収集したユーザ発話を複数のクラスに分類し,それぞれの音響的特徴をGMMに学習させて音声識別実験を行ったところ,各クラスごとでの識別率は128混合GMMで平均80.6%,音声/非音声の識別率は96.3%を達成し,GMMによる識別が可能であることが確認できた.音声/非音声の識別においても,2クラスのGMMよりも雑音の種別ごとにGMMを用いるほうが高い識別性能を示した.また,Cepstral Mean Subtraction(CMS)を行わないことで,クラスごとの識別性能を平均3.2%向上できることを確認した.
-
Audible (normal) speech and inaudible murmur recognition using NAM microphone. 査読あり
Panikos Heracleous, Yoshitaka Nakajima, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano
2004 12th European Signal Processing Conference, Vienna, Austria, September 6-10, 2004 329 - 332 2004年
-
Robust speech recognition with spectral subtraction in low SNR. 査読あり
Randy Gomez, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano
INTERSPEECH 2004 - ICSLP, 8th International Conference on Spoken Language Processing, Jeju Island, Korea, October 4-8, 2004 2004年
-
Noise robust real world spoken dialogue system using GMM based rejection of unintended inputs. 査読あり
Akinobu Lee, Keisuke Nakamura, Ryuichi Nisimura, Hiroshi Saruwatari, Kiyohiro Shikano
INTERSPEECH 2004 - ICSLP, 8th International Conference on Spoken Language Processing, Jeju Island, Korea, October 4-8, 2004 2004年
-
Non-audible murmur (NAM) speech recognition using a stethoscopic NAM microphone. 査読あり
Panikos Heracleous, Yoshitaka Nakajima, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano
INTERSPEECH 2004 - ICSLP, 8th International Conference on Spoken Language Processing, Jeju Island, Korea, October 4-8, 2004 2004年
-
Public speech-oriented guidance system with adult and child discrimination capability. 査読あり
Ryuichi Nisimura, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano
2004 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2004, Montreal, Quebec, Canada, May 17-21, 2004 433 - 436 2004年
-
大人・子供に適応した音声情報案内のためのユーザ自動識別(ポスターセッション)(第5回音声言語シンポジウム)
西村 竜一, 中村 敬介, 李 晃伸, 猿渡 洋, 鹿野 清宏
情報処理学会研究報告. SLP, 音声言語情報処理 2003 ( 124 ) 97 - 102 2003年12月
記述言語:日本語 出版者・発行元:一般社団法人情報処理学会
本報告では,音声インタフェースにおけるユーザ年齢層に応じた柔軟な対語処理の実現を目指して,話者の大人・子供識別手法を検討する.これまでの大人ユーザをターゲットとする音声認識では子供発話の認識は困難であった.しかし,家庭や公共施設への音声インタフェースの導入を考えると子供の存在は無視できない.子供発話を扱うための音声認識と音声インタフェースの改良が求められる.提案手法では,大人・子供に適応した音声情報案内の実装に必要な話者識別手段として,音声認識結果の対数尤度から求める音響的特徴と言語的特徴を併用した統計学習に基づく識別手法を実装する.二値分類アルゴリズムであるSVM (Support Vector Machine)を識別に用いた実験では91.8%の識別率を得た.これは音響的特徴のみを含むGMM (Gaussian Mixture Model)の尤度比較を使った識別結果から5.4%の識別率改善である.本研究ではフィールドテストをすすめている生駒市コミュニティセンターの音声情報案内システム「たけまるくん」をプラットホームとしており,実験にはそのフィールドテスト収集発話を用いた.また,子供収集発話を音声認識モデル構築に含めることで子供認識精度の向上を試みており,その結果も報告する.
-
2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法
李 晃伸, 河原 達也, 鹿野 清宏
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 103 ( 518 ) 35 - 40 2003年12月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
音声認識システムにおいて,認識結果に対して事後確率などを用いて信頼度を付与することで,発話検証や対話管理などの音声アプリケーションにおいて認識誤りを考慮したより高度な処理を行うことができる.この単語の事後確率を用いた信頼度算出では,通常,認識処理(デコーディング)の結果得られた仮説群のゆう度をもとに計算されるが,十分な精度の確信度を得るためにはN-best候補で数百以上の大量の文仮説を求める必要があり,多くの計算量を必要とする.本研究では,2パストリートレリス探索に基づくテコーディングにおいて,探索中に得られる部分文仮説の尤度から単語の信頼度を簡易かつ高速に算出するアルゴリズムを提案する.後段パスのスタックデコーディングにおける単語仮説展開時に,その次単語仮説の集合およびそれぞれから展開される新たな仮説のヒューリスティックを含む尤度から,その展開単語の事後確率を計算する.通常のデコーディング処理に対して極めて少ない計算量で信頼度を計算できる.認識エンジンJuliusにおいて,N-best候補から事後確率を算出する従来手法との比較を行った結果,提案手法は大量のN-best候補を求める必要がないことから認識処理全体を非常に高速に行え,また信頼度の精度も,簡易な計算法ながらN-best候補を用いる手法と同等以上の信頼度を算出できることが示された.
-
擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(第5回音声言語シンポジウム : プロジェクト紹介(2))
嵯峨山 茂樹, 伊藤 克亘, 宇津呂 武仁, 甲斐 充彦, 小林 隆夫, 下平 博, 伝 康晴, 徳田 恵一, 中村 哲, 西本 卓也, 新田 恒雄, 広瀬 啓吉, 峯松 信明, 森島 繁生, 山下 洋一, 山田 篤, 李 晃伸
電子情報通信学会技術研究報告. SP, 音声 103 ( 520 ) 73 - 78 2003年12月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
擬人化音声対話エージェントのツールキット"Galatea"の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.
-
連続音声認識コンソーシアムの活動報告及び最終版ソフトウエアの概要(第5回音声言語シンポジウム : プロジェクト紹介(2))
河原達也, 武田一哉, 伊藤克亘, 李晃伸, 鹿野清宏, 山田篤
電子情報通信学会技術研究報告. SP, 音声 103 ( 520 ) 79 - 84 2003年12月
記述言語:日本語 出版者・発行元:社団法人電子情報通信学会
連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会音声言語情報処理研究会のもとで2000年度から2002年度まで(2003年9月まで)活動を行ってきた。本稿では、この活動の報告を行うとともに、このたび編集した最終版ソフトウェアの概要を述べる。本プロジェクトでは、大語彙連続音声認識エンジンJuliusの機能拡張とWindows SAPI対応を行うとともに、非常に大規模なデータベースを用いた高精度な音響モデル・言語モデルの構築を行った。また音響モデルについては、多様な話者層(高齢者・小児)や入力環境(電話・車内環境など)に対応したモデルを整備した。