MISC - 李 晃伸
-
汎用大語彙音声認識ソフトウェア入門 招待あり 査読あり
李 晃伸
システム/制御/情報 62 ( 2 ) 50 - 56 2018年02月
担当区分:筆頭著者 記述言語:日本語 掲載種別:記事・総説・解説・論説等(学術雑誌)
-
キャンパスの公共空間におけるユーザ参加型双方向音声案内デジタルサイネージシステム
大浦圭一郎, 山本大介, 内匠逸, 李晃伸, 徳田恵一
人工知能学会誌 28 ( 1 ) 60 - 67 2013年01月
記述言語:日本語 掲載種別:記事・総説・解説・論説等(国際会議プロシーディングズ) 出版者・発行元:人工知能学会
-
10年間の長期運用を支えた音声情報案内システム「たけまるくん」の技術
西村竜一, 原直, 川波弘道, 李晃伸, 鹿野清宏
人工知能学会誌 28 ( 1 ) 52 - 59 2013年01月
記述言語:日本語 掲載種別:記事・総説・解説・論説等(国際会議プロシーディングズ) 出版者・発行元:人工知能学会
-
魅力ある音声インタラクションシステムを構築するためのオープンソースツールキットMMDAgent
李 晃伸, 大浦 圭一郎, 徳田 恵一
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 111 ( 364 ) 159 - 164 2011年12月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
音声特有の生き生きとしたインタラクティブ感のあるやりとりは,音声インタフェースの主要な魅力のひとつである.この音声インタフェースの有効性を引き出すには,タスク達成型の対話の研究に加えて,人を惹きつける魅力を持つ音声対話システムの成り立ちについて分析し,様々な実証実験を通じてそれを成立させる技術的な諸要素を明らかにしていくことが必要である.我々は,ユーザが多様な音声対話システムおよび音声インタフェースを自由に構築可能なオープンソースツールキットMMDAgentを構築した.本ツールキットは音声認識部にJulius,音声合成部にOpen JTalkを用い,表現力豊かな3-DCGエージェントを表示可能な3-DCG描画部を密統合している.動的なモーションの重ね合わせ,発話スタイル正規化学習を用いた音声合成,粒度の細かいイベント処理などが可能である.インターフェースとライセンスは高いオープン性とポータビリティ性を意識して設計されている.
-
音声対話システムのためのキーワードの共起制約に基づくスポッティングアルゴリズムの評価 (音声言語情報処理(SLP) Vol.2010-SLP-84)
加藤 杏樹, 南角 吉彦, 李 晃伸
情報処理学会研究報告 2010 ( 5 ) 1 - 6 2011年02月
-
音声認識ソフトウェアJulius
河原 達也, 李 晃伸
人工知能学会全国大会論文集 25 1 - 9 2011年
-
音声対話システムのためのキーワードの共起制約に基づくスポッティングアルゴリズムの評価
加藤 杏樹, 南角 吉彦, 李 晃伸, 徳田 恵一
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 110 ( 356 ) 25 - 30 2010年12月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
質問応答型の音声対話システムにおいて,ユーザ発語中のキーワードに基づいて応答を選択する場合,入力音声全体をデコードするよりも重要語であるキーワードのみを抽出することで頑健な発話理解が期待できる.また,発話の意図は複数のキーワードの組み合わせで表わされるとすると,それをセット単位で抽出することが望ましい.本研究では,音声対話システムのための複数キーワードのスポッティングアルゴリズムについて,大語彙ガーベージモデルを用いて,探索中にキーワード間にセットの共起制約を直接適用するアルゴリズムを提案する.制約を探索中に動的に適用することで,効率よく制約を与えることができ,頑健なキーワードセットの抽出が可能になると期待できる.この手法を大語彙音声認識エンジンJuliusの第1パスおよび第2パスの両方に実装した.認識実験により,スポッティングは従来のディクテーションを使用した手法に比べてキーワードの抽出性能が向上したことを確認した.また,探索中にキーワード制約を与えないスポッティングよりも制約を与えたスポッティングは相対で最大約12.5%キーワード抽出性能が向上した.本稿では,150キーワードの小規模タスク,およびたけまるくんのタスクにおける評価結果について報告する.
-
連続単語認識における認識結果の逐次早期確定アルゴリズムの評価
大野 博之, 小島 弘, 南角 吉彦, 李 晃伸, 徳田 恵一
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 110 ( 356 ) 77 - 82 2010年12月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
音声認識システムにおいて,ユーザの入力発話に対する応答の遅延は入力インターフェースとして重要な課題である.遅延を軽減しユーザに早期のフィードバックを行う方法として,これまでに,仮説を部分的に確定していくことで逐次的に結果を出力する仮説早期確定手法などが提案されてきた.我々は音声システムにおけるさらに高速,低遅延な応答速度の実現を目指し,これまでに,孤立単語認識を対象として仮説ネットワーク(木構造化辞書)の構造および認識処理中のフレームごとの状態尤度を用いて,入力の途中で探索を打ち切り発話終了よりも前に仮説を確定する手法を提案してきた.本稿では,この手法を連続単語認識へと拡張した手法を提案する.評価実験では,14単語の小規模な連続発声タスクにおいて,各単語の発話終了よりも平均約0.053秒前に,認識精度を劣化させることなく各仮説の確定ができた.8738単語の駅名の連続発声タスクにおいては,各単語の発話終了から平均約0.48秒の遅延で,各仮説の確定ができた.また,音響モデルの規模による比較を行った結果も報告する.
-
ユーザ生成型音声対話コンテンツを用いた音声情報案内システム
福田 敏則, 吉見 孔孝, 南角 吉彦, 李 晃伸, 徳田 恵一
電子情報通信学会技術研究報告. SP, 音声 109 ( 356 ) 207 - 212 2009年12月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
一般の音声対話システムでは,システム設計者は想定されるユーザ発話に対する対話内容や応答内容をあらかじめ作りこむ必要がある.一方,近年Web上でWikipediaなどのユーザ生成型コンテンツが注目を集めている.本研究では質問応答を行う一問一答形式の音声情報案内システムにおいて,ユーザが対話コンテンツの登録や評価を自由に行うことができるシステムを構築した.ユーザは複数の質問キーワードおよび1つの応答文を対話コンテンツとして登録することができる.登録は携帯電話やPCを用いてWeb上で行い,登録された内容は即座にシステムに反映される.システムの応答後はユーザに評価画面を提示し,応答内容の評価を行うことができる.応答選択時には過去のユーザ評価に基づいたスコアリングを行うことにより,ユーザ評価はシステムにフィードバックされる.本システムは実環境において1ヶ月間の運用を行い,ユーザの利用状況を集計した.その結果,ユーザからの登録によって質問キーワードおよび応答の増加が見られ,自発的で多様な応答の登録が見られたことから,ユーザ生成型音声対話コンテンツの可能性が示唆された.
-
音声認識のための非線形スペクトル変換を用いた話者適応
林 豊大, 南角 吉彦, 李 晃伸, 徳田 恵一
電子情報通信学会技術研究報告. SP, 音声 109 ( 356 ) 1 - 6 2009年12月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
音声認識では,モデル学習で使用した話者に対して音声の特徴が大きく外れている話者の認識精度が低下してしまう問題がある.この問題を解決するため,MLLR等の話者適応手法が用いられている.MLLR法では,回帰行列を少量の適応データから学習し,モデルパラメータを線形変換して適応を行う.このとき回帰行列はHMMの状態を分類した回帰クラス毎に与えられるが,各状態に対しては線形な変換しか表現できなかった.そこで本研究では,非線形な変換が可能なGMMに基づくスペクトル変換法を話者適応に用いることを提案する.提案法ではスペクトル変換用のGMMと認識用のHMMを統合した新しい尤度関数を定義し,尤度最大化基準により話者適応を行う.音素認識実験の結果,その有効性を確認した.
-
複数の特徴量による条件付確率場に基づく音声区間検出
斎藤 彰, 南角 吉彦, 李 晃伸, 徳田 恵一
電子情報通信学会技術研究報告. SP, 音声 109 ( 356 ) 59 - 64 2009年12月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
実環境下での音声認識では,認識性能の向上のために音声区間検出(Vbice Activity Detection; VAD)が用いられる.しかし従来用いられている手法では,雑音環境に依存してしまい安定して高い区間検出正解率が得られていない.そこで本研究ではあらゆる雑音環境で頑健なVADを実現するために,複数の特徴量を柔軟に扱うことのできる条件付確率場を用いたVADを提案する.提案手法では特徴量であるGMM対数尤度,振幅,基本周波数,零交差数,GMM事後確率を入力,音声/非音声ラベルを出力として入力と出力の関係を素性関数を用いて表現する.素性関数にかかる重みを学習により適切に割り振ることで,音声/非音声状態において状態遷移パターンごとに有効な特徴量に大きな重みを与えることができるためVADの精度の向上が期待できる.CENSREC-1-C実環境下音声データによる評価実験において,提案法の有効性を確認した.
-
音声対話システムのためのN-gramに基づくキーワードからの文生成
吉見 孔孝, 南角 吉彦, 李 晃伸, 徳田 恵一
電子情報通信学会技術研究報告. SP, 音声 109 ( 356 ) 71 - 76 2009年12月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
質問と応答の対応を文対文で統計的にモデル化する音声対話システムにおいては,学習のために大量の質問文と応答文のペアが必要である.しかし,質問文データを用意するためにユーザの実際の発話を収集・書き起こしするのはコストが高く,人手で可能な質問文のバリエーションを考えて収集するのも経験と労力を要する.本研究では,この統計的応答選択システムのための質問文をキーワードから自動生成する手法を提案する.文に含まれるべきキーワードが複数与えられたとき,それらのキーワード間の区間および両端に出現しうる尤度上位の単語列をN-gram確率に基づいて探索し,区間ごとに得られた単語列を結合・再評価を行い,最終的にデータベースに与える文を選び出す.音声情報案内タスクの音声対話システムにおいて実験した結果,入力に音声認識結果を用いるときに,応答をキーワードと直接対応付ける場合に59.6%の応答正解率であったのが,そのキーワードから生成した文と対応付ける本手法を用いることで65.1%に改善された.さらに,タスク非依存の一般的なN-gramを使用した場合も,同様に性能の改善が見られた.生成する文数や,単語列探索時のビーム幅などの様々なパラメータによる性能の変化についても報告する.
-
音声認識のデコーダと認識エンジン
李晃伸
日本音響学会誌 66 ( 1 ) 28 - 31 2009年12月
担当区分:筆頭著者 記述言語:日本語 掲載種別:記事・総説・解説・論説等(国際会議プロシーディングズ) 出版者・発行元:日本音響学会
-
Juliusを用いた音声認識インタフェースの作成
李晃伸, 河原達也
ヒューマンインタフェース学会誌 11 ( 1 ) 31 - 38 2009年02月
担当区分:筆頭著者 記述言語:日本語 掲載種別:記事・総説・解説・論説等(国際会議プロシーディングズ) 出版者・発行元:ヒューマンインタフェース学会
-
大語彙連続音声認識エンジンJulius
李晃伸
電子情報通信学会情報・システムソサイエティ誌 13 ( 4 ) 2009年02月
-
信頼度基準による解探索打ち切りに基づく超早音声認識
小島 弘, 南角 吉彦, 李 晃伸, 徳田 恵一
電子情報通信学会技術研究報告. SP, 音声 108 ( 422 ) 13 - 18 2009年01月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
現在の音声認識を用いたインターフェースの問題の1つに,ボタンなどのグラフィカルインターフェースに比べて入力に対する反応速度が遅くなりがちで,フィードバックも少ないことが挙げられる.これまでに,部分文仮説の尤度等を利用して発話区間の終端(無声区間の出現)を早く検出する手法や,仮説を部分的に確定していくことで逐次的に結果を出力する仮説早期確定手法などが研究されてきた.本研究では,単語認識を対象として,仮説ネットワーク(木構造化辞書)の構造および認識処理中のフレームごとの状態尤度より,入力の途中で仮説を事前確定する手法を提案する.具体的には,木構造化辞書において単語間で共有されておらず,単語末端までのパスが一意に確定できるノードをあらかじめ抽出しておき,認識時にはそれらの単語中のノードの尤度から,末端に至っていない単語についても信頼度を算出する.音声区間終了判定は,ある単語の信頼度の閾値,およびその単語が持続して最尤となる持続フレーム数で行う.評価実験では,メディアプレイヤー操作タスクを想定して,語彙数38の単語辞書について6名の話者が発声228単語発話(平均発話長1.12秒)に対して実験を行った.その結果,提案法は,認識精度を保ったまま,切り出し末尾の無音区間を取り除いた真の発話終端よりもさらに平均で0.3秒遡って仮説を確定できることが示された.
-
HMM音声合成における共分散パラメータの共有に関する検討
大浦 圭一郎, 全 炳河, 南角 吉彦, 李 晃伸, 徳田 恵一
電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 108 ( 337 ) 215 - 220 2008年12月
記述言語:日本語 出版者・発行元:一般社団法人電子情報通信学会
本報告では隠れマルコフモデル(Hidden Markov Model; HMM)に基づく音声合成システムにおける共分散パラメータの共有について述べる.近年,音声合成システムへの需要が高まっており,HMMに基づいた音声合成システムでは音声波形の断片をそのまま利用するのではなく,音声波形の特徴をHMMによりモデル化し,HMMのモデルパラメータを合成システムに保持するため,同程度の音質の波形接続法式に比べてフットプリントが小さい利点がある.中でも組み込み向けのシステムには携帯電話,PDA,カーナビ,情報家電,ゲーム機等への用途があるが,必要なCPU,メモリ等が制限されることが多く,更なるフットプリントの縮小が必要である.HMMに基づく音声合成システムにコンテキスト依存モデルを用いることで高精度な音響モデルを構築することができ,決定木に基づくコンテキストクラスタリングを用いて状態共有構造を構築する際に,組み込み用途向けに決定木のサイズを小さくすることも考えられるが,音質が劣化する.本報告では,平均に比べて共分散が音質に与える影響が小さいことに注目し,全てのパラメータの共分散を共有する手法を提案する.このパラメータ共有を仮定した上でのコンテキストクラスタリングを行い,主観評価実験により,パラメータ数を大幅に削減するのみならず,若干の品質改善を達成した.
-
11.人にやさしい音声インタフェース(第2部:情報の高信頼蓄積・検索技術等の開発,<特集>学と産の連携による基盤ソフトウェアの先進的開発) 招待あり
鹿野 清宏, 河原 達也, 猿渡 洋, 武田 一哉, 河原 英紀, 徳田 恵一, 西浦 敬信, 李 晃伸
情報処理 49 ( 11 ) 1297 - 1301 2008年11月
-
学と産の連携による基盤ソフトウェアの先進的開発{第2部}情報の高信頼蓄積・検索技術等の開発 11.人にやさしい音声インタフェース 招待あり
鹿野清宏, 河原達也, 猿渡洋, 武田一哉, 河原英紀, 徳田恵一, 西浦敬信, 李晃伸
情報処理 49 ( 11 ) 1297 - 1301 2008年11月
-
音声対話技術コンソーシアム (ISTC) の活動成果報告
山下 洋一, 李晃伸, 河原 達也, 四倉 達夫, 西本 卓也, 桂田 浩一, 新田 恒雄
情報処理学会研究報告音声言語情報処理(SLP) 2008 ( 102 ) 47 - 52 2008年10月
記述言語:日本語 出版者・発行元:一般社団法人情報処理学会
音声対話技術コンソーシアム (ISTC) では,音声対話システムにおけるインタフェース部を容易に構築できるようにするために,音声認識,音声合成,顔画像合成,対話制御の要素技術から構成されるツールキットの開発を進めてきた.本報告では,各要素技術における機能を中心に,ISTC のこれまでの成果を紹介する.The Interactive Speech Technology Consortium (ISTC) has been developing a toolkit which is composed of four fundamental modules of speech recognition, speech synthesis, face synthesis, and dialog control, in order to facilitate realizing interface for spoken dialog systems with an anthropomorphic agent. This report describes the outcome of ISTC focusing the function of each module.