MISC - 李 晃伸

分割表示 >> /  全件表示  103 件中 1 - 103 件目
  • 汎用大語彙音声認識ソフトウェア入門 招待あり 査読あり

    李 晃伸

    システム/制御/情報   62 ( 2 )   50 - 56   2018年02月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:記事・総説・解説・論説等(学術雑誌)  

    DOI: https://doi.org/10.11509/isciesci.62.2_50

    CiNii Articles

    researchmap

  • キャンパスの公共空間におけるユーザ参加型双方向音声案内デジタルサイネージシステム

    大浦圭一郎, 山本大介, 内匠逸, 李晃伸, 徳田恵一

    人工知能学会誌   28 ( 1 )   60 - 67   2013年01月

     詳細を見る

    記述言語:日本語   掲載種別:記事・総説・解説・論説等(国際会議プロシーディングズ)   出版者・発行元:人工知能学会  

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1004/00008160/

  • 10年間の長期運用を支えた音声情報案内システム「たけまるくん」の技術

    西村竜一, 原直, 川波弘道, 李晃伸, 鹿野清宏

    人工知能学会誌   28 ( 1 )   52 - 59   2013年01月

     詳細を見る

    記述言語:日本語   掲載種別:記事・総説・解説・論説等(国際会議プロシーディングズ)   出版者・発行元:人工知能学会  

    DOI: 10.11517/jjsai.28.1_52

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1004/00008159/

  • 魅力ある音声インタラクションシステムを構築するためのオープンソースツールキットMMDAgent

    李 晃伸, 大浦 圭一郎, 徳田 恵一

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   111 ( 364 )   159 - 164   2011年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    音声特有の生き生きとしたインタラクティブ感のあるやりとりは,音声インタフェースの主要な魅力のひとつである.この音声インタフェースの有効性を引き出すには,タスク達成型の対話の研究に加えて,人を惹きつける魅力を持つ音声対話システムの成り立ちについて分析し,様々な実証実験を通じてそれを成立させる技術的な諸要素を明らかにしていくことが必要である.我々は,ユーザが多様な音声対話システムおよび音声インタフェースを自由に構築可能なオープンソースツールキットMMDAgentを構築した.本ツールキットは音声認識部にJulius,音声合成部にOpen JTalkを用い,表現力豊かな3-DCGエージェントを表示可能な3-DCG描画部を密統合している.動的なモーションの重ね合わせ,発話スタイル正規化学習を用いた音声合成,粒度の細かいイベント処理などが可能である.インターフェースとライセンスは高いオープン性とポータビリティ性を意識して設計されている.

    CiNii Articles

    CiNii Books

    researchmap

  • 音声対話システムのためのキーワードの共起制約に基づくスポッティングアルゴリズムの評価 (音声言語情報処理(SLP) Vol.2010-SLP-84)

    加藤 杏樹, 南角 吉彦, 李 晃伸

    情報処理学会研究報告   2010 ( 5 )   1 - 6   2011年02月

     詳細を見る

    記述言語:日本語   出版者・発行元:情報処理学会  

    CiNii Articles

    researchmap

  • 音声認識ソフトウェアJulius

    河原 達也, 李 晃伸

    人工知能学会全国大会論文集   25   1 - 9   2011年

     詳細を見る

    記述言語:日本語   出版者・発行元:人工知能学会  

    CiNii Articles

    CiNii Books

    researchmap

  • 音声対話システムのためのキーワードの共起制約に基づくスポッティングアルゴリズムの評価

    加藤 杏樹, 南角 吉彦, 李 晃伸, 徳田 恵一

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   110 ( 356 )   25 - 30   2010年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    質問応答型の音声対話システムにおいて,ユーザ発語中のキーワードに基づいて応答を選択する場合,入力音声全体をデコードするよりも重要語であるキーワードのみを抽出することで頑健な発話理解が期待できる.また,発話の意図は複数のキーワードの組み合わせで表わされるとすると,それをセット単位で抽出することが望ましい.本研究では,音声対話システムのための複数キーワードのスポッティングアルゴリズムについて,大語彙ガーベージモデルを用いて,探索中にキーワード間にセットの共起制約を直接適用するアルゴリズムを提案する.制約を探索中に動的に適用することで,効率よく制約を与えることができ,頑健なキーワードセットの抽出が可能になると期待できる.この手法を大語彙音声認識エンジンJuliusの第1パスおよび第2パスの両方に実装した.認識実験により,スポッティングは従来のディクテーションを使用した手法に比べてキーワードの抽出性能が向上したことを確認した.また,探索中にキーワード制約を与えないスポッティングよりも制約を与えたスポッティングは相対で最大約12.5%キーワード抽出性能が向上した.本稿では,150キーワードの小規模タスク,およびたけまるくんのタスクにおける評価結果について報告する.

    CiNii Articles

    CiNii Books

    researchmap

  • 連続単語認識における認識結果の逐次早期確定アルゴリズムの評価

    大野 博之, 小島 弘, 南角 吉彦, 李 晃伸, 徳田 恵一

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   110 ( 356 )   77 - 82   2010年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    音声認識システムにおいて,ユーザの入力発話に対する応答の遅延は入力インターフェースとして重要な課題である.遅延を軽減しユーザに早期のフィードバックを行う方法として,これまでに,仮説を部分的に確定していくことで逐次的に結果を出力する仮説早期確定手法などが提案されてきた.我々は音声システムにおけるさらに高速,低遅延な応答速度の実現を目指し,これまでに,孤立単語認識を対象として仮説ネットワーク(木構造化辞書)の構造および認識処理中のフレームごとの状態尤度を用いて,入力の途中で探索を打ち切り発話終了よりも前に仮説を確定する手法を提案してきた.本稿では,この手法を連続単語認識へと拡張した手法を提案する.評価実験では,14単語の小規模な連続発声タスクにおいて,各単語の発話終了よりも平均約0.053秒前に,認識精度を劣化させることなく各仮説の確定ができた.8738単語の駅名の連続発声タスクにおいては,各単語の発話終了から平均約0.48秒の遅延で,各仮説の確定ができた.また,音響モデルの規模による比較を行った結果も報告する.

    CiNii Articles

    CiNii Books

    researchmap

  • ユーザ生成型音声対話コンテンツを用いた音声情報案内システム

    福田 敏則, 吉見 孔孝, 南角 吉彦, 李 晃伸, 徳田 恵一

    電子情報通信学会技術研究報告. SP, 音声   109 ( 356 )   207 - 212   2009年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    一般の音声対話システムでは,システム設計者は想定されるユーザ発話に対する対話内容や応答内容をあらかじめ作りこむ必要がある.一方,近年Web上でWikipediaなどのユーザ生成型コンテンツが注目を集めている.本研究では質問応答を行う一問一答形式の音声情報案内システムにおいて,ユーザが対話コンテンツの登録や評価を自由に行うことができるシステムを構築した.ユーザは複数の質問キーワードおよび1つの応答文を対話コンテンツとして登録することができる.登録は携帯電話やPCを用いてWeb上で行い,登録された内容は即座にシステムに反映される.システムの応答後はユーザに評価画面を提示し,応答内容の評価を行うことができる.応答選択時には過去のユーザ評価に基づいたスコアリングを行うことにより,ユーザ評価はシステムにフィードバックされる.本システムは実環境において1ヶ月間の運用を行い,ユーザの利用状況を集計した.その結果,ユーザからの登録によって質問キーワードおよび応答の増加が見られ,自発的で多様な応答の登録が見られたことから,ユーザ生成型音声対話コンテンツの可能性が示唆された.

    CiNii Articles

    CiNii Books

    researchmap

  • 音声認識のための非線形スペクトル変換を用いた話者適応

    林 豊大, 南角 吉彦, 李 晃伸, 徳田 恵一

    電子情報通信学会技術研究報告. SP, 音声   109 ( 356 )   1 - 6   2009年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    音声認識では,モデル学習で使用した話者に対して音声の特徴が大きく外れている話者の認識精度が低下してしまう問題がある.この問題を解決するため,MLLR等の話者適応手法が用いられている.MLLR法では,回帰行列を少量の適応データから学習し,モデルパラメータを線形変換して適応を行う.このとき回帰行列はHMMの状態を分類した回帰クラス毎に与えられるが,各状態に対しては線形な変換しか表現できなかった.そこで本研究では,非線形な変換が可能なGMMに基づくスペクトル変換法を話者適応に用いることを提案する.提案法ではスペクトル変換用のGMMと認識用のHMMを統合した新しい尤度関数を定義し,尤度最大化基準により話者適応を行う.音素認識実験の結果,その有効性を確認した.

    CiNii Articles

    CiNii Books

    researchmap

  • 複数の特徴量による条件付確率場に基づく音声区間検出

    斎藤 彰, 南角 吉彦, 李 晃伸, 徳田 恵一

    電子情報通信学会技術研究報告. SP, 音声   109 ( 356 )   59 - 64   2009年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    実環境下での音声認識では,認識性能の向上のために音声区間検出(Vbice Activity Detection; VAD)が用いられる.しかし従来用いられている手法では,雑音環境に依存してしまい安定して高い区間検出正解率が得られていない.そこで本研究ではあらゆる雑音環境で頑健なVADを実現するために,複数の特徴量を柔軟に扱うことのできる条件付確率場を用いたVADを提案する.提案手法では特徴量であるGMM対数尤度,振幅,基本周波数,零交差数,GMM事後確率を入力,音声/非音声ラベルを出力として入力と出力の関係を素性関数を用いて表現する.素性関数にかかる重みを学習により適切に割り振ることで,音声/非音声状態において状態遷移パターンごとに有効な特徴量に大きな重みを与えることができるためVADの精度の向上が期待できる.CENSREC-1-C実環境下音声データによる評価実験において,提案法の有効性を確認した.

    CiNii Articles

    CiNii Books

    researchmap

  • 音声対話システムのためのN-gramに基づくキーワードからの文生成

    吉見 孔孝, 南角 吉彦, 李 晃伸, 徳田 恵一

    電子情報通信学会技術研究報告. SP, 音声   109 ( 356 )   71 - 76   2009年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    質問と応答の対応を文対文で統計的にモデル化する音声対話システムにおいては,学習のために大量の質問文と応答文のペアが必要である.しかし,質問文データを用意するためにユーザの実際の発話を収集・書き起こしするのはコストが高く,人手で可能な質問文のバリエーションを考えて収集するのも経験と労力を要する.本研究では,この統計的応答選択システムのための質問文をキーワードから自動生成する手法を提案する.文に含まれるべきキーワードが複数与えられたとき,それらのキーワード間の区間および両端に出現しうる尤度上位の単語列をN-gram確率に基づいて探索し,区間ごとに得られた単語列を結合・再評価を行い,最終的にデータベースに与える文を選び出す.音声情報案内タスクの音声対話システムにおいて実験した結果,入力に音声認識結果を用いるときに,応答をキーワードと直接対応付ける場合に59.6%の応答正解率であったのが,そのキーワードから生成した文と対応付ける本手法を用いることで65.1%に改善された.さらに,タスク非依存の一般的なN-gramを使用した場合も,同様に性能の改善が見られた.生成する文数や,単語列探索時のビーム幅などの様々なパラメータによる性能の変化についても報告する.

    CiNii Articles

    CiNii Books

    researchmap

  • 音声認識のデコーダと認識エンジン

    李晃伸

    日本音響学会誌   66 ( 1 )   28 - 31   2009年12月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:記事・総説・解説・論説等(国際会議プロシーディングズ)   出版者・発行元:日本音響学会  

    researchmap

  • Juliusを用いた音声認識インタフェースの作成

    李晃伸, 河原達也

    ヒューマンインタフェース学会誌   11 ( 1 )   31 - 38   2009年02月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:記事・総説・解説・論説等(国際会議プロシーディングズ)   出版者・発行元:ヒューマンインタフェース学会  

    researchmap

  • 大語彙連続音声認識エンジンJulius

    李晃伸

    電子情報通信学会情報・システムソサイエティ誌   13 ( 4 )   2009年02月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:記事・総説・解説・論説等(国際会議プロシーディングズ)   出版者・発行元:電子情報通信学会  

    CiNii Articles

    researchmap

  • 信頼度基準による解探索打ち切りに基づく超早音声認識

    小島 弘, 南角 吉彦, 李 晃伸, 徳田 恵一

    電子情報通信学会技術研究報告. SP, 音声   108 ( 422 )   13 - 18   2009年01月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    現在の音声認識を用いたインターフェースの問題の1つに,ボタンなどのグラフィカルインターフェースに比べて入力に対する反応速度が遅くなりがちで,フィードバックも少ないことが挙げられる.これまでに,部分文仮説の尤度等を利用して発話区間の終端(無声区間の出現)を早く検出する手法や,仮説を部分的に確定していくことで逐次的に結果を出力する仮説早期確定手法などが研究されてきた.本研究では,単語認識を対象として,仮説ネットワーク(木構造化辞書)の構造および認識処理中のフレームごとの状態尤度より,入力の途中で仮説を事前確定する手法を提案する.具体的には,木構造化辞書において単語間で共有されておらず,単語末端までのパスが一意に確定できるノードをあらかじめ抽出しておき,認識時にはそれらの単語中のノードの尤度から,末端に至っていない単語についても信頼度を算出する.音声区間終了判定は,ある単語の信頼度の閾値,およびその単語が持続して最尤となる持続フレーム数で行う.評価実験では,メディアプレイヤー操作タスクを想定して,語彙数38の単語辞書について6名の話者が発声228単語発話(平均発話長1.12秒)に対して実験を行った.その結果,提案法は,認識精度を保ったまま,切り出し末尾の無音区間を取り除いた真の発話終端よりもさらに平均で0.3秒遡って仮説を確定できることが示された.

    CiNii Articles

    CiNii Books

    researchmap

  • HMM音声合成における共分散パラメータの共有に関する検討

    大浦 圭一郎, 全 炳河, 南角 吉彦, 李 晃伸, 徳田 恵一

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   108 ( 337 )   215 - 220   2008年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    本報告では隠れマルコフモデル(Hidden Markov Model; HMM)に基づく音声合成システムにおける共分散パラメータの共有について述べる.近年,音声合成システムへの需要が高まっており,HMMに基づいた音声合成システムでは音声波形の断片をそのまま利用するのではなく,音声波形の特徴をHMMによりモデル化し,HMMのモデルパラメータを合成システムに保持するため,同程度の音質の波形接続法式に比べてフットプリントが小さい利点がある.中でも組み込み向けのシステムには携帯電話,PDA,カーナビ,情報家電,ゲーム機等への用途があるが,必要なCPU,メモリ等が制限されることが多く,更なるフットプリントの縮小が必要である.HMMに基づく音声合成システムにコンテキスト依存モデルを用いることで高精度な音響モデルを構築することができ,決定木に基づくコンテキストクラスタリングを用いて状態共有構造を構築する際に,組み込み用途向けに決定木のサイズを小さくすることも考えられるが,音質が劣化する.本報告では,平均に比べて共分散が音質に与える影響が小さいことに注目し,全てのパラメータの共分散を共有する手法を提案する.このパラメータ共有を仮定した上でのコンテキストクラスタリングを行い,主観評価実験により,パラメータ数を大幅に削減するのみならず,若干の品質改善を達成した.

    CiNii Articles

    CiNii Books

    researchmap

  • 11.人にやさしい音声インタフェース(第2部:情報の高信頼蓄積・検索技術等の開発,<特集>学と産の連携による基盤ソフトウェアの先進的開発) 招待あり

    鹿野 清宏, 河原 達也, 猿渡 洋, 武田 一哉, 河原 英紀, 徳田 恵一, 西浦 敬信, 李 晃伸

    情報処理   49 ( 11 )   1297 - 1301   2008年11月

     詳細を見る

    記述言語:日本語   掲載種別:記事・総説・解説・論説等(学術雑誌)   出版者・発行元:一般社団法人情報処理学会  

    CiNii Articles

    researchmap

  • 学と産の連携による基盤ソフトウェアの先進的開発{第2部}情報の高信頼蓄積・検索技術等の開発 11.人にやさしい音声インタフェース 招待あり

    鹿野清宏, 河原達也, 猿渡洋, 武田一哉, 河原英紀, 徳田恵一, 西浦敬信, 李晃伸

    情報処理   49 ( 11 )   1297 - 1301   2008年11月

     詳細を見る

    記述言語:日本語  

    J-GLOBAL

    researchmap

  • 音声対話技術コンソーシアム (ISTC) の活動成果報告

    山下 洋一, 李晃伸, 河原 達也, 四倉 達夫, 西本 卓也, 桂田 浩一, 新田 恒雄

    情報処理学会研究報告音声言語情報処理(SLP)   2008 ( 102 )   47 - 52   2008年10月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    音声対話技術コンソーシアム (ISTC) では,音声対話システムにおけるインタフェース部を容易に構築できるようにするために,音声認識,音声合成,顔画像合成,対話制御の要素技術から構成されるツールキットの開発を進めてきた.本報告では,各要素技術における機能を中心に,ISTC のこれまでの成果を紹介する.The Interactive Speech Technology Consortium (ISTC) has been developing a toolkit which is composed of four fundamental modules of speech recognition, speech synthesis, face synthesis, and dialog control, in order to facilitate realizing interface for spoken dialog systems with an anthropomorphic agent. This report describes the outcome of ISTC focusing the function of each module.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00056631/

  • Network and Embedded Applications of Automatic Speech Recognition

    Nobuo Hataoka, Hiroaki Kokubo, Akinobu Lee, Tatsuya Kawahara, Kiyohiro Shikano

    2008年08月

     詳細を見る

    記述言語:英語   出版者・発行元:ECT  

    ASR (Automatic Speech Recognition) is one of key technologies in the upcoming Ubiquitous Computing and Ambient Intelligence. In this paper, first, the surveys on processing devices such as microprocessors and memories, and on communication infrastructure, especially wireless communication infrastructure re-lating to ASR are reported. Second, the embed-ded version of CSR (Continuous Speech Recognition) software for the mobile environmental use of ASR is reported. As the devices, RISC based microprocessors, semi-conductor memories, and HDD are summarized. For the communication infrastructure, mobile communi-cations and wireless LANs are described. Finally, im-plementation results of the free CSR software called Julius on the T-engineTM consisting of an SH-4A mi-croprocessor are reported.

    CiNii Articles

    researchmap

  • 4L-3 ハンズフリーロボット対話実験システムの構築(リーディングプロジェクト e-society:自然な音声対話処理技術(2),一般セッション,リーディングプロジェクト e-society)

    猿渡 洋, 高橋 祐, Cincarek Tobias, 酒井 啓行, 竹内 翔大, 大迫 慶一, 宮部 滋樹, 森 康充, 川波 弘道, 李 晃伸, 鹿野 清宏

    全国大会講演論文集   70 ( 5 )   "5 - 353"-"5-354"   2008年03月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    CiNii Articles

    researchmap

  • 大語彙連続音声認識エンジンJuliusバージョン4.0の構成と機能

    李 晃伸

    全国大会講演論文集   70   345 - 346   2008年03月

     詳細を見る

  • 大語彙連続音声認識ソフトウェアJuliusのマイコンへの実装

    小窪 浩明, 李 晃伸, 河原 達也, 鹿野 清宏

    全国大会講演論文集   70   347 - 348   2008年03月

     詳細を見る

  • 3L-1 音声情報案内システム「たけまるくん」の運用(リーディングプロジェクト e-society:自然な音声対話処理技術(1),一般セッション,リーディングプロジェクト e-society)

    鹿野清宏, CincarekTobias, 竹内翔大, 川波弘道, 李晃伸, 西村竜一, 猿渡洋

    全国大会講演論文集   70 ( 5 )   "5 - 335"-"5-336"   2008年03月

     詳細を見る

    出版者・発行元:社団法人情報処理学会  

    CiNii Articles

    researchmap

  • 大語彙連続音声認識エンジン Julius ver. 4

    李晃伸

    情報処理学会研究報告音声言語情報処理(SLP)   2007 ( 129 )   307 - 312   2007年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    大語彙連続音声認識エンジン Julius は 2007年 12月にバージョン ver. 4 がリリースされた.7年ぶりのメジャーバージョン更新となる ver. 4 では,内部構造のモジュール化およびソースの全面的な再構成が行われ,可搬性と柔軟性が大幅に向上された.その結果,エンジン本体がライブラリ化された他のアプリケーションに組み込めるようになったほか,コールバック・プラグイン等の外部との連携の仕組みが整備され,機能の拡張や構成の変更が容易に行えるようになった.言語モデルも単語 N-gram および文法を単一バイナリで同等に扱えるようになり Julian は Julius に統一された.さらに,複数の言語モデルと音響モデルを任意に組み合わせて,1エンジンで並列認識を行うマルチデコーディングも可能となった.また,基本性能についても拡張と強化が行われた.言語モデルとして孤立単語認識が新たに追加されたほか,4-gram 以上の任意長 N-gram への対応、ユーザ関数による外部言語制約の組込み、GMM-based VAD およびデコーダベース VAD、confusion network の生成など大幅な機能強化が行われた。性能は従来バージョンと同等を維持しており、かつメモリ量の削減も行われている。The new version 4.0 of large vocabulary continuous speech recognition engine "Julius" has been released at December 2007, as a major version up from version 3.0. An anatomical analysis and data stcuture re-organization has been accomplished for the whole codes to improve its modularity and flexibility. Its improved structure now enables Julius to be compiled as a external library to be incorpolated into various user applications. A simple callback API and plugin facilities are newly built to be controlled directly and lively from outer applications, which enables easy but tight integration with other applications. Also, grammar-based recognizer Julian has been incorpolated into Julius and the N-gram and grammar can be treated at the same executable. Furthermodre, It supports fully multi-decoding using multiple LMs, AMs and their arbitral combinations. It now supports long N-gram (N unlimited), user-defined LM function, GMM-based and a newly proposed decoder-based VAD, confusion network generation, and many other new functions. The memory requirement has also been improved, while keeping the same accuracy.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00056806/

  • 音響モデルと言語モデルに基づく音声区間検出を用いたハンズフリー音声認識アルゴリズムの評価(雑音・VAD,第9回音声言語シンポジウム)

    酒井啓行, ツィンツァレクトビアス, 川波弘道, 猿渡洋, 鹿野清宏, 李晃伸

    情報処理学会研究報告. SLP, 音声言語情報処理   2007 ( 129 )   13 - 18   2007年12月

     詳細を見る

    出版者・発行元:社団法人情報処理学会  

    人と音声対話ロボットとの自然な対話を可能にするためにハンズフリーインターフェースの導入が求められている.ハンズフリー音声認識システムでは様々な背景雑音の混入や,ユーザの直接音のパワーが減衰するなど様々な理由で入力音声のSignal-to-Noise Ratio (SNR)が低下してしまう.そしてSNRの低下に伴いユーザの発話区間を特定する音声区間検出が困難となる,また雑音環境における有効な音声区間検出手法は確立されていない.本稿では,雑音環境下においても頑健にユーザの発話区間を検出する音響モデルと言語モデルに基づく認識による音声区間検出を用いたハンズフリー音声認識アルゴリズムの評価を行う.従来のVAD手法として振幅パワー,統計モデル,GMMなどに基づく手法を挙げ,性能比較実験を行うことで提案手法の有効性を示す.

    CiNii Articles

    researchmap

  • 声質変換のためのスペクトル・F_0の同時モデリング

    宇藤 陽介, 南角 吉彦, 李 晃伸, 徳田 恵一

    電子情報通信学会技術研究報告. SP, 音声   107 ( 406 )   103 - 108   2007年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    声質変換とは,ある話者が発した音声を別の話者が発したかのような音声に変換する技術であり,任意の音声を合成する音声合成システムよりも少量の学習データで実現可能である.従来の声質変換ではスペクトルをガウス混合モデル(Gaussian Mixture Model ; GMM)でモデル化し,非線形に変換する手法が広く用いられる.しかし,F_0の変換に関してはスペクトルとは独立に線形変換が用いられることが多かった.これは,F_0が有声区間のみで定義されており,無声区間では値を持たず,系列全体を通常の連続分布や離散分布でモデル化することが容易ではないためである.本報告では,多空間上の確率分布(Multi-Space Probability Distribution ; MSD)に基づくGMM (MSD-GMM)を用いたスペクトルとF_0の同時変換手法を提案する.提案法では,F_0の非線形変換が可能になるだけでなく,有声から無声や無声から有声への変換も可能となる.さらに本研究では,F_0の時間方向の変動をモデル化するためにMSD-HMMへの拡張を検討する.

    CiNii Articles

    CiNii Books

    researchmap

  • 音響モデルと言語モデルに基づく音声区間検出を用いたハンズフリー音声認識アルゴリズムの評価(雑音・VAD,第9回音声言語シンポジウム)

    酒井啓行, ツィンツァレクトビアス, 川波弘道, 猿渡洋, 鹿野清宏, 李晃伸

    電子情報通信学会技術研究報告. SP, 音声   107 ( 406 )   13 - 18   2007年12月

     詳細を見る

    出版者・発行元:社団法人電子情報通信学会  

    人と音声対話ロボットとの自然な対話を可能にするためにハンズフリーインターフェースの導入が求められている.ハンズフリー音声認識システムでは様々な背景雑音の混入や,ユーザの直接音のパワーが減衰するなど様々な理由で入力音声のSignal-to-Noise Ratio (SNR)が低下してしまう.そしてSNRの低下に伴いユーザの発話区間を特定する音声区間検出が困難となる,また雑音環境における有効な音声区間検出手法は確立されていない.本稿では,雑音環境下においても頑健にユーザの発話区間を検出する音響モデルと言語モデルに基づく認識による音声区間検出を用いたハンズフリー音声認識アルゴリズムの評価を行う.従来のVAD手法として振幅パワー,統計モデル,GMMなどに基づく手法を挙げ,性能比較実験を行うことで提案手法の有効性を示す.

    CiNii Articles

    researchmap

  • 音声対話システムにおける発話文の自動クラスタリングに基づく応答選択

    垣鍔亮太, 南角 吉彦, 李晃伸, 徳田 恵一

    情報処理学会研究報告音声言語情報処理(SLP)   2007 ( 75 )   7 - 12   2007年07月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    公共の場における音声情報案内システムでは,幅広いユーザの自然な発話を対象とするため,さまざまな内容や認識誤りを含む発話に対して適切な応答を選択する必要がある.本稿では,発話文の自動クラスタリングに基づく統計的応答選択手法を提案する.システムに対するユーザ発話の書き起こし文集合に対して,文間の類似度からクラスタリングを行い,代表発話文(テンプレート)の集合を得る.入力時には,発話の認識結果の文に対して最も類似度の高いテンプレートを求め,それに対応した応答を出力する.発話文の自動クラスタリングにはY-クラスタリングを用い,さらに精度良く文のクラスタリングを行うため付属語ペナルティおよび固有名詞のタグ化を行った.応答選択システムを構築し,公共音声情報案内システム「たけまるくん」のデータを用いて実験を行った結果,従来のキーワードベースの応答選択手法による応答正解率が74.4%であるのに対して75.2%の性能が得られた.また,様々なパラメータ設定による性能の比較や,K-means法との比較も行った.A public spoken dialog system operated on real situation has to deal with vast variety of utterances with disfluencies and ill-formedness from various speakers, and their recognition errors are also inevitable. In this paper, a robust method of statistical response selection on question answering system based on automatic utterance clustering is proposed. A set of transcribed user utterances are first clustered by their similarity between sentences to generate a set of representative sentences (templates). On question answering, the similarities between a recognized sentence and the templates are calculated, and a response that corresponds to the template of the highest similarity will be chosen as an output. A clustering method called "Y-clustering" is used for the automatic utterance clustering, and two modifications are made for more accurate clustering: ancillary words penalty and lexical tagging on proper noun. Experimental results on the data of public speech-oriented information guidance system "Takemaru-kun" showed that the proposed system achieved a response correct rate of 75.2%, which outperforms the conventional method based on keyword matching whose correct rate was 74.4%. The clustering performance on various configurations are also investigated, and a comparison with K-means method are also reported.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00056718/

  • 実環境ハンズフリー音声認識のための音響モデルと言語モデルに基づく音声区間検出と認識アルゴリズム(認識,理解,対話,一般)

    酒井啓行, ツィンツアレクトビアス, 川波弘道, 猿渡洋, 鹿野清宏, 李晃伸

    電子情報通信学会技術研究報告. SP, 音声   107 ( 116 )   55 - 60   2007年06月

     詳細を見る

    出版者・発行元:社団法人電子情報通信学会  

    実環境ハンズフリー音声認識ではユーザの発話以外に様々な背景雑音が混入するためSNRが悪くなり,従来の振幅パワーに基づく音声区間検出は難しい.本稿では,ハンズフリー音声認識のための音響モデルと言語モデルに基づいた新しい音声区間検出およびその認識アルゴリズムを提案する.具体的には発話の前後の無音区間(非発話区間)の存在に注目し,認識を行う中で音韻と無音を比較することで区間を特定する.提案法では振幅パワーに関わらずリアルタイムに効果的な音声区間検出が可能である.提案法を音声認識エンジンJuliusに組み込み,SNRの異なる音声データを用いて実験を行うことで,音声区間検出と認識率において従来法よりも大きく優れることを示した.

    CiNii Articles

    researchmap

  • Voice activity detection applied to hands-free spoken dialogue robot based on decoding using acoustic and language model. 査読あり

    Hiroyuki Sakai, Tobias Cincarek, Hiromichi Kawanami, Hiroshi Saruwatari, Kiyohiro Shikano, Akinobu Lee

    Proceedings of the 1st International Conference on Robot Communication and Coordination, ROBOCOMM 2007, Athens, Greece, October 15-17, 2007   16   2007年

     詳細を見る

    出版者・発行元:ICST/ACM  

    DOI: 10.4108/ICST.ROBOCOMM2007.2088

    researchmap

  • 「たけまるくん」実環境音声案内システムのデータベース整備と「キタちゃん」へのポータビリティーの検討(第8回音声言語シンポジウム)

    ツインツァレクトビアス, 川波弘道, 木田学, 猿渡洋, 鹿野清宏, 西村西村, 李晃伸

    情報処理学会研究報告. SLP, 音声言語情報処理   2006 ( 136 )   173 - 178   2006年12月

     詳細を見る

    出版者・発行元:社団法人情報処理学会  

    本稿では、「たけまるくん」の長期間運用に伴って構築してきた実環境音声データベースを用いて、音声案内システムの性能向上を時間軸でシミュレートする。収集期間と、データ数、出現している単語の数、評価データにおける言語モデルのパープレキシティーと未知語率、音声認識性能、応答正解率との関係を分析し、システム開発におけるそれぞれの構成要素の重要性に関して報告を行う。結果として、質問応答DBを始め、音響モデル、言語モデルの順番でシステム更新が効果的であることが判った。また、一年間の収集データに基づいて構築したシステムにおける性能はほぼ飽和し、より多くの収集データを学習に用いても、上昇は見られなかった。更に、「たけまるくん」の収集データで構築した地下鉄の駅に設置した「キタちゃん」のポータビリティーを検討する。より現実的な開発状況を想定するため、新環境で収集した20日間のデータのみをシステムの適応に用いる。音声

    CiNii Articles

    researchmap

  • 「たけまるくん」実環境音声案内システムのデータベース整備と「キタちゃん」へのポータビリティーの検討(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)

    ツィンツァレクトビアス, 川波弘道, 木田学, 猿渡洋, 鹿野清宏, 西村竜一, 李晃伸

    電子情報通信学会技術研究報告. SP, 音声   106 ( 443 )   173 - 178   2006年12月

     詳細を見る

    出版者・発行元:社団法人電子情報通信学会  

    本稿では、「たけまるくん」の長期間運用に伴って構築してきた実環境音声データベースを用いて、音声案内システムの性能向上を時間軸でシミュレートする。収集期間と、データ数、出現している単語の数、評価データにおける言語モデルのパープレキシティーと未知語率、音声認識性能、応答正解率との関係を分析し、システム開発におけるそれぞれの構成要素の重要性に関して報告を行う。結果として、質問応答DBを始め、音響モデル、言語モデルの順番でシステム更新が効果的であることが判った。また、一年間の収集データに基づいて構築したシステムにおける性能はほぼ飽和し、より多くの収集データを学習に用いても、上昇は見られなかった。更に、「たけまるくん」の収集データで構築した地下鉄の駅に設置した「キタちゃん」のポータビリティーを検討する。より現実的な開発状況を想定するため、新環境で収集した20日間のデータのみをシステムの適応に用いる。音声

    CiNii Articles

    researchmap

  • 音声情報案内システム「たけまるくん」および「キタちゃん」の開発(特別企画「音声認識デベロッパーズフォーラム」)

    鹿野清宏, CincarekTobias, 川波弘道, 西村竜一, 李晃伸

    情報処理学会研究報告. SLP, 音声言語情報処理   2006 ( 107 )   33 - 38   2006年10月

     詳細を見る

    出版者・発行元:社団法人情報処理学会  

    筆者らは生駒市北コミュニティセンターに、音声情報案内システム「たけまるくん」を設置して、2002年11月から4年間運用している。最初の1年半あまり、精力的にシステムの改良を行い、現在では、子供を中心とする多くの市民に利用されている。このシステムは、大語彙連続音声認識プログラムJuliusを用いた4万語あまりの大語彙の連続発声認識を中心に構築された本格的な自由発話による音声情報案内システムである。また、入力された音声や雑音はすべて収録され、とくに最初の2年間は書き起こしが終了している。この2年間の書き起こしデータを用いることによるシステムの性能の向上の予備評価についても報告する。このたけまるくんの成果を活かして、今年の3月末に、奈良先端大の近くの近鉄の駅「学研北生駒」に、独立した2つの音声情報案内システム「キタちゃん」と「キタロボ」を設置した。駅は60dBAと、コミュニティセンターに比べて、騒音レベルが10dB程度高く、厳しい

    CiNii Articles

    researchmap

  • フレーム単位の信頼度を用いた並列音声認識におけるデコーダ間枝刈りの検討

    袴田 智博, 南角 吉彦, 李晃伸, 徳田 恵一

    情報処理学会研究報告音声言語情報処理(SLP)   2006 ( 73 )   31 - 36   2006年07月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    様々な環境や話者に対して高精度な不特定話者音声認識を実現するためのアプローチとして、対象の異なる複数のモデルによる結果を選択する方法が研究されている。この実現方法のひとつとしてモデルごとに独立した認識処理を統合する並列デコーディングがあるが、この場合デコーダの数に比例して計算量が増大する問題がある。本研究では、各デコーダの認識処理途中のフレームの情報に基づいてデコーダ間で動的に枝狩りを行うことを検討する。人力音声に対して相対的に適合しないと判断できるモデルの認識処理を中断することにより、最後まで処理を行うデコーダの数を絞り込み、トータルの計算量を削減する。枝刈りの基準として、フレームごとの現存単語仮説の最大累積尤度および、その現存仮説集合から得られる事後確率に基づく信頼度の上位の値を検討する。7~12のモデルの組み合せを用いた評価実験において、認識処理終了後にモデル選択を行う従来の並列音声認識に比べてほぼ同じ精度を保ちつつ、計算量を全体の1/3程度に抑えることができた。Parallel decoding based on multiple models has been studied on a speech recognition system to efficiently cover various conditions and speakers in real world. However, running many recognizers in parallel applying all models causes the total computational cost to grow. In this paper, an efficient way of finding and pruning unpromising decoding process while search based on frame-wise likelihoods of each model is proposed. By comparing temporal search statistics at each frame among all decoders, a decoder with relatively unmatched models can be pruned in halfway of recognition process. This method allows the model structures to be mutually independent. Experimental results on parallel recognition of various acoustic models showed that two thirds of the computational cost was reduced compared to full computation by using the both criteria without spoiling the recognition accuracy as compared with conventional post-selection.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00056888/

  • 大語彙連続音声認識エンジン Julius の開発の進展

    李 晃伸

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   105 ( 494 )   37 - 42   2005年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    Juliusはオープンソースの大語彙連続音声認識ソフトウェアであり, 数万語の語彙を用いた連続発声の実時間認識を, 一般的なPC以下のリソースで実現できる.オープンなモデルインタフェース, プログラムの可搬性, および十分な認識処理性能といった特徴を持ち, 国内外の様々な研究期間および開発機関で利用されており, 現在も実環境における音声インタフェースの手軽な実現と広い普及を目指して, 必要な機能の実装と動作の安定性を目指して精力的に開発が続けられている.本稿では, 大語彙連続音声認識エンジンJuliusの基本アルゴリズムの特徴について解説するとともに, 近年のJuliusの開発の進展についてまとめる.

    CiNii Articles

    CiNii Books

    researchmap

  • [特別講演]大語彙連続音声認識エンジンJuliusの開発の進展

    李晃伸

    情報処理学会研究報告音声言語情報処理(SLP)   2005 ( 127 )   127 - 132   2005年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    Juliusはオープンソースの大語桑連続音声認識ソフトウェアであり,数万語の語嚢を用いた連続発声の実時間認識を,-般的なPC以下のリソースで実現できる.オープンなモデルインタフェース,プログラムの可搬性,および十分な認識処理性能といった特徴を持ち,国内外の様々な研究期間および開発機関で利用されており,現在も実環境における音声インタフェースの手軽な実現と広い普及を目指して,必要な機能の実装と動作の安定性を目指して精力的に開発が続けられている.本稿では,大語嚢連続音声認識エンジンJuliusの基本アルゴリズムの特徴について解説するとともに,近年のJuliusの開発の進展についてまとめる.Julius is a high-performance, two-pass large vocabulary continuous speech recognition (LVCSR) decoder software for speech-related researchers and developers. It realizes almost real-time decoding on most current PCs on dictation of over 60k words vocabulary. Julius has been developed to equip an open model interface, program portability, and sufficient recognition performance to be used both for the current research of speech recognition and for the development of speech-recognition-driven applications on real world. It has been developed continuously, integrating many required features and improving stability. This paper summarizes the recent progress of the LVCSR engine Julius, with brief description about the search algorithm.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00056939/

  • 公共音声対話システムにおけるN-gramとGrammarの融合によるタスク拡張(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)

    北村任宏, 戸田智基, 川波弘道, 李晃伸, 猿渡洋, 鹿野清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2005 ( 127 )   103 - 108   2005年12月

     詳細を見る

    出版者・発行元:社団法人情報処理学会  

    音声認識, 音声対話システムを実環境で利用する場合, 設置する環境に適したタスクドメインを設定することが重要である.システムをより普及させるためには簡易に所望のタスクへと適用, もしくは拡張する技術が必須である.既存の音声対話システムに新たなタスクを追加する際, 発話に対するドメインの判別や対話戦略の構築が必要となる.その際に, 統計的言語モデルの作成時は新たに大量のコーパスを必要とし, 製作のために多大な時間を要する.本稿では, 統計的言語モデルに基づく既存の対話システムにおいて, ネットワーク文法を併用することで簡易にタスクを拡張し, 発話に対して高精度にドメインの判別, 音声認識を行う手法を提案する.実験的評価より, ドメインの判別率は90%以上で, それに基づいた単語認識率もほぼ90%以上の値を示し, 高精度に判別, 認識が行えた.以上より, 提案手法の有効性が示せた.

    CiNii Articles

    researchmap

  • 公共音声対話システムにおけるN-gramとGrammarの融合によるタスク拡張(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)

    北村任宏, 戸田智基, 川波弘道, 李晃伸, 猿渡洋, 鹿野清宏

    電子情報通信学会技術研究報告. SP, 音声   105 ( 496 )   13 - 18   2005年12月

     詳細を見る

    出版者・発行元:社団法人電子情報通信学会  

    音声認識, 音声対話システムを実環境で利用する場合, 設置する環境に適したタスクドメインを設定することが重要である.システムをより普及させるためには簡易に所望のタスクへと適用, もしくは拡張する技術が必須である.既存の音声対話システムに新たなタスクを追加する際, 発話に対するドメインの判別や対話戦略の構築が必要となる.その際に, 統計的言語モデルの作成時は新たに大量のコーパスを必要とし, 製作のために多大な時間を要する.本稿では, 統計的言語モデルに基づく既存の対話システムにおいて, ネットワーク文法を併用することで簡易にタスクを拡張し, 発話に対して高精度にドメインの判別, 音声認識を行う手法を提案する.実験的評価より, ドメインの判別率は90%以上で, それに基づいた単語認識率もほぼ90%以上の値を示し, 高精度に判別, 認識が行えた.以上より, 提案手法の有効性が示せた.

    CiNii Articles

    researchmap

  • 母音区間情報を用いた実時間ケプストラム平均正規化(CMN)の検討(特徴量, 区間検出)

    追立 真吾, 李 晃伸, 猿渡 洋, 鹿野 清宏

    電子情報通信学会技術研究報告. SP, 音声   105 ( 133 )   7 - 12   2005年06月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    話者, 空間, 収録機器等の違いに起因する周波数特性の乗法性ひずみを正規化する手法としてケプストラム平均正規化(CMN)が広く用いられている.公共の音声認識システムでは, 空間や収録機器の特性が急激な変化をすることは少ないので, CMNは主に話者正規化の効果を果たす.よって, ケプストラム平均(CM)には話者性の影響が大きく表れる.各フレーム毎においては, この話者性は母音区間によく表れる.母音区間は短い発話にも含まれており, 一般に雑音にも頑健であるので, 母音区間情報を用いることで短時間の発話からでも効果的にCMが推定できると考えられる.本報告では, 認識処理過程で得られる最尤状態系列から母音区間を検出し, コードブックを用いてCMを推定することで実時間処理可能なCMNを提案する.従来手法のCMNを用いて得られる認識結果を最尤状態系列と仮定することで, 音声対話情報案内システム「たけまるくん」により収集した実環境データを用いて実験を行った.その結果, 発話単位でCMを算出するCMNに比べて, 提案法では実時間処理が可能であるにもかかわらず, 単語認識精度で0.26%〜1.14%の向上が得られることを確認した.また, 代表的な従来の実時間処理CMNと比較しても, 提案法が優位であることが分かった.

    CiNii Articles

    researchmap

  • AS-4-4 実環境下における多段独立成分分析の音声認識評価(AS-4. 多チャンネル音響信号処理, 基礎・境界)

    西川 剛樹, 猿渡 洋, 李 晃伸, 鹿野 清宏, 斎藤 大介, 神沼 充伸

    電子情報通信学会総合大会講演論文集   2005   "S - 67"-"S-68"   2005年03月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    CiNii Articles

    researchmap

  • 信頼度基準デコーディングを用いた高効率な単語グラフ生成法

    李 晃伸, 河原 達也, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP)   2005 ( 12 )   71 - 76   2005年02月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    音声認識結果の単語集合をグラフ形式で表現する方法が広く用いられている.本報告では,2パストリートレリスデコーダーにおいてオンラインで得られる単語信頼度を用いて単語グラフを効率よく生成する手法を提案する.後段パスのスタックデコーディング中に,(1)同一箇所に現れる同一単語候補をマージすることで検索中に動的に単語グラフを生成し,(2)これまでに得られた仮説パスと重複する部分文仮説の探索を中断する.さらに,(3)探索中に得られる単語信頼度に基づく枝刈りにより,信頼度の低い単語の展開を抑制する.これらの手法により,不要な探索を抑えて効率よく単語グラフを生成する.認識実験の結果,グラフの動的生成によりN-best候補に比べてより少ない計算量で多くの単語仮説を残すことができ,最小のGERを改善できることが示された.信頼度による枝刈りは一定の効果が確認できたが,探索中の信頼度を用いることによる信頼度値の不安定さの影響が大きいことが分かった.An efficient search algorithm to generate word graph on tree-trellis decoder using search-time confidence score is investigated. In the 2nd pass of tree-trellis search, the stack decoding is modified to fixate word candidates on-the fly in order to generate word graph dynamically by merging paths by sharing same words at the same frame. The hypotihent will be terminated if the last word has already been in the current partial word graph and expanded so far. Furthermore, a word puruning by confidence score is applied at word expansion to suppress unpromissing words to appear. Experimental results show that the proposed method can generate a word graph faster than using N-best sentence list, and also can generate more word graphs to improve minimal GER. Pruning by confidence score showed a certain effect to reduce the number of word expansion, but has little effect on the total search time due to the unstableness of the searchtime confidence scoring especially for a short words.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00057029/

  • 連続音声認識ソフトウェアJulius(<特集>研究のツールボックス(2))

    河原 達也, 李 晃伸, Tatsuya Kawahara, Akinobu Lee, 京都大学学術情報メディアセンター, Kyoto University Academic Center and Media Studies, Nara Institute of Science and Technology School of Information Science

    人工知能学会誌 = Journal of Japanese Society for Artificial Intelligence   20 ( 1 )   41 - 49   2005年01月

     詳細を見る

    記述言語:日本語   出版者・発行元:人工知能学会  

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://hdl.handle.net/10061/7801

  • Rapid unsupervised speaker adaptation based on multi-template HMM sufficient statistics in noisy environments. 査読あり

    Randy Gomez, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano

    INTERSPEECH 2005 - Eurospeech, 9th European Conference on Speech Communication and Technology, Lisbon, Portugal, September 4-8, 2005   293 - 296   2005年

     詳細を見る

  • Noise-robust hands-free speech recognition based on spatial subtraction array and known noise superimposition. 査読あり

    Yasuaki Ohashi, Tsuyoki Nishikawa, Hiroshi Saruwatari, Akinobu Lee, Kiyohiro Shikano

    2005 IEEE/RSJ International Conference on Intelligent Robots and Systems, Edmonton, Alberta, Canada, August 2-6, 2005   2328 - 2332   2005年

     詳細を見る

    出版者・発行元:IEEE  

    DOI: 10.1109/IROS.2005.1545036

    researchmap

  • 子供音声認識のための音響モデルの構築および適応手法の評価(ポスターセッション)(第6回音声言語シンポジウム)

    鮫島 充, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2004 ( 131 )   199 - 204   2004年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    子供音声は自由な発話形式のものが多く,既存の読み上げ音声コーパスでは対応が難しい.また一般に子供音声の収録には多大な労力やコストがかかるため,整った音声コーパスを作成することも難しい.本研究では,音声情報案内システムにおいて自動収集した子供の音声に基づく音響モデルの作成および認識性能の評価を行った.また,自動収集した子供音声に対する自動話者クラスタリングを提案し,それを用いた十分統計量に基づく教師なし話者適応を行った.収集した子供音声から作成した音響モデルにより,年齢層ごとに幼児53.6%,低学年子供82.1%,高学年子供77.6%の認識性能が得られ,既存のモデルに比べ大幅に認識性能の改善が得られた.また提案した自動話者クラスタリングとそれを用いた十分統計量に基づく教師なし話者適応の結果,子供用不特定話者モデルに対して一定の認識性能の改善が得られ,年齢層ごとのMAP適応モデルよりも高い認識性能が得られたことを示す.

    CiNii Articles

    researchmap

  • 子供音声認識のための音響モデルの構築および適応手法の評価(ポスターセッション)(第6回音声言語シンポジウム)

    鮫島 充, 李 晃伸, 猿渡 洋, 鹿野 清宏

    電子情報通信学会技術研究報告. SP, 音声   104 ( 542 )   109 - 114   2004年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    子供音声は自由な発話形式のものが多く,既存の読み上げ音声コーパスでは対応が難しい.また一般に子供音声の収録には多大な労力やコストがかかるため,整った音声コーパスを作成することや難しい.本研究では,音声情報案内システムにおいて自動収集した子供の音声に基づく音響モデルの作成および認識性能の評価を行った.また,自動収集した子供音声に対する自動話者クラスタリングを提案し,それを用いた十分統計量に基づく教師なし話者適応を行った.収集した子供音声から作成した音響モデルにより,年齢層ごとに幼児53.6%,低学年子供82.1%,高学年子供77.6%の認識性能が得られ,既存のモデルに比べ大幅に認識性能の改善が得られた.また提案した自動話者クラスタリングとそれを用いた十分統計量に基づく教師なし話者適応の結果,子供用不特定話者モデルに対して一定の認識性能の改善が得られ,年齢層ごとのMAP適応モデルよりも高い認識性能が得られたことを示す.

    CiNii Articles

    researchmap

  • 公共音声情報案内システム「たけまるくん」の運用 および収集発話の分析

    李晃伸, 山田 真士, 西村 竜一, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP)   2004 ( 103 )   49 - 54   2004年10月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    機械に対するユーザの自然な実発話の収集と統計的な分析のために,我々は音声情報案内エージェントシステム「たけまるくん」を公共施設に設置し,2004年5月までの19ヶ月間で約17万発話を収集・整備した.本稿では現在のシステム構成,収集データの分析結果および雑音・不要音棄却実験の結果を報告する.全体のおよそ 30%が雑音などの非音声入力であった.音声入力のうち81%が有効発話であり,残りは背景会話・無意味な発声・不明瞭で聞き取れない発声・発話断片・オーバフローなどの応答不能な無効発話であった.これらの無効発話に対して,入力長とGMMに基づく雑音・不要音棄却の性能を評価した.1か月分8 248個のデータで実験した結果,雑音・息・咳・笑い声などの非音声入力は99%棄却でき,叫び声や遠隔で発声された背景会話もある程度棄却できることが分かった.一方で,発話断片やドメイン外発話については音響的特徴からの弁別は難しかった.In order to collect user's actual utterances to a speech dialogue system on real situation, we have located a speech-oriented information guidance system called ``Tekemaru-kun'' at a public civil hall, and collected 177,789 inputs via 19 months' operation. This paper will report the current system architecture, details of collected data and experimental results of invalid input rejection. As a result, non-voice (noise) inputs occupies about 30% of total input, and 81% of voice inputs are valid inputs. The rests are invalid voice inputs that includes background speech, incomprehensible voice, obscure speech, fragmented speech, level overflow and so on. Rejection of those invalid inputs has been examined based on input length threshold and GMM-based identification. Experiments on 8,248 inputs of one month showed that almost all of noise and non-verbal inputs such as breath, coughing and laughter can be rejected successfully, and distant background speech and shouts were also discriminative, whereas out-of-domain utterance, obscure speech and fragments cannot be detected only by the acoustic property.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00057101/

  • 実環境研究プラットホームとしての音声情報案内システムの運用(音声,聴覚)

    西村 竜一, 西原 洋平, 鶴身 玲典, 李 晃伸, 猿渡 洋, 鹿野 清宏

    電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理   87 ( 3 )   789 - 798   2004年03月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    実環境下での音声インタフェースの研究プラットホームとして,生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムは,大語彙連続音声認識を基礎とする一問一答形式の音声インタフェースをもち,同センターや生駒市に関する受付案内を可能とする.システムはセンターのエントランスに常設され,開館時は誰でも自由にエージェントとのコミュニケーションを楽しむことができる.ユーザとシステムとのインタラクションの観察を目的とした5か月間にわたる本システムのフィールドテストを実施し,ユーザによる発話ログの収集を行った.本論文では,はじめに音声インタフェース部を中心に本システムの構成について説明する.フィールドテストの結果,男女幅広い年齢層のユーザによる発話を含む約1,362分の音声データを収集した.その分析の結果から,大人と子供で発話内容の傾向に違いはあるが,本システムは有効に利用されていることを示す.実験では,実際のユーザ発話によるベースラインの認識性能の評価を行い,大人に対して86%の単語認識率と76%の応答正解率を得ることができた.しかし,子供のユーザに対する精度が十分でないなど,音声インタフェースの実用化に向けて多くの課題が残されていることを確認した.

    CiNii Articles

    researchmap

  • 実環境音声情報案内システムにおける環境雑音及び不要発話の識別

    中村 敬介, 西村 竜一, 李 晃伸, 猿渡 洋, 鹿野 清宏

    電子情報通信学会技術研究報告. SP, 音声   103 ( 632 )   13 - 18   2004年01月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    実環境における音声インタフェースでは笑い声や咳などのユーザが意図しない入力や周囲の雑音による誤入力,あるいは笑い声などの通常の発話と区別すべき入力が多く存在する.本研究では,音声/雑音,および通常発話/不要音を識別する頑健な音声対話システムを目指し,そのためのGaussian Mixture Model(GMM)を用いた環境雑音および不要発話の識別法およびその効果について報告する.生駒市北コミュニティセンターの公共音声情報案内システム「たけまるくん」におけるフィールドテストで収集したユーザ発話を複数のクラスに分類し,それぞれの音響的特徴をGMMに学習させて音声識別実験を行ったところ,各クラスごとでの識別率は128混合GMMで平均80.6%,音声/非音声の識別率は96.3%を達成し,GMMによる識別が可能であることが確認できた.音声/非音声の識別においても,2クラスのGMMよりも雑音の種別ごとにGMMを用いるほうが高い識別性能を示した.また,Cepstral Mean Subtraction(CMS)を行わないことで,クラスごとの識別性能を平均3.2%向上できることを確認した.

    CiNii Articles

    researchmap

  • Audible (normal) speech and inaudible murmur recognition using NAM microphone. 査読あり

    Panikos Heracleous, Yoshitaka Nakajima, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano

    2004 12th European Signal Processing Conference, Vienna, Austria, September 6-10, 2004   329 - 332   2004年

     詳細を見る

  • Robust speech recognition with spectral subtraction in low SNR. 査読あり

    Randy Gomez, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano

    INTERSPEECH 2004 - ICSLP, 8th International Conference on Spoken Language Processing, Jeju Island, Korea, October 4-8, 2004   2004年

     詳細を見る

  • Noise robust real world spoken dialogue system using GMM based rejection of unintended inputs. 査読あり

    Akinobu Lee, Keisuke Nakamura, Ryuichi Nisimura, Hiroshi Saruwatari, Kiyohiro Shikano

    INTERSPEECH 2004 - ICSLP, 8th International Conference on Spoken Language Processing, Jeju Island, Korea, October 4-8, 2004   2004年

     詳細を見る

  • Non-audible murmur (NAM) speech recognition using a stethoscopic NAM microphone. 査読あり

    Panikos Heracleous, Yoshitaka Nakajima, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano

    INTERSPEECH 2004 - ICSLP, 8th International Conference on Spoken Language Processing, Jeju Island, Korea, October 4-8, 2004   2004年

     詳細を見る

  • Public speech-oriented guidance system with adult and child discrimination capability. 査読あり

    Ryuichi Nisimura, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano

    2004 IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2004, Montreal, Quebec, Canada, May 17-21, 2004   433 - 436   2004年

     詳細を見る

    出版者・発行元:IEEE  

    DOI: 10.1109/ICASSP.2004.1326015

    researchmap

  • 大人・子供に適応した音声情報案内のためのユーザ自動識別(ポスターセッション)(第5回音声言語シンポジウム)

    西村 竜一, 中村 敬介, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2003 ( 124 )   97 - 102   2003年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    本報告では,音声インタフェースにおけるユーザ年齢層に応じた柔軟な対語処理の実現を目指して,話者の大人・子供識別手法を検討する.これまでの大人ユーザをターゲットとする音声認識では子供発話の認識は困難であった.しかし,家庭や公共施設への音声インタフェースの導入を考えると子供の存在は無視できない.子供発話を扱うための音声認識と音声インタフェースの改良が求められる.提案手法では,大人・子供に適応した音声情報案内の実装に必要な話者識別手段として,音声認識結果の対数尤度から求める音響的特徴と言語的特徴を併用した統計学習に基づく識別手法を実装する.二値分類アルゴリズムであるSVM (Support Vector Machine)を識別に用いた実験では91.8%の識別率を得た.これは音響的特徴のみを含むGMM (Gaussian Mixture Model)の尤度比較を使った識別結果から5.4%の識別率改善である.本研究ではフィールドテストをすすめている生駒市コミュニティセンターの音声情報案内システム「たけまるくん」をプラットホームとしており,実験にはそのフィールドテスト収集発話を用いた.また,子供収集発話を音声認識モデル構築に含めることで子供認識精度の向上を試みており,その結果も報告する.

    CiNii Articles

    researchmap

  • 2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法

    李 晃伸, 河原 達也, 鹿野 清宏

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   103 ( 518 )   35 - 40   2003年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    音声認識システムにおいて,認識結果に対して事後確率などを用いて信頼度を付与することで,発話検証や対話管理などの音声アプリケーションにおいて認識誤りを考慮したより高度な処理を行うことができる.この単語の事後確率を用いた信頼度算出では,通常,認識処理(デコーディング)の結果得られた仮説群のゆう度をもとに計算されるが,十分な精度の確信度を得るためにはN-best候補で数百以上の大量の文仮説を求める必要があり,多くの計算量を必要とする.本研究では,2パストリートレリス探索に基づくテコーディングにおいて,探索中に得られる部分文仮説の尤度から単語の信頼度を簡易かつ高速に算出するアルゴリズムを提案する.後段パスのスタックデコーディングにおける単語仮説展開時に,その次単語仮説の集合およびそれぞれから展開される新たな仮説のヒューリスティックを含む尤度から,その展開単語の事後確率を計算する.通常のデコーディング処理に対して極めて少ない計算量で信頼度を計算できる.認識エンジンJuliusにおいて,N-best候補から事後確率を算出する従来手法との比較を行った結果,提案手法は大量のN-best候補を求める必要がないことから認識処理全体を非常に高速に行え,また信頼度の精度も,簡易な計算法ながらN-best候補を用いる手法と同等以上の信頼度を算出できることが示された.

    CiNii Articles

    CiNii Books

    researchmap

  • 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(第5回音声言語シンポジウム : プロジェクト紹介(2))

    嵯峨山 茂樹, 伊藤 克亘, 宇津呂 武仁, 甲斐 充彦, 小林 隆夫, 下平 博, 伝 康晴, 徳田 恵一, 中村 哲, 西本 卓也, 新田 恒雄, 広瀬 啓吉, 峯松 信明, 森島 繁生, 山下 洋一, 山田 篤, 李 晃伸

    電子情報通信学会技術研究報告. SP, 音声   103 ( 520 )   73 - 78   2003年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    擬人化音声対話エージェントのツールキット&quot;Galatea&quot;の開発プロジェクトについて報告する.Galateaの主要な機能は音声認識,音声合成,顔画像合成であり,これらの機能を統合して,対話制御の下で動作させるものである.研究のプラットフォームとして利用されることを想定してカスタマイズ可能性を重視した結果,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つシステムとなった.この成果はダウンロード可能となっており,一般に無償使用許諾している.

    CiNii Articles

    researchmap

  • 連続音声認識コンソーシアムの活動報告及び最終版ソフトウエアの概要(第5回音声言語シンポジウム : プロジェクト紹介(2))

    河原達也, 武田一哉, 伊藤克亘, 李晃伸, 鹿野清宏, 山田篤

    電子情報通信学会技術研究報告. SP, 音声   103 ( 520 )   79 - 84   2003年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:社団法人電子情報通信学会  

    連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会音声言語情報処理研究会のもとで2000年度から2002年度まで(2003年9月まで)活動を行ってきた。本稿では、この活動の報告を行うとともに、このたび編集した最終版ソフトウェアの概要を述べる。本プロジェクトでは、大語彙連続音声認識エンジンJuliusの機能拡張とWindows SAPI対応を行うとともに、非常に大規模なデータベースを用いた高精度な音響モデル・言語モデルの構築を行った。また音響モデルについては、多様な話者層(高齢者・小児)や入力環境(電話・車内環境など)に対応したモデルを整備した。

    CiNii Articles

    researchmap

  • 大人・子供に適応した音声情報案内のためのユーザ自動識別(第5回音声言語シンポジウム : ポスターセッション)

    西村 竜一, 中村 敬介, 李 晃, 猿渡 洋, 鹿野 清宏

    電子情報通信学会技術研究報告. SP, 音声   103 ( 519 )   97 - 102   2003年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    本報告では,音声インタフェースにおけるユーザ年齢層に応じた柔軟な対話処理の実現を目指して,話者の大人・子供識別手法を検討する.これまでの大人ユーザをターゲットとする音声認識では子供発話の認識は困難であった.しかし,家庭や公共施設雀への音声インタフェースの導入を考えると子供の存在は無視できない.子供発話を扱うための音声認識と音声インタフェースの改良が求められる.提案手法では,.大人・子供に適応した音声情報案内の実装に必要な話者識別手段として,音声認識結果の対数尤度から求める音響的特徴と言語的特徴を併用した統計学習に基づく識別手法を実装する.二値分類アルゴリズムであるSVM(Support Vector Machine)を識別に用いた実験では91.8%の識別率を得た.これは音響的特徴のみを含むGMM(Gaussian Mixture Model)の尤度比較を使った識別結果から5.4%の識別率改善である.本研究ではフィールドテストをすすめている生駒市コミュニティセンターの音声情報案内システム「たけまるくん」をプラットホームとしており,実験にはそのフィールドテスト収集発話を用いた.また,子供収集発話を音声認識モデル構築に含めることで子供認識精度の向上を試みており,その結果も報告する.

    CiNii Articles

    researchmap

  • Lecture Speech Recognition Using Large Corpus of Spontaneous Japanese

    NANOJO Hiroaki, KATO Kazuomi, LEE Akinobu, KAWAHARA Tatsuya

    IEICE transactions on information and systems   86 ( 4 )   774 - 774   2003年04月

     詳細を見る

    記述言語:英語   出版者・発行元:一般社団法人電子情報通信学会  

    Automatic transcription of lecture speech is addressed using the corpus of spontaneous Japanese collected under the priority research project in Japan. First, we investigatethe effect of speaking style and data amount for acoustic modeling. Then, to complement training data for language model, incorporation of other text corpora with optimization of mixture weights is performed. We also implement a sequential decoding method that does not need prior segmentation of lecture recordings. With these methods, word accuracy of 66.2% is achieved on recognition of 10 oral presentations.

    CiNii Articles

    CiNii Books

    researchmap

  • 大規模な日本語話し言葉データベースを用いた講演音声認識

    南條 浩輝, 加藤 一臣, 李 晃伸, 河原 達也

    電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 = The transactions of the Institute of Electronics, Information and Communication Engineers. D-II   86 ( 4 )   450 - 459   2003年04月

     詳細を見る

    記述言語:日本語   出版者・発行元:電子情報通信学会  

    開放的融合研究「話し言葉工学」プロジェクトにおいて構築されている日本語話し言葉コーパスを用いて講演音声の認識を行った.話し言葉は書き言葉の読上げ音声と大きく性質が異なるため,それに合致したモデル化と認識手法の検討が必要となる.音響モデルについては発話スタイルとデータ量の影響を調べた.言語モデルについては,話し言葉コーパスのデータ量不足を補うために他のコーパスと混合する方法,特に混合重みの最適化手法を提案する.また認識に際して,事前の発話のセグメンテーションが容易でないため,ショートポーズの自動認識に基づいて区分化と認識結果の確定を行う逐次デコーディング方式を提案・実装した.10名の話者による講演音声の認識実験で提案手法の有効性を示し,平均66.2%の認識率を得た.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://hdl.handle.net/10061/7789

  • グルメレシピタスクにおける音声対話エージェントを用いた Web 検索システム

    松本 洋平, 李 晃伸, 猿渡 洋, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2003 ( 1 )   73 - 74   2003年03月

     詳細を見る

    記述言語:日本語  

    CiNii Articles

    researchmap

  • N-gram 確率のタスク文法による部分強化アルゴリズムの評価

    鶴身 玲典, 李 晃伸, 猿渡 洋, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2003 ( 1 )   93 - 94   2003年03月

     詳細を見る

    記述言語:日本語  

    CiNii Articles

    researchmap

  • 生駒市コミュニティセンター音声情報案内システムの評価

    西原 洋平, 西村 竜一, 鶴身 玲典, 李 晃伸, 猿渡 洋, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2003 ( 1 )   99 - 100   2003年03月

     詳細を見る

    記述言語:日本語  

    CiNii Articles

    researchmap

  • タスク文法によるN-gram確率の部分強化を用いた認識アルゴリズムの評価

    鶴身 玲典, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2003 ( 14 )   77 - 82   2003年02月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    音声対話のための音声認識システムにおいては,言語モデルとしてN-gramモデルとネットワーク文法が用いられる.統計的言語モデルであるN-gramモデルでは,タスクで想定されていない発声もある程度柔軟に認識することができ,発話のバリエーションに対する頑健性が高いが,学習には大規模なコーパスが必要であり,また,文レベルの制約を表現することができない.一方,人手で記述されたネットワーク文法では,文法上受理可能なタスク内の発声は高精度で認識できるが,文法で受理できないタスク外の発生に対しては認識できない.本研究では,N-gramモデルを用いた認識において,ネットワーク文法の2単語間の接続制約を用いてN-grain確率を動的に強化する認識アルゴリズムを提案する.本手法により,タスク外の発声に対する頑健性を保ちつつ,タスクに特有の定型表現の認識精度を向上させ,トータルでユーザー発話の変化に頑健で,かつ高精度な認識を実現する.受付案内対話タスクにおいて提案法を評価した結果,タスク内の発声に対して文法のみを用いる場合に近い高い認識率が得られ,トータルの単語正解精度は82.4 %から88.0%に向上した.また,単語の生起確率のみを強化する場合や,サブタスクごとの強化の評価,および静的な確率値変更についても述べる.

    CiNii Articles

    researchmap

  • 生駒市コミュニティセンター音声情報案内システムの開発と運用

    西村 竜一, 西原 洋平, 鶴身 玲典, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2003 ( 14 )   35 - 40   2003年02月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムでは,大語彙連続音声認識を利用した一問一答形式の音声対話により,同センターや生駒市に関する案内を行うことが可能である.実用化を目指した本システムは,2002年11月6日からセンター内に常設され,開館時は誰でも自由に愛嬌のあるエージェントとのコミュニケーションを楽しむことができる.また,システムの改良に必要な対話記録を実際の運用を通じて収集し,発話内容の書き起こし等のデータの整備もすすめている.本稿では,主に本システムの構成および発話音声データ収集の状況について報告する.また,成人による比較的クリーンな発話をテストセットにした本システムの評価実験を行い,84%の単語正解率と70%の応答正解率を確認した.

    CiNii Articles

    researchmap

  • Unsupervised speaker adaptation based on HMM sufficient statistics in various noisy environments. 査読あり

    Shingo Yamade, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano

    8th European Conference on Speech Communication and Technology, EUROSPEECH 2003 - INTERSPEECH 2003, Geneva, Switzerland, September 1-4, 2003   2003年

     詳細を見る

  • 連続音声認識コンソーシアムの活動報告及び最終版ソフトウェアの概要(プロジェクト紹介(2))(第5回音声言語シンポジウム)

    河原達也, 武田一哉, 伊藤克亘, 李晃伸, 鹿野清宏, 山田篤

    情報処理学会研究報告. SLP, 音声言語情報処理   2003 ( 124 )   325 - 330   2003年

     詳細を見る

    記述言語:日本語   出版者・発行元:社団法人情報処理学会  

    連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会音声言語情報処理研究会のもとで2000年度から2002年度まで(2003年9月まで)活動を行ってきた。本稿では、この活動の報告を行うとともに、このたび編集した最終版ソフトウェアの概要を述べる。本プロジェクトでは、大語彙連続音声認識エンジンJuliusの機能拡張とWindows SAPI対応を行うとともに、非常に大規模なデータベースを用いた高精度な音響モデル・言語モデルの構築を行った。また音響モデルについては、多様な話者層(高齢者・小児)や入力環境(電話・車内環境など)に対応したモデルを整備した。

    CiNii Articles

    researchmap

  • 音素環境独立HMMを用いた混合ガウス分布選択による音響尤度計算量の削減

    李晃伸, 河原 達也, 鹿野 清宏

    情報処理学会論文誌   43 ( 7 )   2214 - 2221   2002年07月

     詳細を見る

    記述言語:日本語   出版者・発行元:電子情報通信学会  

    大規模な音響モデルにおいて音響尤度計算量を削減するための,効率の良い 混合ガウス分布予備選択法を提案する.従来広く用いられているガウス分布 選択法(Gaussian Selection)はVQコードブックに基づいて入力ベクトル 近傍のガウス分布集合を決定的に予備選択するが,混合分布中の分布が選択 されずに値がまったく得られないHMM状態が多く現れ,認識率の劣化が大きい. 本研究では,音素環境独立のモノフォンモデルを用いてトライフォン状態の 選択および非選択状態に対する尤度の近似を行う予備選択手法を提案する. モノフォンの状態の尤度をもとにトライフォンを状態単位で選択して計算す る一方で,非選択の状態に対してもモノフォンの尤度を近似値として割り付 けることで,選択誤りの認識精度への影響を抑えて安定した認識が行える. さらにこの状態選択法にGaussian pruningを導入することで,予備選択の ための計算量を抑えて効率の良い音響尤度計算を行う.認識実験より,提案 法は従来の標準的なGaussian Selectionと同等の性能を発揮し,とくに選 択数をより絞った条件下において認識率の劣化を大幅に抑えられることが示 された.最終的にPTMモデルを用いてGaussian pruningと統合することで, 認識精度をほとんど落とさずに音響尤度計算量を全体の14%まで削減する ことができた.We address a method to efficiently select Gaussian mixtures for fast acoustic likelihood computation. It makes use of context-independent models for selection and back-off of corresponding triphone models. Specifically, for the k-best phone models by the preliminary evaluation, triphone models of higher resolution are applied, and others are assigned likelihoods with the monophone models. This selection scheme assigns more reliable back-off likelihoods to the un-selected states than the conventional Gaussian selection based on a VQ codebook. It can also incorporate efficient Gaussian pruning at the preliminary evaluation, which offsets the increased size of the pre-selection model. Experimental results show that the proposed method achieves comparable performance as the standard Gaussian selection, and performs much better under aggressive pruning condition. Together with the phonetic tied-mixture (PTM) modeling, acoustic matching cost is reduced to almost 14% with little loss of accuracy.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://hdl.handle.net/10061/7779

  • 学内受付案内タスクにおける音声認識の検討

    内田 賢志, 西村 竜一, 李 晃伸, 猿渡 洋, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2002 ( 1 )   47 - 48   2002年03月

     詳細を見る

    記述言語:日本語  

    CiNii Articles

    researchmap

  • 音声対話機能を持つ受付案内ロボットASKAの実装

    西村 竜一, 李 晃伸, 猿渡 洋, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2002 ( 1 )   37 - 38   2002年03月

     詳細を見る

    記述言語:日本語  

    CiNii Articles

    researchmap

  • Continuous speech recognition consortium -An open repository for CSR tools and models

    Akinobu Lee, Tatsuya Kawahara, Kazuya Takeda, Masato Mimura, Atsushi Yamada, Akinori Ito, Katsunobu Itou, Kiyohiro Shikano

    Proceedings of the 3rd International Conference on Language Resources and Evaluation, LREC 2002   1438 - 1441   2002年01月

     詳細を見る

    Continuous Speech Recognition Consortium (CSRC) was founded on 2000 to promote sharable high-quality platform for research and development of speech recognition. It is a continued work of the former Japanese Dictation Toolkit project from 1997 to 2000. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this paper. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as tools are being set up. Currently over 50 companies and academic institutes are joining. The software is available by contacting the address csrc@astem.or.jp.

    Scopus

    researchmap

  • Julius によるマルチパス音韻モデルを用いた対話音声認識

    李晃伸

    第2回話し言葉の科学と工学ワークショップ講演予稿集, 2002   2002年

     詳細を見る

  • Spectral subtraction in noisy environments applied to speaker adaptation based on HMM sufficient statistics. 査読あり

    Shingo Yamade, Kanako Matsunami, Akira Baba, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano

    7th International Conference on Spoken Language Processing, ICSLP2002 - INTERSPEECH 2002, Denver, Colorado, USA, September 16-20, 2002   2002年

     詳細を見る

  • Juliusを用いた学内案内ロボット用音声対話システムの作成

    西村 竜一, 内田 賢志, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2001 ( 123 )   93 - 98   2001年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    ASKA(アスカ)は, 大学の受付案内システムを目標として開発中の頭部や腕のジェスチャ機能を持つ人間型音声対話ロボットである.音声対話機能は, 大語彙連続音声認識エンジンJuliusと学内案内タスク向けN-gram言語モデルを基礎としたキーワード検索による音声認識理解部と音声合成部によって構成されており, 対人センサやジェスチャ生成などの他のモジュールと状態を通信しながら分散的な動作を行なう.本ロボットは, 奈良先端大における学内共同プロジェクトで開発されており, エージェントシステムにおける様々な要素技術の実環境での検証プラットフォームと位置付けられている.今後も新たな要素技術を採り入れながら開発を続ける予定である.本稿では, 音声対話機能の実装方法を中心に現在のASKAの概要および今後の予定について述べる.

    CiNii Articles

    researchmap

  • Juliusを用いた学内案内ロボット用音声対話システムの作成

    西村 竜一, 内田 賢志, 李 晃伸, 猿渡 洋, 鹿野 清宏

    電子情報通信学会技術研究報告. SP, 音声   101 ( 522 )   93 - 98   2001年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    ASKA(アスカ)は, 大学の受付案内システムを目標として開発中の頭部や腕のジェスチャ機能を持つ人間型音声対話ロボットである.音声対話機能は, 大語彙連続音声認識エンジンJuliusと学内案内タスク向けN-gram言語モデルを基礎としたキーワード検索による音声認識理解部と音声合成部によって構成されており, 対人センサやジェスチャ生成などの他のモジュールと状態を通信しながら分散的な動作を行なう.本ロボットは, 奈良先端大における学内共同プロジェクトで開発されており, エージェントシステムにおける様々な要素技術の実環境での検証プラットフォームと位置付けられている.今後も新たな要素技術を採り入れながら開発を続ける予定である.本稿では, 音声対話機能の実装方法を中心に現在のASKAの概要および今後の予定について述べる.

    CiNii Articles

    researchmap

  • 記述文法に基づく高性能連続音声認識エンジンJulian

    李 晃伸, 河原 達也, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2001 ( 2 )   111 - 112   2001年10月

     詳細を見る

  • 音声認識エンジンJulius/JulianのAPI実装

    住吉 貴志, 李晃伸, 河原 達也

    情報処理学会研究報告音声言語情報処理(SLP)   2001 ( 68 )   91 - 96   2001年07月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    我々が開発した音声認識エンジン Julius/Julian をアプリケーション開発者にとって利用しやすいものにするため、音声認識における API の仕様を考察し、SAPI 5.0 の実装を行った。その結果、認識エンジンの入出力が標準化され、各種モデルの切り換えが容易に行えるようになり、SAPI のアプリケーションにおいて Julius/Julian の統計的言語モデルと記述文法による音声認識機能が利用できるようになった。これらの成果物は連続音声認識コンソーシアム(CSRC)において配布している。また Julius/Julian を統合し、複数の文法を処理する試みも行った。We have developed speech recognition engine Julius/Julian. For easy development of application programs, desirable specification of API is examined, and then our ASR engines are ported to support SAPI 5.0. As a result, their interfaces are standardized, and their functions of speech recognition get available from SAPI applications. The software is distributed via CSRC (Continuous Speech Recognition Consortium). In addition, the extention to handle multiple grammars is explored.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00057421/

  • 話し言葉音声認識のための言語モデルとデコーダの改善

    河原 達也, 加藤 一臣, 南條浩輝, 李晃伸

    情報処理学会研究報告自然言語処理(NL)   2001 ( 54 )   55 - 62   2001年05月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    講演音声のような話し言葉を認識するための言語モデルとデコーダ(音声認識プログラム)の改善法について述べる。言語モデルについては、話し言葉コーパスのデータ量不足を補うために、他のコーパスと混合する方法、特に混合重みの最適化手法を考察する。また話し言葉では、ポーズで区切られる単位が言語的な単位と一致しないため、間投詞とあわせて扱いの検討が必要である。特に発話のセグメンテーションが容易でないため、ショートポーズを検出しながら逐次確定していく方式をデコーダJuliusに実装した。10名の講演音声の認識で評価を行い、平均65.3%の認識精度を得た。Language modeling and decoding algorithms for spontaneous lecture speech recognition are addressed. In order to complement training data for the language model, incorporation of other text corpora is explored. Optimization of the text mixture weights is proposed. Handling of pauses as well as fillers is another problem in spontaneous speech recognition. We revised our decoder Julius so that speech segmentation is performed along the recognition process. We have achieved word accuracy of 65.3% on the automatic transcription of real oral presentations.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00048522/

  • 話し言葉の認識のためのデコーダ Julius の改良

    李 晃伸, 河原 達也, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2001 ( 1 )   33 - 34   2001年03月

     詳細を見る

  • Webからの音声認識用言語モデル自動生成ツールの開発

    西村 竜一, 長友 健太郎, 小松 久美子, 黒田 由香, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2001 ( 11 )   43 - 48   2001年02月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    本報告ではWebページからの音声認識用N-gram言語モデルの自動作成ツールの開発について述べる.言語モデルの作成は大量のテキストが必要で高いコストを要する.また, ユーザの使用する語彙は変化するため, 常に新しい言語モデルを作成する必要がある.本ツールでは, 大量に存在するWebページからキーワードによる検索を利用して, タスクに応じたテキストの収集を行ない, タスク適応した言語モデルを手軽に作成できる.また, Webページは更新されるので, 新しい語彙を持つ言語モデルの更新ができる.さらに文字パープレキシィを評価基準とするテキスト整形手法の検討をした.実験では, 本ツールを用いて「医療」をキーワードとして言語モデルを作成した.その結果, 健康相談タスクに対して新聞記事による言語モデルに比べ約9%の認識率の向上が得られた.

    CiNii Articles

    researchmap

  • 相補的バックオフを用いた言語モデル融合ツールの構築

    長友 健太郎, 西村 竜一, 小松 久美子, 黒田 由香, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2001 ( 11 )   49 - 54   2001年02月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    N-gram言語モデルは学習元のコーパスの話題や知識に依存するが、異なるタスクについて構築された複数のN-gram言語モデルの融合を行なうことで、広いタスクをカバーする言語モデルを構築できる。この際、ある言語モデルでは観測されるが他のモデルでは観測されないような未観測N-gramが存在する。これらの頻度をそのN-gramを含む他方のモデルから推定することで、各モデルのタスク依存性をなるべく保存しつつ、どのタスクについても高い精度を示すモデルの融合が可能である。本報告では、この相補的バックオフアルゴリズムを実装した言語モデル融合ツールを構築し、これを評価した。医療相談及びグルメ&amp;レシピ検索の二つのタスクにおいて、このツールを用いて両タスクごとに構築した言語モデルを融合させた結果、いずれのタスクに対しても精度の劣化しないモデルを得ることができた。

    CiNii Articles

    researchmap

  • モノフォンモデルを用いた状態選択に基づく音響尤度計算の高速化

    李 晃伸, 河原 達也, 鹿野 清宏

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   100 ( 520 )   95 - 100   2000年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    音素環境依存のモノフォンモデルの尤度に基づいてトライフォンの予備選択を行うことで, 大語彙連続音声認識における音響尤度計算量を高速化する手法を提案する.フレームごとに全モノフォン状態の尤度を計算し, 上位の状態についてのみ, 対応するより高い解像度のトライフォンモデルの尤度を計算するとともに, 下位の状態に対応するトライフォンについてはモノフォンの尤度をそのまま割り付けることで, 非計算状態に対しても信頼度の高いback-off尤度を与える.比較実験の結果, 従来手法であるベクトル量子化に基づくガウス分布選択(Gaussian selection)と同等の性能を示し, さらに計算するガウス分布数を絞った条件下でも安定した性能が得られた.Phonetic tied-mixture (PTM)モデルとの組合わせで, 精度をほとんど落とさずに音響尤度計算コストを全体の約14%に抑えることができた.

    CiNii Articles

    CiNii Books

    researchmap

  • モノフォンモデルを用いたコードブック選択による音響尤度計算の高速化

    李 晃伸, 河原 達也

    日本音響学会研究発表会講演論文集   2000 ( 2 )   25 - 26   2000年09月

     詳細を見る

  • Phonetic Tied-Mixtureモデルを用いた大語彙連続音声認識

    李 晃伸, 河原 達也, 武田 一哉, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2000 ( 1 )   37 - 38   2000年03月

     詳細を見る

  • 大語彙連続音声認識エンジンJuliusにおける単語間Triphoneの扱いの改善

    李 晃伸, 河原 達也

    日本音響学会研究発表会講演論文集   1999 ( 2 )   55 - 56   1999年09月

     詳細を見る

  • 大語彙連続音声認識における認識誤り原因の自動同定

    河原 達也, 南條 浩輝, 李 晃伸

    日本音響学会研究発表会講演論文集   1999 ( 2 )   87 - 88   1999年09月

     詳細を見る

  • 大語彙連続音声認識における認識誤り原因の自動同定

    南條浩輝, 李晃伸, 河原 達也

    情報処理学会研究報告音声言語情報処理(SLP)   1999 ( 64 )   41 - 48   1999年07月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    音声認識誤りの原因が同定されればシステム改善のための指針を得ることができ、今後の研究の指針やデータ収集時のヒントが得られる。しかし、大語彙連続音声認識においては構成要素となる音響モデル、言語モデルが大規模、かつ統計的モデルであるため認識誤りの原因が何に起因するかを人手で同定するのは容易ではない。本稿では、認識誤りの原因を自動的に同定する手法を提案する。具体的には、正解文を与え、音響モデル、言語モデルから計算されるスコアを認識結果の音響スコア、言語スコアと比較し、認識誤りの原因を音響モデル、言語モデル、探索アルゴリズムのいずれかに同定する。また、一文全体でのスコア比較はモデル改善の指針としては不十分であるため、誤りを含む数個の区間に分割し、区間ごとに原因の同定を行う。探索誤りの場合はそれと提示するにとどめるが、音響モデルが原因であるときは、クラスタリングされて学習されたtriphone、スコアの低いtriphoneを原因と同定し、言語モデルが原因であるときは、低次のN-gramから推定された3-gram,2-gramを原因として同定する。High-quality recognition is required for speech recognition system. If the causes of recognition errors are specified, it is usefull for improvement and next researches. In this paper, we propose the method diagnose errors in the framework of LVCSR. Apply the recognized and correct sentences to an acoustic and a linguistic models, calclate and compare scores, and specify the cause. To be more usefull, separate a sentence to some parts including wrong word, and specify triphones trained together with other triphones and 3-grams and 2-grams not sufficiently trained.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00057597/

  • 講演ディクテーションのための話題独立言語モデルと話題適応

    加藤 一臣, 李晃伸, 河原 達也

    情報処理学会研究報告音声言語情報処理(SLP)   1999 ( 49 )   9 - 16   1999年05月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    講演音声ディクテーションのための話し言葉のモデル化とその話題適応の方法を提案する。まず多数の話題からなる講演録を利用して、話題と出現単語の相互情報量に基づいて話題独立語の選択を行い、この語彙によって話題独立の言語モデルとした。このモデルを講演の予稿テキストから構築した言語モデルと重み付け混合することで話題適応を行い、当該講演の言語モデルを構築した。実際に男性話者1名の約10分間の口頭発表に対してディクテーションを行った結果、単語認識精度77.5%という結果が得られた。最後に、間投詞に対処したモデルを用いた結果、80.5%まで単語認識精度を向上できた。We present a method to construct a language model for the dictation of lecture speech. Topic independent lexicon is selected based on mutual informaton between the topics and a word using transcriptions of various lectures. This model is adapted to a specific lecture to be transcribed. Specifcally it is mixed with the language model which is built from the preprint paper of the lecture. We have evaluated the model by dictation of oral presentation of the paper. The word accuracy was 77.5%. And by dealing with filler words, the accuracy was improved to 80.5%.

    CiNii Articles

    CiNii Books

    researchmap

  • 文法カテゴリ対制約を用いたA*探索に基づく大語彙連続音声認識パーザ

    李晃伸, 河原 達也, 堂下修司

    情報処理学会論文誌   40 ( 4 )   1374 - 1382   1999年04月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    文法に基づく連続音声認識(パージング)において 大語彙の条件下で効率の良いA^*探索を実現するための手法を提案する. 大語彙においては探索時に仮説の単語ネットワークが爆発するため 広く用いられている1パスのビーム探索では ビーム幅を大きくとる必要があり効率が悪い. また文法による次単語予測のみでは候補の絞り込みが不十分である. これに対して (1)元の文法から抽出したコンパクトな単語対制約によって仮説ネットワークの大きさを抑え かつ(2)文法カテゴリごとに単語辞書を本構造化することで 効率的に強力なヒューリステイック計算を行う. さらに (3)この第1パスの結果をインデックス化しその音響的照合結果から展開単語を絞り込むことで 大語彙で効率の良いA^*探索を実現する. この手法を実装した汎用連続音声認識パーザJulianを 5000語クラスの文法タスクでの認識実験において 標準的な1パスビーム探索のデコーダと比較した. その結果 本手法は大語彙ではるかに少ない計算量で探索が行え また構文の複雑さによらずどのような文法でも安定して動作した. 最終的に 実時間の2.2倍程度の処理時間で91.4%の単語認識精度を達成した.We address an efficient A ^* search algorithm for grammar-based large vocabulary continuous speech recognition. While grammars can introduce long-distance constraint into search, the expanded word hypothesis network grows huge under large vocabulary. So convensional one-pass beam search needs extremely wide beam width to get optimum results. We propose an efficient two-pass search algorithm by (1) using word-pair constraint as heuristics and (2) tree-organizing the word lexicon for each grammar category, to represent the whole network in a compact loop structure. Futhermore, (3) the survived words on the first pass are indexed to eliminate candidates to be accessed on the second pass. We depeloped a portable FSA-based CSR parser named Julian and compared the performance with a typical one-pass beam decoder on 5,000-word task. Experimental results show that the proposed method achieves high accuracy with far less computation, and works stably with even more complex grammars. Finally, our parser archieved a word accuracy of 91.2% with process time of 2.5 times the real time.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00012698/

  • 大語彙連続音声認識エンジンJULIUSの高精度化と高速化

    李 晃伸, 河原 達也, 堂下 修司

    日本音響学会研究発表会講演論文集   1999 ( 1 )   75 - 76   1999年03月

     詳細を見る

  • 単語トレリスインデックスを用いた段階的探索による大語彙連続音声認識

    李 晃伸, 河原 達也, 堂下 修司

    電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理   82 ( 1 )   1 - 9   1999年01月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    大語彙連続音声認識のための効率の良い段階的 (2パス) 探索手法を提案する. 中間表現として従来広く用いられているN-best表現の一種である単語グラフ形式は, 単語単位で決定的に区分化するためにコンテクストに依存したマッチング長の変動を表現できず, 直前単語ごとに仮説を多重化する単語対近似に伴う処理量の増大が著しい. これに対して単語トレリスインデックスという形式を提案する. 仮説を多重化せずに, 第1パスのトレリスでビーム内に残った単語終端ノードのゆう度と対応する始端をすべて保存することで, 単語境界の存在範囲のあいまい性を保持する. 第2パスではこれを逆引きすることで探索空間の絞込みを行い, またヒューリスティックスコアとして用いることで, 大語彙においても高精度かつ効率の良い探索を実現する. 5000語の毎日新聞記事読上げタスクで評価を行った結果, 単語グラフ形式に比べて高精度であることが確かめられた. 更に仮説を多重化しない1-best近似を用いることで, メモリ効率を10倍以上改善しながら従来手法とほぼ同等の認識精度が得られた. 単語間音素環境依存性を考慮した最終的な単語認識精度は91.4%を達成した.

    CiNii Articles

    CiNii Books

    researchmap

  • 日本語ディクテーション基本ソフトウェア : 97年度版

    河原 達也, 李 晃伸, 小林 哲則, 武田 一哉, 峯松 信明, 伊藤 克亘, 伊藤 彰則, 山本 幹雄, 山田 篤, 宇津呂 武仁, 鹿野 清宏

    Journal of the Acoustical Society of Japan (E)   20 ( 3 )   233 - 239   1999年

     詳細を見る

    記述言語:英語   出版者・発行元:日本音響学会  

    The Japanese Dictation Toolkit has been designed and developed as a baseline platform for Japanese LVCSR (Large Vocabulary Continuous Speech Recognition). The platform consists of a standard recognition engine, Japanese phone models and Japanese statistical language models. We set up a variety of Japanese phone HMMs from a context-independent monophone to a triphone model of thousands of states. They are trained with ASJ (The Acoustical Society of Japan) databases. A lexicon and word N-gram (2-gram and 3-gram) models are constructed with a corpus of Mainichi newspaper. The recognition engine JULIUS is developed for evaluation of both acoustic and language models. As an integrated system of these modules, we have implemented a baseline 5,000-word dictation system and evaluated various components. The software repository is available to the public.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://dl.ndl.go.jp/info:ndljp/pid/10572014

  • 文法カテゴリ対制約を用いたA^*探索に基づく大語彙連続音声認識パーザ

    李晃伸

    情報処理学会論文誌   40 ( 4 )   1491 - 1498   1999年

     詳細を見る

  • 大語彙連続音声認識エンジンJuliusにおけるA探索法の改善

    李晃伸

    情処学研報   1999年

     詳細を見る

  • 文法カテゴリ対制約を用いたA^*探索に基づく大語彙連続音声認識パーザ

    李 晃伸, 河原 達也, 堂下 修司

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   98 ( 461 )   17 - 24   1998年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    大語彙の文法ベースの連続音声認識では, 探索時に仮説の単語ネットワークが爆発する, また文法による単語の絞り込みも不十分である.これに対して(1)元の文法から抽出した単語(カテゴリ)対制約によってネットワークの大きさを抑え, かつ(2)文法カテゴリごとに単語辞書を木構造化することで, 効率的に強力なヒューリスティック計算を行なう.さらに(3)この第1パスの結果をインデックス化しそれを元に展開単語を絞り込むことで, 大語彙で効率の良いA^*探索を実現する.認識実験の結果, 提案手法を用いた汎用連続音声認識パーザJulianは, 標準的な1パスビーム探索に比べて計算量がはるかに少なくて済み, また複雑なネットワークに対しても安定して動作することが示された.最終的な性能は, 800語のタスクでほぼ実時間で97.1%, 5,000語のタスクでは実時間の2倍強で91.2%の単語認識精度を達成した.

    CiNii Articles

    CiNii Books

    researchmap

  • 有限状態文法に基づく大語彙連続音声認識におけるA*探索法の評価

    李 晃伸, 河原 達也, 堂下 修司

    日本音響学会研究発表会講演論文集   1998 ( 2 )   101 - 102   1998年09月

     詳細を見る

  • 単語トレリスインデックスを用いた大語彙連続音声認識エンジンJULIUS

    李 晃伸, 河原 達也, 堂下 修司

    電子情報通信学会技術研究報告. SP, 音声   98 ( 32 )   17 - 24   1998年04月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    段階的探索アルゴリズムで広く用いられている単語グラフ形式は, 入力音声を単語単位で決定的に区分化するため単語対近似の導入が必須であり, 特に大語彙で処理量の増大が著しい。一方トレリス形式は単語境界の非決定性を保持できるが, 探索空間を直接的に限定できない。これに対し本稿では, トレリス形式を拡張した単語トレリスインデックス形式を提案し, 大語彙での高精度かつ高効率の探索を実現する。5, 000語の毎日新聞記事読み上げタクスにおいて, 提案手法を実装した認識エンジンJULIUSを用いて認識実験を行った結果, 認識精度が1.6%改善された。さらに第1パスでより強い近似である1-best近似を用いた場合, メモリ効率を10倍以上改善しながら第2パスでは従来手法とほぼ同等の認識精度が得られた。最後に単語間音素環境依存を考慮した最終的な単語認識精度は91.4%を達成した。

    CiNii Articles

    CiNii Books

    researchmap

  • 単語N-gramと段階的探索に基づく大語彙連続音声認識エンジンJULIUS

    李 晃伸, 河原 達也, 堂下 修司

    日本音響学会研究発表会講演論文集   1998 ( 1 )   51 - 52   1998年03月

     詳細を見る

  • 単語N - gramと段階的探索を用いた大語彙連続音声認識

    李 晃伸, 河原 達也, 堂下 修司

    情報処理学会研究報告音声言語情報処理(SLP)   1997 ( 52 )   19 - 24   1997年05月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    大語彙の連続音声認識においては,広大な探索空間を効率良く探索するための手法が必要不可欠である.本研究では,統計的言語モデルである単語N-gramを用いた連続音声認識における段階的探索手法について考察を行ない,京都大学で実装中の5,000語の認識システムの構成と動作例を報告する.まず使用する単語 N-gram言語モデルの諸元について述べ,話題別 N-gramの導入についても検討する.次に種々の段階的探索手法について比較を行う.特に,高い探索精度を実現するために,単語グラフ等を介さない効率的なマルチパス探索手法を提案する.In large vocabulary continuous speech recognition (LVCSR), an efficient search algorithm is essential. We examine multi-pass search methods for LVCSR using word N-gram, and overview 5000 word CSR system currently developed at Kyoto university. First, the specifications of word N-gram stochastic language model estimated from Mainichi newspaper database are shown. Topic-dependent N-gram model is also studied. Then, we compare various multi-pass search methods, and propose an efficient multi-pass search that does not use intermediate representation like word graph and realizes accurate search.

    CiNii Articles

    CiNii Books

    researchmap

  • A^*探索に基づく大語彙連続音声認識

    李晃伸

    情報処理学会研究報告   96   1996年

     詳細を見る

このページの先頭へ▲