MISC - 李 晃伸

分割表示  103 件中 81 - 100 件目  /  全件表示 >>
  • 話し言葉音声認識のための言語モデルとデコーダの改善

    河原 達也, 加藤 一臣, 南條浩輝, 李晃伸

    情報処理学会研究報告自然言語処理(NL)   2001 ( 54 )   55 - 62   2001年05月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    講演音声のような話し言葉を認識するための言語モデルとデコーダ(音声認識プログラム)の改善法について述べる。言語モデルについては、話し言葉コーパスのデータ量不足を補うために、他のコーパスと混合する方法、特に混合重みの最適化手法を考察する。また話し言葉では、ポーズで区切られる単位が言語的な単位と一致しないため、間投詞とあわせて扱いの検討が必要である。特に発話のセグメンテーションが容易でないため、ショートポーズを検出しながら逐次確定していく方式をデコーダJuliusに実装した。10名の講演音声の認識で評価を行い、平均65.3%の認識精度を得た。Language modeling and decoding algorithms for spontaneous lecture speech recognition are addressed. In order to complement training data for the language model, incorporation of other text corpora is explored. Optimization of the text mixture weights is proposed. Handling of pauses as well as fillers is another problem in spontaneous speech recognition. We revised our decoder Julius so that speech segmentation is performed along the recognition process. We have achieved word accuracy of 65.3% on the automatic transcription of real oral presentations.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00048522/

  • 話し言葉の認識のためのデコーダ Julius の改良

    李 晃伸, 河原 達也, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2001 ( 1 )   33 - 34   2001年03月

     詳細を見る

  • Webからの音声認識用言語モデル自動生成ツールの開発

    西村 竜一, 長友 健太郎, 小松 久美子, 黒田 由香, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2001 ( 11 )   43 - 48   2001年02月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    本報告ではWebページからの音声認識用N-gram言語モデルの自動作成ツールの開発について述べる.言語モデルの作成は大量のテキストが必要で高いコストを要する.また, ユーザの使用する語彙は変化するため, 常に新しい言語モデルを作成する必要がある.本ツールでは, 大量に存在するWebページからキーワードによる検索を利用して, タスクに応じたテキストの収集を行ない, タスク適応した言語モデルを手軽に作成できる.また, Webページは更新されるので, 新しい語彙を持つ言語モデルの更新ができる.さらに文字パープレキシィを評価基準とするテキスト整形手法の検討をした.実験では, 本ツールを用いて「医療」をキーワードとして言語モデルを作成した.その結果, 健康相談タスクに対して新聞記事による言語モデルに比べ約9%の認識率の向上が得られた.

    CiNii Articles

    researchmap

  • 相補的バックオフを用いた言語モデル融合ツールの構築

    長友 健太郎, 西村 竜一, 小松 久美子, 黒田 由香, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2001 ( 11 )   49 - 54   2001年02月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    N-gram言語モデルは学習元のコーパスの話題や知識に依存するが、異なるタスクについて構築された複数のN-gram言語モデルの融合を行なうことで、広いタスクをカバーする言語モデルを構築できる。この際、ある言語モデルでは観測されるが他のモデルでは観測されないような未観測N-gramが存在する。これらの頻度をそのN-gramを含む他方のモデルから推定することで、各モデルのタスク依存性をなるべく保存しつつ、どのタスクについても高い精度を示すモデルの融合が可能である。本報告では、この相補的バックオフアルゴリズムを実装した言語モデル融合ツールを構築し、これを評価した。医療相談及びグルメ&レシピ検索の二つのタスクにおいて、このツールを用いて両タスクごとに構築した言語モデルを融合させた結果、いずれのタスクに対しても精度の劣化しないモデルを得ることができた。

    CiNii Articles

    researchmap

  • モノフォンモデルを用いた状態選択に基づく音響尤度計算の高速化

    李 晃伸, 河原 達也, 鹿野 清宏

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   100 ( 520 )   95 - 100   2000年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    音素環境依存のモノフォンモデルの尤度に基づいてトライフォンの予備選択を行うことで, 大語彙連続音声認識における音響尤度計算量を高速化する手法を提案する.フレームごとに全モノフォン状態の尤度を計算し, 上位の状態についてのみ, 対応するより高い解像度のトライフォンモデルの尤度を計算するとともに, 下位の状態に対応するトライフォンについてはモノフォンの尤度をそのまま割り付けることで, 非計算状態に対しても信頼度の高いback-off尤度を与える.比較実験の結果, 従来手法であるベクトル量子化に基づくガウス分布選択(Gaussian selection)と同等の性能を示し, さらに計算するガウス分布数を絞った条件下でも安定した性能が得られた.Phonetic tied-mixture (PTM)モデルとの組合わせで, 精度をほとんど落とさずに音響尤度計算コストを全体の約14%に抑えることができた.

    CiNii Articles

    CiNii Books

    researchmap

  • モノフォンモデルを用いたコードブック選択による音響尤度計算の高速化

    李 晃伸, 河原 達也

    日本音響学会研究発表会講演論文集   2000 ( 2 )   25 - 26   2000年09月

     詳細を見る

  • Phonetic Tied-Mixtureモデルを用いた大語彙連続音声認識

    李 晃伸, 河原 達也, 武田 一哉, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2000 ( 1 )   37 - 38   2000年03月

     詳細を見る

  • 大語彙連続音声認識エンジンJuliusにおける単語間Triphoneの扱いの改善

    李 晃伸, 河原 達也

    日本音響学会研究発表会講演論文集   1999 ( 2 )   55 - 56   1999年09月

     詳細を見る

  • 大語彙連続音声認識における認識誤り原因の自動同定

    河原 達也, 南條 浩輝, 李 晃伸

    日本音響学会研究発表会講演論文集   1999 ( 2 )   87 - 88   1999年09月

     詳細を見る

  • 大語彙連続音声認識における認識誤り原因の自動同定

    南條浩輝, 李晃伸, 河原 達也

    情報処理学会研究報告音声言語情報処理(SLP)   1999 ( 64 )   41 - 48   1999年07月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    音声認識誤りの原因が同定されればシステム改善のための指針を得ることができ、今後の研究の指針やデータ収集時のヒントが得られる。しかし、大語彙連続音声認識においては構成要素となる音響モデル、言語モデルが大規模、かつ統計的モデルであるため認識誤りの原因が何に起因するかを人手で同定するのは容易ではない。本稿では、認識誤りの原因を自動的に同定する手法を提案する。具体的には、正解文を与え、音響モデル、言語モデルから計算されるスコアを認識結果の音響スコア、言語スコアと比較し、認識誤りの原因を音響モデル、言語モデル、探索アルゴリズムのいずれかに同定する。また、一文全体でのスコア比較はモデル改善の指針としては不十分であるため、誤りを含む数個の区間に分割し、区間ごとに原因の同定を行う。探索誤りの場合はそれと提示するにとどめるが、音響モデルが原因であるときは、クラスタリングされて学習されたtriphone、スコアの低いtriphoneを原因と同定し、言語モデルが原因であるときは、低次のN-gramから推定された3-gram,2-gramを原因として同定する。High-quality recognition is required for speech recognition system. If the causes of recognition errors are specified, it is usefull for improvement and next researches. In this paper, we propose the method diagnose errors in the framework of LVCSR. Apply the recognized and correct sentences to an acoustic and a linguistic models, calclate and compare scores, and specify the cause. To be more usefull, separate a sentence to some parts including wrong word, and specify triphones trained together with other triphones and 3-grams and 2-grams not sufficiently trained.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00057597/

  • 講演ディクテーションのための話題独立言語モデルと話題適応

    加藤 一臣, 李晃伸, 河原 達也

    情報処理学会研究報告音声言語情報処理(SLP)   1999 ( 49 )   9 - 16   1999年05月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    講演音声ディクテーションのための話し言葉のモデル化とその話題適応の方法を提案する。まず多数の話題からなる講演録を利用して、話題と出現単語の相互情報量に基づいて話題独立語の選択を行い、この語彙によって話題独立の言語モデルとした。このモデルを講演の予稿テキストから構築した言語モデルと重み付け混合することで話題適応を行い、当該講演の言語モデルを構築した。実際に男性話者1名の約10分間の口頭発表に対してディクテーションを行った結果、単語認識精度77.5%という結果が得られた。最後に、間投詞に対処したモデルを用いた結果、80.5%まで単語認識精度を向上できた。We present a method to construct a language model for the dictation of lecture speech. Topic independent lexicon is selected based on mutual informaton between the topics and a word using transcriptions of various lectures. This model is adapted to a specific lecture to be transcribed. Specifcally it is mixed with the language model which is built from the preprint paper of the lecture. We have evaluated the model by dictation of oral presentation of the paper. The word accuracy was 77.5%. And by dealing with filler words, the accuracy was improved to 80.5%.

    CiNii Articles

    CiNii Books

    researchmap

  • 文法カテゴリ対制約を用いたA*探索に基づく大語彙連続音声認識パーザ

    李晃伸, 河原 達也, 堂下修司

    情報処理学会論文誌   40 ( 4 )   1374 - 1382   1999年04月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    文法に基づく連続音声認識(パージング)において 大語彙の条件下で効率の良いA^*探索を実現するための手法を提案する. 大語彙においては探索時に仮説の単語ネットワークが爆発するため 広く用いられている1パスのビーム探索では ビーム幅を大きくとる必要があり効率が悪い. また文法による次単語予測のみでは候補の絞り込みが不十分である. これに対して (1)元の文法から抽出したコンパクトな単語対制約によって仮説ネットワークの大きさを抑え かつ(2)文法カテゴリごとに単語辞書を本構造化することで 効率的に強力なヒューリステイック計算を行う. さらに (3)この第1パスの結果をインデックス化しその音響的照合結果から展開単語を絞り込むことで 大語彙で効率の良いA^*探索を実現する. この手法を実装した汎用連続音声認識パーザJulianを 5000語クラスの文法タスクでの認識実験において 標準的な1パスビーム探索のデコーダと比較した. その結果 本手法は大語彙ではるかに少ない計算量で探索が行え また構文の複雑さによらずどのような文法でも安定して動作した. 最終的に 実時間の2.2倍程度の処理時間で91.4%の単語認識精度を達成した.We address an efficient A ^* search algorithm for grammar-based large vocabulary continuous speech recognition. While grammars can introduce long-distance constraint into search, the expanded word hypothesis network grows huge under large vocabulary. So convensional one-pass beam search needs extremely wide beam width to get optimum results. We propose an efficient two-pass search algorithm by (1) using word-pair constraint as heuristics and (2) tree-organizing the word lexicon for each grammar category, to represent the whole network in a compact loop structure. Futhermore, (3) the survived words on the first pass are indexed to eliminate candidates to be accessed on the second pass. We depeloped a portable FSA-based CSR parser named Julian and compared the performance with a typical one-pass beam decoder on 5,000-word task. Experimental results show that the proposed method achieves high accuracy with far less computation, and works stably with even more complex grammars. Finally, our parser archieved a word accuracy of 91.2% with process time of 2.5 times the real time.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00012698/

  • 大語彙連続音声認識エンジンJULIUSの高精度化と高速化

    李 晃伸, 河原 達也, 堂下 修司

    日本音響学会研究発表会講演論文集   1999 ( 1 )   75 - 76   1999年03月

     詳細を見る

  • 単語トレリスインデックスを用いた段階的探索による大語彙連続音声認識

    李 晃伸, 河原 達也, 堂下 修司

    電子情報通信学会論文誌. D-2, 情報・システム 2-情報処理   82 ( 1 )   1 - 9   1999年01月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    大語彙連続音声認識のための効率の良い段階的 (2パス) 探索手法を提案する. 中間表現として従来広く用いられているN-best表現の一種である単語グラフ形式は, 単語単位で決定的に区分化するためにコンテクストに依存したマッチング長の変動を表現できず, 直前単語ごとに仮説を多重化する単語対近似に伴う処理量の増大が著しい. これに対して単語トレリスインデックスという形式を提案する. 仮説を多重化せずに, 第1パスのトレリスでビーム内に残った単語終端ノードのゆう度と対応する始端をすべて保存することで, 単語境界の存在範囲のあいまい性を保持する. 第2パスではこれを逆引きすることで探索空間の絞込みを行い, またヒューリスティックスコアとして用いることで, 大語彙においても高精度かつ効率の良い探索を実現する. 5000語の毎日新聞記事読上げタスクで評価を行った結果, 単語グラフ形式に比べて高精度であることが確かめられた. 更に仮説を多重化しない1-best近似を用いることで, メモリ効率を10倍以上改善しながら従来手法とほぼ同等の認識精度が得られた. 単語間音素環境依存性を考慮した最終的な単語認識精度は91.4%を達成した.

    CiNii Articles

    CiNii Books

    researchmap

  • 日本語ディクテーション基本ソフトウェア : 97年度版

    河原 達也, 李 晃伸, 小林 哲則, 武田 一哉, 峯松 信明, 伊藤 克亘, 伊藤 彰則, 山本 幹雄, 山田 篤, 宇津呂 武仁, 鹿野 清宏

    Journal of the Acoustical Society of Japan (E)   20 ( 3 )   233 - 239   1999年

     詳細を見る

    記述言語:英語   出版者・発行元:日本音響学会  

    The Japanese Dictation Toolkit has been designed and developed as a baseline platform for Japanese LVCSR (Large Vocabulary Continuous Speech Recognition). The platform consists of a standard recognition engine, Japanese phone models and Japanese statistical language models. We set up a variety of Japanese phone HMMs from a context-independent monophone to a triphone model of thousands of states. They are trained with ASJ (The Acoustical Society of Japan) databases. A lexicon and word N-gram (2-gram and 3-gram) models are constructed with a corpus of Mainichi newspaper. The recognition engine JULIUS is developed for evaluation of both acoustic and language models. As an integrated system of these modules, we have implemented a baseline 5,000-word dictation system and evaluated various components. The software repository is available to the public.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://dl.ndl.go.jp/info:ndljp/pid/10572014

  • 文法カテゴリ対制約を用いたA^*探索に基づく大語彙連続音声認識パーザ

    李晃伸

    情報処理学会論文誌   40 ( 4 )   1491 - 1498   1999年

     詳細を見る

  • 大語彙連続音声認識エンジンJuliusにおけるA探索法の改善

    李晃伸

    情処学研報   1999年

     詳細を見る

  • 文法カテゴリ対制約を用いたA^*探索に基づく大語彙連続音声認識パーザ

    李 晃伸, 河原 達也, 堂下 修司

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション   98 ( 461 )   17 - 24   1998年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    大語彙の文法ベースの連続音声認識では, 探索時に仮説の単語ネットワークが爆発する, また文法による単語の絞り込みも不十分である.これに対して(1)元の文法から抽出した単語(カテゴリ)対制約によってネットワークの大きさを抑え, かつ(2)文法カテゴリごとに単語辞書を木構造化することで, 効率的に強力なヒューリスティック計算を行なう.さらに(3)この第1パスの結果をインデックス化しそれを元に展開単語を絞り込むことで, 大語彙で効率の良いA^*探索を実現する.認識実験の結果, 提案手法を用いた汎用連続音声認識パーザJulianは, 標準的な1パスビーム探索に比べて計算量がはるかに少なくて済み, また複雑なネットワークに対しても安定して動作することが示された.最終的な性能は, 800語のタスクでほぼ実時間で97.1%, 5,000語のタスクでは実時間の2倍強で91.2%の単語認識精度を達成した.

    CiNii Articles

    CiNii Books

    researchmap

  • 有限状態文法に基づく大語彙連続音声認識におけるA*探索法の評価

    李 晃伸, 河原 達也, 堂下 修司

    日本音響学会研究発表会講演論文集   1998 ( 2 )   101 - 102   1998年09月

     詳細を見る

  • 単語トレリスインデックスを用いた大語彙連続音声認識エンジンJULIUS

    李 晃伸, 河原 達也, 堂下 修司

    電子情報通信学会技術研究報告. SP, 音声   98 ( 32 )   17 - 24   1998年04月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    段階的探索アルゴリズムで広く用いられている単語グラフ形式は, 入力音声を単語単位で決定的に区分化するため単語対近似の導入が必須であり, 特に大語彙で処理量の増大が著しい。一方トレリス形式は単語境界の非決定性を保持できるが, 探索空間を直接的に限定できない。これに対し本稿では, トレリス形式を拡張した単語トレリスインデックス形式を提案し, 大語彙での高精度かつ高効率の探索を実現する。5, 000語の毎日新聞記事読み上げタクスにおいて, 提案手法を実装した認識エンジンJULIUSを用いて認識実験を行った結果, 認識精度が1.6%改善された。さらに第1パスでより強い近似である1-best近似を用いた場合, メモリ効率を10倍以上改善しながら第2パスでは従来手法とほぼ同等の認識精度が得られた。最後に単語間音素環境依存を考慮した最終的な単語認識精度は91.4%を達成した。

    CiNii Articles

    CiNii Books

    researchmap

このページの先頭へ▲