論文 - 李 晃伸
-
Real-time word confidence scoring using local posterior probabilities on tree trellis search
Akinobu Lee, Kiyohiro Shikano, Tatsuya Kawahara
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 1 I793 - I796 2004年
記述言語:英語 掲載種別:研究論文(国際会議プロシーディングス)
Confidence scoring based on word posterior probability is usually performed as a post process of speech recognition decoding, and also needs a large number of word hypotheses to get enough confidence quality. We propose a simple way of computing the word confidence using estimated posterior probability while decoding. At the word expansion of stack decoding search, the local sentence likelihoods that contains heuristic scores of unreached segment are directly used to compute the posterior probabilities. Experimental result showed that, although the likelihoods are not optimal, it can provide slightly better confidence measures compared with N-best lists, while the computation is faster than 100-best method because no N-best decoding is required.
-
擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(プロジェクト紹介(2))(第5回音声言語シンポジウム)
嵯峨山, 茂樹, 伊藤, 克亘, 宇津呂, 武仁, 甲斐, 充彦, 小林, 隆夫, 下平, 博, 伝, 康晴, 徳田, 恵一, 中村, 哲, 西本, 卓也, 新田, 恒雄, 広瀬, 啓吉, 峯松, 信明, 森島, 繁生, 山下, 洋一, 山田, 篤, 李, 晃伸
情報処理学会研究報告. SLP, 音声言語情報処理 2003 ( 124 ) 319 - 324 2003年12月
記述言語:日本語 掲載種別:研究論文(学術雑誌) 出版者・発行元:一般社団法人電子情報通信学会
-
擬人化音声対話エージェントツールキットGalatea
嵯峨山, 茂樹, 川本, 真一, 下平, 博, 新田, 恒雄, 西本, 卓也, 中村, 哲, 伊藤, 克亘, 森島, 繁生, 四倉, 達夫, 甲斐, 充彦, 李, 晃伸, 山下, 洋一, 小林, 隆夫, 徳田, 恵一, 広瀬, 啓吉, 峯松, 信明, 山田, 篤, 伝, 康晴, 宇津呂, 武仁
情報処理学会研究報告. SLP, 音声言語情報処理 2003 ( 14 ) 57 - 64 2003年02月
記述言語:日本語 掲載種別:研究論文(学術雑誌) 出版者・発行元:一般社団法人情報処理学会
-
相補的バックオフを用いた言語モデル融合ツールの構築
情報処理学会論文誌 43 ( 9 ) 2884 - 2893 2002年09月
-
カスタマイズ性を考慮した擬人化音声対話のソフトウェアツールキットの設計 査読あり
川本真一, 下平博, 新田恒雄, 西本卓也, 中村哲, 伊藤克亘, 森島繁生, 四倉達夫, 甲斐充彦, 李晃伸, 山下洋一, 小林隆夫, 徳田恵一, 広瀬啓吉, 峯松信明, 山田篤, 伝康晴, 宇津呂武仁, 嵯峨山茂樹
情報処理学会論文誌 43 ( 7 ) 2249-2264 2002年05月
記述言語:日本語 掲載種別:研究論文(学術雑誌) 出版者・発行元:情報処理学会
-
擬人化音声対話エージェント開発プロジェクト
嵯峨山, 茂樹, 伊藤, 克亘, 宇津呂, 武仁, 甲斐, 充彦, 小林, 隆夫, 下平, 博, 伝, 康晴, 徳田, 恵一, 中村, 哲, 西本, 卓也, 新田, 恒雄, 広瀬, 啓吉, 森島, 繁生, 峯松, 信明, 山下, 洋一, 山田, 篤, 李, 晃伸
日本音響学会研究発表会講演論文集 2002 ( 1 ) 27 - 28 2002年03月
記述言語:日本語 掲載種別:研究論文(学術雑誌)
-
擬人化音声対話エージェントツールキットの基本設計
川本, 真一, 下平, 博, 新田, 恒雄, 西本, 卓也, 中村, 哲, 伊藤, 克亘, 森島, 繁生, 四倉, 達夫, 甲斐, 充彦, 李, 晃伸, 山下, 洋一, 小林, 隆夫, 徳田, 恵一, 広瀬, 啓吉, 峯松, 信明, 山田, 篤, 伝, 康晴, 宇津呂, 武仁, 嵯峨山, 茂樹
情報処理学会研究報告. HI, ヒューマンインタフェース研究会報告 2002 ( 10 ) 61 - 66 2002年02月
記述言語:日本語 掲載種別:研究論文(学術雑誌) 出版者・発行元:一般社団法人情報処理学会
筆者らは,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つ擬人化音声対話エージェントシステムを構想し,実装した.各モジュールのインタフェースを統一化して扱い,モジュール間の入出力は,UNIXシステムで使われている標準入出力を用いる簡便な方法にてモジュール統合機構を実現した.いくつかの簡単な対話タスクについてエージェントを試作し,必要な機能に関する達成度を確認した.また,顔画像合成モジュールを制御する新たなモジュールの追加を容易に実現することができた.
-
日本語ディクテーション基本ソフトウェア(99年度版)" 査読あり
河原達也, 李晃伸, 小林哲則, 武田一哉, 峯松信明, 嵯峨山茂樹, 伊藤克亘, 伊藤彰則, 山本幹雄, 山田篤, 宇津呂武仁, 鹿野清宏
日本音響学会誌 57 ( 3 ) 210-214 - 214 2001年03月
-
Julius-An open source real-Time large vocabulary recognition engine
Akinobu Lee, Tatsuya Kawahara, Kiyohiro Shikano
EUROSPEECH 2001 - SCANDINAVIA - 7th European Conference on Speech Communication and Technology 1691 - 1694 2001年
記述言語:英語 掲載種別:研究論文(国際会議プロシーディングス) 出版者・発行元:International Speech Communication Association
Julius is a high-performance, two-pass LVCSR decoder for researchers and developers. Based on word 3-gram and context-dependent HMM, it can perform almost realtime decoding on most current PCs in 20k word dictation task. Major search techniques are fully incorporated such as tree lexicon, N-gram factoring, cross-word context dependency handling, enveloped beam search, Gaussian pruning, Gaussian selection, etc. Besides search efficiency, it is also modularized carefully to be independent from model structures, and various HMM types are supported such as shared-state triphones and tiedmixture models, with any number of mixtures, states, or phones. Standard formats are adopted to cope with other free modeling toolkit. The main platform is Linux and other Unix workstations, and partially works on Windows. Julius is distributed with open license together with source codes, and has been used by many researchers and developers in Japan.
-
Gaussian mixture selection using context-independent HMM 査読あり
Akinobu Lee, Tatsuya Kawahara, Kiyohiro Shikano
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 1 69 - 72 2001年
記述言語:英語 掲載種別:研究論文(学術雑誌)
We address a method to efficiently select Gaussian mixtures for fast acoustic likelihood computation. It makes use of context-independent models for selection and back-off of corresponding triphone models. Specifically, for the k-best phone models by the preliminary evaluation, triphone models of higher resolution are applied, and others are assigned likelihoods with the monophone models. This selection scheme assigns more reliable back-off likelihoods to the un-selected states than the conventional Gaussian selection based on a VQ codebook. It can also incorporate efficient Gaussian pruning at the preliminary evaluation, which offsets the increased size of the pre-selection model. Experimental results show that the proposed method achieves comparable performance as the standard Gaussian selection, and performs much better under aggressive pruning condition. Together with the phonetic tied-mixture (PTM) modeling, acoustic matching cost is reduced to almost 14% with little loss of accuracy.
-
Large Vocabulary Continuous Speech Recognition using Multi-Pass Search Algorithm 査読あり
Akinobu Lee
2000年09月
記述言語:英語 掲載種別:学位論文(博士)
-
日本語ディクテーション基本ソフトウェア(98年度版) 査読あり
河原達也, 李晃伸, 小林哲則, 武田一哉, 峯松信明, 伊藤克亘, 山本幹雄, 山田篤, 宇津呂武仁, 鹿野清宏
日本音響学会誌 56 ( 4 ) 255-259 - 259 2000年04月
記述言語:日本語 掲載種別:研究論文(学術雑誌) 出版者・発行元:日本音響学会
-
Free software toolkit for Japanese large vocabulary continuous speech recognition. 査読あり
Tatsuya Kawahara, Akinobu Lee, Tetsunori Kobayashi, Kazuya Takeda, Nobuaki Minematsu, Shigeki Sagayama, Katsunobu Itou, Akinori Ito, Mikio Yamamoto, Atsushi Yamada, Takehito Utsuro, Kiyohiro Shikano
Sixth International Conference on Spoken Language Processing, ICSLP 2000 / INTERSPEECH 2000, Beijing, China, October 16-20, 2000 476 - 479 2000年
-
A new phonetic tied-mixture model for efficient decoding 査読あり
Akinobu Lee, Tatsuya Kawahara, Kazuya Takeda, Kiyohiro Shikano
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 3 1269 - 1272 2000年
記述言語:英語 掲載種別:研究論文(国際会議プロシーディングス) 出版者・発行元:Institute of Electrical and Electronics Engineers Inc.
A phonetic tied-mixture (PTM) model for efficient large vocabulary continuous speech recognition is presented. It is synthesized from context-independent phone models with 64 mixture components per state by assigning different mixture weights according to the shared states of triphones. Mixtures are then re-estimated for optimization. The model achieves a word error rate of 7.0% with a 20000-word dictation of newspaper corpus, which is comparable to the best figure by the triphone of much higher resolutions. Compared with conventional PTMs that share Gaussians by all states, the proposed model is easily trained and reliably estimated. Furthermore, the model enables the decoder to perform efficient Gaussian pruning. It is found out that computing only two out of 64 components does not cause any loss of accuracy. Several methods for the pruning are proposed and compared, and the best one reduced the computation to about 20%.
-
日本語ディクテーション基本ソフトウェア(97年度版) 査読あり
河原達也, 李晃伸, 小林哲則, 武田一哉, 峯松信明, 伊藤克亘, 伊藤彰則, 山本幹雄, 山田篤, 宇津呂武仁, 鹿野清宏
日本音響学会誌 55 ( 3 ) 175-180 - 180 1999年03月