論文 - 李 晃伸
-
大語彙連続音声認識における単語信頼度に基づく単語固有ノードの枝刈り手法の検討
小林 大晃, 伊藤 直晃, 李 晃伸
日本音響学会2014年春季研究発表会講演論文集 2014年03月
記述言語:日本語 掲載種別:研究論文(研究会,シンポジウム資料等)
-
統計的音声対話システムにおける登録キーワードの近傍単語を優先した仮説生成に基づく応答選択
小升 章裕, 南角 吉彦, 李 晃伸, 徳田 恵一
日本音響学会2014年春季研究発表会講演論文集 3-Q5-13 - 224 2014年03月
-
条件付き確立場に基づく仮説の遂次早期確定を用い低遅延音声インタフェース
伊神 陽介, 李 晃伸, 徳田 恵一, 南角 吉彦
日本音響学会2014年春季研究発表会講演論文集 2-4-7 2014年03月
記述言語:日本語 掲載種別:研究論文(研究会,シンポジウム資料等)
-
ユーザ生成型音声対話コンテンツに向けた有限状態トランスデューサに基づく簡潔な対話記述法の検討
船谷内 泰斗, 大浦 圭一郎, 南角 吉彦, 李 晃伸, 徳田 恵一
音響学会講演論文集 223 - 224 2013年09月
記述言語:日本語 掲載種別:研究論文(学術雑誌)
-
MMDAgent --- A Fully Open-Source Toolkit for Voice Interaction Systems 査読あり 国際誌
Akinobu Lee, Keiichiro Oura, Keiichi Tokuda.
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2013 8382 - 8385 2013年05月
担当区分:筆頭著者 記述言語:英語 掲載種別:研究論文(国際会議プロシーディングス)
-
スマートフォン単体で動作する音声対話3Dエージェント「スマートメイちゃん」の開発
山本 大介, 大浦 圭一郎, 李 晃伸 他
情報処理学会インタラクション 675 - 680 2013年03月
記述言語:日本語 掲載種別:研究論文(研究会,シンポジウム資料等)
-
ユーザ参加型双方向音声案内デジタルサイネージシステムの開発・設置・運用事例 招待あり
徳田恵一, 大浦圭一郎, 李晃伸, 山本大介, 打矢隆弘, 内匠逸
日本音響学会2013年春季研究発表会論文集 119 - 122 2013年03月
記述言語:日本語 掲載種別:研究論文(学術雑誌)
-
キャンパスの公共空間におけるユーザ参加型双方向音声案内デジタルサイネージシステム 査読あり
大浦圭一郎, 山本大介, 内匠逸, 李晃伸, 徳田恵一
人工知能学会論文誌 28 ( 1 ) 60 - 67 2013年01月
記述言語:日本語 掲載種別:研究論文(学術雑誌) 出版者・発行元:人工知能学会
-
10年間の長期運用を支えた音声情報案内システム「たけまるくん」の技術 査読あり
西村竜一, 原直, 川波弘道, 李晃伸, 鹿野清宏
人工知能学会論文誌 28 ( 1 ) 52 - 59 2013年01月
記述言語:日本語 掲載種別:研究論文(学術雑誌) 出版者・発行元:一般社団法人 人工知能学会
-
ドライバの社会性に関するCharacter自動推定
神沼 充伸, 西崎 友規子, ブエ・ステファン, 南角 吉彦, 李 晃伸
Human Interface 2012予稿集 2012年09月
記述言語:日本語 掲載種別:研究論文(その他学術会議資料等)
-
登録キーワードと汎用言語モデルを用いた音声認識部・応答選択部の密結合に基づく統計的音声対話システム
平野隆司, 加藤杏樹, 南角吉彦, 李晃伸, 徳田恵一
2012 Information Processing Society of Japan 2012-SLP-92 ( 3 ) 1 - 6 2012年07月
記述言語:日本語 掲載種別:研究論文(学術雑誌)
-
双方向音声デジタルサイネージのための学内イベント登録システム
山本大介, 大浦圭一郎, 李晃伸, 打矢隆弘, 内匠逸, 徳田恵一, 松尾啓志
大学ITC推進協議会2011年度年次大会 2011年12月
記述言語:日本語 掲載種別:研究論文(その他学術会議資料等)
-
魅力ある音声インタラクションシステムを構築するためのオープンソースツールキットMMDAgent
李晃伸, 大浦圭一郎, 徳田恵一
Technical Report of IEICE 1 - 6 2011年12月
記述言語:日本語 掲載種別:研究論文(その他学術会議資料等)
-
Speech recognition based on statistical models including multiple phonetic decision trees 査読あり
Sayaka Shiota, Kei Hashimoto, Heiga Zen, Yoshihiko Nankaku, Akinobu Lee, Keiichi Tokuda
Acoustical Science and Technology 32 ( 6 ) 236 - 243 2011年11月
記述言語:英語 掲載種別:研究論文(学術雑誌)
-
連続音声認識における仮説の低遅延逐次確定アルゴリズムの評価
大野博之, 南角吉彦, 李晃伸, 徳田恵一
日本音響学会2011年秋季研究発表会論文集 45 - 46 2011年09月
記述言語:日本語 掲載種別:研究論文(その他学術会議資料等)
-
Evaluation of Tree-Trellis Based Decoding on Over-Million LVCSR 査読あり
Naoaki Ito, Yoshihiko Nankaku, Akinobu Lee, Keiichi Tokuda
Proc. ISCA Interspeech2011 1937 - 1940 2011年08月
記述言語:英語 掲載種別:研究論文(国際会議プロシーディングス)
-
Bayesian context clustering using cross validation for speech recognition(共著) 査読あり
Kei Hashimoto, Heiga Zen, Yoshihiko Nankaku, Akinobu Lee, Keiichi Tokuda
IEICE Transactions on Information and Systems E94-D ( 3 ) 668 - 678 2011年03月
-
Evaluation of Tree-trellis based Decoding in Over-million LVCSR 査読あり
Naoaki Ito, Yoshihiko Nankaku, Akinobu Lee, Keiichi Tokuda
12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 1948 - 1951 2011年
記述言語:英語 掲載種別:研究論文(国際会議プロシーディングス) 出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC
Very large vocabulary continuous speech recognition (CSR) that can recognize every sentence is one of important goals in speech recognition. Several attempts have been made to achieve very large vocabulary CSR. However, very large vocabulary CSR using a tree-trellis based decoder has not been reported. We report the performance evaluation and improvement of the "Julius" tree-trellis based decoder in large vocabulary CSR (LVCSR) involving more than one million vocabulary, referred to here as over-million LVCSR. Experiments indicated that Julius achieved a word accuracy of about 91% and a real time factor of about 2 in over-million LVCSR for Japanese newspaper speech transcription.
-
Speech recognition based on statistical models including multiple phonetic decision trees 査読あり
Sayaka Shiota, Kei Hashimoto, Heiga Zen, Yoshihiko Nankaku, Akinobu Lee, Keiichi Tokuda
Acoustical Science and Technology 32 ( 6 ) 236 - 243 2011年
記述言語:英語 掲載種別:研究論文(学術雑誌)
We propose a speech recognition technique using multiple model structures. In the use of context-dependent models, decision-tree-based context clustering is applied to find an appropriate parameter tying structure. However, context clustering is usually performed on the basis of unreliable statistics of hidden Markov model (HMM) state sequences because the estimation of reliable state sequences requires an appropriate model structures, that cannot be obtained prior to context clustering. Therefore, context clustering and the estimation of state sequences essentially cannot be performed independently. To overcome this problem, we propose an optimization technique of state sequences based on an annealing process using multiple decision trees. In this technique, a new likelihood function is defined in order to treat multiple model structures, and the deterministic annealing expectation maximization algorithm is used as the training algorithm. Experimental continuous phoneme recognition results show that the proposed method of using only two decision trees achieved about an 11.1% relative error reduction over the conventional method. © 2011 The Acoustical Society of Japan.
DOI: 10.1250/ast.32.236
-
Voice activity detection based on conditional random fields using multiple features(共著) 査読あり
Akira Saito, Yoshihiko Nankaku, Akinobu Lee, Keiichi Tokuda
Proc. Conference of the International Speech Communiation Association (INTERSPEECH) 2086 - 2089 2010年09月
記述言語:英語 掲載種別:研究論文(国際会議プロシーディングス)