論文 - 李 晃伸

分割表示  135 件中 121 - 135 件目  /  全件表示 >>
  • Real-time word confidence scoring using local posterior probabilities on tree trellis search

    Akinobu Lee, Kiyohiro Shikano, Tatsuya Kawahara

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings   1   I793 - I796   2004年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    Confidence scoring based on word posterior probability is usually performed as a post process of speech recognition decoding, and also needs a large number of word hypotheses to get enough confidence quality. We propose a simple way of computing the word confidence using estimated posterior probability while decoding. At the word expansion of stack decoding search, the local sentence likelihoods that contains heuristic scores of unreached segment are directly used to compute the posterior probabilities. Experimental result showed that, although the likelihoods are not optimal, it can provide slightly better confidence measures compared with N-best lists, while the computation is faster than 100-best method because no N-best decoding is required.

    Scopus

    researchmap

  • 擬人化音声対話エージェント基本ソフトウェアの開発プロジェクト報告(プロジェクト紹介(2))(第5回音声言語シンポジウム)

    嵯峨山, 茂樹, 伊藤, 克亘, 宇津呂, 武仁, 甲斐, 充彦, 小林, 隆夫, 下平, 博, 伝, 康晴, 徳田, 恵一, 中村, 哲, 西本, 卓也, 新田, 恒雄, 広瀬, 啓吉, 峯松, 信明, 森島, 繁生, 山下, 洋一, 山田, 篤, 李, 晃伸

    情報処理学会研究報告. SLP, 音声言語情報処理   2003 ( 124 )   319 - 324   2003年12月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:一般社団法人電子情報通信学会  

    researchmap

  • 擬人化音声対話エージェントツールキットGalatea

    嵯峨山, 茂樹, 川本, 真一, 下平, 博, 新田, 恒雄, 西本, 卓也, 中村, 哲, 伊藤, 克亘, 森島, 繁生, 四倉, 達夫, 甲斐, 充彦, 李, 晃伸, 山下, 洋一, 小林, 隆夫, 徳田, 恵一, 広瀬, 啓吉, 峯松, 信明, 山田, 篤, 伝, 康晴, 宇津呂, 武仁

    情報処理学会研究報告. SLP, 音声言語情報処理   2003 ( 14 )   57 - 64   2003年02月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:一般社団法人情報処理学会  

    researchmap

  • 相補的バックオフを用いた言語モデル融合ツールの構築

    情報処理学会論文誌   43 ( 9 )   2884 - 2893   2002年09月

     詳細を見る

    記述言語:日本語  

    CiNii Articles

    researchmap

  • カスタマイズ性を考慮した擬人化音声対話のソフトウェアツールキットの設計 査読あり

    川本真一, 下平博, 新田恒雄, 西本卓也, 中村哲, 伊藤克亘, 森島繁生, 四倉達夫, 甲斐充彦, 李晃伸, 山下洋一, 小林隆夫, 徳田恵一, 広瀬啓吉, 峯松信明, 山田篤, 伝康晴, 宇津呂武仁, 嵯峨山茂樹

    情報処理学会論文誌   43 ( 7 )   2249-2264   2002年05月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:情報処理学会  

    researchmap

  • 擬人化音声対話エージェント開発プロジェクト

    嵯峨山, 茂樹, 伊藤, 克亘, 宇津呂, 武仁, 甲斐, 充彦, 小林, 隆夫, 下平, 博, 伝, 康晴, 徳田, 恵一, 中村, 哲, 西本, 卓也, 新田, 恒雄, 広瀬, 啓吉, 森島, 繁生, 峯松, 信明, 山下, 洋一, 山田, 篤, 李, 晃伸

    日本音響学会研究発表会講演論文集   2002 ( 1 )   27 - 28   2002年03月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)  

    researchmap

  • 擬人化音声対話エージェントツールキットの基本設計

    川本, 真一, 下平, 博, 新田, 恒雄, 西本, 卓也, 中村, 哲, 伊藤, 克亘, 森島, 繁生, 四倉, 達夫, 甲斐, 充彦, 李, 晃伸, 山下, 洋一, 小林, 隆夫, 徳田, 恵一, 広瀬, 啓吉, 峯松, 信明, 山田, 篤, 伝, 康晴, 宇津呂, 武仁, 嵯峨山, 茂樹

    情報処理学会研究報告. HI, ヒューマンインタフェース研究会報告   2002 ( 10 )   61 - 66   2002年02月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:一般社団法人情報処理学会  

    筆者らは,顔画像が容易に交換可能で,音声合成が話者適応可能で,対話制御の記述変更が容易で,更にこれらの機能モジュール自体を別のモジュールに差し替えることが容易であり,かつ処理ハードウェアの個数に柔軟に対処できるなどの特徴を持つ擬人化音声対話エージェントシステムを構想し,実装した.各モジュールのインタフェースを統一化して扱い,モジュール間の入出力は,UNIXシステムで使われている標準入出力を用いる簡便な方法にてモジュール統合機構を実現した.いくつかの簡単な対話タスクについてエージェントを試作し,必要な機能に関する達成度を確認した.また,顔画像合成モジュールを制御する新たなモジュールの追加を容易に実現することができた.

    researchmap

  • 日本語ディクテーション基本ソフトウェア(99年度版)" 査読あり

    河原達也, 李晃伸, 小林哲則, 武田一哉, 峯松信明, 嵯峨山茂樹, 伊藤克亘, 伊藤彰則, 山本幹雄, 山田篤, 宇津呂武仁, 鹿野清宏

    日本音響学会誌   57 ( 3 )   210-214 - 214   2001年03月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:日本音響学会  

    DOI: 10.20697/jasj.57.3_210

    researchmap

  • Julius-An open source real-Time large vocabulary recognition engine

    Akinobu Lee, Tatsuya Kawahara, Kiyohiro Shikano

    EUROSPEECH 2001 - SCANDINAVIA - 7th European Conference on Speech Communication and Technology   1691 - 1694   2001年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:International Speech Communication Association  

    Julius is a high-performance, two-pass LVCSR decoder for researchers and developers. Based on word 3-gram and context-dependent HMM, it can perform almost realtime decoding on most current PCs in 20k word dictation task. Major search techniques are fully incorporated such as tree lexicon, N-gram factoring, cross-word context dependency handling, enveloped beam search, Gaussian pruning, Gaussian selection, etc. Besides search efficiency, it is also modularized carefully to be independent from model structures, and various HMM types are supported such as shared-state triphones and tiedmixture models, with any number of mixtures, states, or phones. Standard formats are adopted to cope with other free modeling toolkit. The main platform is Linux and other Unix workstations, and partially works on Windows. Julius is distributed with open license together with source codes, and has been used by many researchers and developers in Japan.

    Scopus

    researchmap

  • Gaussian mixture selection using context-independent HMM 査読あり

    Akinobu Lee, Tatsuya Kawahara, Kiyohiro Shikano

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings   1   69 - 72   2001年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    We address a method to efficiently select Gaussian mixtures for fast acoustic likelihood computation. It makes use of context-independent models for selection and back-off of corresponding triphone models. Specifically, for the k-best phone models by the preliminary evaluation, triphone models of higher resolution are applied, and others are assigned likelihoods with the monophone models. This selection scheme assigns more reliable back-off likelihoods to the un-selected states than the conventional Gaussian selection based on a VQ codebook. It can also incorporate efficient Gaussian pruning at the preliminary evaluation, which offsets the increased size of the pre-selection model. Experimental results show that the proposed method achieves comparable performance as the standard Gaussian selection, and performs much better under aggressive pruning condition. Together with the phonetic tied-mixture (PTM) modeling, acoustic matching cost is reduced to almost 14% with little loss of accuracy.

    DOI: 10.1109/ICASSP.2001.940769

    Scopus

    researchmap

  • Large Vocabulary Continuous Speech Recognition using Multi-Pass Search Algorithm 査読あり

    Akinobu Lee

    2000年09月

     詳細を見る

    記述言語:英語   掲載種別:学位論文(博士)  

  • 日本語ディクテーション基本ソフトウェア(98年度版) 査読あり

    河原達也, 李晃伸, 小林哲則, 武田一哉, 峯松信明, 伊藤克亘, 山本幹雄, 山田篤, 宇津呂武仁, 鹿野清宏

    日本音響学会誌   56 ( 4 )   255-259 - 259   2000年04月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:日本音響学会  

    researchmap

  • Free software toolkit for Japanese large vocabulary continuous speech recognition. 査読あり

    Tatsuya Kawahara, Akinobu Lee, Tetsunori Kobayashi, Kazuya Takeda, Nobuaki Minematsu, Shigeki Sagayama, Katsunobu Itou, Akinori Ito, Mikio Yamamoto, Atsushi Yamada, Takehito Utsuro, Kiyohiro Shikano

    Sixth International Conference on Spoken Language Processing, ICSLP 2000 / INTERSPEECH 2000, Beijing, China, October 16-20, 2000   476 - 479   2000年

     詳細を見る

  • A new phonetic tied-mixture model for efficient decoding 査読あり

    Akinobu Lee, Tatsuya Kawahara, Kazuya Takeda, Kiyohiro Shikano

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings   3   1269 - 1272   2000年

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Institute of Electrical and Electronics Engineers Inc.  

    A phonetic tied-mixture (PTM) model for efficient large vocabulary continuous speech recognition is presented. It is synthesized from context-independent phone models with 64 mixture components per state by assigning different mixture weights according to the shared states of triphones. Mixtures are then re-estimated for optimization. The model achieves a word error rate of 7.0% with a 20000-word dictation of newspaper corpus, which is comparable to the best figure by the triphone of much higher resolutions. Compared with conventional PTMs that share Gaussians by all states, the proposed model is easily trained and reliably estimated. Furthermore, the model enables the decoder to perform efficient Gaussian pruning. It is found out that computing only two out of 64 components does not cause any loss of accuracy. Several methods for the pruning are proposed and compared, and the best one reduced the computation to about 20%.

    DOI: 10.1109/ICASSP.2000.861808

    Scopus

    researchmap

  • 日本語ディクテーション基本ソフトウェア(97年度版) 査読あり

    河原達也, 李晃伸, 小林哲則, 武田一哉, 峯松信明, 伊藤克亘, 伊藤彰則, 山本幹雄, 山田篤, 宇津呂武仁, 鹿野清宏

    日本音響学会誌   55 ( 3 )   175-180 - 180   1999年03月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:日本音響学会  

    DOI: 10.20697/jasj.55.3_175

    researchmap

このページの先頭へ▲