MISC - 李 晃伸

分割表示  103 件中 61 - 80 件目  /  全件表示 >>
  • 大人・子供に適応した音声情報案内のためのユーザ自動識別(第5回音声言語シンポジウム : ポスターセッション)

    西村 竜一, 中村 敬介, 李 晃, 猿渡 洋, 鹿野 清宏

    電子情報通信学会技術研究報告. SP, 音声   103 ( 519 )   97 - 102   2003年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    本報告では,音声インタフェースにおけるユーザ年齢層に応じた柔軟な対話処理の実現を目指して,話者の大人・子供識別手法を検討する.これまでの大人ユーザをターゲットとする音声認識では子供発話の認識は困難であった.しかし,家庭や公共施設雀への音声インタフェースの導入を考えると子供の存在は無視できない.子供発話を扱うための音声認識と音声インタフェースの改良が求められる.提案手法では,.大人・子供に適応した音声情報案内の実装に必要な話者識別手段として,音声認識結果の対数尤度から求める音響的特徴と言語的特徴を併用した統計学習に基づく識別手法を実装する.二値分類アルゴリズムであるSVM(Support Vector Machine)を識別に用いた実験では91.8%の識別率を得た.これは音響的特徴のみを含むGMM(Gaussian Mixture Model)の尤度比較を使った識別結果から5.4%の識別率改善である.本研究ではフィールドテストをすすめている生駒市コミュニティセンターの音声情報案内システム「たけまるくん」をプラットホームとしており,実験にはそのフィールドテスト収集発話を用いた.また,子供収集発話を音声認識モデル構築に含めることで子供認識精度の向上を試みており,その結果も報告する.

    CiNii Articles

    researchmap

  • Lecture Speech Recognition Using Large Corpus of Spontaneous Japanese

    NANOJO Hiroaki, KATO Kazuomi, LEE Akinobu, KAWAHARA Tatsuya

    IEICE transactions on information and systems   86 ( 4 )   774 - 774   2003年04月

     詳細を見る

    記述言語:英語   出版者・発行元:一般社団法人電子情報通信学会  

    Automatic transcription of lecture speech is addressed using the corpus of spontaneous Japanese collected under the priority research project in Japan. First, we investigatethe effect of speaking style and data amount for acoustic modeling. Then, to complement training data for language model, incorporation of other text corpora with optimization of mixture weights is performed. We also implement a sequential decoding method that does not need prior segmentation of lecture recordings. With these methods, word accuracy of 66.2% is achieved on recognition of 10 oral presentations.

    CiNii Articles

    CiNii Books

    researchmap

  • 大規模な日本語話し言葉データベースを用いた講演音声認識

    南條 浩輝, 加藤 一臣, 李 晃伸, 河原 達也

    電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 = The transactions of the Institute of Electronics, Information and Communication Engineers. D-II   86 ( 4 )   450 - 459   2003年04月

     詳細を見る

    記述言語:日本語   出版者・発行元:電子情報通信学会  

    開放的融合研究「話し言葉工学」プロジェクトにおいて構築されている日本語話し言葉コーパスを用いて講演音声の認識を行った.話し言葉は書き言葉の読上げ音声と大きく性質が異なるため,それに合致したモデル化と認識手法の検討が必要となる.音響モデルについては発話スタイルとデータ量の影響を調べた.言語モデルについては,話し言葉コーパスのデータ量不足を補うために他のコーパスと混合する方法,特に混合重みの最適化手法を提案する.また認識に際して,事前の発話のセグメンテーションが容易でないため,ショートポーズの自動認識に基づいて区分化と認識結果の確定を行う逐次デコーディング方式を提案・実装した.10名の話者による講演音声の認識実験で提案手法の有効性を示し,平均66.2%の認識率を得た.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://hdl.handle.net/10061/7789

  • グルメレシピタスクにおける音声対話エージェントを用いた Web 検索システム

    松本 洋平, 李 晃伸, 猿渡 洋, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2003 ( 1 )   73 - 74   2003年03月

     詳細を見る

    記述言語:日本語  

    CiNii Articles

    researchmap

  • N-gram 確率のタスク文法による部分強化アルゴリズムの評価

    鶴身 玲典, 李 晃伸, 猿渡 洋, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2003 ( 1 )   93 - 94   2003年03月

     詳細を見る

    記述言語:日本語  

    CiNii Articles

    researchmap

  • 生駒市コミュニティセンター音声情報案内システムの評価

    西原 洋平, 西村 竜一, 鶴身 玲典, 李 晃伸, 猿渡 洋, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2003 ( 1 )   99 - 100   2003年03月

     詳細を見る

    記述言語:日本語  

    CiNii Articles

    researchmap

  • タスク文法によるN-gram確率の部分強化を用いた認識アルゴリズムの評価

    鶴身 玲典, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2003 ( 14 )   77 - 82   2003年02月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    音声対話のための音声認識システムにおいては,言語モデルとしてN-gramモデルとネットワーク文法が用いられる.統計的言語モデルであるN-gramモデルでは,タスクで想定されていない発声もある程度柔軟に認識することができ,発話のバリエーションに対する頑健性が高いが,学習には大規模なコーパスが必要であり,また,文レベルの制約を表現することができない.一方,人手で記述されたネットワーク文法では,文法上受理可能なタスク内の発声は高精度で認識できるが,文法で受理できないタスク外の発生に対しては認識できない.本研究では,N-gramモデルを用いた認識において,ネットワーク文法の2単語間の接続制約を用いてN-grain確率を動的に強化する認識アルゴリズムを提案する.本手法により,タスク外の発声に対する頑健性を保ちつつ,タスクに特有の定型表現の認識精度を向上させ,トータルでユーザー発話の変化に頑健で,かつ高精度な認識を実現する.受付案内対話タスクにおいて提案法を評価した結果,タスク内の発声に対して文法のみを用いる場合に近い高い認識率が得られ,トータルの単語正解精度は82.4 %から88.0%に向上した.また,単語の生起確率のみを強化する場合や,サブタスクごとの強化の評価,および静的な確率値変更についても述べる.

    CiNii Articles

    researchmap

  • 生駒市コミュニティセンター音声情報案内システムの開発と運用

    西村 竜一, 西原 洋平, 鶴身 玲典, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2003 ( 14 )   35 - 40   2003年02月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」を開発した.本システムでは,大語彙連続音声認識を利用した一問一答形式の音声対話により,同センターや生駒市に関する案内を行うことが可能である.実用化を目指した本システムは,2002年11月6日からセンター内に常設され,開館時は誰でも自由に愛嬌のあるエージェントとのコミュニケーションを楽しむことができる.また,システムの改良に必要な対話記録を実際の運用を通じて収集し,発話内容の書き起こし等のデータの整備もすすめている.本稿では,主に本システムの構成および発話音声データ収集の状況について報告する.また,成人による比較的クリーンな発話をテストセットにした本システムの評価実験を行い,84%の単語正解率と70%の応答正解率を確認した.

    CiNii Articles

    researchmap

  • Unsupervised speaker adaptation based on HMM sufficient statistics in various noisy environments. 査読あり

    Shingo Yamade, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano

    8th European Conference on Speech Communication and Technology, EUROSPEECH 2003 - INTERSPEECH 2003, Geneva, Switzerland, September 1-4, 2003   2003年

     詳細を見る

  • 連続音声認識コンソーシアムの活動報告及び最終版ソフトウェアの概要(プロジェクト紹介(2))(第5回音声言語シンポジウム)

    河原達也, 武田一哉, 伊藤克亘, 李晃伸, 鹿野清宏, 山田篤

    情報処理学会研究報告. SLP, 音声言語情報処理   2003 ( 124 )   325 - 330   2003年

     詳細を見る

    記述言語:日本語   出版者・発行元:社団法人情報処理学会  

    連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会音声言語情報処理研究会のもとで2000年度から2002年度まで(2003年9月まで)活動を行ってきた。本稿では、この活動の報告を行うとともに、このたび編集した最終版ソフトウェアの概要を述べる。本プロジェクトでは、大語彙連続音声認識エンジンJuliusの機能拡張とWindows SAPI対応を行うとともに、非常に大規模なデータベースを用いた高精度な音響モデル・言語モデルの構築を行った。また音響モデルについては、多様な話者層(高齢者・小児)や入力環境(電話・車内環境など)に対応したモデルを整備した。

    CiNii Articles

    researchmap

  • 音素環境独立HMMを用いた混合ガウス分布選択による音響尤度計算量の削減

    李晃伸, 河原 達也, 鹿野 清宏

    情報処理学会論文誌   43 ( 7 )   2214 - 2221   2002年07月

     詳細を見る

    記述言語:日本語   出版者・発行元:電子情報通信学会  

    大規模な音響モデルにおいて音響尤度計算量を削減するための,効率の良い 混合ガウス分布予備選択法を提案する.従来広く用いられているガウス分布 選択法(Gaussian Selection)はVQコードブックに基づいて入力ベクトル 近傍のガウス分布集合を決定的に予備選択するが,混合分布中の分布が選択 されずに値がまったく得られないHMM状態が多く現れ,認識率の劣化が大きい. 本研究では,音素環境独立のモノフォンモデルを用いてトライフォン状態の 選択および非選択状態に対する尤度の近似を行う予備選択手法を提案する. モノフォンの状態の尤度をもとにトライフォンを状態単位で選択して計算す る一方で,非選択の状態に対してもモノフォンの尤度を近似値として割り付 けることで,選択誤りの認識精度への影響を抑えて安定した認識が行える. さらにこの状態選択法にGaussian pruningを導入することで,予備選択の ための計算量を抑えて効率の良い音響尤度計算を行う.認識実験より,提案 法は従来の標準的なGaussian Selectionと同等の性能を発揮し,とくに選 択数をより絞った条件下において認識率の劣化を大幅に抑えられることが示 された.最終的にPTMモデルを用いてGaussian pruningと統合することで, 認識精度をほとんど落とさずに音響尤度計算量を全体の14%まで削減する ことができた.We address a method to efficiently select Gaussian mixtures for fast acoustic likelihood computation. It makes use of context-independent models for selection and back-off of corresponding triphone models. Specifically, for the k-best phone models by the preliminary evaluation, triphone models of higher resolution are applied, and others are assigned likelihoods with the monophone models. This selection scheme assigns more reliable back-off likelihoods to the un-selected states than the conventional Gaussian selection based on a VQ codebook. It can also incorporate efficient Gaussian pruning at the preliminary evaluation, which offsets the increased size of the pre-selection model. Experimental results show that the proposed method achieves comparable performance as the standard Gaussian selection, and performs much better under aggressive pruning condition. Together with the phonetic tied-mixture (PTM) modeling, acoustic matching cost is reduced to almost 14% with little loss of accuracy.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://hdl.handle.net/10061/7779

  • 学内受付案内タスクにおける音声認識の検討

    内田 賢志, 西村 竜一, 李 晃伸, 猿渡 洋, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2002 ( 1 )   47 - 48   2002年03月

     詳細を見る

    記述言語:日本語  

    CiNii Articles

    researchmap

  • 音声対話機能を持つ受付案内ロボットASKAの実装

    西村 竜一, 李 晃伸, 猿渡 洋, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2002 ( 1 )   37 - 38   2002年03月

     詳細を見る

    記述言語:日本語  

    CiNii Articles

    researchmap

  • Continuous speech recognition consortium -An open repository for CSR tools and models

    Akinobu Lee, Tatsuya Kawahara, Kazuya Takeda, Masato Mimura, Atsushi Yamada, Akinori Ito, Katsunobu Itou, Kiyohiro Shikano

    Proceedings of the 3rd International Conference on Language Resources and Evaluation, LREC 2002   1438 - 1441   2002年01月

     詳細を見る

    Continuous Speech Recognition Consortium (CSRC) was founded on 2000 to promote sharable high-quality platform for research and development of speech recognition. It is a continued work of the former Japanese Dictation Toolkit project from 1997 to 2000. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this paper. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as tools are being set up. Currently over 50 companies and academic institutes are joining. The software is available by contacting the address csrc@astem.or.jp.

    Scopus

    researchmap

  • Julius によるマルチパス音韻モデルを用いた対話音声認識

    李晃伸

    第2回話し言葉の科学と工学ワークショップ講演予稿集, 2002   2002年

     詳細を見る

  • Spectral subtraction in noisy environments applied to speaker adaptation based on HMM sufficient statistics. 査読あり

    Shingo Yamade, Kanako Matsunami, Akira Baba, Akinobu Lee, Hiroshi Saruwatari, Kiyohiro Shikano

    7th International Conference on Spoken Language Processing, ICSLP2002 - INTERSPEECH 2002, Denver, Colorado, USA, September 16-20, 2002   2002年

     詳細を見る

  • Juliusを用いた学内案内ロボット用音声対話システムの作成

    西村 竜一, 内田 賢志, 李 晃伸, 猿渡 洋, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理   2001 ( 123 )   93 - 98   2001年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    ASKA(アスカ)は, 大学の受付案内システムを目標として開発中の頭部や腕のジェスチャ機能を持つ人間型音声対話ロボットである.音声対話機能は, 大語彙連続音声認識エンジンJuliusと学内案内タスク向けN-gram言語モデルを基礎としたキーワード検索による音声認識理解部と音声合成部によって構成されており, 対人センサやジェスチャ生成などの他のモジュールと状態を通信しながら分散的な動作を行なう.本ロボットは, 奈良先端大における学内共同プロジェクトで開発されており, エージェントシステムにおける様々な要素技術の実環境での検証プラットフォームと位置付けられている.今後も新たな要素技術を採り入れながら開発を続ける予定である.本稿では, 音声対話機能の実装方法を中心に現在のASKAの概要および今後の予定について述べる.

    CiNii Articles

    researchmap

  • Juliusを用いた学内案内ロボット用音声対話システムの作成

    西村 竜一, 内田 賢志, 李 晃伸, 猿渡 洋, 鹿野 清宏

    電子情報通信学会技術研究報告. SP, 音声   101 ( 522 )   93 - 98   2001年12月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人電子情報通信学会  

    ASKA(アスカ)は, 大学の受付案内システムを目標として開発中の頭部や腕のジェスチャ機能を持つ人間型音声対話ロボットである.音声対話機能は, 大語彙連続音声認識エンジンJuliusと学内案内タスク向けN-gram言語モデルを基礎としたキーワード検索による音声認識理解部と音声合成部によって構成されており, 対人センサやジェスチャ生成などの他のモジュールと状態を通信しながら分散的な動作を行なう.本ロボットは, 奈良先端大における学内共同プロジェクトで開発されており, エージェントシステムにおける様々な要素技術の実環境での検証プラットフォームと位置付けられている.今後も新たな要素技術を採り入れながら開発を続ける予定である.本稿では, 音声対話機能の実装方法を中心に現在のASKAの概要および今後の予定について述べる.

    CiNii Articles

    researchmap

  • 記述文法に基づく高性能連続音声認識エンジンJulian

    李 晃伸, 河原 達也, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2001 ( 2 )   111 - 112   2001年10月

     詳細を見る

  • 音声認識エンジンJulius/JulianのAPI実装

    住吉 貴志, 李晃伸, 河原 達也

    情報処理学会研究報告音声言語情報処理(SLP)   2001 ( 68 )   91 - 96   2001年07月

     詳細を見る

    記述言語:日本語   出版者・発行元:一般社団法人情報処理学会  

    我々が開発した音声認識エンジン Julius/Julian をアプリケーション開発者にとって利用しやすいものにするため、音声認識における API の仕様を考察し、SAPI 5.0 の実装を行った。その結果、認識エンジンの入出力が標準化され、各種モデルの切り換えが容易に行えるようになり、SAPI のアプリケーションにおいて Julius/Julian の統計的言語モデルと記述文法による音声認識機能が利用できるようになった。これらの成果物は連続音声認識コンソーシアム(CSRC)において配布している。また Julius/Julian を統合し、複数の文法を処理する試みも行った。We have developed speech recognition engine Julius/Julian. For easy development of application programs, desirable specification of API is examined, and then our ASR engines are ported to support SAPI 5.0. As a result, their interfaces are standardized, and their functions of speech recognition get available from SAPI applications. The software is distributed via CSRC (Continuous Speech Recognition Consortium). In addition, the extention to handle multiple grammars is explored.

    CiNii Articles

    CiNii Books

    researchmap

    その他リンク: http://id.nii.ac.jp/1001/00057421/

このページの先頭へ▲