李 晃伸 (リ アキノブ)

LEE Akinobu

写真a

所属学科・専攻等

情報工学教育類 メディア情報分野
情報工学専攻 メディア情報分野

職名

教授

メールアドレス

メールアドレス

ホームページ

http://www.slp.nitech.ac.jp/

研究分野・キーワード

音声言語処理 音声認識 音声対話 音声言語処理 音声インタラクション

出身大学

  •  
    -
    1996年03月

    京都大学   工学部   情報工学科   卒業

出身大学院

  •  
    -
    2000年09月

    京都大学  情報学研究科  知能情報学専攻博士課程  修了

  •  
    -
    1998年03月

    京都大学  工学研究科  情報工学専攻修士課程  修了

取得学位

  • 京都大学 -  博士(情報学)

学外略歴

  • 2005年04月
    -
    2016年03月

      名古屋工業大学   大学院工学研究科   准教授

  • 2000年10月
    -
    2005年03月

      奈良先端科学技術大学院大学   助手

専門分野(科研費分類)

  • 知覚情報処理

  • 知能情報学

  • マルチメディア・データベース

  • ヒューマンインタフェース・インタラクション

 

研究経歴

  • 音声認識、音声言語理解、音声対話システム、音声インタラクション

    国際共同研究  

    研究期間:  2000年10月  -  現在

学位論文

  • Large Vocabulary Continuous Speech Recognition using Multi-Pass Search Algorithm

    Akinobu Lee

      2000年09月(年月日)  [査読有り]

    学位論文(博士)   単著

論文

  • 自動音声対話におけるネガティブ感情認識のための転移学習の性能比較

    高井幸輝, 李晃伸, 戸田隆道, 東佑樹, 下山翔

    人工知能学会 言語・音声理解と対話処理研究会(SLUD)第93回研究会     2021年11月

    研究論文(研究会,シンポジウム資料等)   共著

  • 自動音声応答におけるユーザー沈黙時の発話誘導

    西山達也, 李晃伸, 戸田隆道, 友松祐太, 杉山雅和

    人工知能学会 言語・音声理解と対話処理研究会(SLUD)第90回研究会     2020年11月

    研究論文(研究会,シンポジウム資料等)   共著

  • Context and Knowledge Aware Dialogue System and System Combination for Grounded Response Generation

    Ryota Tanaka, Akihide Ozeki, Shugo Kato, Akinobu Lee

    Computer Speech & Language ( Elsevier )  62   2020年07月  [査読有り]

    研究論文(学術雑誌)   共著

  • Fact-based Dialogue Generation with Convergent and Divergent Decoding

    Ryota Tanaka, Akinobu Lee

    arXiv     2020年05月

    研究論文(その他学術会議資料等)   共著

    Fact-based dialogue generation is a task of generating a human-like response based on both dialogue context and factual texts. Various methods were proposed to focus on generating informative words that contain facts effectively. However, previous works implicitly assume a topic to be kept on a dialogue and usually converse passively, therefore the systems have a difficulty to generate diverse responses that provide meaningful information proactively. This paper proposes an end-to-end fact-based dialogue system augmented with the ability of convergent and divergent thinking over both context and facts, which can converse about the current topic or introduce a new topic. Specifically, our model incorporates a novel convergent and divergent decoding that can generate informative and diverse responses considering not only given inputs (context and facts) but also inputs-related topics. Both automatic and human evaluation results on DSTC7 dataset show that our model significantly outperforms state-of-the-art baselines, indicating that our model can generate more appropriate, informative, and diverse responses.

  • Speaker-Aware BERT for Multi-Party Dialog Response Selection

    Tatsuya Nishiyama, Ryota Tanaka, Yuya Ishijima, Akinobu Lee

    Proc. AAAI2020 Dialogue System Technology Challenge 8 workshop     2020年02月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

  • 言語対の音素事後確率を用いた第二言語学習者の発音習熟度判別

    森凜太朗, 李晃伸

    電子情報通信学会 音声研究会(IEICE-SP)     2019年12月

    研究論文(研究会,シンポジウム資料等)   共著

  • 個別の発話スタイルを強調する Boosting Framework を用いた感情表現生成

    尾関晃英, 李晃伸

    情報処理学会 自然言語処理研究会(IPSJ-NL)     2019年12月

    研究論文(研究会,シンポジウム資料等)   共著

  • 話題展開器を導入した外部知識に基づくニューラル対話モデル

    田中涼太, 李晃伸

    情報処理学会 自然言語処理研究会(IPSJ-NL)     2019年12月

    研究論文(研究会,シンポジウム資料等)   共著

  • Ensemble Dialogue System for Facts-Based Sentence Generation

    Ryota Tanaka, Akihide Ozeki, Shugo Kato, Akinobu Lee

    Proc. AAAI2019 Dialogue System Technology Challenge 7 workshop     2019年01月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

  • 《第8回》機械学習と語学学習:語学学習のための英会話シミュレーターとその設計

    木村 光成, 李 晃伸, 川嶋 宏彰

    計測と制御 ( 公益社団法人 計測自動制御学会 )  58 ( 11 ) 873 - 877   2019年  [査読有り]

    研究論文(学術雑誌)   共著

全件表示 >>

著書

  • Human-Harmonized Information Technology, Volume 2

    Keiichi Tokuda, Akinobu Lee, Yoshihiko Nankaku, Keiichiro Oura, Kei Hashimoto, Daisuke Yamamoto, Ichi Takumi, Takahiro Uchiya, Shuhei Tsutsumi, Steve Renals, Junichi Yamagishi (担当: 分担執筆 )

    Springer  2017年04月 ISBN: 978-4-431-56535-2

  • IT Text 音声認識システム 改訂2版

    河原達也 編著 (担当: 分担執筆 )

    オーム社  2016年09月 ISBN: 978-4-274-21936-8

  • 音響キーワードブック

    日本音響学会 (担当: 分担執筆 )

    コロナ社  2016年03月 ISBN: 433900880X

  • Chapter 7.2-2 Common platform of Japanese LVCSR assessment in "Resources and Standards of Spoken Language Systems - Advances in Oriental Spoken Language Processing"

    - (担当: 共著 )

    World Scientific Publishing Co.  2010年04月

総説・解説記事

  • 汎用大語彙音声認識ソフトウェア入門

    李 晃伸

    システム/制御/情報   62 ( 2 ) 50 - 56   2018年02月  [査読有り]  [依頼有り]

    総説・解説(学術雑誌)   単著

  • キャンパスの公共空間におけるユーザ参加型双方向音声案内デジタルサイネージシステム

    大浦圭一郎, 山本大介, 内匠逸, 李晃伸, 徳田恵一

    人工知能学会誌 ( 人工知能学会 )  28 ( 1 ) 60 - 67   2013年01月

    総説・解説(国際会議プロシーディングズ)   共著

  • 10年間の長期運用を支えた音声情報案内システム「たけまるくん」の技術

    西村竜一, 原直, 川波弘道, 李晃伸, 鹿野清宏

    人工知能学会誌 ( 人工知能学会 )  28 ( 1 ) 52 - 59   2013年01月

    総説・解説(国際会議プロシーディングズ)   共著

  • 音声認識のデコーダと認識エンジン

    李晃伸

    日本音響学会誌 ( 日本音響学会 )  66 ( 1 ) 28 - 31   2009年12月

    総説・解説(国際会議プロシーディングズ)   単著

  • Juliusを用いた音声認識インタフェースの作成

    李晃伸, 河原達也

    ヒューマンインタフェース学会誌 ( ヒューマンインタフェース学会 )  11 ( 1 ) 31 - 38   2009年02月

    総説・解説(国際会議プロシーディングズ)   共著

  • 大語彙連続音声認識エンジンJulius

    李晃伸

    電子情報通信学会情報・システムソサイエティ誌 ( 電子情報通信学会 )  13 ( 4 )   2009年02月

    総説・解説(国際会議プロシーディングズ)   単著

研究発表

  • 音声認識エンジンJuliusにおけるDNN計算のための CUDA アーキテクチャの検討

    鈴木 駿, 李 晃伸

    日本音響学会2020年秋季研究発表会講演論文集  (オンライン)  2020年09月  -  2020年09月  日本音響学会

  • 音声対話コンテンツ循環環境を実現するための対話シナリオのプロファイル自動収集およびフィードバック

    森雅希, 李晃伸

    第33回人工知能学会全国大会  (新潟県新潟市(朱鷺メッセ 新潟コンベンションセンター))  2019年06月  -  2019年06月  人工知能学会

  • オープンソースの音声言語インタラクションの社会実験基盤を提供するMMIプラットフォームの開発

    李晃伸

    第33回人工知能学会全国大会  (新潟県新潟市(朱鷺メッセ 新潟コンベンションセンター))  2019年06月  -  2019年06月  人工知能学会

  • 日英混合音韻モデルによる音素事後確率分布を用いた日本語母語話者の英語習熟度判別

    森 凜太朗,李 晃伸

    日本音響学会2018年秋季研究発表会講演論文集  (大分大学旦野原キャンパス)  2018年09月  -  2018年09月  日本音響学会

  • 音声対話コンテンツのネットワーク配信および大規模ログ収集を可能にするスマートフォン版 MMDAgent の開発

    李 晃伸

    日本音響学会2018年秋季研究発表会講演論文集  (大分大学旦野原キャンパス)  2018年09月  -  2018年09月  日本音響学会

  • 音声対話システムにおける対話状態ごとの語彙制約を考慮した音声認識の評価

    冨田 直希,李 晃伸

    日本音響学会2018年秋季研究発表会講演論文集  (大分大学旦野原キャンパス)  2018年09月  -  2018年09月  日本音響学会

  • 音声対話エージェントにおける多様なアニマシー表出手法および他者性認知との関連性分析

    降籏 暢基,李 晃伸

    日本音響学会2018年秋季研究発表会講演論文集  (大分大学旦野原キャンパス)  2018年09月  -  2018年09月  日本音響学会

  • Quasi-Recurrent Neural Networks に基づく対話モデルを用いた対話破綻検出

    田中涼太, 李晃伸

    第32回人工知能学会全国大会  (鹿児島県鹿児島市)  2018年06月  -  2018年06月  人工知能学会

  • 音声対話システムからの話しかけによる対話性認知の獲得 -話しかけ内容および心理特性との関連-

    村上 拓也,李 晃伸

    日本音響学会2017年春季研究発表会講演論文集  2017年03月  -  2017年03月  日本音響学会

  • ニューラルネットワーク言語モデルを用いた2パス型音声認識デコーダの実装

    後藤 良介,李 晃伸

    日本音響学会2017年春季研究発表会講演論文集  2017年03月  -  2017年03月  日本音響学会

全件表示 >>

作品

  • 音声認識エンジン Julius-4.6

    コンピュータソフト  2020年09月  -  2020年09月

    Julius のバージョン 4.6 を公開しました。4.6 ではDNN-HMM 計算部の GPU 対応 (CUDA) を行い、 デコーディングが3倍ほど速くなりました。そのほか、1パス文法認識への対応やバグ修正、アップデートが含まれています。 主な変更点は以下のとおりです。

    ・DNN-HMM 計算での CUDA サポート (Linux + CUDA-8,9,10 でのみ動作確認)
    ・1パス文法認識の実装
    ・Visual Studio 2017 でのビルド全面対応 (msvc/Julius.sln)
    ・修正BSDライセンスへ移行
    ・不具合の修正

  • MMDAgent-EX ベータ版

    コンピュータソフト  2019年06月  -  現在

    MMDAgent-EX は音声インタラクション構築ツールキット [MMDAgent](http://mmdagent.jp/) をスマートフォンに向けて拡張したアプリケーションです。キャラクターエージェントとのお喋りややりとりの内容を定義したスクリプトファイル、3-Dモデル、動作ファイルを自在に組み合わせて、エージェントと音声で会話するシステムを、誰でも構築しスマートフォンへ配信することができます。iOS、Android 用アプリのほか、各種デスクトップOS (Win/Mac/Linux) でも動作するマルチプラットフォームアプリケーションです。

  • Pocket MMDAgent ベータ版

    コンピュータソフト  2018年09月  -  現在

    Pocket MMDAgent は MMDAgent のスマートフォン向け拡張版アプリです。Webで公開されている音声対話システムのダウンロード、サーバ側からのコンテンツ自動更新、メニュー・ダイアログ・ボタンなどのUIのサポート、汎的なログ収集・フィードバック機能を有しています。

    Pocket MMDAgentは音声対話コンテンツ再生・配信のマルチプラットフォームアプリケーションであり、無償で利用可能です。iOS 用アプリと Android 用アプリがそれぞれベータ版公開されているほか、デスクトップOS版 (Win/Mac/Linux) もあります。

  • Julius 話し言葉モデル・講演音声モデル公開

    コンピュータソフト  2018年01月  -  現在

    ◆音声認識パッケージ2種を更新

    - 話し言葉モデルキット (ssr-kit)
    - 講演音声モデルキット (lsr-kit)

    更新内容

    - 言語モデルを変更(作成方法を変更,文字コードをShift-JISに変更)
    - GUIの音声入力ツール adintool-gui を同梱
    - 辞書登録ツール dictool を同梱
    - Juliusのバージョン 4.4.2.1a

  • 日本語ディクテーションパッケージ(話し言葉用・講演音声用)

    コンピュータソフト  2017年10月  -  2017年10月

    新しい音声認識パッケージとして,話し言葉モデルキットと講演音声モデルキットの2種類を公開しました.

    話し言葉モデルキット (ssr-kit)
    話し言葉認識を目的としたモデル
    JNASと『日本語話し言葉コーパス』模擬講演データによるDNN-HMM音響モデル
    『日本語話し言葉コーパス』の模擬講演データと学会データによる言語モデル
    講演音声モデルキット (lsr-kit)
    大きな部屋等での講演を対象としたモデル
    『日本語話し言葉コーパス』の学会データによるDNN-HMM音響モデル
    『日本語話し言葉コーパス』の模擬講演データと学会データによる言語モデル

  • 音声認識エンジン Julius-4.4.2 DNN版

    コンピュータソフト  2017年09月  -  2017年10月

    深層ニューラルネットワーク(DNN)型HMM のためにSIMD命令およびマルチコア化を果たしたバージョンの Julius を GitHub にて公開した。従来より20%以上の高速化を実現した。

  • 音声インタラクション構築ツールキット MMDAgent Ver.1.7.0

    コンピュータソフト  2016年12月  -  2016年12月

    (以下は予定)
    1.7での主な変更点
    ・iOS対応(音声対話コンテンツファイル.mmda対応)
    ・文字表示プラグインの追加
    ・スマートフォン用の汎用メニュー機能
    ・アプリ内でファイル閲覧できるファイルブラウザ
    ・テキストによるプロンプトダイアログ機能
    ・多くのバグ修正とスマートフォン対応

  • 音声認識エンジン Julius-4.4

    コンピュータソフト  2016年10月  -  2016年10月

    ◆Julius-4.4 リリース

    Julius バージョン4.4は、DNNの計算を内蔵し、単体でのDNN-HMMによる音声認識をサポートしました。
    SIMD命令を用いた高速化により、新しめの十分なスペックのマシンであれば
    Julius単体でDNN-HMMを用いた実時間のリアルタイム音声認識が行なえます。

    その他、周辺ツールの拡充、最新のWindows/Mac/Linux/cygwin環境への対応、
    各OSでのビルド手順の文書化、バグ修正など、多くの改善と機能拡張が行われました。

    最新版は 4.4.2 です。以下から入手可能です。どうぞご活用下さい。
    (本バージョンより実行バイナリは Windows のみ配布しています。
     各環境でソースからビルドする手順は簡単です。アーカイブ内の INSTALL.txt をご覧ください)

       http://julius.osdn.jp/

    なお最新版はGitHubの開発サイト https://github.com/julius-speech/julius で常に公開しています。

  • 日本語大語彙ディクテーションキット 4.4

    コンピュータソフト  2016年10月  -  2016年10月

    ◆ディクテーションキット 4.4 リリース

    ディクテーションキットも2年半ぶりに更新されました。
    音響モデルを更新し,性能が大幅に向上しました.
    GMM版、DNN版(従来通りの numpy 利用版)に加え、Julius 単体で動作する
    DNN単体版の起動スクリプトも入っています。
    これまでと同様、ダウンロードしてすぐに試すことができます。
    動作環境は Windows / Mac / Linux です。

    ※ディクテーションキット 4.4 の特徴:
     - Julius-4.4.2 ベース
      - SIMD CPU命令による高速DNN計算(Intel AVX/FMA 命令等に対応)
     - 音響モデルの更新
      - JNASと『日本語話し言葉コーパス』模擬講演データによるDNN-HMM音響モデル
      - DNN-HMMは単語内位置依存モデル化
     - 対応OSは64bitのみ(32bit OS はこのバージョンからサポート外)
     - プロセスサイズは 700MB 程度.メモリの少ないマシンでは注意.
     - ベンチマーク(JNASテストセット200文における文字正解精度)
      - 90.8% (GMM-HMM音響モデルの場合)
      - 94.7% (DNN-HMM音響モデルの場合) ← 4.3.1 の 91.7% から大きく改善

    ダウンロード:
     Webページ(日本語) http://julius.osdn.jp/index.php?q=dictation-kit.html よりダウンロードできます。

  • MMDAgent SHARE

    Webサービス  2016年09月  -  現在

    ****************************************************************
      「MMDAgent SHARE」(音声対話コンテンツ共有サービス)
      2016年9月1日(木)β公開
      http://share.udialogue.org/
    ****************************************************************

    本サービスは、音声インタラクションシステム構築ツールキット
    MMDAgentで動作可能な音声対話コンテンツを共有するためのサービスで
    す。どなたでも無料で音声対話コンテンツの投稿と利用が可能です。


    【音声対話コンテンツ】

    ここで言う音声対話コンテンツとは、コンピュータ上のキャラクタエー
    ジェントと音声で「おしゃべり」するために必要な全ての素材(対話シ
    ナリオ、3DCGのモデル、画像、音声など)を1つにまとめたコンテンツ
    (ファイル)です。MMDAという独自の拡張子を持ち、MMDAgent 1.6.1を
    インストールすると誰でもダブルクリックするだけで利用することが可
    能になります。CREST uDialogue Projectにおける学術的研究の一つと
    して研究・開発されています


    【MMDAgent】

    MMDAgentとは、主に国立大学法人名古屋工業大学で開発された、音声対
    話コンテンツを利用(再生)するためのオープンソフトウェアです。
    3DCG、音声合成、音声認識、対話制御などの機能を 持ち、簡単なスク
    リプトを記述するだけで、高度な音声インタラクションシステムを構築
    することが可能です。Windows, Linux, Mac OSX, Android等での動作が
    可能です。


    【ログイン&使い方】

    本サービスは利用規約に同意することで、だれでも無料で利用すること
    が可能です。音声対話コンテンツを利用するためには、あらかじめ、
    MMDAgent 1.6.1がインスト―ルされていることが必要です。Googleの外
    部認証を利用してログイン可能です。


    【利用規約】

    本サービスが適用する、利用規約やプライバシーポリシーについては以
    下を参照ください→http://share.udialogue.org/meissen/terms.html


    本サービスはβシステムとして公開しています。ご意見はこちらまで
    →mmdagent.share@gmail.com

全件表示 >>

その他研究活動

  • 音声対話インタラクション基盤アプリ MMDAgent-EX の公開

    2019年06月  -  現在

    MMDAgent-EX は音声インタラクション構築ツールキット [MMDAgent](http://mmdagent.jp/) をスマートフォンに向けて拡張したアプリケーションです。キャラクターエージェントとのお喋りややりとりの内容を定義したスクリプトファイル、3-Dモデル、動作ファイルを自在に組み合わせて、エージェントと音声で会話するシステムを、誰でも構築しスマートフォンへ配信することができます。iOS、Android 用アプリのほか、各種デスクトップOS (Win/Mac/Linux) でも動作するマルチプラットフォームアプリケーションです。

  • 音声対話コンテンツ配信プラットフォーム Pocket MMDAgent の公開

    2018年09月  -  現在

    Pocket MMDAgent は MMDAgent をスマートフォンに向けて拡張した音声対話コンテンツ配信プラットフォームである。Web上で公開されている音声対話コンテンツの直接ダウンロードとサーバ側からのプッシュ更新機能、コンテンツ配信者へのログ収集・フィードバック機能を備えたクラウド音声対話システムのアプリケーションである。

  • オープンソース音声インタラクション構築ツールキットMMDAgentの開発と公開

    2011年12月  -  現在

  • オープンソース音声認識エンジンJuliusの開発および公開

    2005年04月  -  現在

学術関係受賞

  • 情報処理学会 山下記念研究賞

    2007年04月   -  

    受賞者:  -

  • 電気通信普及財団 第24回テレコムシステム技術賞

    2006年05月   電気通信普及財団  

    受賞者:  H.Saruwatari,T.Kawamura,T.Nshikawa,A.Lee,K.Shikano

  • 日本音響学会 粟屋潔学術奨励賞

    2002年04月   -  

    受賞者:  -

科研費(文科省・学振)獲得実績

  • 「しゃべって」つくる音声インタラクションシステム

    挑戦的萌芽研究

    研究期間:  2014年  -  2016年  代表者:  徳田 恵一

  • 超巨大データに基づくユニバーサル音声モデル構築のための技術的・社会的基盤の確立

    基盤研究(B)

    研究期間:  2013年  -  2015年  代表者:  徳田 恵一

  • 多層モデルの階層間密統合に基づく音声理解フレームワークの研究

    基盤研究(B)

    研究期間:  2009年  -  2013年  代表者:  李 晃伸

  • スイッチフリーな実環境音声言語インタフェースの研究

    若手研究(B)

    研究期間:  2006年  -  2008年  代表者:  李 晃伸

  • 環境、話者、タスクへの適応性をもつユーザにやさしい音声認識アルゴリズムの研究

    基盤研究(B)

    研究期間:  2003年  -  2006年 

全件表示 >>

その他競争的資金獲得実績

  • コンテンツ生成の循環系を軸とした次世代音声技術基盤の確立

    提供機関:  科学技術振興機構  戦略的創造研究推進事業

    研究期間:  2011年04月  -  2017年03月  代表者:  徳田 恵一

  • 講演音声翻訳のための多言語音声合成技術に関する研究開発

    提供機関:  総務省  戦略的情報通信研究開発推進制度

    研究期間:  2009年  -  2011年 

  • Effective Multilingual Interaction in Mobile Environments

    提供機関:  European Commission  European Commission

    研究期間:  2008年  -  2011年 

  • ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理

    提供機関:  文部科学省  e-Society 基盤ソフトウェアの総合開発

    研究期間:  2003年  -  2007年 

 
 

学会・委員会等活動

  • 2018年06月
    -
    2020年03月

    電子情報通信学会   音声研究会 副委員長

  • 2016年04月
    -
    現在

    情報処理学会   音声言語情報処理研究会運営委員

  • 2015年09月
    -
    現在

    日本音響学会   秋季研究発表会座長

  • 2015年
     
     

    人工知能学会   論文誌論文特集「知的対話システム」編集委員

  • 2014年04月
    -
    2016年03月

    情報処理学会   音声言語情報処理研究会運営幹事

  • 2011年04月
    -
    2014年03月

    情報処理学会   全国大会プログラム編成委員、座長

  • 2010年04月
    -
    2012年03月

    情報処理学会   音声言語情報処理研究会運営委員

社会貢献活動

  • ZIP-FM サマーキャンプ @ CODE FRIENDS 開催協力

    ZIP-FM / CODE FRIENDS  ZIP-FM  2019年04月  -  2019年08月

  • ZIP-FM サマーキャンプ @ CODE FRIENDS / 名古屋市発明少年少女 開催協力

    ZIP-FM / 中京テレビ / 名古屋市  ZIP-FM  2018年04月  -  2019年03月