講演・口頭発表等 - 酒向 慎司
-
ウェアラブルな全方位カメラの画像を入力とした 3D ポーズ推定 ~ 手話の認識と翻訳に向けて ~
三浦哲平,酒向慎司
電子情報通信学会パターン認識・メディア理解研究会 電子情報通信学会
開催年月日: 2019年10月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京大学生産技術研究所
手話は,ろう者が日常のコミュニケーションに用いる言語である.しかし,健聴者で手話を扱える者は少なく,両者間の会話は筆談や手話通訳者を介さなければならない.より対話的で,直接意思を伝え合うコミュニケーションを日常の生活でおこなうためには,携帯して常に使える手話の認識,翻訳システムが必要である.手話は手指の形や動きだけでなく,目・眉・口や周囲の環境などの空間全体を使って意思を表現する.本研究では,手話の表現に用いる空間の情報を取得できること,手話者が日常的に携帯して使えることを考慮して,ウェアラブルな全方位カメラを用いた手話の認識と翻訳について検討している.本稿では特に,手話者の動作を認識するための,ウェアラブルな全方位カメラで取得した画像を入力とした 3D ポーズ推定を提案する.3D ポーズ推定には畳込みニューラルネットワーク (CNN) の VNect を参考にしたモデルを用いる.全方位カメラで取得した手話の画像と,画像に同期した 3D ポーズのデータセットを新たに収集し,そのデータセットによるモデルの学習と評価をおこなう.
-
グエン トゥ ナム, 酒向 慎司, ボグダン クォーレック
電子情報通信学会 第102回福祉情報科学研究会 電子情報通信学会
開催年月日: 2019年08月
記述言語:英語 会議種別:口頭発表(一般)
開催地:帝京大学宇都宮キャンパス
本研究では日本手話の静的な指文字をカラー画像から認識するための枠組みを提案する。指文字の認識には、ResNet(Residual Network)ベースの畳み込みニューラルネットワーク(CNN)と2つのResNetクォータニオンCNNを組み合わせたアンサンブルモデルを用いた。また、実画像の手画像データセットを拡張するために精密な3次元手モデルを用いて指文字画像を合成した。具体的には41種類の指文字に対してそれぞれ微小な変形を施した指形状を用意し、開始ポーズと終了ポーズ間の補間することで複数の指文字画像をレンダリングした。実験結果は、拡張されたデータセットによって単一のRGBカメラの画像に対して高い認識率が達成できることを示した。ResNetクォータニオンCNNの性能は、ResNet CNNよりも優れており、さらにそれらのアンサンブルモデルが優れた性能を示した。
-
酒向 慎司, 渡邉 樹里
情報処理学会 第123回音楽情報科学研究会 情報処理学会
開催年月日: 2019年06月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:京都大学吉田キャンパス
バイオリンは同じ音に対応する運指が複数ある楽器であり,適切な運指習得の手段として,運指が部分的に併記された教本が用いられている.我々はこれまでに統計モデルによるバイオリンの自動運指推定手法を検討し,条件付き確率場を用いた手法を提案してきた.これまでの問題設定では,与えらえた楽譜すべてに運指を推定することであったが,運指の習得を支援するシステムという観点では,市販されている教本のような運指の習得を促すような部分的な運指標示が有効ではないかと考えた.本報告ではこのような着眼点の元で,これまでに提案してきた運指推定手法を拡張し,演奏技術の習得に効果的な運指標示の推定手法について検討することとする.楽譜や運指推定結果をもとに運指標示の有無に関係する特徴について検討し,楽譜から運指推定を行うとともに運指標示を有無を決定する手法を提案する.市販の教本との比較や,バイオリン演奏者による主観評価実験について報告する.
-
モーションキャプチャデータを用いた日本手話の非手指信号の基本要素抽出の試み
酒向 慎司, 安江 謙太
電子情報通信学会 第101回福祉情報科学研究会 電子情報通信学会
開催年月日: 2019年06月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学 早稲田キャンパス
本研究では,手話の非手指信号として表出される様々な対象部位について,モーションキャプチャーデータを用いて共通する基本的な形状や動きの要素を抽出する手法に取り組んだ.有賀らによって提案された手指信号を対象とした手話の自動認識の研究で提案された,HMM(隠れマルコフモデル)による単語モデル間で共通するモデルパラメタを利用して,手指信号の共通部位を自動抽出する手法を参考にし,手話の非手指信号に対してでも同様に共通した非手指信号の抽出が可能であるか検証する.
-
金子 岬暉, 田嶋 克向, 澤野 弘明, 鈴木 裕利, 石井 成郎, 酒向 慎司
電子情報通信学会 第101回福祉情報科学研究会 電子情報通信学会
開催年月日: 2019年06月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学 早稲田キャンパス
手話の学習に利用される手話映像の制作では,手話者による撮影が一般的であるが,肖像権の確保や撮影の準備など,撮影の手間の問題が挙げられる.
そこで本研究では手話映像の制作支援を目的とした,手話のCG映像が生成できる手話CG Wikiを提案する.
手話CG Wikiでは,ユーザはボタン操作により,手話を構成する表情,手の位置,手の方向,および手の形状の4要素をWikiに入力し,CG映像を生成する.
9人のユーザによる手話CG Wikiのユーザビリティ評価実験の結果,「今後このWikiを使いたい」など,肯定的なコメントが寄せられたが,一方でユーザビリティの問題も明らかになった. -
モーションキャプチャデータを用いた日本手話の非手指信号の基本要素抽出
安江謙太, 酒向慎司
情報処理学会第81回全国大会 情報処理学会
開催年月日: 2019年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:福岡大学
コンピュータを用いた手話認識の研究の中で、様々な手話単語の中に現れる手指信号の共通要素に着目した手話単語認識手法が提案されている。この手法では、手指信号に関する特徴量から単語HMMを学習し、全単語の状態集合をクラスタリングすることで共通要素を抽出する。非手指信号も同様に、様々な単語の中で現れる共通要素が存在すると考えられ、この手法を非手指信号に適用することを試みる。非手指信号の視覚的特徴は複雑であるが、手話動作中の顔の部位を詳細に計測したモーションキャプチャデータを用いることで、主要な要素である眉、口形、頭部動作などからの共通要素の抽出が可能であるか、またそのための効果的な特徴表現を検討する。
-
事例データに基づくベースラインとの対応関係と遺伝的アルゴリズムを用いたメロディ生成
山田航大, 酒向慎司
情報処理学会第81回全国大会 情報処理学会
開催年月日: 2019年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:福岡大学
本稿では与えられるベースラインから対応するメロディを自動生成する作曲手法を提案する。コンピュータによる作曲を行う際、ユーザは事前に何らかのモチーフを与える必要がある。モチーフが複雑であるほど、制御性が高まるが、ユーザには高い創作能力が要求される。ベースラインは一般にパターン化されており、ユーザに高い創作能力を要求しない。一方で、ベースラインは旋律を持っており、楽曲において調性を安定させる役割を担うという点でメロディへの制御性を高めることが期待できる。本稿では既存楽曲のメロディを元に、遺伝的アルゴリズムを用いて、与えられたベースラインに対応するメロディを生成する手法を提案する。
-
渡邉樹里, 酒向慎司
情報処理学会第81回全国大会 情報処理学会
開催年月日: 2019年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:福岡大学
本研究では、市販のバイオリン教本のように指番号を部分的に標記できるような自動運指推定の手法について検討する。従来のバイオリン運指推定では、与えられた楽譜情報から全ての音符について運指を推定していた。この手法を用いて得られた運指を楽譜に標示したものを初級者教育の観点から見ると、判読性の低下を招いたり、運指を判断する能力の向上を妨げてしまうという問題点がある。そこで本研究では、運指推定を行うとともに指番号標示の有無を推定することにより、演奏者の運指判断に必要な部分にのみ標示できるようにすることを目指す。これにより、任意の楽譜情報からのバイオリン教本の形に近い楽譜の生成が期待できる。
-
髙木広大, 酒向慎司
情報処理学会第81回全国大会 情報処理学会
開催年月日: 2019年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:福岡大学
協調フィルタリングを用いた楽曲推薦では、推薦対象曲を推薦の標本となるユーザの消費した曲から選択するため、視聴者の少ないマイナー曲は推薦対象曲になる機会が少ない。この問題に対し、マイナー曲を含む幅広く詳細な楽曲を積極的に推薦することを目的とした協調フィルタリングによる楽曲推薦システムの提案を行う。手法として、従来の協調フィルタリングに幅広く詳細な楽曲を消費しているかという音楽的知識の豊富さを標本ユーザ選択の基準に追加する。
-
福谷和貴, 酒向慎司
情報処理学会第81回全国大会 情報処理学会
開催年月日: 2019年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:福岡大学
本研究では、メドレー曲の自動作成に有用と考えられる曲中の高揚度変化を推定することを目的とする。人が感じるメドレー曲の曲のつなぎ目における違和感の主要な要因は、展開の不一致にあると考えられる。このような問題を解消するために、人が曲をきいた時に感じる高揚度の変化を推定し、将来的にはメドレー曲の自動作成手法を検討している。ここでは、曲中の高揚度の変化を"上昇"・"下降"・"維持"の3種類とし、RWC音楽データベースの楽曲に対してラベル付けを行った。さらにそれらを推定するための特徴量として音量RMS、調波音・打楽器音のオンセット数、スペクトル重心などを検討し、複数の機械学習アルゴリズムを用いて実験を行った。
-
長嶋祐二, 酒向慎司, 渡辺桂子, 原大介, 堀内靖雄, 市川熹
電子情報通信学会 第99回福祉情報科学研究会 電子情報通信学会
開催年月日: 2019年02月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:愛媛大学城北地区キャンパス メディアホール(総合情報メディアセンター内)
手話は言語であるにもかかわらず,音声言語と比べて言語学,工学を含む関連諸分野での研究が進んでいない.この原因の1つは,言語学者や工学者など様々な分野の研究者が共通に利用できる汎用的なデータベース(DB)が存在しないためである.高精度な3次元手話動作データと手話映像が存在すれば,非手指動作を含めた手話の認識や動作分析において精密な解析が可能となり,手話理解のための方法論や工学的応用に寄与すると考えられる.本稿では,手話語彙のDBの構築方法について,手話語彙のデータ形式,DBに収録する手話の語彙の選定方法などについて検討し,構築中の日本手話データベースについて報告する.
-
手話の語彙構造・文法解明に供する3D超高精度DBの開発
長嶋 祐二, 酒向 慎司, 渡辺 桂子, 原 大介, 堀内 靖雄, 市川熹
日本音響学会2018年秋季研究発表会 日本音響学会
開催年月日: 2018年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:大分大学
-
多様な研究分野に利用可能な超高精細・高精度手話言語データベースの開発
長嶋 祐二, 原大介, 堀内 靖雄, 酒向 慎司, 渡辺 桂子, 菊澤 律子, 加藤 直人, 市川 熹
言語資源活用ワークショップ2018 国立国語研究所コーパス開発センター
開催年月日: 2018年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:国立国語研究所
-
山口 達也, 村松 大輔, 澤野 弘明, 石井 成郎, 鈴木 裕利, 酒向 慎司
情報処理学会第80回全国大会 情報処理学会
開催年月日: 2018年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:早稲田大学
手話動画の制作では,肖像権の問題や撮影の準備,専門的な編集ツールの使用などの必要性から,敷居が高い課題がある.先行研究ではWeb上のボタン操作のみでCGキャラクタによる手話映像を生成するWiki (手話CG Wiki)を提案している.提案Wikiにおける評価結果では,手話動作を入力するためのボタンが多く,コンピュータの専門家ではない被験者には負荷が大きいことが示された.そこで本稿では手話動作の入力簡略化手法を提案する.まず手話の辞書データにて頻繁に使用される手型を列挙し,基本的な型として提示する.次にマウス操作による手話動作入力手法ついて述べる.最後に各提案方法の評価とその結果について述べる.
-
多々納 俊治, 繩手 雅彦・伊藤 史人, 酒向慎司, 門脇 和央
第16回情報科学技術フォーラム(FIT2017) 情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ
開催年月日: 2017年09月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:東京大学本郷キャンパス
医療・福祉の現場では学習障がい児に対する読み能力や音韻操作の検査として非語(無意味単語)の読み上げや復唱を要求することがある.発話された非語に対する正誤判定を自動化する目的で音声認識を組み込んだ音韻検査ソフトウエアを開発する場合,一般的には現在の音声認識システムは辞書に存在する語を認識するものであるため非語を認識対象とする際にはいくつか課題がある.そこで本研究では非語に対する音声認識の精度を高めるためフリーで利用できる音声認識エンジンJuliusに機械学習を組み込んだ.また機械に学習させる音声特徴量の最適な組み合わせを探索するとともにフォルマント列による母音の絞り込みなどを行い検査に使用される非語に特化した音声認識を考案した.
-
酒向 慎司, 細江 花, ボクダン クォーレック
電子情報通信学会 第90回福祉情報科学研究会 電子情報通信学会
開催年月日: 2017年05月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:リオン株式会社
本報告では、CNNに基づいた画像ベースの指文字認識システムを提案する。この手法の特徴は3次元の手形状モデルを用いて学習用画像を生成することで認識性能を高めることができる。実画像として5000枚のデータセットを作成したほか、精密な3次元手形状モデルによって手形状データを生成し、学習用データセットを拡張することができる。実験で用いた全データセットとCaffeeモデルについても公開する。
-
楽譜情報を考慮したSCRF に基づく音響信号と楽譜のアライメント
野口 綾子, 酒向 慎司, 北村 正
日本音響学会2017年春季研究発表会 日本音響学会
開催年月日: 2017年03月
記述言語:日本語 会議種別:口頭発表(一般)
開催地:明治大学生田キャンパス
-
SVMによる非語の正誤判定を用いた音韻検査の自動化の検討
多々納 俊治, 縄手 雅彦, 伊藤 史人, 酒向 慎司
電子情報通信学会 HCGシンポジウム2016 電子情報通信学会
開催年月日: 2016年12月
記述言語:英語 会議種別:口頭発表(一般)
開催地:高知市文化プラザかるぽーと
-
Vowel duration dependent hidden Markov model for automatic lyrics recognition 国際会議
Shohei Awata, Shinji Sako, Tadashi Kitamura
th Joint Meeting of the Acoustical Society of America and Acoustical Society of Japan Acouustical SOciety of America, Acoustical Society of Japan
開催年月日: 2016年11月 - 2016年12月
記述言語:英語 会議種別:ポスター発表
開催地:Honolulu, Hawaii
Recently, due to the spread of music distribution service, a large amount of music is available on the Internet. Accordingly, it is generally increasing the demand of music information retrieval (MIR). In the field of MIR research, there are several researches to extract meaningful information from music audio signals. However, automatic lyrics recognition is still a challenging problem because the variation of singing voice is much larger than that of speaking voice and a large database of singing voice is not available. In the relevant study, lyrics recognition was performed by extending the framework of speech recognition using hidden Markov model (HMM). However, accuracy rate was not sufficient. To recognize singing voice precisely, one promising approach is utilizing musical features. This study considers the task of recognizing syllable from a cappella singing voice. To respond to the variation of the length of a phoneme, we construct the duration dependent HMM. A large database of singing voice is essential for training the acoustic model. We use synthetic singing voice by HMM based singing voice synthesis system to solve the lack of the database of a cappella singing voice. We confirmed the effectiveness of our method.
-
Ayako Noguchi, Shinji Sako, Tadashi Kitamura
th Joint Meeting of the Acoustical Society of America and Acoustical Society of Japan Acouustical SOciety of America, Acoustical Society of Japan
開催年月日: 2016年11月 - 2016年12月
記述言語:英語 会議種別:ポスター発表
開催地:Honolulu, Hawaii
Audio-to-score alignment is useful technique because it can be widely applied to many practical applications for musical performance. However, it is still open problem due to the complexity of audio signal especially in the polyphonic music. Additionally, performing in real-time is also important in practical situation. In this study, we propose a new alignment method based on segmental conditional random fields (SCRFs). The attractive feature of this method is utilizing to distinguish percussion sounds from the other instruments. In general, percussion sounds have a role in managing whole music. Moreover, performers can pick up the percussion sounds from the others by hearing whole sound thanks to their unique features of the sound. In the field of score alignment, hidden Markov models (HMMs) or CRFs was used in previous studies including our previous one. In summary, these methods were formulated as a matching problem of the state sequence of mixed notes with the audio feature sequence. In this study, we extend our previous method by combining an additional state which represents percussion sounds. Furthermore, we introduce the balancing factor to control the importance of classifying feature functions. We confirmed the effectiveness of our method by conducting experiments using RWC music database.