酒向 慎司 (サコウ シンジ)

SAKO Shinji

写真a

所属学科・専攻等

情報工学教育類 メディア情報分野
情報工学専攻 メディア情報分野
コミュニティ創成教育研究センター

職名

准教授

メールアドレス

メールアドレス

出身大学

  • 1995年04月
    -
    1999年03月

    名古屋工業大学   工学部   知能情報システム学科   卒業

出身大学院

  • 2001年04月
    -
    2004年03月

    名古屋工業大学  工学研究科  電子情報工学専攻博士課程  修了

取得学位

  • 名古屋工業大学 -  博士(工学)

学外略歴

  • 2016年07月
    -
    2017年03月

      ミュンヘン工科大学   ヒューマンマシンコミュニケーション研究所   研究員

  • 2014年07月
    -
    2014年08月

      AGH科学技術大学   Faculty of Computer Science, Electronics and Telecommunications   客員研究員

  • 2012年06月
    -
    2012年12月

      ミュンヘン工科大学   ヒューマンマシンコミュニケーション研究所   客員研究員

  • 2004年04月
    -
    2007年03月

      東京大学    大学院情報理工学系研究科   助手

  • 2003年04月
    -
    2003年06月

      国際電気通信基礎技術研究所   研修研究員

所属学会・委員会

  • 2010年06月
    -
    継続中

    日本手話学会

  • 2010年06月
    -
    継続中

    ヒューマンインタフェース学会

  • 2009年04月
    -
    継続中

    電気関係学会東海支部連合大会実行委員会

  • 2008年07月
    -
    継続中

    高度言語情報融合フォーラム

  • 2007年10月
    -
    継続中

    映像情報メディア学会

全件表示 >>

専門分野(科研費分類)

  • リハビリテーション科学・福祉工学

  • 感性情報学

  • 知覚情報処理

 

学位論文

  • Audio-Visual Speech/Singing-voice Synthesis and Gesture Recognition for Multimodal Human Computer Interaction

    Shinji Sako

      2004年03月(年月日)

    学位論文(博士)   単著

論文

  • Fingerspelling recognition using synthetic images and deep transfer learning

    Nguyen Tu Nam, Shinji Sako, Bogdan Kwolek

    2020 The 13th International Conference on Machine Vision (ICMV 2020)     2020年11月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    Although gesture recognition has been intensely studied for decades, it is still a challenging research topic due to difficulties posed by background complexity, occlusion, viewpoint, lighting changes, the deformable and articulated nature of hands, etc. Numerous studies have shown that extending the training dataset with real images about synthetic images improves the recognition accuracy. However, little work is devoted to demonstrate what improvements in recognition can be achieved thanks to transferring the style onto synthetically generated images from the real gestures. In this paper, we propose a novel method for Japanese fingerspelling recognition using both real and synthetic images generated on the basis of a 3D hand model. We propose to employ a neural style transfer to include information from real images onto synthetically generated dataset. We demonstrate experimentally that neural style transfer and discriminative layer training applied to training deep neural models allow obtaining considerable gains in the recognition accuracy.

  • 音韻検査のための非語の音声認識に有効な特徴量の検討

    多々納 俊治,縄手 雅彦,伊藤 史人,酒向 慎司

    情報処理学会論文誌 ( 情報処理学会 )  61 ( 10 ) 1647 - 1657   2020年10月  [査読有り]

    研究論文(学術雑誌)   共著

    発達性ディスレクシアは学習障害の主要な症状の1つであり,早期発見は介入および読みの療育をするにあたって非常に重要である.PCを用いた簡易なスクリーニングテストが提案されており,テキストの読み上げの正確さ,単語の逆読み,文字の削除の能力についての評価データおよび回答潜時が自動的に記録される.しかし,正誤判定はテストの実施者によって行わなければならず,自動化が望まれている.正誤判定の部分を自動化するためには,検査の課題語にある意味を持たない言葉である非語に対応した音声認識技術が必要であるが,従来の音声認識では,非語に対する認識精度は低いのが現状である.そこで従来の音声認識の機能を補強しつつ,非語に対する正解率(accuracy)を音韻検査に実用できるレベルまで向上させなければならない.本研究では,ソースコードが無料で公開されており,自由に改造が可能な音声認識エンジンJuliusに非語の正誤を判別する機構を組み込むことにより,非語に対するaccuracyの向上を試みた.また,音声の特徴量に7つの候補をあげ,その組合せによるaccuracyの動向を検討した.その結果,対象の非語によっては75.0%から95.0%,全体の平均値は87.5%のaccuracyを得た.

  • 3D human pose estimation model using location-maps for distorted and disconnected images by a wearable omnidirectional camera

    Teppei Miura, Shinji Sako

    IPSJ Transactions on Computer Vision and Applications ( Information Processing Society of Japan )  12 ( 4 ) 1 - 17   2020年08月  [査読有り]

    研究論文(学術雑誌)   共著

    We address a 3D human pose estimation for equirectangular images taken by a wearable omnidirectional camera. The equirectangular image is distorted because the omnidirectional camera is attached closely in front of a person’s neck. Furthermore, some parts of the body are disconnected on the image; for instance, when a hand goes out to an edge of the image, the hand comes in from another edge. The distortion and disconnection of images make 3D pose estimation challenging. To overcome this difficulty, we introduce the location-maps method proposed by Mehta et al.; however, the method was used to estimate 3D human poses only for regular images without distortion and disconnection. We focus on a characteristic of the location-maps that can extend 2D joint locations to 3D positions with respect to 2D-3D consistency without considering kinematic model restrictions and optical properties. In addition, we collect a new dataset that is composed of equirectangular images and synchronized 3D joint positions for training and evaluation. We validate the location-maps’ capability to estimate 3D human poses for distorted and disconnected images. We propose a new location-maps-based model by replacing the backbone network with a state-of-the-art 2D human pose estimation model (HRNet). Our model is a simpler architecture than the reference model proposed by Mehta et al. Nevertheless, our model indicates better performance with respect to accuracy and computation complexity. Finally, we analyze the location-maps method from two perspectives: the map variance and the map scale. Therefore, some location-maps characteristics are revealed that (1) the map variance affects robustness to extend 2D joint locations to 3D positions for the 2D estimation error, and (2) the 3D position accuracy is related to the 2D locations relative accuracy to the map scale.

  • Deep CNN-Based Recognition of JSL Finger Spelling

    Nguen Tu Nam, Shinji Sako, Bogdan Kwolek

    Hybrid Artificial Intelligent Systems(HAIS 2019), Lecture Notes in Computer Science ( Springer )  11734   602 - 613   2019年08月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    In this paper, we present a framework for recognition of static finger spelling in Japanese Sign Language on RGB images. The finger spelled signs were recognized by an ensemble consisting of a ResNet-based convolutional neural network and two ResNet quaternion convolutional neural networks. A 3D articulated hand model has been used to generate synthetic finger spellings and to extend a dataset consisting of real hand gestures. Twelve different gesture realizations were prepared for each of 41 signs. Ten images have been rendered for each realization through interpolations between the starting and end poses. Experimental results demonstrate that owing to sufficient amount of training data a high recognition rate can be attained on images from a single RGB camera. Results achieved by the ResNet quaternion convolutional neural network are better than results obtained by the ResNet CNN. The best recognition results were achieved by the ensemble. The JSL-rend dataset is available for download.

  • Construction of a Japanese Sign Language Database with Various Data Types

    Keiko Watanabe, Yuji Nagashima, Daisuke Hara, Yasuo Horiuchi, Shinji Sako, Akira Ichikawa

    International Conference on Human-Computer Interaction 2019 ( Springer )  1032   317 - 322   2019年07月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    We have constructed a sign language database which shows 3D animations. We are aiming at constructing an interdisciplinary database which can be used by researchers in various academic fields. This database helps the researchers analyze Japanese sign language. We have recorded nearly 2,000 Japanese signs to now, and we are planning to record on the database approximately 5,000 signs. Firstly, we decided to pick up frequently used Japanese words on the database. Each sign language expression corresponds to the Japanese words is examined. Secondly, we recorded 3D motion data of the determined sign language expressions. We used optical motion capture to record 3D motion data. The data format obtained through motion capture is C3D data, BVH data and FBX data, and frame rate is 120 fps. In addition, we also recorded a full HD video data at 60 fps, super-slow HD data at 30 fps, and depth data at 30 fps, for use in analysis of sign language.

    These are recorded synchronously. In addition, we have developed a new annotation system which can reproduce different types of data synchronously to make the database the most effective. Because it is necessary for data analysis to reproduce synchronously all data, which have been recorded at different frame rates.

  • Discussion of a Japanese sign language database and its annotation systems with consideration for its use in various areas

    Shinji Sako, Yuji Nagashima, Daisuke Hara, Yasuo Horiuchi, Keiko Watanabe, Ritsuko Kikusawa, Naoto Kato, Akira Ichikawa

    Proceeding of LingCologne 2019     2019年06月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

  • Constructing a Japanese Sign Language Multi-Dimensional Database

    •Yuji Nagashima, Daisuke Hara, Shinji Sako, Keiko Watanabe, Yasuo Horiuchi, Ritsuko Kikusawa, Naoto Kato, Akira Ichikawa

    The 7th Meeting of Signed and SpokenLanguage Linguistics (SSLL 2018)     2018年09月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

  • Learning Siamese Features for Finger Spelling Recognition

    Bogdan Kwolek, Shinji Sako

    Advanced Concepts for Intelligent Vision Systems. ACIVS 2017. Lecture Notes in Computer Science, vol 10617 ( Springer )  107617   225 - 236   2017年09月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    This paper is devoted to finger spelling recognition on the basis of images acquired by a single color camera. The recognition is realized on the basis of learned low-dimensional embeddings. The embeddings are calculated both by single as well as multiple siamese-based convolutional neural networks. We train classifiers operating on such features as well as convolutional neural networks operating on raw images. The evaluations are performed on freely available dataset with finger spellings of Japanese Sign Language. The best results are achieved by a classifier trained on concatenated features of multiple siamese networks.

  • Recognition of JSL finger spelling using convolutional neural networks

    Hosoe Hana, Shinji Sako, Bogdan Kwolek

    15th IAPR International Conference on Machine Vision Applications (MVA) ( IEEE )    85 - 88   2017年07月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    Recently, a few methods for recognition of hand postures on depth maps using convolutional neural networks were proposed. In this paper, we present a framework for recognition of static finger spelling in Japanese Sign Language. The recognition takes place on the basis of single gray image. The finger spelled signs are recognized using a convolutional neural network. A dataset consisting of 5000 samples has been recorded. A 3D articulated hand model has been designed to generate synthetic finger spellings and to extend the real hand gestures. Experimental results demonstrate that owing to sufficient amount of training data a high recognition rate can be attained on images from a single RGB camera. The full dataset and Caffe model are available for download.

  • Japanese Sign Language Recognition Based on Three Elements of Sign Using Kinect v2 Sensor

    Shohei Awata, Shinji Sako, Tadashi Kitamura

    International Conference on Human-Computer Interaction 2017   713   95 - 102   2017年07月

    研究論文(国際会議プロシーディングス)   共著

    The visual feature of Japanese sign language is divided into two of manual signals and non-manual signals. Manual signals are represented by the shape and motion of the hands, and convey mainly the meaning of sign language words. In terms of phonology, sign language words consist of three elements: hand’s motion, position, and shape. We have developed a recognition system for Japanese sign language (JSL) with abstraction of manual signals based on these three elements. The abstraction of manual signals is performed based on Japanese sign language words dictionary. Features like coordinates of hands and depth images are extracted from manual signals using the depth sensor, Kinect v2. This system recognizes three elements independently and the final result is obtained under the comprehensive judgment from the results of three elements recognition. In this paper, we used two methods for recognition of hand shape, a contour-based method suggested by Keogh and template matching of depth image. The recognition methods of other elements were hidden Markov model for recognition of motion and the normal distribution learned by maximum likelihood estimation for recognition of position, as a same manner of our previous research. Based on our proposal method, we prepared recognition methods of each element and conducted an experiment of 400 sign language words recognition based on a sign language words dictionary.

全件表示 >>

総説・解説記事

  • 隠れマルコフモデルによる手話の音韻構造に基づいた自動手話認識

    酒向 慎司, 北村 正

    日本福祉工学学会誌 ( 日本福祉工学会 )  17 ( 2 ) 2 - 7   2015年11月

    総説・解説(国際会議プロシーディングズ)   共著

    手話認識の分野では,隠れマルコフモデル(Hidden Markov Model; HMM) に基づいた手法が提案されている.また,手話の動作情報を取得する方法として身体動作を直接計測するセンサ類を用いる方法も検討されてきたが,画像から動作情報を取得することで特殊な装置を要せず,身体的拘束のない手話認識が可能である.また,これまでの手話認識の研究では主に孤立単語を対象に行われてきており,単語ごとに個別のモデルを作成する場合,語彙の増加に伴ってモデル数が増加するため非効率であり,また手話のデータの収集は手間がかかり大規模化が難しい現状がある.そのため,音素のように単語間に共通した手話の構成素(サブユニット)を定め,それらの組合せから単語モデルを構成するアプローチが有望である.このような観点から,ビデオカメラで撮影された手話映像を用い,単語単位で学習された複数のHMMの状態パラメータを分類することで,単語間の共通要素をサブユニットとして集約する手法を検討してきた.本稿では,サブユニットの生成過程に手話の音韻構造を考慮することで,共通要素の集約を効率化する手法を提案する.

  • 基礎講座 音声・音響インタフェース 第1回―HTSを用いた音声合成システムの構築

    大浦 圭一郎, 全 炳河, 酒向 慎司, 徳田 恵一

    ヒューマンインタフェース学会誌 ( ヒューマンインタフェース学会 )  12 ( 1 ) 35 - 40   2010年02月  [査読有り]

    総説・解説(国際会議プロシーディングズ)   共著

  • 特集 音楽とOR―日本語歌詞からの自動作曲

    嵯峨山 茂樹,中妻 啓,深山 覚,酒向 慎司,西本 卓也

    オペレーションズ・リサーチ ( 日本オペレーションズ・リサーチ学会 )  54 ( 9 ) 546 - 553   2009年10月  [依頼有り]

    総説・解説(学術雑誌)   共著

    本稿では,任意の日本語テキストの持つ韻律に基づき,歌唱曲を自動作曲する手法について解説する.文学作品や自作の詩,ニュースやメールなど,あらゆる日本語テキストをそのまま歌詞として旋律を生成し,歌唱曲として出力する自動作曲システムは,手軽な作曲のツール,音楽の専門知識を持たない人のための作曲補助ツールとして有用であろう.さらに著作権問題の回避としても用途があろう.歌唱曲は歌詞との関連性が求められる.特に高低アクセントを持つ日本語では,発話音声にピッチの高低が付くため,歌詞を朗読する際の韻律と旋律が一致することが重要とされる.筆者らはこの点に着目し,ユーザが選択した和声,リズム,伴奏音形を拘束条件として,旋律を音高間を遷移する経路とし,韻律の上下動の制限の下で最適経路となる旋律を動的計画法により探索する問題として旋律設計を捉えた.このモデルに基づき,任意の日本語歌詞に,その韻律に一致した旋律を付ける自動作曲手法により自動作曲システムOrpheusを作成したので紹介する.

研究発表

  • 演奏タイミングのズレを含む混合音に対するマルチラベルビートトラッキング

    福谷 和貴, 酒向 慎司

    情報処理学会 第129回音楽情報科学研究会  (オンライン開催)  2020年11月  -  2020年11月  情報処理学会

  • 全天球カメラを用いた3Dポーズ推定 ~ 手話認識への応用に向けて ~

    三浦 哲平, 酒向 慎司

    電子情報通信学会 第107回福祉情報科学研究会  (オンラインミーティング(Zoom))  2020年09月  -  2020年09月  電子情報通信学会

  • 20周年を迎えた福祉情報工学研究会の実績

    酒向 慎司

    電子情報通信学会 第105回福祉情報科学研究会  (筑波技術大学 春日キャンパス)  2020年03月  -  2020年03月  電子情報通信学会

  • 楽曲の再生履歴を利用した自動メロディ生成

    松岡 優太, 酒向 慎司

    情報処理学会第82回全国大会  (金沢工業大学(現地開催中止のためオンライン発表))  2020年03月  -  2020年03月  情報処理学会

  • ギターパートを対象とするエンドツーエンド音源分離の検討

    尾関 日向, 酒向 慎司

    情報処理学会第82回全国大会  (金沢工業大学(現地開催中止のためオンライン発表))  2020年03月  -  2020年03月  情報処理学会

  • 発話の感情要素と感情強度を考慮した楽曲推薦手法の検討

    池田 将, 酒向 慎司

    情報処理学会第82回全国大会  (金沢工業大学(現地開催中止のためオンライン発表))  2020年03月  -  2020年03月  情報処理学会

  • 超高齢化時代が対話システムに求める物理層の基盤的特性

    市川 熹,長嶋 祐二,堀内 靖雄,原 大介,酒向慎司

    言語・音声理解と対話処理研究会   (早稲田大学 西早稲田キャンパス)  2019年12月  -  2019年12月  人工知能学会

  • ウェアラブルな全方位カメラの画像を入力とした 3D ポーズ推定 ~ 手話の認識と翻訳に向けて ~

    三浦哲平,酒向慎司

    電子情報通信学会パターン認識・メディア理解研究会  (東京大学生産技術研究所)  2019年10月  -  2019年10月  電子情報通信学会

  • 3次元CGモデルとdeep CNNによる指文字認識

    グエン トゥ ナム, 酒向 慎司, ボグダン クォーレック

    電子情報通信学会 第102回福祉情報科学研究会  (帝京大学宇都宮キャンパス)  2019年08月  -  2019年08月  電子情報通信学会

  • 初学者に有用なバイオリン教本運指の自動推定

    酒向 慎司, 渡邉 樹里

    情報処理学会 第123回音楽情報科学研究会  (京都大学吉田キャンパス)  2019年06月  -  2019年06月  情報処理学会

全件表示 >>

工業所有権

  • 単語決定システム

    特願 特願2018-048022 

    青井基行,赤津 舞子,三浦 七瀬,酒向 慎司

  • 飲酒状態判定装置及び飲酒状態判定方法

    特願 PCT/JP2010/062776  特開 特開2011-553634 

    岩田 英三郎, 酒向 慎司

    本発明は、キーワードのような特定の言葉の利用を前提としない飲酒判定を可能とするものである。飲酒モデルは、飲酒者の音声の音響特徴による分類基準を用いた木構造を有する。この木構造におけるノードは、飲酒者の音素における音響特徴を示す。非飲酒モデルは、非飲酒者の音声の音響特徴による分類基準を用いた木構造を有する。この木構造におけるノードは、非飲酒者の音素における音響特徴を示す。まず、対象者の音声データを、飲酒モデルと非飲酒モデルのそれぞれの木構造に適用して、音素の音響特徴をノードに振り分ける。つぎに、対象者の音素の音響特徴と、各モデルにおける各ノードで特定された音響特徴との尤度を計算する。つぎに、算出された尤度の値を用いて、当該音声の音響特徴が、飲酒モデル及び非飲酒モデルのうちのどちらに近いかを判別する。

  • 音声合成方法及び装置

    特願 特願2005-304082  特開 特開2007-114355 

    嵯峨山 茂樹, 槐 武也, 酒向 慎司, 松本 恭輔, 西本 卓也

    【課題】高品質の合成音声を提供すると共に、加工性に優れた音声合成手法を提供する。【解決手段】音声のスペクトル包絡を混合ガウス分布関数で近似することで少数のパラメータによって音声スペクトルを表現して分析パラメータを得る。そして、この混合ガウス分布関数の逆フーリエ変換であるGabor関数の重ね合わせを基本波形とし、それをピッチ周期ごとに配置して有声音を合成する。ピッチ周期をランダムにすれば無声音も合成できる。

  • 音声認識装置及びコンピュータプログラム

    特願 特願2003-317559  特開 特開2005-84436 

    山口 辰彦, 酒向 慎司, 山本 博史, 菊井 玄一郎

    課題】あるモデルによる音声認識の誤りを、他のモデルによる音声認識結果で置換する際に、最終的な音声認識の精度を高める。【解決手段】音声認識装置は、N−グラムモデルを用いて音声認識を行ない、N−グラム候補44及び信頼度尺度を出力する音声認識部40、音声認識部40からのN−グラム候補44に対し、正誤を判別するように最適化された予備判別部46、予備判別部46が誤りと判定した箇所について、用例文モデルを用いて音声認識を行ない、用例文候補52と信頼度を算出する用例候補選択部50、N−グラム候補44を用例文候補52で置換するか否かを判別し最終の音声認識結果28を出力する最終判別部54とを含み、予備判別部46は、学習により得られた判別基準より多くの誤りを検出するようにバイアスした判別基準を用いて判別する。

作品

  • NIT-3DHP-OMNI

    データベース  2020年08月  -  現在

    The dataset comprises of 7 subjects, covering the 16 sentences with 3-4 times per subject.
    Archived dataset size is 1.52 GB.

    The dataset-tree is comprised such as below:
    NIT-3DHP-OMNI
    + A (personal ID for paper)
    | + 011001001 (personal ID & sentence & times for each 3 digit)
    | | + input
    | | | + 0000000001.jpg (RGB image)
    | | | + 0000000002.jpg
    | | | + ...
    | | |
    | | + target
    | | + 0000000001.txt (3D joint positions)
    | | + 0000000002.txt
    | | + ...
    | |
    | + 011001002 ...
    |
    + B ...

    The target text holds 3D joint positions data such as below order:
    -------------------
    Time Stamp
    Head
    Neck
    Torso
    Waist
    Left Shoulder
    Right Shoulder
    Left Elbow
    Right Elbow
    Left Wrist
    Right Wrist
    Left Hand
    Right Hand
    -------------------

  • Pressivo: 旋律の演奏表情を考慮した自動伴奏生成システム

    コンピュータソフト  2014年02月  -  2014年02月

  • A stochastic model of artistic deviation and its musical score for the elucidation of performance expression

    コンピュータソフト  2013年08月  -  2013年08月

    http://smac2013.renconmusic.org/

  • Ryry: 多声楽器に対応可能な音響入力自動伴奏システム

    コンピュータソフト  2013年03月  -  2013年03月

    Ryry(リリー)は、楽譜に基づく人間の演奏音響信号を入力として、実時間で演奏位置を認識、予測し、同期した伴奏を自動的に再生する自動伴奏システムです。

  • 音楽印象データベース

    コンピュータソフト  2013年03月  -  2013年03月

  • 自動作曲システム Orpheus

    コンピュータソフト  2013年01月  -  2013年01月

  • Open JTalk version 1.05

    コンピュータソフト  2011年12月  -  2011年12月

  • Speech Signal Processing Toolkit (SPTK) version 3.5

    コンピュータソフト  2011年12月  -  2011年12月

  • 自動作曲システムOrpheus ver.2.1

    コンピュータソフト  2011年04月  -  2011年04月

  • HMM-based Speech Synthesis System (HTS) version 2.1.1

    コンピュータソフト  2010年05月  -  2010年05月

その他研究活動

  • 研究用マルチモーダル音声データベース M2TINIT

    2003年03月  -  2003年03月

    研究用マルチモーダル音声データベース M2TINIT (Multi-Modal Speech Database by Tokyo Institute of Technology and Nagoya Institute of Technology) は、マルチモーダル音声研究の推進のため、東京工業大学大学院院総合理工学研究科 小林隆夫研究室および名古屋工業大学知能情報システム学科 北村・徳田研究室が開発・公開する音声・唇動画像同時収録データベースです。これまでに音声・唇動画像の生成やバイモーダル音声認識の研究に利用されています。

学術関係受賞

  • 日本知能情報ファジィ学会論文賞

    2017年09月14日   日本知能情報ファジィ学会   楽譜と表情を関連付けた統計モデルに基づく鍵盤楽器演奏の自動生成手法  

    受賞者:  奥村 健太, 酒向 慎司, 北村 正

    本稿では,特定の演奏者が持つ表情の特徴に忠実な演奏の自動生成を目的とした手法を提案する.多くの既存手法は演奏生成に際して演奏者が有するような専門知識の入力を必要とする.それらは使用者自身が演奏者として介在する用途には有用であるが,本提案の目的には不向きである.提案手法では演奏者による実際の演奏事例から得られる表情の特徴に対し,楽譜から専門知識を用いることなく得られる情報を関連付けたモデルを定義する.さらに楽譜の指示を基準に用い,個々の演奏事例について定義したモデル群をその表情の特徴別に分類することで,任意の演奏事例に付与された表情の特徴と楽譜の指示との因果関係を体系的に記述した規則を構造化できる.この構造を辿ることで,未知の楽譜の指示に対応する演奏事例の候補が得られる.これらの候補の中から最適な表情を備えた演奏事例の系列を探索する問題を,動的計画法の適用によって解決する.客観評価実験により,提案手法は最適な事例の系列を効率的に探索できることを示した.また,主観評価実験によって提案手法による表情の品質の高さを確認したほか,多様な楽曲で演奏者に忠実な表情の特徴を再現できることを示した.なお,提案手法による演奏は,自動演奏表情付けシステムのコンテストにおいて自律生成部門の第1位を獲得している.

  • 情報処理学会第78回全国大会学生奨励賞

    2016年03月11日   情報処理学会   自動ジャズアレンジのための事例に基づくメロディ変形  

    受賞者:  佐藤 直人, 酒向 慎司, 北村 正

    本研究では原曲メロディの自動ジャズアレンジを目的とし、事例を用いてリズムと音高に関するジャズ特有の変化パターンをモデル化することにより、メロディをジャズ風に変形させる手法を提案する。提案手法では、原曲とジャズアレンジされた曲のペアからなる事例データを用意し、セグメンテーションと抽象化により、原曲とアレンジ後の対応付けを行う。入力された原曲メロディが変化し得るリズムと音高のアレンジパターンを事例データから探索し、動的計画法により最適なアレンジ系列を出力する。

  • 情報処理学会山下記念研究賞

    2016年03月   情報処理学会   楽譜と表情を関連付けた統計モデルに基づく楽器演奏の比較分析の検討  

    受賞者:  奥村 健太, 酒向 慎司, 北村 正

    本稿では,楽器演奏に付与される表情について,特定の演奏者と楽曲の組合せにおける比較分析を行う問題を考える.表情付けに寄与する要因を説明可能な枠組みとして,表情の特徴量を近似した生成モデルに楽譜の指示を関連付け,各特徴量の生成過程を楽譜の指示に基づく規則を用いて体系化する手法が提案されている.本稿ではその体系の構築過程に着目し,表情付けに寄与した規則について,その寄与の度合いや関係性を楽譜の指示に基づき分析する手法を提案する.また,複数の楽曲と演奏者による演奏の組合せを用い,その有用性を検討する.

  • 学会活動貢献賞

    2014年03月31日   日本音響学会東海支部  

    受賞者:  酒向 慎司

  • 情報処理学会第76回全国大会学生奨励賞

    2014年03月13日   情報処理学会   印象空間を用いた任意の言葉による楽曲検索:言葉の写像方法の改善と評価方法の再構築  

    受賞者:  頭川 愛, 酒向 慎司, 北村 正

    近年感性語を用いた楽曲検索に関する研究が多くなされているが、楽曲の印象は複雑に表現されることもあるため、あらゆる言葉に対応した楽曲検索が望ましいと考えられる。従って、印象を表す空間に楽曲と言葉を写像する手法を提案した。この手法の実現にあたり14の感性語対を用いて楽曲の印象評価を行った聴取実験の結果から印象空間を生成した。共起確率を用いて感性語と関係が深い言葉を調べ代表語とし、それらの言葉を利用して任意の言葉の座標を決定する。しかし、従来は適切に写像できなかった言葉も存在し、また検索性能の評価方法にも問題があった。本報告では、任意の言葉を写像するための代表語の選択方法や評価方法について更に詳細な検討を行う。

  • 情報処理学会第76回全国大会学生奨励賞

    2014年03月13日   情報処理学会   旋律の演奏表情を考慮した自動伴奏生成  

    受賞者:  宮田 佳奈, 酒向 慎司, 北村 正

    従来の伴奏生成システムは,ユーザが,曲のジャンルなどを選択肢の中からイメージしながら選択する必要や,複雑なパラメータ調整をする必要があり素人には扱い難いことなどが問題であった.本研究では演奏表情により曲のイメージが変化する点に着目をし,演奏表情を伴う旋律を入力とし,旋律に相応しい伴奏の和音とリズムを決定する手法を提案する.曲は音楽的同時性と連続性が自然となるよう作成されることが望ましい.和音は,確立されている音楽理論を基に決定をする.リズムの決定においては,理論がほとんど確立されていない.そこで,言語モデルにより楽曲からリズムを学習し,リズム決定を行う手法を提案する.最後に評価実験から本手法の有効性を検証する.

  • 日本音響学会学生優秀発表賞

    2013年09月   日本音響学会   セミマルコフ条件付き確率場を用いた音楽音響信号と楽譜のアライメント  

    受賞者:  山本 龍一, 酒向 慎司, 北村 正

  • FIT奨励賞

    2013年09月   情報処理学会   習熟度に応じたバイオリン運指推定のための確率モデルとパラメータ学習  

    受賞者:  長田 若奈, 酒向 慎司, 北村 正

    バイオリンは一つの楽譜に多数の運指が考えられる楽器である。教本以外の楽譜には運指は記述されていないため演奏者自身で運指を決定する必要があるが,運指の決定には経験や試行錯誤が必要である。このため,運指を自動推定する必要があるが,適切な運指は演奏者によって異なる。我々は,習熟度による運指の違いは演奏表現の優先度合いの違いであると考え,習熟度に応じた確率モデルに基づいた運指推定法を提案した。しかし,運指の適切さであるモデルパラメータを経験的に設定する必要があり,特に演奏表現を優先する場合ではモデルが複雑化するため適切に設定することは困難であった。そこで本研究では,運指推定モデルにおける運指の適切さを,教本の運指データを用いて学習する手法を提案する。提案法では音符長や休符長に依存して変動する結合度,表現度について出現頻度分布を仮定することで,これらに依存する確率を定める。また,過学習を防ぐためにスムージングを行う。

  • 情報処理学会東海支部学生論文奨励賞

    2013年05月19日   情報処理学会東海支部   楽譜に基づく鍵盤楽器演奏の統計的モデル化手法  

    受賞者:  奥村 健太, 酒向 慎司, 北村 正

    楽器の演奏には演奏者の楽曲解釈によって発生する固有の特徴があり,それは演奏時に参照された楽譜からの芸術的意図に基づく逸脱として観測される.そのような逸脱は楽譜の情報に含まれる文脈に類するものに依存して発生していると考えられる.本稿では音符ごとの逸脱に対して楽譜から得られる詳細な演奏指示を関連付けることで,演奏者の楽曲解釈と楽器操作の傾向を楽譜の情報を制約に用いて分類する手法について論じる.分類に有効な制約が楽譜と演奏の内容から一意に決定されることが本手法の利点であり,これによって演奏者以外の恣意の混入を抑止した公正な分類が可能である.実際の演奏から取得した逸脱を用いた検証から,楽器演奏の特徴を説明するための制約として楽譜の情報を用いることの有効性を示した.また,楽器演奏に関する既知の知見について,モデルによって視覚化された演奏はそれを裏付ける傾向を示した.このことから,本手法はそのような知見の客観的な証明にも有用であることが分かった.

  • 電気関係学会東海支部連合大会奨励賞

    2013年01月22日   電気関係学会東海支部連合大会   隠れマルコフモデルを用いたバイオリンの運指推定  

    受賞者:  長田 若奈, 酒向 慎司, 北村 正

    弦楽器で楽曲を演奏するには,必ず運指を決定する必要がある.しかし,弦楽器は1つの音高に対して押弦位置と運指の組み合わせが複数存在する為,考えられる運指列は多数である.演奏者は経験的に,あるいは試行錯誤によって運指を決定するが,経験の少ない初級者にとって運指決定は容易ではない.特にバイオリンは幼児期から始める事も多いが,幼児が運指を決定する事は困難である.このような背景から,初級者を対象にしたバイオリンの運指推定法を提案する.

全件表示 >>

科研費(文科省・学振)獲得実績

  • 視覚障害者が能動的に白杖で叩くことによる音情報の作製と利用に関する基礎的研究

    挑戦的萌芽研究

    研究期間:  2018年04月  -  2020年03月  代表者:  布川 清彦

  • 多用途型日本手話言語データベース構築に関する研究

    基盤研究(S)

    研究期間:  2017年07月  -  2021年03月  代表者:  長嶋 祐二

  • 演奏者の個人性を転写する演奏生成と協調演奏システムの研究

    国際共同研究加速基金

    研究期間:  2016年04月  -  2019年03月  代表者:  酒向 慎司

  • 演奏者の個人性を転写する演奏生成と協調演奏システムの研究

    若手研究(B)

    研究期間:  2014年04月  -  2017年03月  代表者:  酒向 慎司

  • 手指動作と非手指動作のサブユニットモデルに基づく手話認識に関する研究

    基盤研究(C)

    研究期間:  2013年04月  -  2016年03月  代表者:  北村 正

全件表示 >>

受託研究受入実績

  • 手話の自動翻訳を実現させる高精度な動作検出と動作のパターンマッチングの技術開発

    提供機関: 経済産業省 戦略的基盤技術高度化支援事業(サポイン)  一般受託研究

    研究期間: 2016年10月  -  2019年03月  代表者: 青井 基行

  • 心地よく人間に合わせる自動演奏システムの研究

    提供機関: 科学技術振興機構 研究成果最適展開支援事業(A-STEP)FSステージ  一般受託研究

    研究期間: 2015年01月  -  2015年12月  代表者: 酒向 慎司

  • 多様な利用形態に柔軟に対応する自動伴奏リハビリ支援システムの開発

    提供機関: 科学技術振興機構 研究成果最適展開支援事業(A-STEP)FSステージ  一般受託研究

    研究期間: 2013年08月  -  2014年03月  代表者: 酒向 慎司

  • ユーザーの嗜好と利用シーンの変動に対応可能な統計モデルに基づいた楽曲からの感性推定モデルの研究

    提供機関: 科学技術振興機構 研究成果最適展開支援事業(A-STEP)FSステージ  一般受託研究

    研究期間: 2011年08月  -  2012年03月  代表者: 酒向 慎司

    音楽から受ける印象を楽曲の電子データから直接推定する印象推定システムにおいて、個人の嗜好や感性の違いに対応するため、性別や音楽経験などからなるプロフィールを利用する新たな手法を開発した。この手法の特徴として、印象推定モデルを学習するための音楽を聴いたときの印象データを事前に収集する必要がなく、他者の印象推定モデルから、特定の利用者に合った(類似した)モデルをプロフィールの情報に基づいて自動選択することができる。また、音楽を聴いた際の印象データを短期間で効率的に収集するため、Webブラウザを利用した楽曲提示と印象データ収集システムを構築し、様々な年代を含む120名の大規模な印象評価データを収集した。

 
 

学会・委員会等活動

  • 2020年03月
    -
    2021年02月

    電子情報通信学会   ヒューマンコミュニケーション特集委員会編集委員

  • 2019年06月
    -
    現在

    電子情報通信学会   福祉情報工学研究会 副委員長

  • 2019年04月
    -
    2020年04月

    情報処理学会   論文誌特集号編集委員

  • 2019年01月
    -
    2020年02月

    電子情報通信学会   ヒューマンコミュニケーション特集論文編集委員

  • 2018年12月
    -
    2019年09月

    電子情報通信学会   第18回情報科学技術フォーラム研究会担当委員・プログラム委員

  • 2018年07月
    -
    2019年01月

    電子情報通信学会   ヒューマンコミュニケーションシンポジウム2018プログラム委員長

  • 2018年04月
    -
    現在

    情報処理学会   音楽情報科学研究会運営委員

  • 2017年07月
    -
    2018年01月

    電子情報通信学会   ヒューマンコミュニケーションシンポジウム2017プログラム副委員長

  • 2016年06月
    -
    現在

    電子情報通信学会   リアルタイムコミュニケーション言語時限研究会 幹事

  • 2015年06月
    -
    2019年05月

    電子情報通信学会   福祉情報工学研究会 企画幹事

全件表示 >>