酒向 慎司 (サコウ シンジ)

SAKO Shinji

写真a

所属学科・専攻等

情報工学教育類 メディア情報分野
情報工学専攻 メディア情報分野

職名

准教授

メールアドレス

メールアドレス

出身大学

  • 1995年04月
    -
    1999年03月

    名古屋工業大学   工学部   知能情報システム学科   卒業

出身大学院

  • 2001年04月
    -
    2004年03月

    名古屋工業大学  工学研究科  電子情報工学専攻博士課程  修了

取得学位

  • 名古屋工業大学 -  博士(工学)

学外略歴

  • 2016年07月
    -
    2017年03月

      ミュンヘン工科大学   ヒューマンマシンコミュニケーション研究所   研究員

  • 2014年07月
    -
    2014年08月

      AGH科学技術大学   Faculty of Computer Science, Electronics and Telecommunications   客員研究員

  • 2012年06月
    -
    2012年12月

      ミュンヘン工科大学   ヒューマンマシンコミュニケーション研究所   客員研究員

  • 2004年04月
    -
    2007年03月

      東京大学 大学院情報理工学系研究科   助手

  • 2003年04月
    -
    2003年06月

      国際電気通信基礎技術研究所   研修研究員

所属学会・委員会

  • 2010年06月
    -
    継続中

    日本手話学会

  • 2010年06月
    -
    継続中

    ヒューマンインタフェース学会

  • 2009年04月
    -
    継続中

    電気関係学会東海支部連合大会実行委員会

  • 2008年07月
    -
    継続中

    高度言語情報融合フォーラム

  • 2007年10月
    -
    継続中

    映像情報メディア学会

全件表示 >>

専門分野(科研費分類)

  • 感性情報学

  • リハビリテーション科学・福祉工学

  • 知覚情報処理

 

学位論文

  • Audio-Visual Speech/Singing-voice Synthesis and Gesture Recognition for Multimodal Human Computer Interaction

    Shinji Sako

      2004年03月(年月日)

    学位論文(博士)   単著

論文

  • Learning Siamese Features for Finger Spelling Recognition

    Bogdan Kwolek, Shinji Sako

    Advanced Concepts for Intelligent Vision Systems     2017年09月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    This paper is devoted to finger spelling recognition on the basis of images acquired by a single color camera. The recognition is realized on the basis of learned low-dimensional embeddings. The embeddings are calculated both by single as well as multiple siamese-based convolutional neural networks. We train classifiers operating on such features as well as convolutional neural networks operating on raw images. The evaluations are performed on freely available dataset with finger spellings of Japanese Sign Language. The best results are achieved by a classifier trained on concatenated features of multiple siamese networks.

  • Recognition of JSL finger spelling using convolutional neural networks

    Hosoe Hana, Shinji Sako, Bogdan Kwolek

    15th IAPR International Conference on Machine Vision Applications (MVA) ( IEEE )    85 - 88   2017年07月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    Recently, a few methods for recognition of hand postures on depth maps using convolutional neural networks were proposed. In this paper, we present a framework for recognition of static finger spelling in Japanese Sign Language. The recognition takes place on the basis of single gray image. The finger spelled signs are recognized using a convolutional neural network. A dataset consisting of 5000 samples has been recorded. A 3D articulated hand model has been designed to generate synthetic finger spellings and to extend the real hand gestures. Experimental results demonstrate that owing to sufficient amount of training data a high recognition rate can be attained on images from a single RGB camera. The full dataset and Caffe model are available for download.

  • Japanese Sign Language Recognition Based on Three Elements of Sign Using Kinect v2 Sensor

    Shohei Awata, Shinji Sako, Tadashi Kitamura

    International Conference on Human-Computer Interaction 2017   713   95 - 102   2017年07月

    研究論文(国際会議プロシーディングス)   共著

    The visual feature of Japanese sign language is divided into two of manual signals and non-manual signals. Manual signals are represented by the shape and motion of the hands, and convey mainly the meaning of sign language words. In terms of phonology, sign language words consist of three elements: hand’s motion, position, and shape. We have developed a recognition system for Japanese sign language (JSL) with abstraction of manual signals based on these three elements. The abstraction of manual signals is performed based on Japanese sign language words dictionary. Features like coordinates of hands and depth images are extracted from manual signals using the depth sensor, Kinect v2. This system recognizes three elements independently and the final result is obtained under the comprehensive judgment from the results of three elements recognition. In this paper, we used two methods for recognition of hand shape, a contour-based method suggested by Keogh and template matching of depth image. The recognition methods of other elements were hidden Markov model for recognition of motion and the normal distribution learned by maximum likelihood estimation for recognition of position, as a same manner of our previous research. Based on our proposal method, we prepared recognition methods of each element and conducted an experiment of 400 sign language words recognition based on a sign language words dictionary.

  • Real-Time Japanese Sign Language Recognition Based on Three Phonological Elements of Sign

    Shinji Sako, Mika Hatano, Tadashi Kitamura

    18th International Conference HCI International 2016, Communications in Computer and Information Science   618   130 - 136   2016年06月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    Sign language is the visual language of deaf people. It is also natural language, different in form from spoken language. To resolve a communication barrier between hearing people and deaf, several researches for automatic sign language recognition (ASLR) system are now under way. However, existing research of ASLR deals with only small vocabulary. It is also limited in the environmental conditions and the use of equipment. In addition, compared with the research field of speech recognition, there is no large scale sign database for various reasons. One of the major reasons is that there is no official writing system for Japanese sign Language (JSL). In such a situation, we focused on the use of the knowledge of phonology of JSL and dictionary, in order to develop a develop a real-time JSL sign recognition system. The dictionary consists of over 2,000 JSL sign, each sign defined as three types of phonological elements in JSL: hand shape, motion, and position. Thanks to the use of the dictionary, JSL sign models are represented by the combination of these elements. It also can respond to the expansion of a new sign. Our system employs Kinect v2 sensor to obtain sign features such as hand shape, position, and motion. Depth sensor enables real-time processing and robustness against environmental changes. In general, recognition of hand shape is not easy in the field of ASLR due to the complexity of hand shape. In our research, we apply a contour-based method to hand shape recognition. To recognize hand motion and position, we adopted statistical models such as Hidden Markov models (HMMs) and Gaussian mixture models (GMMs). To address the problem of lack of database, our method utilizes the pseudo motion and hand shape data. We conduct experiments to recognize 223 JSL sign targeted professional sign language interpreters.

  • 楽譜と表情を関連付けた統計モデルに基づく鍵盤楽器演奏の自動生成手法

    奥村 健太, 酒向 慎司, 北村 正

    知能と情報 ( 日本知能情報ファジィ学会 )  28 ( 2 ) 557 - 569   2016年04月  [査読有り]

    研究論文(学術雑誌)   共著

    本稿では,特定の演奏者が持つ表情の特徴に忠実な演奏の自動生成を目的とした手法を提案する.多くの既存手法は演奏生成に際して演奏者が有するような専門知識の入力を必要とする.それらは使用者自身が演奏者として介在する用途には有用であるが,本提案の目的には不向きである.提案手法では演奏者による実際の演奏事例から得られる表情の特徴に対し,楽譜から専門知識を用いることなく得られる情報を関連付けたモデルを定義する.さらに楽譜の指示を基準に用い,個々の演奏事例について定義したモデル群をその表情の特徴別に分類することで,任意の演奏事例に付与された表情の特徴と楽譜の指示との因果関係を体系的に記述した規則を構造化できる.この構造を辿ることで,未知の楽譜の指示に対応する演奏事例の候補が得られる.これらの候補の中から最適な表情を備えた演奏事例の系列を探索する問題を,動的計画法の適用によって解決する.客観評価実験により,提案手法は最適な事例の系列を効率的に探索できることを示した.また,主観評価実験によって提案手法による表情の品質の高さを確認したほか,多様な楽曲で演奏者に忠実な表情の特徴を再現できることを示した.なお,提案手法による演奏は,自動演奏表情付けシステムのコンテストにおいて自律生成部門の第1位を獲得している.

  • 統計モデルと楽譜情報に基づく指標を用いた演奏表情の比較分析

    奥村 健太, 酒向 慎司, 北村 正

    日本感性工学会論文誌   15 ( 1 ) 255 - 263   2016年02月  [査読有り]

    研究論文(学術雑誌)   共著

    There is a complex phenomenon in the performance expression of Western music. It is difficult even for performers themselves to describe the causality of “score directions” and “instrument operation” clearly and objectively. In this paper, we propose a method that can help to elucidate the factors contributing to performance expression. It is based on a technique to obtain the systematized structure of the statistical models. The model associates the feature quantities of performance expression and the combination of simple musical directions that can be surely retrieved from the score. In this method, degrees to which those directions contribute to the performance expression are also defined. It allows the application of standard multivariate analysis techniques for comparative analysis of the expressions between performances. Evaluation showed the utility of the proposed method in contributing to an objective understanding of the factors that performers emphasized for control of expression in their performances.

  • Contour-based Hand Pose Recognition for Sign Language Recognition

    Mika Hatano, Shinji Sako, Tadashi Kitamura

    6th Workshop on Speech and Language Processing for Assistive Technologies     2015年09月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    We are developing a real-time Japanese sign language recognition system that employs abstract hand motions based on three elements familiar to sign language: hand motion, position, and pose. This study considers the method of hand pose recognition using depth images obtained from the Kinect v2 sensor. We apply the contour-based method proposed by Keogh to hand pose recognition. This method recognizes a contour by means of discriminators generated from contours. We conducted experiments on recognizing 23 hand poses from 400 Japanese sign language words.

  • Violin Fingering Estimation According to the Performer's Skill Level Based on Conditional Random Field

    Shinji Sako, Wakana Nagata, Tadashi Kitamura

    Human-Computer Interaction, Part II, HCII 2015, LNCS 9170     485 - 494   2015年08月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    In this paper, we propose a method that estimates appropriate violin fingering according to the performer’s skill level based on a conditional random field (CRF). A violin is an instrument that can produce the same pitch for different fingering patterns, and these patterns depend on skill level. We previously proposed a statistical method for violin fingering estimation, but that method required a certain amount of training data in the form of fingering annotation corresponding to each note in the music score. This was a major issue of our previous method, because it takes time and effort to produce the annotations. To solve this problem, we proposed a method to automatically generate training data for a fingering model using existing violin textbooks. Our experimental results confirmed the effectiveness of the proposed method.

  • Violin Fingering Estimation According to Skill Level based on Hidden Markov Model

    Wakana Nagata, Shinji Sako, Tadashi Kitamura

    Proceedings ICMC|SMC|2014     1233 - 1238   2014年09月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    This paper describes a method that estimates the appropriate violin fingering pattern according to the player’s skill level. A violin can produce the same pitch for different fingering patterns, which generally vary depending on skill level. Our proposed method translates musical scores into suitable fingering patterns for the desired skill level by modeling a violin player’s left hand based on a hidden Markov model. In this model, fingering is regarded as the hidden state and the output is the musical note in the score. We consider that differences in fingering patterns depend on skill level, which determines the prioritization between ease of playing and performance expression, and this priority is related to the output probability. Transition probabilty is defined by the appropriateness and ease of the transitions between states in the musical composition. Manually setting optimal model parameters for these probabilities is difficult because they are too numerous. Therefore, we decide on the parameters by training with textbook fingering. Experimental results show that fingering can be estimated for a skill level using the proposed method. The results of evaluations conducted of the method’s fingering patterns for beginners indicate that they are as good as or better than textbook fingering patterns.

  • Laminae: A stochastic modeling-based autonomous performance rendering system that elucidates performer characteristics

    Kenta Okumura, Shinji Sako, Tadashi Kitamura

    Proceedings ICMC|SMC|2014     1271 - 1276   2014年09月  [査読有り]

    研究論文(国際会議プロシーディングス)   共著

    This paper proposes a system for performance rendering of keyboard instruments. The goal is fully autonomous rendition of a performance with musical smoothness without losing any of the characteristics of the actual performer. The system is based on a method that systematizes combinations of constraints and thereby elucidates the renderingprocess of the performer’s performance by defining stochastic models that associate artistic deviations observed in a performance with the contextual information notated in its musical score. The proposed system can be used to search for a sequence of optimum cases from the combination of all existing cases of the existing performance observed to render an unseen performance efficiently. Evaluations conducted indicate that musical features expected in existing performances are transcribed appropriately in the performances rendered by the system. The evaluations also demonstrate that the system is able to render performances with natural expressions stably, even for compositions with unconventional styles. Consequently, performances rendered via the proposed system have won first prize in the autonomous section of a performance rendering contest for computer systems.

全件表示 >>

総説・解説記事

  • 隠れマルコフモデルによる手話の音韻構造に基づいた自動手話認識

    酒向 慎司, 北村 正

    日本福祉工学学会誌 ( 日本福祉工学会 )  17 ( 2 ) 2 - 7   2015年11月

    総説・解説(国際会議プロシーディングズ)   共著

    手話認識の分野では,隠れマルコフモデル(Hidden Markov Model; HMM) に基づいた手法が提案されている.また,手話の動作情報を取得する方法として身体動作を直接計測するセンサ類を用いる方法も検討されてきたが,画像から動作情報を取得することで特殊な装置を要せず,身体的拘束のない手話認識が可能である.また,これまでの手話認識の研究では主に孤立単語を対象に行われてきており,単語ごとに個別のモデルを作成する場合,語彙の増加に伴ってモデル数が増加するため非効率であり,また手話のデータの収集は手間がかかり大規模化が難しい現状がある.そのため,音素のように単語間に共通した手話の構成素(サブユニット)を定め,それらの組合せから単語モデルを構成するアプローチが有望である.このような観点から,ビデオカメラで撮影された手話映像を用い,単語単位で学習された複数のHMMの状態パラメータを分類することで,単語間の共通要素をサブユニットとして集約する手法を検討してきた.本稿では,サブユニットの生成過程に手話の音韻構造を考慮することで,共通要素の集約を効率化する手法を提案する.

  • 基礎講座 音声・音響インタフェース 第1回―HTSを用いた音声合成システムの構築

    大浦 圭一郎, 全 炳河, 酒向 慎司, 徳田 恵一

    ヒューマンインタフェース学会誌 ( ヒューマンインタフェース学会 )  12 ( 1 ) 35 - 40   2010年02月  [査読有り]

    総説・解説(国際会議プロシーディングズ)   共著

  • 特集 音楽とOR―日本語歌詞からの自動作曲

    嵯峨山 茂樹,中妻 啓,深山 覚,酒向 慎司,西本 卓也

    オペレーションズ・リサーチ ( 日本オペレーションズ・リサーチ学会 )  54 ( 9 ) 546 - 553   2009年10月  [依頼有り]

    総説・解説(学術雑誌)   共著

    本稿では,任意の日本語テキストの持つ韻律に基づき,歌唱曲を自動作曲する手法について解説する.文学作品や自作の詩,ニュースやメールなど,あらゆる日本語テキストをそのまま歌詞として旋律を生成し,歌唱曲として出力する自動作曲システムは,手軽な作曲のツール,音楽の専門知識を持たない人のための作曲補助ツールとして有用であろう.さらに著作権問題の回避としても用途があろう.歌唱曲は歌詞との関連性が求められる.特に高低アクセントを持つ日本語では,発話音声にピッチの高低が付くため,歌詞を朗読する際の韻律と旋律が一致することが重要とされる.筆者らはこの点に着目し,ユーザが選択した和声,リズム,伴奏音形を拘束条件として,旋律を音高間を遷移する経路とし,韻律の上下動の制限の下で最適経路となる旋律を動的計画法により探索する問題として旋律設計を捉えた.このモデルに基づき,任意の日本語歌詞に,その韻律に一致した旋律を付ける自動作曲手法により自動作曲システムOrpheusを作成したので紹介する.

研究発表

  • JuliusとChainerによる非語の音声認識

    多々納 俊治, 繩手 雅彦・伊藤 史人, 酒向慎司, 門脇 和央

    第16回情報科学技術フォーラム(FIT2017)  (東京大学本郷キャンパス)  2017年09月  -  2017年09月  情報処理学会,電子情報通信学会 情報・システムソサイエティ,電子情報通信学会 ヒューマンコミュニケーショングループ

  • 3次元モデルとCNNを用いた指文字認識の検討

    酒向 慎司, 細江 花, ボクダン クォーレック

    電子情報通信学会 第90回福祉情報科学研究会  (リオン株式会社)  2017年05月  -  2017年05月  電子情報通信学会

  • 楽譜情報を考慮したSCRF に基づく音響信号と楽譜のアライメント

    野口 綾子, 酒向 慎司, 北村 正

    日本音響学会2017年春季研究発表会  (明治大学生田キャンパス )  2017年03月  -  2017年03月  日本音響学会

  • SVMによる非語の正誤判定を用いた音韻検査の自動化の検討

    多々納 俊治, 縄手 雅彦, 伊藤 史人, 酒向 慎司

    電子情報通信学会 HCGシンポジウム2016  (高知市文化プラザかるぽーと)  2016年12月  -  2016年12月  電子情報通信学会

  • Vowel duration dependent hidden Markov model for automatic lyrics recognition

    Shohei Awata, Shinji Sako, Tadashi Kitamura

    th Joint Meeting of the Acoustical Society of America and Acoustical Society of Japan  (Honolulu, Hawaii)  2016年11月  -  2016年12月  Acouustical SOciety of America, Acoustical Society of Japan

  • Segmental Conditional Random FieldsAudio-to-Score Alignment Distinguishing Percussion Sounds From Other Instruments

    Ayako Noguchi, Shinji Sako, Tadashi Kitamura

    th Joint Meeting of the Acoustical Society of America and Acoustical Society of Japan  (Honolulu, Hawaii)  2016年11月  -  2016年12月  Acouustical SOciety of America, Acoustical Society of Japan

  • HMMを用いた手話の非手指信号認識の基礎検討

    加藤 里奈, 酒向 慎司, 北村 正

    電子情報通信学会 第85回福祉情報科学研究会  (山梨大学)  2016年07月  -  2016年07月  電子情報通信学会

  • 地震前兆検出のための環境電磁波の自動ラベリングと複数地点への適用による汎用性の検証

    曽我 昌士, 酒向 慎司, 北村 正

    電子情報通信学会2016年総合大会学生ポスターセッション  (九州大学 伊都キャンパス)  2016年03月  -  2016年03月  電子情報通信学会

  • HMMを用いた手話の非手指信号の認識

    加藤 里奈, 酒向 慎司, 北村 正

    電子情報通信学会2016年総合大会学生ポスターセッション  (九州大学 伊都キャンパス)  2016年03月  -  2016年03月  電子情報通信学会

  • 空間的定位に基づく前後の状況を考慮した歩行者の経路選択行動モデル

    大廻 佳代, 酒向 慎司, 北村 正

    電子情報通信学会2016年総合大会学生ポスターセッション  (九州大学 伊都キャンパス)  2016年03月  -  2016年03月  電子情報通信学会

全件表示 >>

工業所有権

  • 飲酒状態判定装置及び飲酒状態判定方法

    特願 PCT/JP2010/062776  特開 特開2011-553634 

    岩田 英三郎, 酒向 慎司

    本発明は、キーワードのような特定の言葉の利用を前提としない飲酒判定を可能とするものである。飲酒モデルは、飲酒者の音声の音響特徴による分類基準を用いた木構造を有する。この木構造におけるノードは、飲酒者の音素における音響特徴を示す。非飲酒モデルは、非飲酒者の音声の音響特徴による分類基準を用いた木構造を有する。この木構造におけるノードは、非飲酒者の音素における音響特徴を示す。まず、対象者の音声データを、飲酒モデルと非飲酒モデルのそれぞれの木構造に適用して、音素の音響特徴をノードに振り分ける。つぎに、対象者の音素の音響特徴と、各モデルにおける各ノードで特定された音響特徴との尤度を計算する。つぎに、算出された尤度の値を用いて、当該音声の音響特徴が、飲酒モデル及び非飲酒モデルのうちのどちらに近いかを判別する。

  • 音声合成方法及び装置

    特願 特願2005-304082  特開 特開2007-114355 

    嵯峨山 茂樹, 槐 武也, 酒向 慎司, 松本 恭輔, 西本 卓也

    【課題】高品質の合成音声を提供すると共に、加工性に優れた音声合成手法を提供する。【解決手段】音声のスペクトル包絡を混合ガウス分布関数で近似することで少数のパラメータによって音声スペクトルを表現して分析パラメータを得る。そして、この混合ガウス分布関数の逆フーリエ変換であるGabor関数の重ね合わせを基本波形とし、それをピッチ周期ごとに配置して有声音を合成する。ピッチ周期をランダムにすれば無声音も合成できる。

  • 音声認識装置及びコンピュータプログラム

    特願 特願2003-317559  特開 特開2005-84436 

    山口 辰彦, 酒向 慎司, 山本 博史, 菊井 玄一郎

    課題】あるモデルによる音声認識の誤りを、他のモデルによる音声認識結果で置換する際に、最終的な音声認識の精度を高める。【解決手段】音声認識装置は、N−グラムモデルを用いて音声認識を行ない、N−グラム候補44及び信頼度尺度を出力する音声認識部40、音声認識部40からのN−グラム候補44に対し、正誤を判別するように最適化された予備判別部46、予備判別部46が誤りと判定した箇所について、用例文モデルを用いて音声認識を行ない、用例文候補52と信頼度を算出する用例候補選択部50、N−グラム候補44を用例文候補52で置換するか否かを判別し最終の音声認識結果28を出力する最終判別部54とを含み、予備判別部46は、学習により得られた判別基準より多くの誤りを検出するようにバイアスした判別基準を用いて判別する。

作品

  • Pressivo: 旋律の演奏表情を考慮した自動伴奏生成システム

    コンピュータソフト  2014年02月  -  2014年02月

  • A stochastic model of artistic deviation and its musical score for the elucidation of performance expression

    コンピュータソフト  2013年08月  -  2013年08月

    http://smac2013.renconmusic.org/

  • Ryry: 多声楽器に対応可能な音響入力自動伴奏システム

    コンピュータソフト  2013年03月  -  2013年03月

    Ryry(リリー)は、楽譜に基づく人間の演奏音響信号を入力として、実時間で演奏位置を認識、予測し、同期した伴奏を自動的に再生する自動伴奏システムです。

  • 音楽印象データベース

    コンピュータソフト  2013年03月  -  2013年03月

  • 自動作曲システム Orpheus

    コンピュータソフト  2013年01月  -  2013年01月

  • Open JTalk version 1.05

    コンピュータソフト  2011年12月  -  2011年12月

  • Speech Signal Processing Toolkit (SPTK) version 3.5

    コンピュータソフト  2011年12月  -  2011年12月

  • 自動作曲システムOrpheus ver.2.1

    コンピュータソフト  2011年04月  -  2011年04月

  • HMM-based Speech Synthesis System (HTS) version 2.1.1

    コンピュータソフト  2010年05月  -  2010年05月

その他研究活動

  • 研究用マルチモーダル音声データベース M2TINIT

    2003年03月  -  2003年03月

    研究用マルチモーダル音声データベース M2TINIT (Multi-Modal Speech Database by Tokyo Institute of Technology and Nagoya Institute of Technology) は、マルチモーダル音声研究の推進のため、東京工業大学大学院院総合理工学研究科 小林隆夫研究室および名古屋工業大学知能情報システム学科 北村・徳田研究室が開発・公開する音声・唇動画像同時収録データベースです。これまでに音声・唇動画像の生成やバイモーダル音声認識の研究に利用されています。

学術関係受賞

  • 日本知能情報ファジィ学会論文賞

    2017年09月14日   日本知能情報ファジィ学会   楽譜と表情を関連付けた統計モデルに基づく鍵盤楽器演奏の自動生成手法  

    受賞者:  奥村 健太, 酒向 慎司, 北村 正

    本稿では,特定の演奏者が持つ表情の特徴に忠実な演奏の自動生成を目的とした手法を提案する.多くの既存手法は演奏生成に際して演奏者が有するような専門知識の入力を必要とする.それらは使用者自身が演奏者として介在する用途には有用であるが,本提案の目的には不向きである.提案手法では演奏者による実際の演奏事例から得られる表情の特徴に対し,楽譜から専門知識を用いることなく得られる情報を関連付けたモデルを定義する.さらに楽譜の指示を基準に用い,個々の演奏事例について定義したモデル群をその表情の特徴別に分類することで,任意の演奏事例に付与された表情の特徴と楽譜の指示との因果関係を体系的に記述した規則を構造化できる.この構造を辿ることで,未知の楽譜の指示に対応する演奏事例の候補が得られる.これらの候補の中から最適な表情を備えた演奏事例の系列を探索する問題を,動的計画法の適用によって解決する.客観評価実験により,提案手法は最適な事例の系列を効率的に探索できることを示した.また,主観評価実験によって提案手法による表情の品質の高さを確認したほか,多様な楽曲で演奏者に忠実な表情の特徴を再現できることを示した.なお,提案手法による演奏は,自動演奏表情付けシステムのコンテストにおいて自律生成部門の第1位を獲得している.

  • 情報処理学会第78回全国大会学生奨励賞

    2016年03月11日   情報処理学会   自動ジャズアレンジのための事例に基づくメロディ変形  

    受賞者:  佐藤 直人, 酒向 慎司, 北村 正

    本研究では原曲メロディの自動ジャズアレンジを目的とし、事例を用いてリズムと音高に関するジャズ特有の変化パターンをモデル化することにより、メロディをジャズ風に変形させる手法を提案する。提案手法では、原曲とジャズアレンジされた曲のペアからなる事例データを用意し、セグメンテーションと抽象化により、原曲とアレンジ後の対応付けを行う。入力された原曲メロディが変化し得るリズムと音高のアレンジパターンを事例データから探索し、動的計画法により最適なアレンジ系列を出力する。

  • 情報処理学会山下記念研究賞

    2016年03月   情報処理学会   楽譜と表情を関連付けた統計モデルに基づく楽器演奏の比較分析の検討  

    受賞者:  奥村 健太, 酒向 慎司, 北村 正

    本稿では,楽器演奏に付与される表情について,特定の演奏者と楽曲の組合せにおける比較分析を行う問題を考える.表情付けに寄与する要因を説明可能な枠組みとして,表情の特徴量を近似した生成モデルに楽譜の指示を関連付け,各特徴量の生成過程を楽譜の指示に基づく規則を用いて体系化する手法が提案されている.本稿ではその体系の構築過程に着目し,表情付けに寄与した規則について,その寄与の度合いや関係性を楽譜の指示に基づき分析する手法を提案する.また,複数の楽曲と演奏者による演奏の組合せを用い,その有用性を検討する.

  • 学会活動貢献賞

    2014年03月31日   日本音響学会東海支部  

    受賞者:  酒向 慎司

  • 情報処理学会第76回全国大会学生奨励賞

    2014年03月13日   情報処理学会   印象空間を用いた任意の言葉による楽曲検索:言葉の写像方法の改善と評価方法の再構築  

    受賞者:  頭川 愛, 酒向 慎司, 北村 正

    近年感性語を用いた楽曲検索に関する研究が多くなされているが、楽曲の印象は複雑に表現されることもあるため、あらゆる言葉に対応した楽曲検索が望ましいと考えられる。従って、印象を表す空間に楽曲と言葉を写像する手法を提案した。この手法の実現にあたり14の感性語対を用いて楽曲の印象評価を行った聴取実験の結果から印象空間を生成した。共起確率を用いて感性語と関係が深い言葉を調べ代表語とし、それらの言葉を利用して任意の言葉の座標を決定する。しかし、従来は適切に写像できなかった言葉も存在し、また検索性能の評価方法にも問題があった。本報告では、任意の言葉を写像するための代表語の選択方法や評価方法について更に詳細な検討を行う。

  • 情報処理学会第76回全国大会学生奨励賞

    2014年03月13日   情報処理学会   旋律の演奏表情を考慮した自動伴奏生成  

    受賞者:  宮田 佳奈, 酒向 慎司, 北村 正

    従来の伴奏生成システムは,ユーザが,曲のジャンルなどを選択肢の中からイメージしながら選択する必要や,複雑なパラメータ調整をする必要があり素人には扱い難いことなどが問題であった.本研究では演奏表情により曲のイメージが変化する点に着目をし,演奏表情を伴う旋律を入力とし,旋律に相応しい伴奏の和音とリズムを決定する手法を提案する.曲は音楽的同時性と連続性が自然となるよう作成されることが望ましい.和音は,確立されている音楽理論を基に決定をする.リズムの決定においては,理論がほとんど確立されていない.そこで,言語モデルにより楽曲からリズムを学習し,リズム決定を行う手法を提案する.最後に評価実験から本手法の有効性を検証する.

  • 日本音響学会学生優秀発表賞

    2013年09月   日本音響学会   セミマルコフ条件付き確率場を用いた音楽音響信号と楽譜のアライメント  

    受賞者:  山本 龍一, 酒向 慎司, 北村 正

  • FIT奨励賞

    2013年09月   情報処理学会   習熟度に応じたバイオリン運指推定のための確率モデルとパラメータ学習  

    受賞者:  長田 若奈, 酒向 慎司, 北村 正

    バイオリンは一つの楽譜に多数の運指が考えられる楽器である。教本以外の楽譜には運指は記述されていないため演奏者自身で運指を決定する必要があるが,運指の決定には経験や試行錯誤が必要である。このため,運指を自動推定する必要があるが,適切な運指は演奏者によって異なる。我々は,習熟度による運指の違いは演奏表現の優先度合いの違いであると考え,習熟度に応じた確率モデルに基づいた運指推定法を提案した。しかし,運指の適切さであるモデルパラメータを経験的に設定する必要があり,特に演奏表現を優先する場合ではモデルが複雑化するため適切に設定することは困難であった。そこで本研究では,運指推定モデルにおける運指の適切さを,教本の運指データを用いて学習する手法を提案する。提案法では音符長や休符長に依存して変動する結合度,表現度について出現頻度分布を仮定することで,これらに依存する確率を定める。また,過学習を防ぐためにスムージングを行う。

  • 情報処理学会東海支部学生論文奨励賞

    2013年05月19日   情報処理学会東海支部   楽譜に基づく鍵盤楽器演奏の統計的モデル化手法  

    受賞者:  奥村 健太, 酒向 慎司, 北村 正

    楽器の演奏には演奏者の楽曲解釈によって発生する固有の特徴があり,それは演奏時に参照された楽譜からの芸術的意図に基づく逸脱として観測される.そのような逸脱は楽譜の情報に含まれる文脈に類するものに依存して発生していると考えられる.本稿では音符ごとの逸脱に対して楽譜から得られる詳細な演奏指示を関連付けることで,演奏者の楽曲解釈と楽器操作の傾向を楽譜の情報を制約に用いて分類する手法について論じる.分類に有効な制約が楽譜と演奏の内容から一意に決定されることが本手法の利点であり,これによって演奏者以外の恣意の混入を抑止した公正な分類が可能である.実際の演奏から取得した逸脱を用いた検証から,楽器演奏の特徴を説明するための制約として楽譜の情報を用いることの有効性を示した.また,楽器演奏に関する既知の知見について,モデルによって視覚化された演奏はそれを裏付ける傾向を示した.このことから,本手法はそのような知見の客観的な証明にも有用であることが分かった.

  • 電気関係学会東海支部連合大会奨励賞

    2013年01月22日   電気関係学会東海支部連合大会   隠れマルコフモデルを用いたバイオリンの運指推定  

    受賞者:  長田 若奈, 酒向 慎司, 北村 正

    弦楽器で楽曲を演奏するには,必ず運指を決定する必要がある.しかし,弦楽器は1つの音高に対して押弦位置と運指の組み合わせが複数存在する為,考えられる運指列は多数である.演奏者は経験的に,あるいは試行錯誤によって運指を決定するが,経験の少ない初級者にとって運指決定は容易ではない.特にバイオリンは幼児期から始める事も多いが,幼児が運指を決定する事は困難である.このような背景から,初級者を対象にしたバイオリンの運指推定法を提案する.

全件表示 >>

科研費(文科省・学振)獲得実績

  • 多用途型日本手話言語データベース構築に関する研究

    基盤研究(S)

    研究期間:  2017年07月  -  2021年03月  代表者:  長嶋 祐二

  • 演奏者の個人性を転写する演奏生成と協調演奏システムの研究

    国際共同研究加速基金

    研究期間:  2016年04月  -  2019年03月  代表者:  酒向 慎司

  • 演奏者の個人性を転写する演奏生成と協調演奏システムの研究

    若手研究(B)

    研究期間:  2014年04月  -  2017年03月  代表者:  酒向 慎司

  • 手指動作と非手指動作のサブユニットモデルに基づく手話認識に関する研究

    基盤研究(C)

    研究期間:  2013年04月  -  2016年03月  代表者:  北村 正

  • 統計モデルに基づく手話動作のサブユニットモデル自動生成と大語彙連続手話認識

    基盤研究(C)

    研究期間:  2010年04月  -  2013年03月  代表者:  北村 正

全件表示 >>

受託研究受入実績

  • 手話の自動翻訳を実現させる高精度な動作検出と動作のパターンマッチングの技術開発

    提供機関: 経済産業省 戦略的基盤技術高度化支援事業(サポイン)  一般受託研究

    研究期間: 2016年10月  -  現在  代表者: 青井 基行

  • 心地よく人間に合わせる自動演奏システムの研究

    提供機関: 科学技術振興機構 研究成果最適展開支援事業(A-STEP)FSステージ  一般受託研究

    研究期間: 2015年01月  -  2015年12月  代表者: 酒向 慎司

  • 多様な利用形態に柔軟に対応する自動伴奏リハビリ支援システムの開発

    提供機関: 科学技術振興機構 研究成果最適展開支援事業(A-STEP)FSステージ  一般受託研究

    研究期間: 2013年08月  -  2014年03月  代表者: 酒向 慎司

  • ユーザーの嗜好と利用シーンの変動に対応可能な統計モデルに基づいた楽曲からの感性推定モデルの研究

    提供機関: 科学技術振興機構 研究成果最適展開支援事業(A-STEP)FSステージ  一般受託研究

    研究期間: 2011年08月  -  2012年03月  代表者: 酒向 慎司

    音楽から受ける印象を楽曲の電子データから直接推定する印象推定システムにおいて、個人の嗜好や感性の違いに対応するため、性別や音楽経験などからなるプロフィールを利用する新たな手法を開発した。この手法の特徴として、印象推定モデルを学習するための音楽を聴いたときの印象データを事前に収集する必要がなく、他者の印象推定モデルから、特定の利用者に合った(類似した)モデルをプロフィールの情報に基づいて自動選択することができる。また、音楽を聴いた際の印象データを短期間で効率的に収集するため、Webブラウザを利用した楽曲提示と印象データ収集システムを構築し、様々な年代を含む120名の大規模な印象評価データを収集した。

 
 

学会・委員会等活動

  • 2015年06月
    -
    現在

    電子情報通信学会   福祉情報工学研究会 企画幹事

  • 2015年01月
    -
    2016年01月

    電子情報通信学会   ヒューマンコミュニケーション特集委員会編集委員

  • 2015年01月
    -
    2016年01月

    電子情報通信学会   ヒューマンコミュニケーション特集(和文論文誌D)編集委員

  • 2015年01月
    -
    2015年03月

    電子情報通信学会   2015年総合大会プログラム編成委員会委員

  • 2013年05月
    -
    2015年06月

    電子情報通信学会   福祉情報工学研究会 会計幹事

  • 2013年04月
    -
    2014年09月

    日本音響学会   日本音響学会2013年春季研究発表会実行委員

  • 2011年05月
    -
    2013年04月

    電子情報通信学会   福祉情報工学研究会 幹事補佐

  • 2010年05月
    -
    2011年03月

    電子情報通信学会   福祉情報工学研究会 専門委員

  • 2010年04月
    -
    現在

    日本音響学会   査読委員

  • 2009年04月
    -
    2013年03月

    日本音響学会   東海支部 庶務幹事

全件表示 >>