酒向 慎司 (サコウ シンジ)

SAKO Shinji

写真a

所属学科・専攻等

情報工学教育類 メディア情報分野
情報工学専攻 メディア情報分野
コミュニティ創成教育研究センター

職名

准教授

通称等の別名

Sako Shinji

連絡先

連絡先

ホームページ

http://sakoweb.net

外部リンク

学位

  • 博士(工学) ( 2004年03月   名古屋工業大学 )

研究キーワード

  • 音楽信号処理

  • 音楽情報処理

  • 手話認識

  • 歌唱合成

  • 音声合成

研究分野

  • ライフサイエンス / リハビリテーション科学

  • 情報通信 / 感性情報学

  • 情報通信 / 知覚情報処理

出身学校

  • 名古屋工業大学   工学部   知能情報システム学科   卒業

    1995年04月 - 1999年03月

      詳細を見る

    国名:日本国

出身大学院

  • 名古屋工業大学   工学研究科   電気情報工学専攻   博士課程   修了

    2001年04月 - 2004年03月

      詳細を見る

    国名:日本国

学外略歴

  • 国際電気通信基礎技術研究所   研修研究員

    2003年04月 - 2003年06月

      詳細を見る

    国名:日本国

  • 東京大学   大学院情報理工学系研究科   助手

    2004年04月 - 2007年03月

      詳細を見る

    国名:日本国

  • AGH科学技術大学   Faculty of Computer Science, Electronics and Telecommunications   客員研究員

    2014年07月 - 2014年08月

      詳細を見る

    国名:ポーランド共和国

  • ミュンヘン工科大学   ヒューマンマシンコミュニケーション研究所   客員研究員

    2012年06月 - 2012年12月

      詳細を見る

    国名:ドイツ連邦共和国

  • ミュンヘン工科大学   ヒューマンマシンコミュニケーション研究所   日本学術振興会国際共同研究加速基金研究者

    2016年07月 - 2017年03月

      詳細を見る

    国名:日本国

所属学協会

  • 日本手話学会

    2010年06月 - 現在

  • ヒューマンインタフェース学会

    2010年06月 - 現在

  • 電気関係学会東海支部連合大会実行委員会

    2009年04月 - 2009年12月

  • 高度言語情報融合フォーラム

    2008年07月 - 現在

  • 映像情報メディア学会

    2007年10月 - 現在

全件表示 >>

取得資格

  • ソフトウェア開発技術者/第1種情報処理技術者

 

論文

  • Visualization of Affective Information in Music Using Chironomie 査読あり 国際誌

    2022年09月

     詳細を見る

    担当区分:最終著者   記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

  • Simple yet effective 3D ego-pose lift-up based on vector and distance for a mounted omnidirectional camera 査読あり 国際誌

    Teppei Miura, Shinji Sako

    Applied Intelligence   2022年05月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Springer  

    Following the advances in convolutional neural networks and synthetic data generation, 3D egocentric body pose estimations from a mounted fisheye camera have been developed. Previous works estimated 3D joint positions from raw image pixels and intermediate supervision during the process. The mounted fisheye camera captures notably different images that are affected by the optical properties of the lens, angle of views, and setup positions. Therefore, 3D ego-pose estimation from a mounted fisheye camera must be trained for each set of camera optics and setup. We propose a 3D ego-pose estimation from a single mounted omnidirectional camera that captures the entire circumference by back-to-back dual fisheye cameras. The omnidirectional camera can capture the user’s body in the 360∘ field of view under a wide variety of motions. We also propose a simple feed-forward network model to estimate 3D joint positions from 2D joint locations. The lift-up model can be used in real time yet obtains accuracy comparable to those of previous works on our new dataset. Moreover, our model is trainable with the ground truth 3D joint positions and the unit vectors toward the 3D joint positions, which are easily generated from existing publicly available 3D mocap datasets. This advantage alleviates the data collection and training burden due to changes in the camera optics and setups, although it is limited to the effect after the 2D joint location estimation.

    DOI: 10.1007/s10489-022-03417-3

  • 3D skeleton motion generation of double bass from musical score 査読あり 国際誌

    Takeru Shirai, Shinji Sako

    15th International Symposium on Computer Music Multidisciplinary Research (CMMR)   41 - 46   2021年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    In this study, we propose a method for generating 3D skeleton motions of a double bass player from musical score information using a 2-layer LSTM network. Since there is no suitable dataset for this study, we have created a new motion dataset with actual double bass performance. The contribution of this paper is to show the effect of combining bowing and fingering information in the generation of performance motion, and to examine the effective model structure in performance generation. Both objective and subjective evaluations showed that the accuracy of generating performance motion for double bass can be improved using two types of additional information (bowing, fingering information) and improved by constructing a model that takes into account bowing and fingering.

  • SynSLaG: Synthetic Sign Language Generator 査読あり 国際誌

    Teppei Miura, Shinji Sako

    ASSETS '21: The 23rd International ACM SIGACCESS Conference on Computers and Accessibility   ( 90 )   1 - 4   2021年10月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Association for Computing Machinery  

    Machine learning techniques have the potential to play an important role in sign language recognition. However, sign language datasets lack the volume and variety necessary to work well. To enlarge these datasets, we introduce SynSLaG, a tool that synthetically generates sign language datasets from 3D motion capture data. SynSLaG generates realistic images of various body shapes with ground truth 2D/3D poses, depth maps, body-part segmentations, optical flows, and surface normals. The large synthetic datasets provide possibilities for advancing sign language recognition and analysis.

    DOI: 10.1145/3441852.3476519

  • Recognition of JSL fingerspelling using Deep Convolutional Neural Networks 査読あり 国際誌

    Bogdan Kwolek, Wojciech Baczynski, Shinji Sako

    Neurocomputing   2021年06月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)  

    In this paper, we present approach for recognition of static fingerspelling in Japanese Sign Language on RGB images. Two 3D articulated hand models have been developed to generate synthetic fingerspellings and to extend a dataset consisting of real hand gestures.In the first approach, advanced graphics techniques were employed to rasterize photorealistic gestures using a skinned hand model. In the second approach, gestures rendered using simpler lighting techniques were post-processed by a modified Generative Adversarial Network. In order to avoid generation of unrealistic fingerspellings a hand segmentation term has been added to the loss function of the GAN. The segmentation of the hand in images with complex background was done by proposed ResNet34-based segmentation network. The finger-spelled signs were recognized by an ensemble with both fine-tuned and trained from scratch neural networks. Experimental results demonstrate that owing to sufficient amount of training data a high recognition rate can be attained on RGB images. The JSL dataset with pixel-level hand segmentations is available for download.

    DOI: 10.1016/j.neucom.2021.03.133

  • Fingerspelling recognition using synthetic images and deep transfer learning 査読あり

    Nguyen Tu Nam, Shinji Sako, Bogdan Kwolek

    2020 The 13th International Conference on Machine Vision (ICMV 2020)   2020年11月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)  

    Although gesture recognition has been intensely studied for decades, it is still a challenging research topic due to difficulties posed by background complexity, occlusion, viewpoint, lighting changes, the deformable and articulated nature of hands, etc. Numerous studies have shown that extending the training dataset with real images about synthetic images improves the recognition accuracy. However, little work is devoted to demonstrate what improvements in recognition can be achieved thanks to transferring the style onto synthetically generated images from the real gestures. In this paper, we propose a novel method for Japanese fingerspelling recognition using both real and synthetic images generated on the basis of a 3D hand model. We propose to employ a neural style transfer to include information from real images onto synthetically generated dataset. We demonstrate experimentally that neural style transfer and discriminative layer training applied to training deep neural models allow obtaining considerable gains in the recognition accuracy.

  • 音韻検査のための非語の音声認識に有効な特徴量の検討 査読あり

    多々納 俊治,縄手 雅彦,伊藤 史人,酒向 慎司

    情報処理学会論文誌   61 ( 10 )   1647 - 1657   2020年10月

     詳細を見る

    記述言語:日本語   掲載種別:研究論文(学術雑誌)   出版者・発行元:情報処理学会  

    発達性ディスレクシアは学習障害の主要な症状の1つであり,早期発見は介入および読みの療育をするにあたって非常に重要である.PCを用いた簡易なスクリーニングテストが提案されており,テキストの読み上げの正確さ,単語の逆読み,文字の削除の能力についての評価データおよび回答潜時が自動的に記録される.しかし,正誤判定はテストの実施者によって行わなければならず,自動化が望まれている.正誤判定の部分を自動化するためには,検査の課題語にある意味を持たない言葉である非語に対応した音声認識技術が必要であるが,従来の音声認識では,非語に対する認識精度は低いのが現状である.そこで従来の音声認識の機能を補強しつつ,非語に対する正解率(accuracy)を音韻検査に実用できるレベルまで向上させなければならない.本研究では,ソースコードが無料で公開されており,自由に改造が可能な音声認識エンジンJuliusに非語の正誤を判別する機構を組み込むことにより,非語に対するaccuracyの向上を試みた.また,音声の特徴量に7つの候補をあげ,その組合せによるaccuracyの動向を検討した.その結果,対象の非語によっては75.0%から95.0%,全体の平均値は87.5%のaccuracyを得た.

  • 3D human pose estimation model using location-maps for distorted and disconnected images by a wearable omnidirectional camera 査読あり 国際誌

    Teppei Miura, Shinji Sako

    IPSJ Transactions on Computer Vision and Applications   12 ( 4 )   1 - 17   2020年08月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(学術雑誌)   出版者・発行元:Information Processing Society of Japan  

    We address a 3D human pose estimation for equirectangular images taken by a wearable omnidirectional camera. The equirectangular image is distorted because the omnidirectional camera is attached closely in front of a person’s neck. Furthermore, some parts of the body are disconnected on the image; for instance, when a hand goes out to an edge of the image, the hand comes in from another edge. The distortion and disconnection of images make 3D pose estimation challenging. To overcome this difficulty, we introduce the location-maps method proposed by Mehta et al.; however, the method was used to estimate 3D human poses only for regular images without distortion and disconnection. We focus on a characteristic of the location-maps that can extend 2D joint locations to 3D positions with respect to 2D-3D consistency without considering kinematic model restrictions and optical properties. In addition, we collect a new dataset that is composed of equirectangular images and synchronized 3D joint positions for training and evaluation. We validate the location-maps’ capability to estimate 3D human poses for distorted and disconnected images. We propose a new location-maps-based model by replacing the backbone network with a state-of-the-art 2D human pose estimation model (HRNet). Our model is a simpler architecture than the reference model proposed by Mehta et al. Nevertheless, our model indicates better performance with respect to accuracy and computation complexity. Finally, we analyze the location-maps method from two perspectives: the map variance and the map scale. Therefore, some location-maps characteristics are revealed that (1) the map variance affects robustness to extend 2D joint locations to 3D positions for the 2D estimation error, and (2) the 3D position accuracy is related to the 2D locations relative accuracy to the map scale.

    DOI: 10.1186/s41074-020-00066-8

  • Constructing a Highly Accurate Japanese Sign Language Motion Database Including Dialogue 査読あり 国際誌

    Yuji Nagashima, Keiko Watanabe, Daisuke Hara, Yasuo Horiuchi, Shinji Sako, Akira Ichikawa

    International Conference on Human-Computer Interaction 2020   76 - 81   2020年07月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer  

    DOI: 10.1007/978-3-030-50732-9_11

  • Deep CNN-Based Recognition of JSL Finger Spelling 査読あり 国際共著 国際誌

    Nguen Tu Nam, Shinji Sako, Bogdan Kwolek

    Hybrid Artificial Intelligent Systems(HAIS 2019), Lecture Notes in Computer Science   11734   602 - 613   2019年08月

     詳細を見る

    記述言語:英語   掲載種別:研究論文(国際会議プロシーディングス)   出版者・発行元:Springer  

    In this paper, we present a framework for recognition of static finger spelling in Japanese Sign Language on RGB images. The finger spelled signs were recognized by an ensemble consisting of a ResNet-based convolutional neural network and two ResNet quaternion convolutional neural networks. A 3D articulated hand model has been used to generate synthetic finger spellings and to extend a dataset consisting of real hand gestures. Twelve different gesture realizations were prepared for each of 41 signs. Ten images have been rendered for each realization through interpolations between the starting and end poses. Experimental results demonstrate that owing to sufficient amount of training data a high recognition rate can be attained on images from a single RGB camera. Results achieved by the ResNet quaternion convolutional neural network are better than results obtained by the ResNet CNN. The best recognition results were achieved by the ensemble. The JSL-rend dataset is available for download.

    DOI: 10.1007/978-3-030-29859-3_51

全件表示 >>

MISC

  • 隠れマルコフモデルによる手話の音韻構造に基づいた自動手話認識

    酒向 慎司, 北村 正

    日本福祉工学学会誌   17 ( 2 )   2 - 7   2015年11月

     詳細を見る

    担当区分:筆頭著者   記述言語:日本語   掲載種別:記事・総説・解説・論説等(国際会議プロシーディングズ)   出版者・発行元:日本福祉工学会  

    手話認識の分野では,隠れマルコフモデル(Hidden Markov Model; HMM) に基づいた手法が提案されている.また,手話の動作情報を取得する方法として身体動作を直接計測するセンサ類を用いる方法も検討されてきたが,画像から動作情報を取得することで特殊な装置を要せず,身体的拘束のない手話認識が可能である.また,これまでの手話認識の研究では主に孤立単語を対象に行われてきており,単語ごとに個別のモデルを作成する場合,語彙の増加に伴ってモデル数が増加するため非効率であり,また手話のデータの収集は手間がかかり大規模化が難しい現状がある.そのため,音素のように単語間に共通した手話の構成素(サブユニット)を定め,それらの組合せから単語モデルを構成するアプローチが有望である.このような観点から,ビデオカメラで撮影された手話映像を用い,単語単位で学習された複数のHMMの状態パラメータを分類することで,単語間の共通要素をサブユニットとして集約する手法を検討してきた.本稿では,サブユニットの生成過程に手話の音韻構造を考慮することで,共通要素の集約を効率化する手法を提案する.

    CiNii Articles

  • 基礎講座 音声・音響インタフェース 第1回―HTSを用いた音声合成システムの構築 査読あり

    大浦 圭一郎, 全 炳河, 酒向 慎司, 徳田 恵一

    ヒューマンインタフェース学会誌   12 ( 1 )   35 - 40   2010年02月

     詳細を見る

    記述言語:日本語   掲載種別:記事・総説・解説・論説等(国際会議プロシーディングズ)   出版者・発行元:ヒューマンインタフェース学会  

    CiNii Articles

  • 特集 音楽とOR―日本語歌詞からの自動作曲 招待あり

    嵯峨山 茂樹,中妻 啓,深山 覚,酒向 慎司,西本 卓也

    オペレーションズ・リサーチ   54 ( 9 )   546 - 553   2009年10月

     詳細を見る

    記述言語:日本語   掲載種別:記事・総説・解説・論説等(学術雑誌)   出版者・発行元:日本オペレーションズ・リサーチ学会  

    本稿では,任意の日本語テキストの持つ韻律に基づき,歌唱曲を自動作曲する手法について解説する.文学作品や自作の詩,ニュースやメールなど,あらゆる日本語テキストをそのまま歌詞として旋律を生成し,歌唱曲として出力する自動作曲システムは,手軽な作曲のツール,音楽の専門知識を持たない人のための作曲補助ツールとして有用であろう.さらに著作権問題の回避としても用途があろう.歌唱曲は歌詞との関連性が求められる.特に高低アクセントを持つ日本語では,発話音声にピッチの高低が付くため,歌詞を朗読する際の韻律と旋律が一致することが重要とされる.筆者らはこの点に着目し,ユーザが選択した和声,リズム,伴奏音形を拘束条件として,旋律を音高間を遷移する経路とし,韻律の上下動の制限の下で最適経路となる旋律を動的計画法により探索する問題として旋律設計を捉えた.このモデルに基づき,任意の日本語歌詞に,その韻律に一致した旋律を付ける自動作曲手法により自動作曲システムOrpheusを作成したので紹介する.

    CiNii Articles

講演・口頭発表等

  • 手話の自動認識・翻訳の研究と展望 招待あり

    酒向 慎司

    電子情報通信学会 コミュニケーションシステム研究会(CS)  2022年11月  電子情報通信学会

     詳細を見る

    開催年月日: 2022年11月

    記述言語:日本語   会議種別:口頭発表(招待・特別)  

    開催地:名古屋工業大学   国名:日本国  

    現在の日本では,身体障害者手帳の所持数のうち,聴覚・言語障害が約34万人いるといわれている.聴覚障害者のコミュニケーション手段は,聴こえの状態の違いや先天性・中途失聴者などに応じて様々な形態があるが,その一つの手段として手話がある.手話は視覚言語の一つであり,独自の文法体系を持つ自然言語である.日本では日本手話と呼ばれる固有の手話が使われており,音声言語としての日本語とは異なる独自の文法体系を持っている.一方で,手話を習得した健聴者が限られていることから,聴覚障害者と健聴者との日常コミュニケーションは筆談や口話によって行われている.どちらの方法も障害者,健聴者の双方,または一方にはストレスを生じさせるコミュニケーション手段である.手話通訳者が介在できる状況も限られており,プライバシーの問題から通訳者が間に入りにくい状況もある.そのような背景から,機械による手話の読み取り(手話認識・翻訳)や手話の表出(手話合成)に関する研究が長年にわたり行われている.本講演では,手話言語の基本的な特性とともにこれまでの手話認識・翻訳技術に関する研究の推移や今後の展望について取り上げる.

  • 周辺環境を含むライフログ収集をめざした装着型MoCapシステムの提案

    三浦 哲平, 酒向 慎司

    電子情報通信学会 HCGシンポジウム2021  電子情報通信学会

     詳細を見る

    開催年月日: 2021年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンラインミーティング(Zoom)  

    本論文では,ライフログとして周辺環境の情報を画像として含んだ個人の身体動作を計測する装着型モーションキャプチャシステムを提案し,そのプロトタイプの開発と評価をおこなう.本システムは,小型の全方位カメラと GPU 搭載シングルボードコンピュータ,その上で動作する 3D ポーズ推定モデルで構成される.推定モデルの学習のために,合成画像データ生成ツールを用いて合成画像を生成し,学習用のデータセットを構築する.評価用の合成データを収集して, 3D ポーズ推定の精度,実行時間,およびカメラ位置と回転の変動に対する頑健性を評価する.また,自然な環境下での実画像データを収集して 3D ポーズ推定の定性評価をおこなう.

  • 3-D motion generation for double bass performance from musical score 国際会議

    Shinji Sako, Takeru Shirai

    14th International Workshop on Machine Learning and Music 

     詳細を見る

    開催年月日: 2021年12月

    記述言語:英語   会議種別:口頭発表(一般)  

    開催地:Online (Zoom)  

    We propose a method for generating 3-D motions of the double bass player from musical score. Generating 3-D motions of performance would be promising to realize performances by virtual player (avatar) or robots, and can also be useful for performance training for
    beginners. There have been many studies to generate musical performances, but not many of them generate the human motion of the performance. There are a few previous studies on generating performance actions for piano and violin. In addition, large dataset which contains 3-D movements of performances are not available.
    In this study, we developed a small 3-D motion dataset for actual double bass performance. PERCEPTION NEURON, inertial motion capture device is used to capture a performance movement. 3-D coordinates of 15 points of the body are recorded at 30 fps for 13 pieces of "Franz Simandl / 30 Etudes for the double bass". Since this is an elementary study, the data set is relatively small, with one male performer and about 30 minutes. We
    utilize a 2-layer LSTM (Long Short Term Memory) network to convert from musical score to 3-D motion. The contribution of this work is effect of combining bowing and fingering information with musical score in the generation of performance motion, and to examine the effectiveness of the model structure in performance generation.
    We conducted the evaluation experiment from two perspectives. The first is to evaluate the geometric accuracy of the generated 3-D trajectory, and the second is to evaluate the naturalness of the generated 3-D motion as a performance. The results showed that the accuracy of generated motion for double bass can be improved using two types of additional information (bowing, fingering) in addition to musical score information.

  • 「音声コミュニケーションと障がい者」の発刊の意義

    市川 熹, 長嶋 祐二, 岡本 明, 加藤 直人, 酒向 慎司, 滝口 哲也, 原 大介, 幕内 充

    電子情報通信学会 第115回福祉情報科学研究会  電子情報通信学会

     詳細を見る

    開催年月日: 2021年12月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンラインミーティング(Zoom)  

    著者らが執筆した「音声コミュニケーションと障がい者」(日本音響学会編,音響サイエンスシリーズ22,コロナ社)は,音声の知見から,手話や指点字などを横断的に分析し,コミュニケーションの機能の明確化を試みたものである.本書の特徴の一つに,聴覚言語(音声)と視覚言語(手話),触覚言語(指点字や触手話) を横断的に扱い,言語の原点である「対話のことば」の共通基盤特性を示している点がある.福祉情報工学研究会の参加者に向けて,このような視点の書籍の概要とその意義を紹介する.

  • Music Mood Recognition Based on Synchronized Audio and Lyrics 国際会議

    Sho Ikeda, Shinji Sako

    22nd International Society for Music Information Retrieval Conference  International Society for Music Information Retrieval

     詳細を見る

    開催年月日: 2021年11月

    記述言語:英語   会議種別:ポスター発表  

    開催地:Online  

    The aim of our study is to improve the accuracy of music mood recognition using audio and lyrics. As a method, we make a dataset in which audio and lyrics are synchronized, and utilize both lyrics and audio modality for mood recognition. There are few research that deal with the synchronization of audio and lyrics in music mood recognition. Therefore, we make a dataset by extracting the part of lyrics sung in audio. Using the dataset, We investigate the impact of lyric and audio synchronization on music mood recognition tasks. In our experiments, we extract the word embedding representation from lyrics as a feature, and perform music mood recognition using a deep neural network. To verify the effectiveness of synchronizing audio and lyrics, we conduct the experiment in terms of the number of words in the lyrics and the number of music clips.

  • Attribute-Aware Deep Music Transformation For Polyphonic Music 国際会議

    Yuta Matsuoka, Shinji Sako

    22nd International Society for Music Information Retrieval Conference  International Society for Music Information Retrieval

     詳細を見る

    開催年月日: 2021年11月

    記述言語:英語   会議種別:ポスター発表  

    開催地:Online  

    ecent machine learning technology have made it possible to automatically create a variety of new music. And many approaches have been proposed to control musical attributes such as pitch and rhythm of the generated music. However, most of them focus only on monophonic music. In this study, we apply the deep music transformation model, which can control the musical attributes of monophonic music, to polyphonic music. We employ Performance Encoding, which can efficiently describe polyphonic music, as the input to the model. To evaluate the proposed method, we performed music transformation using a polyphonic music dataset.

  • 3D モーションデータを用いた手話データ生成ツール

    三浦 哲平, 酒向 慎司

    電子情報通信学会 第114回福祉情報科学研究会  電子情報通信学会

     詳細を見る

    開催年月日: 2021年10月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンラインミーティング(Zoom)  

  • ラウドなポピュラー音楽のダイナミクス復元

    尾関 日向, 酒向 慎司

    情報処理学会 第132回音楽情報科学研究会  情報処理学会

     詳細を見る

    開催年月日: 2021年09月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンライン開催  

    ポピュラー音楽の制作では,マスタリングの際に曲の音量レベルを過剰に高めようとする傾向がみられる.しかし,このようにして作られたダイナミクスの小さな曲は,近年のリスニングスタイルに適していないことが多いと考えられる.そこで本研究では,ラウドなポピュラー楽曲のスペクトログラムからマスタリング前のラウドネスを推定することで,ダイナミクスの復元を目的とする.

  • 複数パート間のズレを含む演奏音に対するマルチパートビートトラッキング

    福谷 和貴, 酒向 慎司

    情報処理学会 第131回音楽情報科学研究会  情報処理学会

     詳細を見る

    開催年月日: 2021年06月

    記述言語:日本語   会議種別:ポスター発表  

    開催地:オンライン開催  

    本研究では,楽器ごとに一つのビートラベル列が存在し,複数のビートラベル列を持つ音楽演奏を対象とし,その混合音に対して複数パートのビート位置を同時にトラッキングすることを試み,このようなマルチパートビートトラッキングのための新たな手法を提案した.音源分離手法によって分離した単独音に対するビートトラッキングを組み合わせた方法と比較することで提案手法の有効性を確認した.

  • 手話認識への応用を目的としたモバイル MoCap システム ~ OpenPose を利用した 3D ポーズ推定の精度向上 ~

    三浦 哲平, 酒向 慎司

    電子情報通信学会 第112回福祉情報科学研究会  電子情報通信学会

     詳細を見る

    開催年月日: 2021年06月

    記述言語:日本語   会議種別:口頭発表(一般)  

    開催地:オンラインミーティング(Zoom)  

    手話は,ろう者がコミュニケーションで用いる主要な言語である.しかし,健聴者で手話を扱えるものは少なく,両者の会話は筆談や手話通訳者を介さなければならない.より対話的で,直接に意思を伝えあうコミュニケーションを日常的におこなうために,携帯して常に使える手話の認識・翻訳システムが必要である.著者らはこれまでに,常に利用できる手話認識・翻訳システムへの応用をめざして,手話者の身体動作情報を取得できるモバイルモーションキャプチャシステムの研究開発をおこなってきた.開発しているシステムでは,学習用データの不足によって実環境において2D / 3D ポーズの推定精度の低下がみられた.本稿では,より精度の高いポーズ推定をおこなうために,高精度な2D ポーズ推定ツールであるOpenPose を利用する方法を提案する.

全件表示 >>

産業財産権

  • 単語決定システム

    青井基行,赤津 舞子,三浦 七瀬,酒向 慎司

     詳細を見る

    出願人:株式会社ユニオンソフトウェアマネイジメント,国立大学法人 名古屋工業大学

    出願番号:特願2018-048022  出願日:2018年03月

    出願国:国内   取得国:国内

  • 飲酒状態判定装置及び飲酒状態判定方法

    岩田 英三郎, 酒向 慎司

     詳細を見る

    出願番号:PCT/JP2010/062776  出願日:2010年07月

    公開番号:特開2011-553634  公開日:2012年06月

    出願国:国内   取得国:国内

    本発明は、キーワードのような特定の言葉の利用を前提としない飲酒判定を可能とするものである。飲酒モデルは、飲酒者の音声の音響特徴による分類基準を用いた木構造を有する。この木構造におけるノードは、飲酒者の音素における音響特徴を示す。非飲酒モデルは、非飲酒者の音声の音響特徴による分類基準を用いた木構造を有する。この木構造におけるノードは、非飲酒者の音素における音響特徴を示す。まず、対象者の音声データを、飲酒モデルと非飲酒モデルのそれぞれの木構造に適用して、音素の音響特徴をノードに振り分ける。つぎに、対象者の音素の音響特徴と、各モデルにおける各ノードで特定された音響特徴との尤度を計算する。つぎに、算出された尤度の値を用いて、当該音声の音響特徴が、飲酒モデル及び非飲酒モデルのうちのどちらに近いかを判別する。

    J-GLOBAL

  • 音声合成方法及び装置

    嵯峨山 茂樹, 槐 武也, 酒向 慎司, 松本 恭輔, 西本 卓也

     詳細を見る

    出願番号:特願2005-304082  出願日:2005年10月

    公開番号:特開2007-114355  公開日:2007年05月

    出願国:国内   取得国:国内

    【課題】高品質の合成音声を提供すると共に、加工性に優れた音声合成手法を提供する。【解決手段】音声のスペクトル包絡を混合ガウス分布関数で近似することで少数のパラメータによって音声スペクトルを表現して分析パラメータを得る。そして、この混合ガウス分布関数の逆フーリエ変換であるGabor関数の重ね合わせを基本波形とし、それをピッチ周期ごとに配置して有声音を合成する。ピッチ周期をランダムにすれば無声音も合成できる。

    J-GLOBAL

  • 音声認識装置及びコンピュータプログラム

    山口 辰彦, 酒向 慎司, 山本 博史, 菊井 玄一郎

     詳細を見る

    出願人:株式会社国際電気通信基礎技術研究所

    出願番号:特願2003-317559  出願日:2003年09月

    公開番号:特開2005-84436  公開日:2005年03月

    出願国:国内   取得国:国内

    課題】あるモデルによる音声認識の誤りを、他のモデルによる音声認識結果で置換する際に、最終的な音声認識の精度を高める。【解決手段】音声認識装置は、N−グラムモデルを用いて音声認識を行ない、N−グラム候補44及び信頼度尺度を出力する音声認識部40、音声認識部40からのN−グラム候補44に対し、正誤を判別するように最適化された予備判別部46、予備判別部46が誤りと判定した箇所について、用例文モデルを用いて音声認識を行ない、用例文候補52と信頼度を算出する用例候補選択部50、N−グラム候補44を用例文候補52で置換するか否かを判別し最終の音声認識結果28を出力する最終判別部54とを含み、予備判別部46は、学習により得られた判別基準より多くの誤りを検出するようにバイアスした判別基準を用いて判別する。

    J-GLOBAL

Works(作品等)

  • 工学院大学 多用途型日本手話言語データベース(KoSign)第2期

    長嶋 祐二, 原 大介, 堀内 靖雄, 酒向 慎司

    2022年10月

     詳細を見る

    作品分類:データベース  

    科研費基盤研究(S)「多用途型日本手話言語データベース構築に関する研究」(17H06114)により,多様な研究分野で利用できる汎用的な手話映像データベースの作成を目的として,プロジェクトで選定した6,000超の手話単語と数対話について,できる限り高精細・高精度のデータを収録したデータセットです。撮影対象者は手話ネイティブ家系の日本手話母語者2名(男性1名,女性1名)で,撮影は2017年~2019年にかけて東映東京撮影所のモーションキャプチャスタジオにて実施されました。正面と左右に設置した4KまたはフルHDカメラによる手話映像データ(オリジナルのMXF形式とmp4形式)に加え,光学式モーションキャプチャによる3次元動作データ(BVH形式,C3D形式,FBX形式)と,Kinectセンサによる深度データ(Kinect v2のxef形式)も同時に収録しています。第2期提供分として,1,172単語と7対話のデータを提供します。

  • 国立民族学博物館特別展示 Homō loquēns 「しゃべるヒト」~ことばの不思議を科学する~

    長嶋 祐二, 原 大介, 堀内 靖雄, 酒向 慎司

    2022年09月 - 2022年11月

     詳細を見る

    作品分類:データベース   発表場所:国立民族学博物館  

    国立民族学博物館特別展示 Homō loquēns 「しゃべるヒト」~ことばの不思議を科学する~に高精度手話データベースKoSignを紹介する技術展示を行った。手話をモーションキャプチャすることによって、手話の手指の動きや顔の表情の変化を精密なデジタルデータとして記録することができます。日常で使われる数千語の日本手話を記録した膨大なデータによって手話言語の分析やアバターによって手話を表現させることができます。

  • 工学院大学 多用途型日本手話言語データベース(KoSign)

    長嶋 祐二, 原 大介, 堀内 靖雄, 酒向 慎司

    2021年06月

     詳細を見る

    作品分類:データベース  

    科研費基盤研究(S)「多用途型日本手話言語データベース構築に関する研究」(17H06114)により,多様な研究分野で利用できる汎用的な手話映像データベースの作成を目的として,プロジェクトで選定した6,000超の手話単語と数対話について,できる限り高精細・高精度のデータを収録したデータセットです。撮影対象者は手話ネイティブ家系の日本手話母語者2名(男性1名,女性1名)で,撮影は2017年~2019年にかけて東映東京撮影所のモーションキャプチャスタジオにて実施されました。正面と左右に設置した4KまたはフルHDカメラによる手話映像データ(オリジナルのMXF形式とmp4形式)に加え,光学式モーションキャプチャによる3次元動作データ(BVH形式,C3D形式,FBX形式)と,Kinectセンサによる深度データ(Kinect v2のxef形式)も同時に収録しています。当初は第1期提供分として,3,701単語と3対話のデータならびに専用解析ツール(描画・アノテーション支援システム)を提供します。データサイズは計約3.6TBです。(残りの単語・対話データも後日追加される予定です)

  • NIT-3DHP-OMNI

    Teppei Miura, Shinji Sako

    2020年08月

     詳細を見る

    作品分類:データベース  

    The dataset comprises of 7 subjects, covering the 16 sentences with 3-4 times per subject.
    Archived dataset size is 1.52 GB.

    The dataset-tree is comprised such as below:
    NIT-3DHP-OMNI
    + A (personal ID for paper)
    | + 011001001 (personal ID & sentence & times for each 3 digit)
    | | + input
    | | | + 0000000001.jpg (RGB image)
    | | | + 0000000002.jpg
    | | | + ...
    | | |
    | | + target
    | | + 0000000001.txt (3D joint positions)
    | | + 0000000002.txt
    | | + ...
    | |
    | + 011001002 ...
    |
    + B ...

    The target text holds 3D joint positions data such as below order:
    -------------------
    Time Stamp
    Head
    Neck
    Torso
    Waist
    Left Shoulder
    Right Shoulder
    Left Elbow
    Right Elbow
    Left Wrist
    Right Wrist
    Left Hand
    Right Hand
    -------------------

  • Pressivo: 旋律の演奏表情を考慮した自動伴奏生成システム

    宮田 佳奈, 酒向 慎司, 北村 正

    2014年02月

     詳細を見る

    作品分類:ソフトウェア   発表場所:インタラクション2014  

  • A stochastic model of artistic deviation and its musical score for the elucidation of performance expression

    K. Okumura,S. Sako,T. Kitamura

    2013年08月

     詳細を見る

    作品分類:ソフトウェア   発表場所:Stockholm, Sweden  

    http://smac2013.renconmusic.org/

  • Ryry: 多声楽器に対応可能な音響入力自動伴奏システム

    山本 龍一,酒向 慎司,北村 正

    2013年03月

     詳細を見る

    作品分類:ソフトウェア   発表場所:情報処理学会シンポジウム インタラクション2013  

    Ryry(リリー)は、楽譜に基づく人間の演奏音響信号を入力として、実時間で演奏位置を認識、予測し、同期した伴奏を自動的に再生する自動伴奏システムです。

  • 音楽印象データベース

    酒向慎司,岩月靖典,西尾圭一郎,北村正

    2013年03月

     詳細を見る

    作品分類:ソフトウェア  

  • 自動作曲システム Orpheus

    嵯峨山茂樹,他

    2013年01月

     詳細を見る

    作品分類:ソフトウェア  

  • Open JTalk version 1.05

    2011年12月

     詳細を見る

    作品分類:ソフトウェア  

全件表示 >>

その他研究活動

  • 研究用マルチモーダル音声データベース M2TINIT

    2003年03月

     詳細を見る

    研究用マルチモーダル音声データベース M2TINIT (Multi-Modal Speech Database by Tokyo Institute of Technology and Nagoya Institute of Technology) は、マルチモーダル音声研究の推進のため、東京工業大学大学院院総合理工学研究科 小林隆夫研究室および名古屋工業大学知能情報システム学科 北村・徳田研究室が開発・公開する音声・唇動画像同時収録データベースです。これまでに音声・唇動画像の生成やバイモーダル音声認識の研究に利用されています。

受賞

  • 日本音響学会東海支部優秀発表賞

    2021年12月   日本音響学会東海支部   ラウドなポピュラー音楽を対象としたダイナミクスの自動生成

    尾関 日向

     詳細を見る

    受賞区分:国内学会・会議・シンポジウム等の賞  受賞国:日本国

  • 音楽情報科学研究会(MUS) 学生奨励賞

    2021年09月   情報処理学会   ラウドなポピュラー音楽のダイナミクス復元

    尾関 日向, 酒向 慎司

     詳細を見る

    受賞区分:国内学会・会議・シンポジウム等の賞  受賞国:日本国

  • 日本知能情報ファジィ学会論文賞

    2017年09月   日本知能情報ファジィ学会   楽譜と表情を関連付けた統計モデルに基づく鍵盤楽器演奏の自動生成手法

    奥村 健太, 酒向 慎司, 北村 正

     詳細を見る

    受賞区分:学会誌・学術雑誌による顕彰  受賞国:日本国

    本稿では,特定の演奏者が持つ表情の特徴に忠実な演奏の自動生成を目的とした手法を提案する.多くの既存手法は演奏生成に際して演奏者が有するような専門知識の入力を必要とする.それらは使用者自身が演奏者として介在する用途には有用であるが,本提案の目的には不向きである.提案手法では演奏者による実際の演奏事例から得られる表情の特徴に対し,楽譜から専門知識を用いることなく得られる情報を関連付けたモデルを定義する.さらに楽譜の指示を基準に用い,個々の演奏事例について定義したモデル群をその表情の特徴別に分類することで,任意の演奏事例に付与された表情の特徴と楽譜の指示との因果関係を体系的に記述した規則を構造化できる.この構造を辿ることで,未知の楽譜の指示に対応する演奏事例の候補が得られる.これらの候補の中から最適な表情を備えた演奏事例の系列を探索する問題を,動的計画法の適用によって解決する.客観評価実験により,提案手法は最適な事例の系列を効率的に探索できることを示した.また,主観評価実験によって提案手法による表情の品質の高さを確認したほか,多様な楽曲で演奏者に忠実な表情の特徴を再現できることを示した.なお,提案手法による演奏は,自動演奏表情付けシステムのコンテストにおいて自律生成部門の第1位を獲得している.

  • 情報処理学会山下記念研究賞

    2016年03月   情報処理学会   楽譜と表情を関連付けた統計モデルに基づく楽器演奏の比較分析の検討

    奥村 健太, 酒向 慎司, 北村 正

     詳細を見る

    受賞区分:国内学会・会議・シンポジウム等の賞  受賞国:日本国

    本稿では,楽器演奏に付与される表情について,特定の演奏者と楽曲の組合せにおける比較分析を行う問題を考える.表情付けに寄与する要因を説明可能な枠組みとして,表情の特徴量を近似した生成モデルに楽譜の指示を関連付け,各特徴量の生成過程を楽譜の指示に基づく規則を用いて体系化する手法が提案されている.本稿ではその体系の構築過程に着目し,表情付けに寄与した規則について,その寄与の度合いや関係性を楽譜の指示に基づき分析する手法を提案する.また,複数の楽曲と演奏者による演奏の組合せを用い,その有用性を検討する.

  • 情報処理学会第78回全国大会学生奨励賞

    2016年03月   情報処理学会   自動ジャズアレンジのための事例に基づくメロディ変形

    佐藤 直人, 酒向 慎司, 北村 正

     詳細を見る

    受賞区分:国内学会・会議・シンポジウム等の賞  受賞国:日本国

    本研究では原曲メロディの自動ジャズアレンジを目的とし、事例を用いてリズムと音高に関するジャズ特有の変化パターンをモデル化することにより、メロディをジャズ風に変形させる手法を提案する。提案手法では、原曲とジャズアレンジされた曲のペアからなる事例データを用意し、セグメンテーションと抽象化により、原曲とアレンジ後の対応付けを行う。入力された原曲メロディが変化し得るリズムと音高のアレンジパターンを事例データから探索し、動的計画法により最適なアレンジ系列を出力する。

  • 学会活動貢献賞

    2014年03月   日本音響学会東海支部  

    酒向 慎司

     詳細を見る

    受賞国:日本国

  • 情報処理学会第76回全国大会学生奨励賞

    2014年03月   情報処理学会   旋律の演奏表情を考慮した自動伴奏生成

    宮田 佳奈, 酒向 慎司, 北村 正

     詳細を見る

    受賞区分:国内学会・会議・シンポジウム等の賞  受賞国:日本国

    従来の伴奏生成システムは,ユーザが,曲のジャンルなどを選択肢の中からイメージしながら選択する必要や,複雑なパラメータ調整をする必要があり素人には扱い難いことなどが問題であった.本研究では演奏表情により曲のイメージが変化する点に着目をし,演奏表情を伴う旋律を入力とし,旋律に相応しい伴奏の和音とリズムを決定する手法を提案する.曲は音楽的同時性と連続性が自然となるよう作成されることが望ましい.和音は,確立されている音楽理論を基に決定をする.リズムの決定においては,理論がほとんど確立されていない.そこで,言語モデルにより楽曲からリズムを学習し,リズム決定を行う手法を提案する.最後に評価実験から本手法の有効性を検証する.

  • 情報処理学会第76回全国大会学生奨励賞

    2014年03月   情報処理学会   印象空間を用いた任意の言葉による楽曲検索:言葉の写像方法の改善と評価方法の再構築

    頭川 愛, 酒向 慎司, 北村 正

     詳細を見る

    受賞区分:国内学会・会議・シンポジウム等の賞  受賞国:日本国

    近年感性語を用いた楽曲検索に関する研究が多くなされているが、楽曲の印象は複雑に表現されることもあるため、あらゆる言葉に対応した楽曲検索が望ましいと考えられる。従って、印象を表す空間に楽曲と言葉を写像する手法を提案した。この手法の実現にあたり14の感性語対を用いて楽曲の印象評価を行った聴取実験の結果から印象空間を生成した。共起確率を用いて感性語と関係が深い言葉を調べ代表語とし、それらの言葉を利用して任意の言葉の座標を決定する。しかし、従来は適切に写像できなかった言葉も存在し、また検索性能の評価方法にも問題があった。本報告では、任意の言葉を写像するための代表語の選択方法や評価方法について更に詳細な検討を行う。

  • 日本音響学会学生優秀発表賞

    2013年09月   日本音響学会   セミマルコフ条件付き確率場を用いた音楽音響信号と楽譜のアライメント

    山本 龍一, 酒向 慎司, 北村 正

     詳細を見る

    受賞区分:国内学会・会議・シンポジウム等の賞  受賞国:日本国

  • FIT奨励賞

    2013年09月   情報処理学会   習熟度に応じたバイオリン運指推定のための確率モデルとパラメータ学習

    長田 若奈, 酒向 慎司, 北村 正

     詳細を見る

    受賞区分:国内学会・会議・シンポジウム等の賞  受賞国:日本国

    バイオリンは一つの楽譜に多数の運指が考えられる楽器である。教本以外の楽譜には運指は記述されていないため演奏者自身で運指を決定する必要があるが,運指の決定には経験や試行錯誤が必要である。このため,運指を自動推定する必要があるが,適切な運指は演奏者によって異なる。我々は,習熟度による運指の違いは演奏表現の優先度合いの違いであると考え,習熟度に応じた確率モデルに基づいた運指推定法を提案した。しかし,運指の適切さであるモデルパラメータを経験的に設定する必要があり,特に演奏表現を優先する場合ではモデルが複雑化するため適切に設定することは困難であった。そこで本研究では,運指推定モデルにおける運指の適切さを,教本の運指データを用いて学習する手法を提案する。提案法では音符長や休符長に依存して変動する結合度,表現度について出現頻度分布を仮定することで,これらに依存する確率を定める。また,過学習を防ぐためにスムージングを行う。

全件表示 >>

科研費(文科省・学振)獲得実績

  • 手話コーパス,深層学習向けラベル付き手話データ半自動生成システムの開発

    研究課題/領域番号:22H00661  2022年04月 - 2026年03月

    日本学術振興会  科学研究費補助金  基盤研究(B)

    木村 勉

     詳細を見る

    担当区分:研究分担者  資金種別:競争的資金

    我々は深層学習を用いた手話翻訳システムを開発しているが,これを実現するには手話認識や意味解析などが必要である.それらには手話コーパスの構築や教師あり学習による深層学習向けのラベル付きデータが大量に必要であるが,ラベル付けには手間がかかる.そこで本研究ではラベルがない手話動画に対して,ラベル付けを半自動的に行うシステムを開発・公開する.本研究では,このシステムを用いて作成したラベル付き手話データセットを手話言語学研究者や手話工学研究者らに提供し,手話の意味解析や手話認識に関する研究をサポートする.

  • 視覚障害者が能動的に白杖で叩くことによる音情報の作製と利用に関する基礎的研究

    研究課題/領域番号:18K18698  2018年04月 - 2022年03月

    日本学術振興会  科学研究費補助金  挑戦的萌芽研究

    布川 清彦

     詳細を見る

    担当区分:研究分担者  資金種別:競争的資金

  • 多用途型日本手話言語データベース構築に関する研究 国際共著

    研究課題/領域番号:17H06114  2017年07月 - 2021年03月

    科学研究費補助金  基盤研究(S)

    長嶋 祐二

     詳細を見る

    担当区分:研究分担者  資金種別:競争的資金

    配分額:141960000円 ( 直接経費:109200000円 、 間接経費:32760000円 )

    本研究では、男女2名による言語資料提供者により、高精度・高精細な3次元動作・映像・深度データによる6,359単語の手話単語データベースKoSignを構築した。さらに、世界初となる対話の高精細・高精度の3次元動作と映像データの収録も行った。収録対話は、より有意義なデータとするため、単語、表情などの抽出、翻訳などのアノテーションを行った。また、アノテーションを支援するためのツール(MAT)の構築も行った。KoSignとMATは、手話研究推進を目的としてNII IDRより2021年5月25日に第1期分3,701語彙とアノテーション付きの3対話を公開した。

  • 演奏者の個人性を転写する演奏生成と協調演奏システムの研究 国際共著

    研究課題/領域番号:15KK0008  2016年04月 - 2019年03月

    日本学術振興会  科学研究費補助金  国際共同研究加速基金

    酒向 慎司

     詳細を見る

    担当区分:研究代表者  資金種別:競争的資金

    配分額:12090000円 ( 直接経費:9300000円 、 間接経費:2790000円 )

    音響信号による楽譜追跡技術の高度化に取り組み、基本的な音符列の情報だけでなく、打楽器やメロディなど楽譜情報を活用する新たな演奏追跡手法を開発した。RWC音楽データセットを用いたシミュレーション実験により、リアルタイム性を損なうことなく楽譜追跡精度の改善が可能であることを示した。また、演奏動作の指形状変化を取得する画像処理手法として、演奏中のマルチモーダルデータの構築を行うとともに、畳み込みニューラルネットワークによる手形状認識手法において、精密3次元手形状モデルによって疑似的な画像を多数生成することによって学習データセットを拡張し、実写画像に対する認識精度が大きく向上することを確認した。

  • 演奏者の個人性を転写する演奏生成と協調演奏システムの研究 国際共著

    研究課題/領域番号:26730182  2014年04月 - 2017年03月

    日本学術振興会  科学研究費補助金  若手研究(B)

    酒向 慎司

     詳細を見る

    担当区分:研究代表者  資金種別:競争的資金

    配分額:3510000円 ( 直接経費:2700000円 、 間接経費:810000円 )


    本研究では、楽器演奏における個人性を演奏データから学習し、その演奏スタイルを再現(転写)する表情付き演奏の自動生成技術と、その演奏データを自動生成するための楽譜と音響信号との同期(楽譜アライメント)の二つに焦点を当てて研究に取り組んだ。表情付き演奏生成技術については、再現性の改善などの演奏生成モデルの高度化に取り組むとともに、人間の特徴的な演奏の分析や可視化が可能であることを示した。演奏追跡技術については、主に楽譜アライメント技術の高度化について取組み、基本的な音符情報だけでなく演奏上重要な楽器種やメロディパートといった高次な楽譜情報を活用することで性能を向上させることができることを示した。

全件表示 >>

受託研究受入実績

  • 繊維産業に於けるAI自動検査システムの構築に関する研究開発

    2022年10月 - 2025年03月

    愛知県  知の拠点あいち重点研究プロジェクト プロジェクトDX  一般受託研究 

     詳細を見る

    担当区分:研究分担者  資金種別:産学連携による資金

    本課題では繊維産業の自動化のために、画像処理を用いた繊維の検品工程の自動化と、音響処理技術を用いた織機の異常検知の自動
    化を目指す。繊維産業を含む全ての製造産業において、製品のチェックを行う検品工程は、製品の信頼性を担保するため重要であ
    る。しかし、繊維産業における検品はほぼ全て熟練者による目視で行われており、自動化による効率化を妨げている。また、製造機械
    のメンテナンスも同様に製品の信頼性向上に不可欠であるが、こちらの故障検知についても同様に人の経験に基づくところが大きい。
    そこで本課題では、繊維を観測した画像を画像処理技術により解析することで、検品を自動化する方法を目指す。同様に織機が発する
    音を音響処理技術により解析することで、織機の異常を検知する方法の確立を目指す。以上のように、本課題ではAIに基づく画像処
    理・音響処理技術を利用することで、繊維産業における検査工程を自動化することを目指す。

  • 手話の自動翻訳を実現させる高精度な動作検出と動作のパターンマッチングの技術開発

    2016年10月 - 2019年03月

    経済産業省 戦略的基盤技術高度化支援事業(サポイン)  一般受託研究 

    青井 基行

     詳細を見る

    担当区分:研究分担者  資金種別:競争的資金

  • 心地よく人間に合わせる自動演奏システムの研究

    2015年01月 - 2015年12月

    科学技術振興機構   研究成果最適展開支援事業(A-STEP)FSステージ  一般受託研究 

    酒向 慎司

     詳細を見る

    担当区分:研究代表者  資金種別:競争的資金

    配分額:2210000円 ( 直接経費:1700000円 、 間接経費:510000円 )

    本研究では、自動演奏システムにおいて重要な要素技術である、演奏追跡技術の高精度化と、演奏追跡技術を応用した人間の演奏に同期するロボットの開発を行った。演奏追跡技術では、楽譜の情報を活用することで、テンポ変動を把握しやすい打楽器音とそれ以外の楽器種別を考慮した新たな演奏追跡モデルを提案し、演奏追跡精度の改善を確認した。演奏に追従するロボットの開発では、テンポ変動を含んだ演奏情報にリアルタイムで追従しロボットを制御するシステムを産業ロボットメーカーと共同で開発し、国際ロボット展に出展し実演した。

  • 多様な利用形態に柔軟に対応する自動伴奏リハビリ支援システムの開発

    2013年08月 - 2014年03月

    科学技術振興機構   研究成果最適展開支援事業(A-STEP)FSステージ  一般受託研究 

    酒向 慎司

     詳細を見る

    担当区分:研究代表者  資金種別:競争的資金

    配分額:2210000円 ( 直接経費:1700000円 、 間接経費:510000円 )

    楽器の演奏は趣味として楽しむだけでなく、複雑な身体動作を伴うことから身体機能や脳機能のリハビリとしても期待できる。楽器演奏によるリハビリ支援で重要なポイントは、支援の度合いが人それぞれであり、利用者の要望や制約に柔軟に対処できることが重要となる。利用者を問わない楽器演奏によるリハビリ支援システムの構築を念頭に、楽器の違いに頑健なスペクトルテンプレートの自動適応手法の検討、テンポ推定精度の高度化を検討するほか、実際の演奏におけるテンポ推定誤りの影響などを調査した。また、計算量と性能の関係を調査するとともに、実時間処理に向けたアルゴリズムの改善を行った。

  • ユーザーの嗜好と利用シーンの変動に対応可能な統計モデルに基づいた楽曲からの感性推定モデルの研究

    2011年08月 - 2012年03月

    科学技術振興機構   研究成果最適展開支援事業(A-STEP)FSステージ  一般受託研究 

    酒向 慎司

     詳細を見る

    担当区分:研究代表者  資金種別:競争的資金

    配分額:2210000円 ( 直接経費:1700000円 、 間接経費:510000円 )

    音楽から受ける印象を楽曲の電子データから直接推定する印象推定システムにおいて、個人の嗜好や感性の違いに対応するため、性別や音楽経験などからなるプロフィールを利用する新たな手法を開発した。この手法の特徴として、印象推定モデルを学習するための音楽を聴いたときの印象データを事前に収集する必要がなく、他者の印象推定モデルから、特定の利用者に合った(類似した)モデルをプロフィールの情報に基づいて自動選択することができる。また、音楽を聴いた際の印象データを短期間で効率的に収集するため、Webブラウザを利用した楽曲提示と印象データ収集システムを構築し、様々な年代を含む120名の大規模な印象評価データを収集した。

 

委員歴

  • 電子情報通信学会   ヒューマンコミュニケーションシンポジウム2022運営委員  

    2022年10月 - 2022年12月   

      詳細を見る

    団体区分:学協会

  • 情報処理学会   音楽情報科学研究会幹事  

    2022年05月 - 現在   

      詳細を見る

    団体区分:学協会

  • 電子情報通信学会   第21回情報科学技術フォーラム研究会担当委員・プログラム委員  

    2022年01月 - 2022年09月   

      詳細を見る

    団体区分:学協会

  • 電子情報通信学会   リアルタイムコミュニケーション言語時限研究会 委員長  

    2021年04月 - 現在   

      詳細を見る

    団体区分:学協会

  • 電子情報通信学会   福祉情報工学研究会 委員長  

    2021年04月 - 現在   

      詳細を見る

    団体区分:学協会

  • 電子情報通信学会   福祉情報工学研究会 副委員長  

    2019年04月 - 2021年03月   

      詳細を見る

    団体区分:学協会

  • 情報処理学会   論文誌特集号編集委員  

    2019年04月 - 2020年03月   

      詳細を見る

    団体区分:学協会

  • 電子情報通信学会   第18回情報科学技術フォーラム研究会担当委員・プログラム委員  

    2018年12月 - 2019年09月   

      詳細を見る

    団体区分:学協会

  • 電子情報通信学会   ヒューマンコミュニケーションシンポジウム2018プログラム委員長  

    2018年07月 - 2019年01月   

      詳細を見る

    団体区分:学協会

  • 情報処理学会   音楽情報科学研究会運営委員  

    2018年04月 - 2022年05月   

      詳細を見る

    団体区分:学協会

全件表示 >>

社会貢献活動

  • 生産現場での動作音の異常検知・予知技術開発

    役割:講師

    尾張繊維技術センター  オンライン (Zoom)  2022年10月

     詳細を見る

    対象: 研究者

    種別:出前授業