研究者詳細 - 酒向　慎司

酒向　慎司 (サコウ　シンジ)

SAKO Shinji

写真a

所属学科・専攻等	情報工学科　メディア情報分野工学専攻　メディア情報プログラムコミュニティ創成教育研究センター
職名	准教授
通称等の別名	Sako Shinji
連絡先
ホームページ	http://sakoweb.net
外部リンク

このページの先頭へ▲

学位

博士（工学）（ 2004年03月名古屋工業大学）

このページの先頭へ▲

研究キーワード

音楽信号処理
音楽情報処理
手話認識
歌唱合成
音声合成

このページの先頭へ▲

研究分野

ライフサイエンス / リハビリテーション科学
情報通信 / 感性情報学
情報通信 / 知覚情報処理

このページの先頭へ▲

出身学校

名古屋工業大学工学部知能情報システム学科卒業

1995年04月 - 1999年03月

　詳細を見る

国名：日本国

このページの先頭へ▲

出身大学院

名古屋工業大学工学研究科電気情報工学専攻博士課程修了

2001年04月 - 2004年03月

　詳細を見る

国名：日本国

このページの先頭へ▲

学外略歴

国際電気通信基礎技術研究所研修研究員

2003年04月 - 2003年06月

　詳細を見る

国名：日本国
東京大学大学院情報理工学系研究科助手

2004年04月 - 2007年03月

　詳細を見る

国名：日本国
AGH科学技術大学 Faculty of Computer Science, Electronics and Telecommunications 客員研究員

2014年07月 - 2014年08月

　詳細を見る

国名：ポーランド共和国
ミュンヘン工科大学ヒューマンマシンコミュニケーション研究所客員研究員

2012年06月 - 2012年12月

　詳細を見る

国名：ドイツ連邦共和国
ミュンヘン工科大学ヒューマンマシンコミュニケーション研究所日本学術振興会国際共同研究加速基金研究者

2016年07月 - 2017年03月

　詳細を見る

国名：日本国

このページの先頭へ▲

所属学協会

日本手話学会

2010年06月 - 現在
ヒューマンインタフェース学会

2010年06月 - 現在
電気関係学会東海支部連合大会実行委員会

2009年04月 - 2009年12月
高度言語情報融合フォーラム

2008年07月 - 現在
映像情報メディア学会

2007年10月 - 現在

全件表示 >>

このページの先頭へ▲

取得資格

ソフトウェア開発技術者／第１種情報処理技術者

このページの先頭へ▲

論文

A study on visualization of music for scores and performances based on Chironomie 査読あり国際誌

Shinji Sako, Kana Tatsumi, Ramirez Rafael

Proc. of 15th International Workshop on Machine Learning and Music 2024年09月

　詳細を見る

担当区分：筆頭著者,　責任著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

The aim of this study is to enhance the enjoyment of music for deaf and hard of hearing, and normal hearing people through the visual representation of music. To depict musical rhythm effectively and clearly, we focus on Chironomie, a conducting technique used in Gregorian chant. In general, Chironomie is represented by a curve that corresponds to the musical score, and this curve is determined by whether a short segment of the score represents one of two classes: Arsis or Thesis. In pursuit of our goal, our efforts encompass two essential facets: adapting Chironomie to Western tonal music to express intuitively perceivable musical features such as tension and relaxation, and evaluating whether Chironomie can effectively convey music visually. We present an automated method for estimating Arsis and Thesis within compound beats to draw Chironomie from both score and performance data.
Dynamic Hand Gesture Recognition for Human-Robot Collaborative Assembly 査読あり国際誌

Bogdan Kwolek, Shinji Sako

ICAISC 2023: Artificial Intelligence and Soft Computing, Lecture Notes in Computer Science 14125 112 - 121 2023年06月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

In this work, we propose a novel framework for gesture recognition for human-robot collaborative assembly. It permits recognition of dynamic hand gestures and their duration to automate planning the assembly or common human-robot workspaces according to Methods-Time-Measurement recommendations. In the proposed approach the common workspace of a worker and Franka-Emika robot is observed by an overhead RGB camera. A spatio-temporal graph convolutional neural network operating on 3D hand joints extracted by MediaPipe is used to recognize hand motions in manual assembly tasks. It predicts five motion sequences: grasp, move, position, release, and reach. We present experimental results of gesture recognition achieved by a spatio-temporal graph convolutional neural network on real RGB image sequences.

DOI： 10.1007/978-3-031-42505-9_10
3D Ego-Pose Lift-Up Robustness Study for Fisheye Camera Perturbations 査読あり国際誌

Teppei Miura, Shinji Sako, Tsutomu Kimura

Proceedings of the 18th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications 4 600 - 606 2023年02月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

3D egocentric human pose estimations from a mounted fisheye camera have been developed following the advances in convolutional neural networks and synthetic data generations. The camera captures different images that are affected by the optical properties, the mounted position, and the camera perturbations caused by body motion. Therefore, data collecting and model training are main challenges to estimate 3D ego-pose from a mounted fisheye camera. Past works proposed synthetic data generations and two-step estimation model that consisted of 2D human pose estimation and subsequent 3D lift-up to overcome the tasks. However, the works insufficiently verify robustness for the camera perturbations. In this paper, we evaluate existing models for robustness using a synthetic dataset with the camera perturbations that increases in several steps. Our study provides useful knowledges to introduce 3D ego-pose estimation for a mounted fisheye camera in practical.

DOI： 10.5220/0011661000003417
Visualization of Affective Information in Music Using Chironomie 査読あり国際誌

2022年09月

　詳細を見る

担当区分：最終著者記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）
Simple yet effective 3D ego-pose lift-up based on vector and distance for a mounted omnidirectional camera 査読あり国際誌

Teppei Miura, Shinji Sako

Applied Intelligence 2022年05月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）出版者・発行元：Springer

Following the advances in convolutional neural networks and synthetic data generation, 3D egocentric body pose estimations from a mounted fisheye camera have been developed. Previous works estimated 3D joint positions from raw image pixels and intermediate supervision during the process. The mounted fisheye camera captures notably different images that are affected by the optical properties of the lens, angle of views, and setup positions. Therefore, 3D ego-pose estimation from a mounted fisheye camera must be trained for each set of camera optics and setup. We propose a 3D ego-pose estimation from a single mounted omnidirectional camera that captures the entire circumference by back-to-back dual fisheye cameras. The omnidirectional camera can capture the user’s body in the 360∘ field of view under a wide variety of motions. We also propose a simple feed-forward network model to estimate 3D joint positions from 2D joint locations. The lift-up model can be used in real time yet obtains accuracy comparable to those of previous works on our new dataset. Moreover, our model is trainable with the ground truth 3D joint positions and the unit vectors toward the 3D joint positions, which are easily generated from existing publicly available 3D mocap datasets. This advantage alleviates the data collection and training burden due to changes in the camera optics and setups, although it is limited to the effect after the 2D joint location estimation.

DOI： 10.1007/s10489-022-03417-3
3D skeleton motion generation of double bass from musical score 査読あり国際誌

Takeru Shirai, Shinji Sako

15th International Symposium on Computer Music Multidisciplinary Research (CMMR) 41 - 46 2021年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

In this study, we propose a method for generating 3D skeleton motions of a double bass player from musical score information using a 2-layer LSTM network. Since there is no suitable dataset for this study, we have created a new motion dataset with actual double bass performance. The contribution of this paper is to show the effect of combining bowing and fingering information in the generation of performance motion, and to examine the effective model structure in performance generation. Both objective and subjective evaluations showed that the accuracy of generating performance motion for double bass can be improved using two types of additional information (bowing, fingering information) and improved by constructing a model that takes into account bowing and fingering.
SynSLaG: Synthetic Sign Language Generator 査読あり国際誌

Teppei Miura, Shinji Sako

ASSETS '21: The 23rd International ACM SIGACCESS Conference on Computers and Accessibility ( 90 ) 1 - 4 2021年10月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）出版者・発行元：Association for Computing Machinery

Machine learning techniques have the potential to play an important role in sign language recognition. However, sign language datasets lack the volume and variety necessary to work well. To enlarge these datasets, we introduce SynSLaG, a tool that synthetically generates sign language datasets from 3D motion capture data. SynSLaG generates realistic images of various body shapes with ground truth 2D/3D poses, depth maps, body-part segmentations, optical flows, and surface normals. The large synthetic datasets provide possibilities for advancing sign language recognition and analysis.

DOI： 10.1145/3441852.3476519
Recognition of JSL fingerspelling using Deep Convolutional Neural Networks 査読あり国際誌

Bogdan Kwolek, Wojciech Baczynski, Shinji Sako

Neurocomputing 2021年06月

　詳細を見る

記述言語：英語掲載種別：研究論文（学術雑誌）

In this paper, we present approach for recognition of static fingerspelling in Japanese Sign Language on RGB images. Two 3D articulated hand models have been developed to generate synthetic fingerspellings and to extend a dataset consisting of real hand gestures.In the first approach, advanced graphics techniques were employed to rasterize photorealistic gestures using a skinned hand model. In the second approach, gestures rendered using simpler lighting techniques were post-processed by a modified Generative Adversarial Network. In order to avoid generation of unrealistic fingerspellings a hand segmentation term has been added to the loss function of the GAN. The segmentation of the hand in images with complex background was done by proposed ResNet34-based segmentation network. The finger-spelled signs were recognized by an ensemble with both fine-tuned and trained from scratch neural networks. Experimental results demonstrate that owing to sufficient amount of training data a high recognition rate can be attained on RGB images. The JSL dataset with pixel-level hand segmentations is available for download.

DOI： 10.1016/j.neucom.2021.03.133
Fingerspelling recognition using synthetic images and deep transfer learning 査読あり

Nguyen Tu Nam, Shinji Sako, Bogdan Kwolek

2020 The 13th International Conference on Machine Vision (ICMV 2020) 2020年11月

　詳細を見る

記述言語：英語掲載種別：研究論文（国際会議プロシーディングス）

Although gesture recognition has been intensely studied for decades, it is still a challenging research topic due to difficulties posed by background complexity, occlusion, viewpoint, lighting changes, the deformable and articulated nature of hands, etc. Numerous studies have shown that extending the training dataset with real images about synthetic images improves the recognition accuracy. However, little work is devoted to demonstrate what improvements in recognition can be achieved thanks to transferring the style onto synthetically generated images from the real gestures. In this paper, we propose a novel method for Japanese fingerspelling recognition using both real and synthetic images generated on the basis of a 3D hand model. We propose to employ a neural style transfer to include information from real images onto synthetically generated dataset. We demonstrate experimentally that neural style transfer and discriminative layer training applied to training deep neural models allow obtaining considerable gains in the recognition accuracy.
音韻検査のための非語の音声認識に有効な特徴量の検討査読あり

多々納俊治,縄手雅彦,伊藤史人,酒向慎司

情報処理学会論文誌 61 ( 10 ) 1647 - 1657 2020年10月

　詳細を見る

記述言語：日本語掲載種別：研究論文（学術雑誌）出版者・発行元：情報処理学会

発達性ディスレクシアは学習障害の主要な症状の1つであり，早期発見は介入および読みの療育をするにあたって非常に重要である．PCを用いた簡易なスクリーニングテストが提案されており，テキストの読み上げの正確さ，単語の逆読み，文字の削除の能力についての評価データおよび回答潜時が自動的に記録される．しかし，正誤判定はテストの実施者によって行わなければならず，自動化が望まれている．正誤判定の部分を自動化するためには，検査の課題語にある意味を持たない言葉である非語に対応した音声認識技術が必要であるが，従来の音声認識では，非語に対する認識精度は低いのが現状である．そこで従来の音声認識の機能を補強しつつ，非語に対する正解率（accuracy）を音韻検査に実用できるレベルまで向上させなければならない．本研究では，ソースコードが無料で公開されており，自由に改造が可能な音声認識エンジンJuliusに非語の正誤を判別する機構を組み込むことにより，非語に対するaccuracyの向上を試みた．また，音声の特徴量に7つの候補をあげ，その組合せによるaccuracyの動向を検討した．その結果，対象の非語によっては75.0%から95.0%，全体の平均値は87.5%のaccuracyを得た．

全件表示 >>

このページの先頭へ▲

書籍等出版物

しゃべるヒト　ことばの不思議を科学する

菊澤律子・吉岡乾編著　ほか（担当：分担執筆 , 範囲：言語認識装置の進化）

図書出版文理閣 2023年04月（ ISBN:9784892599248 ）
音声コミュニケーションと障がい者

市川熹, 長嶋祐二, 岡本明, 加藤直人, 酒向慎司, 滝口哲也, 原大介, 幕内充（担当：共著 , 範囲：第2章音声とコミュニケーション障がい）

コロナ社 2021年07月（ ISBN:9784339013429 ）

　詳細を見る

総ページ数：242 記述言語：日本語著書種別：学術書

その他リンク： https://www.amazon.co.jp/%E9%9F%B3%E5%A3%B0%E3%82%B3%E3%83%9F%E3%83%A5%E3%83%8B%E3%82%B1%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%A8%E9%9A%9C%E3%81%8C%E3%81%84%E8%80%85-%E9%9F%B3%E9%9F%BF%E3%82%B5%E3%82%A4%E3%82%A8%E3%83%B3%E3%82%B9%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA-22-%E5%B8%82%E5%B7%9D-%E7%86%B9/dp/4339013420/ref=sr_1_2?__mk_ja_JP=%E3%82%AB%E3%82%BF%E3%82%AB%E3%83%8A&dchild=1&keywords=%E9%9F%B3%E5%A3%B0%E3%82%B3%E3%83%9F%E3%83%A5%E3%83%8B%E3%82%B1%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E3%81%A8%E9%9A%9C%E3%81%8C%E3%81%84%E8%80%85&qid=1625213798&sr=8-2

このページの先頭へ▲

MISC

ヒューマンコミュニケーション研究から見る未来のかたち招待あり

新井田統, 小森智康, 酒向慎司, 田中章浩, 布川清彦

電子情報通信学会誌 107 ( 3 ) 237 - 243 2024年03月

　詳細を見る

担当区分：最終著者記述言語：日本語掲載種別：記事・総説・解説・論説等（学術雑誌）出版者・発行元：電子情報通信学会

その他リンク： https://www.journal.ieice.org/bin/pdf_link.php?fname=k107_3_237&lang=J&year=2024
共生社会実現に資する論文作成・発表アクセシビリティガイドライン招待あり

布川清彦, 若月大輔, 酒向慎司

電子情報通信学会誌 106 ( 12 ) 1108 - 1114 2023年12月

　詳細を見る

担当区分：最終著者記述言語：日本語掲載種別：記事・総説・解説・論説等（学術雑誌）出版者・発行元：電子情報通信学会

2023 年度に論文作成・発表アクセシビリティガイドラインはver. 4.0 へ改定された．本稿では，改定の経緯を紹介した上で，改定の社会的背景として，障害者差別解消法によって，学会や研究会に障害者が参加する際の合理的配慮の提供が義務化されたこととガイドラインとの関係について解説する．

その他リンク： https://www.journal.ieice.org/bin/pdf_link.php?fname=k106_12_1108&lang=J&year=2023
国際生活機能分類（ICF）と論文作成・発表アクセシビリティガイドライン招待あり

布川清彦, 若月大輔, 酒向慎司

電子情報通信学会誌 106 ( 12 ) 1115 - 1119 2023年12月

　詳細を見る

担当区分：最終著者記述言語：日本語掲載種別：記事・総説・解説・論説等（学術雑誌）出版者・発行元：電子情報通信学会

2023 年度に論文作成・発表アクセシビリティガイドラインはver 4.0 へ改定された．本稿では，障害を生活機能のマイ
ナス面として捉える世界標準の障害観である国際生活機能分類（ICF）について紹介し，ガイドラインとの関係について
解説する．

その他リンク： https://www.journal.ieice.org/bin/pdf_link.php?fname=k106_12_1115&lang=J&year=2023
隠れマルコフモデルによる手話の音韻構造に基づいた自動手話認識

酒向慎司, 北村正

日本福祉工学学会誌 17 ( 2 ) 2 - 7 2015年11月

　詳細を見る

担当区分：筆頭著者記述言語：日本語掲載種別：記事・総説・解説・論説等（国際会議プロシーディングズ）出版者・発行元：日本福祉工学会

手話認識の分野では，隠れマルコフモデル(Hidden Markov Model; HMM) に基づいた手法が提案されている．また，手話の動作情報を取得する方法として身体動作を直接計測するセンサ類を用いる方法も検討されてきたが，画像から動作情報を取得することで特殊な装置を要せず，身体的拘束のない手話認識が可能である．また，これまでの手話認識の研究では主に孤立単語を対象に行われてきており，単語ごとに個別のモデルを作成する場合，語彙の増加に伴ってモデル数が増加するため非効率であり，また手話のデータの収集は手間がかかり大規模化が難しい現状がある．そのため，音素のように単語間に共通した手話の構成素（サブユニット）を定め，それらの組合せから単語モデルを構成するアプローチが有望である．このような観点から，ビデオカメラで撮影された手話映像を用い，単語単位で学習された複数のHMMの状態パラメータを分類することで，単語間の共通要素をサブユニットとして集約する手法を検討してきた．本稿では，サブユニットの生成過程に手話の音韻構造を考慮することで，共通要素の集約を効率化する手法を提案する．

CiNii Articles
基礎講座音声・音響インタフェース第1回―HTSを用いた音声合成システムの構築査読あり

大浦圭一郎, 全炳河, 酒向慎司, 徳田恵一

ヒューマンインタフェース学会誌 12 ( 1 ) 35 - 40 2010年02月

　詳細を見る

記述言語：日本語掲載種別：記事・総説・解説・論説等（国際会議プロシーディングズ）出版者・発行元：ヒューマンインタフェース学会

CiNii Articles
特集　音楽とOR―日本語歌詞からの自動作曲招待あり

嵯峨山茂樹,中妻啓,深山覚,酒向慎司,西本卓也

オペレーションズ・リサーチ 54 ( 9 ) 546 - 553 2009年10月

　詳細を見る

記述言語：日本語掲載種別：記事・総説・解説・論説等（学術雑誌）出版者・発行元：日本オペレーションズ・リサーチ学会

本稿では,任意の日本語テキストの持つ韻律に基づき,歌唱曲を自動作曲する手法について解説する.文学作品や自作の詩,ニュースやメールなど,あらゆる日本語テキストをそのまま歌詞として旋律を生成し,歌唱曲として出力する自動作曲システムは,手軽な作曲のツール,音楽の専門知識を持たない人のための作曲補助ツールとして有用であろう.さらに著作権問題の回避としても用途があろう.歌唱曲は歌詞との関連性が求められる.特に高低アクセントを持つ日本語では,発話音声にピッチの高低が付くため,歌詞を朗読する際の韻律と旋律が一致することが重要とされる.筆者らはこの点に着目し,ユーザが選択した和声,リズム,伴奏音形を拘束条件として,旋律を音高間を遷移する経路とし,韻律の上下動の制限の下で最適経路となる旋律を動的計画法により探索する問題として旋律設計を捉えた.このモデルに基づき,任意の日本語歌詞に,その韻律に一致した旋律を付ける自動作曲手法により自動作曲システムOrpheusを作成したので紹介する.

CiNii Articles

このページの先頭へ▲

講演・口頭発表等

日本手話における個人性の研究：運動学的特徴の分析と手話者識別

戴梓軒, 酒向慎司

電子情報通信学会 HCGシンポジウム2024 2024年12月電子情報通信学会

　詳細を見る

開催年月日： 2024年12月

記述言語：英語会議種別：口頭発表（一般）

開催地：金沢歌劇座(金沢市) 国名：日本国
Song review generation using acoustic information and lyrics 国際会議

25nd International Society for Music Information Retrieval Conference 2024年11月 International Society for Music Information Retrieval

　詳細を見る

開催年月日： 2024年11月

記述言語：英語会議種別：ポスター発表

開催地：San Francisco 国名：アメリカ合衆国
愛知芸大芸術講座メディア・クロス・トーク招待あり

酒向慎司

愛知パーカッション・フェア 2024 ～「共鳴～Kyo-mei」が繋ぐさまざまなパーカッションの世界～ 2024年11月愛知県立芸術大学社会連携センター

　詳細を見る

開催年月日： 2024年11月

会議種別：シンポジウム・ワークショップパネル（指名）

開催地：愛知県立芸術大学芸術資料館地下演習室国名：日本国
一人称視点映像によるボディトラッキング技術と手話認識への応用招待あり

酒向慎司

ろう者・難聴者がイキイキと働ける環境を目指して! 「スマートグラスやデジタルセンシングを使ったコミュニケーションを体験しよう」 2024年11月特定非営利活動法人ウェアラブルコンピュータ研究開発機構

　詳細を見る

開催年月日： 2024年11月

会議種別：口頭発表（招待・特別）

開催地：QUINTBRIDGE（NTT西日本）国名：日本国
MoCapデータによる手話対話時の呼吸の検出と分析

酒向慎司, 笠間健太郎

電子情報通信学会第126回福祉情報科学研究会 2024年10月電子情報通信学会

　詳細を見る

開催年月日： 2024年10月

記述言語：日本語会議種別：口頭発表（一般）

開催地：帝京大学宇都宮キャンパス国名：日本国

本研究では，手話の時間的構造（リズム）に関係があるとされる手話中の呼吸の状態を手話のモーションキャプチャデータから推定する手法について検討した．手話のような複雑な身体動作がなされた状態，手話そのものの計測の妨げとならないような計測は容易ではないと考えられる．ここでは高精度に計測された手話の3次元モーションデータから胸部の拡張の変化に着目して呼吸の状態を計測可能であるかを試みた．既存の手話データベース（KoSign）の3次元データを用いて呼吸の推定を行い，その結果の妥当性について検証した．
音響情報と歌詞を用いた楽曲のレビュー文生成

川地奎多, 酒向慎司

情報処理学会第141回音楽情報科学研究会 2024年08月情報処理学会

　詳細を見る

開催年月日： 2024年08月

記述言語：日本語会議種別：口頭発表（一般）

開催地：駒澤大学駒澤キャンパス

近年，音楽配信サービスの普及により，楽曲へのアクセス性が大幅に向上した．その一方で，音楽の聴取スタイルは受動的かつ BGM として消費する傾向が強まり，深く鑑賞する機会が減少しているのではないかと感じている．そこで，本研究では音楽を言語化して説明することがリスナーの音楽理解を助け，音楽体験の価値を向上させる手段の 1 つであると考えた．音楽の言語化は，音楽キャプションタスク（音楽に関する情報を自然言語の文章形式で記述するタスク）として近年盛んに研究されている．従来の研究では音響情報のみを用いて，楽曲に関する説明文を生成することに焦点が置かれていた．そこで，本研究では音響情報に加えて歌詞にも着目し，楽曲のレビュー文を生成することに試みた．具体的には音楽特徴抽出器と大規模言語モデル（LLM）を用いて音楽記述を生成する MU-LLaMA をベースラインモデルとし，LLaMA に事前に指示を与えるシステムプロンプトを設計することで，歌詞も考慮したレビュー文生成を実現した．さらに，3 つの評価実験を通じて，提案手法が従来手法よりも表現の多様性や楽曲のイメージ形成に有効であることを確認した．
アノテーション支援のための日本手話の映像データにおけるマウジング検出の検討

辰巳花菜, 酒向慎司

電子情報通信学会第125回福祉情報科学研究会 2024年08月電子情報通信学会

　詳細を見る

開催年月日： 2024年08月

記述言語：日本語会議種別：口頭発表（一般）

開催地：はこだて未来大学（函館市）

本研究では，手話のアノテーション支援を目的とし，日本手話の口型の一種であるマウジング検出について検討を行った．口型とは，手話中に現れる口の動きのことを指す．現在，日本手話において，より大規模で汎用的なコーパスの開発が急務となっているが，手話の複雑性により，アノテーションは容易ではない作業とされている．そのため，自動アノテーションによるコーパス整備の効率化が望まれている．イギリス手話の大規模なデータ
セットであるBOBSLにおける自動アノテーションの研究[1]では，口型認識を用いた単語検出のアプローチを使用しており，これにより手指信号の認識だけでは検出が難しい語の検出を可能にしている．そこで本研究では，日本手話における口型認識に基づいて，音声言語由来の口の動きであるマウジングを検出する．本提案手法では，既存の機械読唇技術を用いて，日本手話における口型の認識を行う．そして，手話に対応した日本語音声の書き起こしテキスト内からマウジングの候補の語を特定し，口型認識の結果とマッチングさせることで，マウジングに相当する区間を特定する．また本研究では，日本手話映像を用いてマウジング検出の検証用にデータセットを作成し，その中で，マウジングの表出について調査した．その結果，表出パターンにはばらつきがみられ，提案手法におけるマウジング候補の特定方法をさらに検討する必要があることが分かった．最後に，口型のみの認識によるアノテーションの限界，そして，より正確なアノテーションのための手法の検討などの今後の方針を述べる．
Chironomie に基づいた楽譜と演奏に対応した音楽の可視化

酒向慎司, 辰巳花菜

可視化情報シンポジウム2024 2024年07月一般社団法人可視化情報学会

　詳細を見る

開催年月日： 2024年07月

記述言語：日本語会議種別：口頭発表（一般）

開催地：沖縄産業支援センター国名：日本国

聴覚障害者が音楽を楽しむ機会を増やすためには、彼らにとって利用しやすい形で音楽を提示することが必要である。本研究では、聴覚に障がいがあっても視覚に障がいのない人々の共通感覚である視覚に着目し、音楽の視覚化を試みる。音楽を視覚化する方法としては、色彩や図形など様々な方法が提案されている。本研究では、足や手の物理的な上げ下げ、空間的な上下の意味を含むキロノミーに着目し、楽譜や演奏に対応したわかりやすく直感的な視覚表現による音楽の視覚化を目指す。
照明演出の支援を目的とした音楽音響信号に基づく照明色・明度・動きの推定とその評価

月東菜乃, 酒向慎司

情報処理学会第140回音楽情報科学研究会 2024年05月情報処理学会

　詳細を見る

開催年月日： 2024年05月

記述言語：日本語会議種別：口頭発表（一般）

開催地：日本大学文理学部キャンパス百周年記念館

本研究では照明演出構成の支援を目的として，音楽をメインとして観客に聴かせ，多様な照明演出が施されることの多いポピュラー音楽コンサートを対象に，楽曲の特徴から自動で照明演出を決定する手法について検討する．楽曲音声に基づき推定された繰り返し構造ごとに楽曲の雰囲気に合った照明色・明るさ・動きを推定する．また，推定された照明演出のシミュレーション映像視聴による主観評価により本手法の有効性を確認した．
日本手話の映像データを用いた手話の個人性に関する調査

戴梓軒, 酒向慎司

電子情報通信学会ヒューマンコミュニケーション基礎(HCS)研究会 2024年03月電子情報通信学会

　詳細を見る

開催年月日： 2024年05月

記述言語：英語会議種別：口頭発表（一般）

開催地：沖縄産業支援センター

全件表示 >>

このページの先頭へ▲

産業財産権

単語決定システム

青井基行,赤津舞子,三浦七瀬,酒向慎司

　詳細を見る

出願人：株式会社ユニオンソフトウェアマネイジメント,国立大学法人名古屋工業大学

出願番号：特願2018-048022 出願日：2018年03月

出願国：国内取得国：国内
飲酒状態判定装置及び飲酒状態判定方法

岩田英三郎, 酒向慎司

　詳細を見る

出願番号：PCT/JP2010/062776 出願日：2010年07月

公開番号：特開2011-553634 公開日：2012年06月

出願国：国内取得国：国内

本発明は、キーワードのような特定の言葉の利用を前提としない飲酒判定を可能とするものである。飲酒モデルは、飲酒者の音声の音響特徴による分類基準を用いた木構造を有する。この木構造におけるノードは、飲酒者の音素における音響特徴を示す。非飲酒モデルは、非飲酒者の音声の音響特徴による分類基準を用いた木構造を有する。この木構造におけるノードは、非飲酒者の音素における音響特徴を示す。まず、対象者の音声データを、飲酒モデルと非飲酒モデルのそれぞれの木構造に適用して、音素の音響特徴をノードに振り分ける。つぎに、対象者の音素の音響特徴と、各モデルにおける各ノードで特定された音響特徴との尤度を計算する。つぎに、算出された尤度の値を用いて、当該音声の音響特徴が、飲酒モデル及び非飲酒モデルのうちのどちらに近いかを判別する。

J-GLOBAL
音声合成方法及び装置

嵯峨山茂樹, 槐武也, 酒向慎司, 松本恭輔, 西本卓也

　詳細を見る

出願番号：特願2005-304082 出願日：2005年10月

公開番号：特開2007-114355 公開日：2007年05月

出願国：国内取得国：国内

【課題】高品質の合成音声を提供すると共に、加工性に優れた音声合成手法を提供する。【解決手段】音声のスペクトル包絡を混合ガウス分布関数で近似することで少数のパラメータによって音声スペクトルを表現して分析パラメータを得る。そして、この混合ガウス分布関数の逆フーリエ変換であるGabor関数の重ね合わせを基本波形とし、それをピッチ周期ごとに配置して有声音を合成する。ピッチ周期をランダムにすれば無声音も合成できる。

J-GLOBAL
音声認識装置及びコンピュータプログラム

山口辰彦, 酒向慎司, 山本博史, 菊井玄一郎

　詳細を見る

出願人：株式会社国際電気通信基礎技術研究所

出願番号：特願2003-317559 出願日：2003年09月

公開番号：特開2005-84436 公開日：2005年03月

出願国：国内取得国：国内

課題】あるモデルによる音声認識の誤りを、他のモデルによる音声認識結果で置換する際に、最終的な音声認識の精度を高める。【解決手段】音声認識装置は、N−グラムモデルを用いて音声認識を行ない、N−グラム候補44及び信頼度尺度を出力する音声認識部40、音声認識部40からのN−グラム候補44に対し、正誤を判別するように最適化された予備判別部46、予備判別部46が誤りと判定した箇所について、用例文モデルを用いて音声認識を行ない、用例文候補52と信頼度を算出する用例候補選択部50、N−グラム候補44を用例文候補52で置換するか否かを判別し最終の音声認識結果28を出力する最終判別部54とを含み、予備判別部46は、学習により得られた判別基準より多くの誤りを検出するようにバイアスした判別基準を用いて判別する。

J-GLOBAL

このページの先頭へ▲

Works（作品等）

論文作成・発表アクセシビリティガイドライン（Ver.4.0）

井上正之, 苅田知則, 今野順, 坂本隆, 酒向慎司, 塩野目剛亮, 布川清彦, 南谷和範, 宮城愛美, 若月大輔

2023年04月

　詳細を見る

作品分類：教材

電子情報通信学会ヒューマンコミュニケーショングループ（HCG）は，福祉情報工学研究会（WIT）を中心に，2005年に障害のある人が学会や研究会などの研究活動に参加できることを目指して，聴覚障害，視覚障害のある方への情報保障を中心とした学会や研究会参加におけるバリア（手話通訳がない，資料が点字化されていないなど）を無くすための論文作成，プレゼンテーション資料作成，および発表時の情報保障に関するアクセシビリティガイドラインを公開しました．2005年の公開以降，社会も技術も大きく変化してきています．この変化に対応するため，今回，大幅な改訂を行いました．

2001年12月の国連総会で「障害者の権利及び尊厳を保護・促進するための包括的・総合的な国際条約」に関する決議案が採択されました．日本は2007年にこの条約に署名し，2012年に「障害者の日常生活及び社会生活を総合的に支援する法律」，2013年に「障害を理由とする差別の解消の推進に関する法律（障害者差別解消法）」と「障害者の雇用の促進等に関する法律」を改正して法的な整備を整え，2014年に日本国内で条約が発効されました．また，2001年に世界保健機関（WHO）が採択した国際障害分類（ICF）における構成要素間の相互作用を示す図では，障害はある特性を持った人とその人を取り巻く環境との関係から生じることを示しています．障害者差別解消法では，会社やお店，学会や研究会といった事業者に対して障害のある人に「合理的配慮」を提供するように求めています．合理的配慮の提供は環境側にあるバリアを無くすことを意味しています．アクセシビリティガイドラインは，この合理的配慮に関わるものです．そして，環境側にあるバリアを技術の面から無くすことはWITの使命です．

WITや他のHCGの先輩方のアクセシビリティガイドライン作成は，共生社会の実現・多様性への対応を先取りするものでした．この取り組みを継続し，アップデートしていくことは，後に続く者の仕事です．「全ての人が自分の志した道にチャレンジできる」WITは，これからもそのような社会を支える研究活動を続けて行きます．学会や研究会で利用されていたプレゼンテーションの方法は，現在では学会や研究会だけではなく，広く社会で利用されるようになってきています．このガイドラインを多くの学会・研究会や会社，お店などでお使いいただき，ご意見，コメント，改善案などをお寄せいただけないでしょうか．全ての人に情報を届けることができるように，皆様と一緒に改良を続けて行きたいと思います．
工学院大学多用途型日本手話言語データベース（KoSign）第2期

長嶋祐二, 原大介, 堀内靖雄, 酒向慎司

2022年10月

　詳細を見る

作品分類：データベース

科研費基盤研究(S)「多用途型日本手話言語データベース構築に関する研究」（17H06114）により，多様な研究分野で利用できる汎用的な手話映像データベースの作成を目的として，プロジェクトで選定した6,000超の手話単語と数対話について，できる限り高精細・高精度のデータを収録したデータセットです。撮影対象者は手話ネイティブ家系の日本手話母語者2名（男性1名，女性1名）で，撮影は2017年～2019年にかけて東映東京撮影所のモーションキャプチャスタジオにて実施されました。正面と左右に設置した4KまたはフルHDカメラによる手話映像データ（オリジナルのMXF形式とmp4形式）に加え，光学式モーションキャプチャによる3次元動作データ（BVH形式，C3D形式，FBX形式）と，Kinectセンサによる深度データ（Kinect v2のxef形式）も同時に収録しています。第2期提供分として，1,172単語と7対話のデータを提供します。
国立民族学博物館特別展示 Homō loquēns 「しゃべるヒト」～ことばの不思議を科学する～

長嶋祐二, 原大介, 堀内靖雄, 酒向慎司

2022年09月 - 2022年11月

　詳細を見る

作品分類：データベース発表場所：国立民族学博物館

国立民族学博物館特別展示 Homō loquēns 「しゃべるヒト」～ことばの不思議を科学する～に高精度手話データベースKoSignを紹介する技術展示を行った。手話をモーションキャプチャすることによって、手話の手指の動きや顔の表情の変化を精密なデジタルデータとして記録することができます。日常で使われる数千語の日本手話を記録した膨大なデータによって手話言語の分析やアバターによって手話を表現させることができます。
工学院大学多用途型日本手話言語データベース（KoSign）

長嶋祐二, 原大介, 堀内靖雄, 酒向慎司

2021年06月

　詳細を見る

作品分類：データベース

科研費基盤研究(S)「多用途型日本手話言語データベース構築に関する研究」（17H06114）により，多様な研究分野で利用できる汎用的な手話映像データベースの作成を目的として，プロジェクトで選定した6,000超の手話単語と数対話について，できる限り高精細・高精度のデータを収録したデータセットです。撮影対象者は手話ネイティブ家系の日本手話母語者2名（男性1名，女性1名）で，撮影は2017年～2019年にかけて東映東京撮影所のモーションキャプチャスタジオにて実施されました。正面と左右に設置した4KまたはフルHDカメラによる手話映像データ（オリジナルのMXF形式とmp4形式）に加え，光学式モーションキャプチャによる3次元動作データ（BVH形式，C3D形式，FBX形式）と，Kinectセンサによる深度データ（Kinect v2のxef形式）も同時に収録しています。当初は第1期提供分として，3,701単語と3対話のデータならびに専用解析ツール（描画・アノテーション支援システム）を提供します。データサイズは計約3.6TBです。（残りの単語・対話データも後日追加される予定です）
NIT-3DHP-OMNI

Teppei Miura, Shinji Sako

2020年08月

　詳細を見る

作品分類：データベース

The dataset comprises of 7 subjects, covering the 16 sentences with 3-4 times per subject.
Archived dataset size is 1.52 GB.

The dataset-tree is comprised such as below:
NIT-3DHP-OMNI
+ A (personal ID for paper)
| + 011001001 (personal ID & sentence & times for each 3 digit)
| | + input
| | | + 0000000001.jpg (RGB image)
| | | + 0000000002.jpg
| | | + ...
| | |
| | + target
| | + 0000000001.txt (3D joint positions)
| | + 0000000002.txt
| | + ...
| |
| + 011001002 ...
|
+ B ...

The target text holds 3D joint positions data such as below order:
-------------------
Time Stamp
Head
Neck
Torso
Waist
Left Shoulder
Right Shoulder
Left Elbow
Right Elbow
Left Wrist
Right Wrist
Left Hand
Right Hand
-------------------
Pressivo: 旋律の演奏表情を考慮した自動伴奏生成システム

宮田佳奈, 酒向慎司, 北村正

2014年02月

　詳細を見る

作品分類：ソフトウェア発表場所：インタラクション2014
A stochastic model of artistic deviation and its musical score for the elucidation of performance expression

K. Okumura,S. Sako,T. Kitamura

2013年08月

　詳細を見る

作品分類：ソフトウェア発表場所：Stockholm, Sweden

http://smac2013.renconmusic.org/
Ryry: 多声楽器に対応可能な音響入力自動伴奏システム

山本龍一,酒向慎司,北村正

2013年03月

　詳細を見る

作品分類：ソフトウェア発表場所：情報処理学会シンポジウムインタラクション2013

Ryry（リリー）は、楽譜に基づく人間の演奏音響信号を入力として、実時間で演奏位置を認識、予測し、同期した伴奏を自動的に再生する自動伴奏システムです。
音楽印象データベース

酒向慎司,岩月靖典,西尾圭一郎,北村正

2013年03月

　詳細を見る

作品分類：ソフトウェア
自動作曲システム Orpheus

嵯峨山茂樹,他

2013年01月

　詳細を見る

作品分類：ソフトウェア

全件表示 >>

このページの先頭へ▲

その他研究活動

研究用マルチモーダル音声データベース M2TINIT

2003年03月

　詳細を見る

研究用マルチモーダル音声データベース M2TINIT (Multi-Modal Speech Database by Tokyo Institute of Technology and Nagoya Institute of Technology) は、マルチモーダル音声研究の推進のため、東京工業大学大学院院総合理工学研究科小林隆夫研究室および名古屋工業大学知能情報システム学科北村・徳田研究室が開発・公開する音声・唇動画像同時収録データベースです。これまでに音声・唇動画像の生成やバイモーダル音声認識の研究に利用されています。

このページの先頭へ▲

受賞

音楽情報科学研究会(MUS) ベストプレゼンテーション賞 Best New Direction部門

2024年08月情報処理学会音響情報と歌詞を用いた楽曲のレビュー文生成

川地奎多, 酒向慎司

　詳細を見る

受賞区分：国内学会・会議・シンポジウム等の賞受賞国：日本国

近年，音楽配信サービスの普及により，楽曲へのアクセス性が大幅に向上した．その一方で，音楽の聴取スタイルは受動的かつ BGM として消費する傾向が強まり，深く鑑賞する機会が減少しているのではないかと感じている．そこで，本研究では音楽を言語化して説明することがリスナーの音楽理解を助け，音楽体験の価値を向上させる手段の 1 つであると考えた．音楽の言語化は，音楽キャプションタスク（音楽に関する情報を自然言語の文章形式で記述するタスク）として近年盛んに研究されている．従来の研究では音響情報のみを用いて，楽曲に関する説明文を生成することに焦点が置かれていた．そこで，本研究では音響情報に加えて歌詞にも着目し，楽曲のレビュー文を生成することに試みた．具体的には音楽特徴抽出器と大規模言語モデル（LLM）を用いて音楽記述を生成する MU-LLaMA をベースラインモデルとし，LLaMA に事前に指示を与えるシステムプロンプトを設計することで，歌詞も考慮したレビュー文生成を実現した．さらに，3 つの評価実験を通じて，提案手法が従来手法よりも表現の多様性や楽曲のイメージ形成に有効であることを確認した．
WIT学生研究奨励賞

2023年12月電子情報通信学会福祉情報工学研究会聴覚障害者の音楽体験支援のためのChironomieによる音楽可視化手法の提案

辰巳花菜, 酒向慎司

　詳細を見る

受賞区分：国内学会・会議・シンポジウム等の賞受賞国：日本国

本研究のねらいは，聴覚障害者と健聴者が共に音楽を楽しむために，グレゴリオ聖歌の指揮法であるChironomieを用いて音楽を可視化することである．この目標達成には，Chironomieを西洋調性音楽に適用して聴覚では直感的に得られる音楽特徴である緊張の高まりや緩みを表現することと，Chironomieにより音楽が視覚的に伝達できるかを評価することが課題である．本報告では，西洋クラシック音楽やその派生音楽を対象とし，Chironomieを描画するために複合拍に対するArsisとThesisを自動推定する手法の検討と，健聴者を対象とした評価実験によるChironomieの有用性の調査結果を報告する．
日本音響学会東海支部優秀発表賞

2023年12月日本音響学会東海支部 Chironomieに準ずる旋律線による音楽の可視化

辰巳花菜

　詳細を見る

受賞区分：国内学会・会議・シンポジウム等の賞受賞国：日本国
第27回東海地区音声関連研究室修士論文中間発表会総合3位

2023年08月静岡大学 Chironomieに準ずる旋律線による音楽の可視化

辰巳花菜

　詳細を見る

受賞区分：国内学会・会議・シンポジウム等の賞受賞国：日本国
日本音響学会東海支部優秀発表賞

2021年12月日本音響学会東海支部ラウドなポピュラー音楽を対象としたダイナミクスの自動生成

尾関日向

　詳細を見る

受賞区分：国内学会・会議・シンポジウム等の賞受賞国：日本国
音楽情報科学研究会(MUS) 学生奨励賞

2021年09月情報処理学会ラウドなポピュラー音楽のダイナミクス復元

尾関日向, 酒向慎司

　詳細を見る

受賞区分：国内学会・会議・シンポジウム等の賞受賞国：日本国
日本知能情報ファジィ学会論文賞

2017年09月日本知能情報ファジィ学会楽譜と表情を関連付けた統計モデルに基づく鍵盤楽器演奏の自動生成手法

奥村健太, 酒向慎司, 北村正

　詳細を見る

受賞区分：学会誌・学術雑誌による顕彰受賞国：日本国

本稿では，特定の演奏者が持つ表情の特徴に忠実な演奏の自動生成を目的とした手法を提案する．多くの既存手法は演奏生成に際して演奏者が有するような専門知識の入力を必要とする．それらは使用者自身が演奏者として介在する用途には有用であるが，本提案の目的には不向きである．提案手法では演奏者による実際の演奏事例から得られる表情の特徴に対し，楽譜から専門知識を用いることなく得られる情報を関連付けたモデルを定義する．さらに楽譜の指示を基準に用い，個々の演奏事例について定義したモデル群をその表情の特徴別に分類することで，任意の演奏事例に付与された表情の特徴と楽譜の指示との因果関係を体系的に記述した規則を構造化できる．この構造を辿ることで，未知の楽譜の指示に対応する演奏事例の候補が得られる．これらの候補の中から最適な表情を備えた演奏事例の系列を探索する問題を，動的計画法の適用によって解決する．客観評価実験により，提案手法は最適な事例の系列を効率的に探索できることを示した．また，主観評価実験によって提案手法による表情の品質の高さを確認したほか，多様な楽曲で演奏者に忠実な表情の特徴を再現できることを示した．なお，提案手法による演奏は，自動演奏表情付けシステムのコンテストにおいて自律生成部門の第１位を獲得している．
情報処理学会山下記念研究賞

2016年03月情報処理学会楽譜と表情を関連付けた統計モデルに基づく楽器演奏の比較分析の検討

奥村健太, 酒向慎司, 北村正

　詳細を見る

受賞区分：国内学会・会議・シンポジウム等の賞受賞国：日本国

本稿では，楽器演奏に付与される表情について，特定の演奏者と楽曲の組合せにおける比較分析を行う問題を考える．表情付けに寄与する要因を説明可能な枠組みとして，表情の特徴量を近似した生成モデルに楽譜の指示を関連付け，各特徴量の生成過程を楽譜の指示に基づく規則を用いて体系化する手法が提案されている．本稿ではその体系の構築過程に着目し，表情付けに寄与した規則について，その寄与の度合いや関係性を楽譜の指示に基づき分析する手法を提案する．また，複数の楽曲と演奏者による演奏の組合せを用い，その有用性を検討する．
情報処理学会第78回全国大会学生奨励賞

2016年03月情報処理学会自動ジャズアレンジのための事例に基づくメロディ変形

佐藤直人, 酒向慎司, 北村正

　詳細を見る

受賞区分：国内学会・会議・シンポジウム等の賞受賞国：日本国

本研究では原曲メロディの自動ジャズアレンジを目的とし、事例を用いてリズムと音高に関するジャズ特有の変化パターンをモデル化することにより、メロディをジャズ風に変形させる手法を提案する。提案手法では、原曲とジャズアレンジされた曲のペアからなる事例データを用意し、セグメンテーションと抽象化により、原曲とアレンジ後の対応付けを行う。入力された原曲メロディが変化し得るリズムと音高のアレンジパターンを事例データから探索し、動的計画法により最適なアレンジ系列を出力する。
学会活動貢献賞

2014年03月日本音響学会東海支部

酒向慎司

　詳細を見る

受賞国：日本国

全件表示 >>

このページの先頭へ▲

科研費（文科省・学振）獲得実績

一人称視点映像を用いた手話対話の支援技術および記録技術基盤の構築

研究課題/領域番号：23K11197 2023年04月 - 2026年03月

日本学術振興会科学研究費補助金基盤研究(C)

酒向慎司

　詳細を見る

担当区分：研究代表者資金種別：競争的資金

我々は深層学習を用いた手話翻訳システムを開発しているが，これを実現するには手話認識や意味解析などが必要である．それらには手話コーパスの構築や教師あり学習による深層学習向けのラベル付きデータが大量に必要であるが，ラベル付けには手間がかかる．そこで本研究ではラベルがない手話動画に対して，ラベル付けを半自動的に行うシステムを開発・公開する．本研究では，このシステムを用いて作成したラベル付き手話データセットを手話言語学研究者や手話工学研究者らに提供し，手話の意味解析や手話認識に関する研究をサポートする．
自己教師あり学習手法による手話認識エンジンの開発

研究課題/領域番号：23747929 2023年04月 - 2025年03月

日本学術振興会科学研究費補助金挑戦的萌芽研究

木村勉（研究代表）

　詳細を見る

担当区分：研究分担者資金種別：競争的資金
手話コーパス，深層学習向けラベル付き手話データ半自動生成システムの開発

研究課題/領域番号：22H00661 2022年04月 - 2026年03月

日本学術振興会科学研究費補助金基盤研究(B)

木村勉

　詳細を見る

担当区分：研究分担者資金種別：競争的資金

我々は深層学習を用いた手話翻訳システムを開発しているが，これを実現するには手話認識や意味解析などが必要である．それらには手話コーパスの構築や教師あり学習による深層学習向けのラベル付きデータが大量に必要であるが，ラベル付けには手間がかかる．そこで本研究ではラベルがない手話動画に対して，ラベル付けを半自動的に行うシステムを開発・公開する．本研究では，このシステムを用いて作成したラベル付き手話データセットを手話言語学研究者や手話工学研究者らに提供し，手話の意味解析や手話認識に関する研究をサポートする．
音声認識手法を応用した自動作曲・自動作詞・自動伴奏の研究

研究課題/領域番号：21H03462 2021年04月 - 2024年03月

日本学術振興会科学研究費補助金基盤研究(B)

嵯峨山茂樹

　詳細を見る

担当区分：研究分担者資金種別：競争的資金

我々は深層学習を用いた手話翻訳システムを開発しているが，これを実現するには手話認識や意味解析などが必要である．それらには手話コーパスの構築や教師あり学習による深層学習向けのラベル付きデータが大量に必要であるが，ラベル付けには手間がかかる．そこで本研究ではラベルがない手話動画に対して，ラベル付けを半自動的に行うシステムを開発・公開する．本研究では，このシステムを用いて作成したラベル付き手話データセットを手話言語学研究者や手話工学研究者らに提供し，手話の意味解析や手話認識に関する研究をサポートする．
視覚障害者が能動的に白杖で叩くことによる音情報の作製と利用に関する基礎的研究

研究課題/領域番号：18K18698 2018年04月 - 2022年03月

日本学術振興会科学研究費補助金挑戦的萌芽研究

布川清彦

　詳細を見る

担当区分：研究分担者資金種別：競争的資金

全件表示 >>

このページの先頭へ▲

受託研究受入実績

繊維産業に於けるＡＩ自動検査システムの構築に関する研究開発

2022年10月 - 2025年03月

愛知県知の拠点あいち重点研究プロジェクトプロジェクトDX 一般受託研究

　詳細を見る

担当区分：研究分担者資金種別：産学連携による資金

本課題では繊維産業の自動化のために、画像処理を用いた繊維の検品工程の自動化と、音響処理技術を用いた織機の異常検知の自動
化を目指す。繊維産業を含む全ての製造産業において、製品のチェックを行う検品工程は、製品の信頼性を担保するため重要であ
る。しかし、繊維産業における検品はほぼ全て熟練者による目視で行われており、自動化による効率化を妨げている。また、製造機械
のメンテナンスも同様に製品の信頼性向上に不可欠であるが、こちらの故障検知についても同様に人の経験に基づくところが大きい。
そこで本課題では、繊維を観測した画像を画像処理技術により解析することで、検品を自動化する方法を目指す。同様に織機が発する
音を音響処理技術により解析することで、織機の異常を検知する方法の確立を目指す。以上のように、本課題ではAIに基づく画像処
理・音響処理技術を利用することで、繊維産業における検査工程を自動化することを目指す。
手話の自動翻訳を実現させる高精度な動作検出と動作のパターンマッチングの技術開発

2016年10月 - 2019年03月

経済産業省戦略的基盤技術高度化支援事業（サポイン）一般受託研究

青井基行

　詳細を見る

担当区分：研究分担者資金種別：競争的資金
心地よく人間に合わせる自動演奏システムの研究

2015年01月 - 2015年12月

科学技術振興機構研究成果最適展開支援事業（A-STEP）FSステージ一般受託研究

酒向慎司

　詳細を見る

担当区分：研究代表者資金種別：競争的資金

配分額：2210000円（直接経費：1700000円、間接経費：510000円）

本研究では、自動演奏システムにおいて重要な要素技術である、演奏追跡技術の高精度化と、演奏追跡技術を応用した人間の演奏に同期するロボットの開発を行った。演奏追跡技術では、楽譜の情報を活用することで、テンポ変動を把握しやすい打楽器音とそれ以外の楽器種別を考慮した新たな演奏追跡モデルを提案し、演奏追跡精度の改善を確認した。演奏に追従するロボットの開発では、テンポ変動を含んだ演奏情報にリアルタイムで追従しロボットを制御するシステムを産業ロボットメーカーと共同で開発し、国際ロボット展に出展し実演した。
多様な利用形態に柔軟に対応する自動伴奏リハビリ支援システムの開発

2013年08月 - 2014年03月

科学技術振興機構研究成果最適展開支援事業（A-STEP）FSステージ一般受託研究

酒向慎司

　詳細を見る

担当区分：研究代表者資金種別：競争的資金

配分額：2210000円（直接経費：1700000円、間接経費：510000円）

楽器の演奏は趣味として楽しむだけでなく、複雑な身体動作を伴うことから身体機能や脳機能のリハビリとしても期待できる。楽器演奏によるリハビリ支援で重要なポイントは、支援の度合いが人それぞれであり、利用者の要望や制約に柔軟に対処できることが重要となる。利用者を問わない楽器演奏によるリハビリ支援システムの構築を念頭に、楽器の違いに頑健なスペクトルテンプレートの自動適応手法の検討、テンポ推定精度の高度化を検討するほか、実際の演奏におけるテンポ推定誤りの影響などを調査した。また、計算量と性能の関係を調査するとともに、実時間処理に向けたアルゴリズムの改善を行った。
ユーザーの嗜好と利用シーンの変動に対応可能な統計モデルに基づいた楽曲からの感性推定モデルの研究

2011年08月 - 2012年03月

科学技術振興機構研究成果最適展開支援事業（A-STEP）FSステージ一般受託研究

酒向慎司

　詳細を見る

担当区分：研究代表者資金種別：競争的資金

配分額：2210000円（直接経費：1700000円、間接経費：510000円）

音楽から受ける印象を楽曲の電子データから直接推定する印象推定システムにおいて、個人の嗜好や感性の違いに対応するため、性別や音楽経験などからなるプロフィールを利用する新たな手法を開発した。この手法の特徴として、印象推定モデルを学習するための音楽を聴いたときの印象データを事前に収集する必要がなく、他者の印象推定モデルから、特定の利用者に合った(類似した)モデルをプロフィールの情報に基づいて自動選択することができる。また、音楽を聴いた際の印象データを短期間で効率的に収集するため、Webブラウザを利用した楽曲提示と印象データ収集システムを構築し、様々な年代を含む120名の大規模な印象評価データを収集した。

このページの先頭へ▲

担当経験のある授業科目(学外)

大学院工学研究科博士前期課程　数理情報特論

2023年04月 - 現在機関名：名古屋工業大学

　詳細を見る

科目区分：大学院専門科目
第二部電子情報工学科　計算機基礎

2022年04月 - 2024年03月機関名：名古屋工業大学

　詳細を見る

科目区分：学部専門科目
情報学専攻研究科共通科目情報資源総論

2021年06月 - 現在機関名：静岡大学

　詳細を見る

科目区分：大学院教養科目
大学院工学研究科博士前期課程　数理情報特論

2020年04月 - 2021年03月機関名：名古屋工業大学

　詳細を見る

科目区分：大学院専門科目
第二部電子情報工学科　計算機工学

2018年04月 - 2021年03月機関名：名古屋工業大学

　詳細を見る

科目区分：学部専門科目

全件表示 >>

このページの先頭へ▲

委員歴

情報処理学会 FIT2025 第25回情報科学技術フォーラム研究会担当委員・プログラム委員

2024年11月 - 現在

　詳細を見る

団体区分：学協会
情報処理学会論文誌編集委員

2024年11月 - 現在

　詳細を見る

団体区分：学協会
電子情報通信学会ヒューマンコミュニケーションシンポジウム2024運営委員

2024年06月 - 現在

　詳細を見る

団体区分：学協会
情報処理学会 FIT2024 第24回情報科学技術フォーラム研究会担当委員・プログラム委員

2023年11月 - 2024年09月

　詳細を見る

団体区分：学協会
日本音響学会第150回秋季研究発表会実行委員

2023年05月 - 2023年09月

　詳細を見る

団体区分：学協会
電子情報通信学会福祉情報工学研究会　副委員長

2023年04月 - 現在

　詳細を見る

団体区分：学協会
電子情報通信学会ヒューマンコミュニケーションシンポジウム2023運営委員

2023年04月 - 2023年12月

　詳細を見る

団体区分：学協会
電子情報通信学会 FIT2023 第22回情報科学技術フォーラム研究会担当委員・プログラム委員

2023年01月 - 2023年09月

　詳細を見る

団体区分：学協会
一般社団法人手話言語等の多文化共生社会協議会代議員

2022年10月 - 現在

　詳細を見る

団体区分：その他
電子情報通信学会ヒューマンコミュニケーションシンポジウム2022運営委員

2022年10月 - 2022年12月

　詳細を見る

団体区分：学協会

全件表示 >>

このページの先頭へ▲

社会貢献活動

生産現場での動作音の異常検知・予知技術開発

役割：講師

尾張繊維技術センターオンライン (Zoom) 2022年10月

　詳細を見る

対象：研究者

種別：出前授業

このページの先頭へ▲