Home >

news Help

Publication Information


Title
Japanese:音声・動画像の因子分析を用いる話者ダイアライゼーション 
English: 
Author
Japanese: 西 史人, 井上 中順, 篠田 浩一.  
English: Fumito Nishi, Nakamasa Inoue, Koichi Shinoda.  
Language Japanese 
Journal/Book name
Japanese:日本音響学会2015年秋季研究発表会講演論文集 
English:Proc. of Acoustical Society of Japan September 2015 
Volume, Number, Page         pp. 175-176
Published date Sept. 16, 2015 
Publisher
Japanese: 
English: 
Conference name
Japanese:2015年度 日本音響学会秋季研究発表会 
English:2015 ASJ Autumn Meeting 
Conference site
Japanese:福島県会津若松市 
English:Aizu-wakamatsu city, Fukushima Pref. 
File
Abstract 話者ダイアライゼーションとは「誰が,いつ」発話しているかを音声や画像の情報を用いて事前情報なしに推定するタスクである。トークショーや映画における話者ダイアライゼーションは電話や会議における話者ダイアライゼーションと比べ,BGMや環境音などの影響が大きい。そのため,音声と映像を用いたマルチモーダル話者ダイアライゼーションが効果的である。 Felicienら[1]はトークショーを対象にした実験で,音声情報と話者の服の色を特徴量として用いているが,本研究の対象である映画のように明暗の切り替わりが激しい映像で用いることは難しい。 そこで本研究では音声・動画像の因子分析を用いる話者ダイアライゼーションを提案する。

©2007 Tokyo Institute of Technology All rights reserved.