音声・動画像の因子分析を用いる話者ダイアライゼーション

西 史人; 井上 中順; 篠田 浩一

論文・著書情報

タイトル

和文:	音声・動画像の因子分析を用いる話者ダイアライゼーション
英文:

著者

和文:	西史人, 井上中順, 篠田浩一.
英文:	Fumito Nishi, Nakamasa Inoue, Koichi Shinoda.

言語

Japanese

掲載誌/書名

和文:	日本音響学会2015年秋季研究発表会講演論文集
英文:	Proc. of Acoustical Society of Japan September 2015

巻, 号, ページ

pp. 175-176

出版年月

2015年9月16日

出版者

和文:
英文:

会議名称

和文:	2015年度日本音響学会秋季研究発表会
英文:	2015 ASJ Autumn Meeting

開催地

和文:	福島県会津若松市
英文:	Aizu-wakamatsu city, Fukushima Pref.

ファイル

アブストラクト

話者ダイアライゼーションとは「誰が，いつ」発話しているかを音声や画像の情報を用いて事前情報なしに推定するタスクである。トークショーや映画における話者ダイアライゼーションは電話や会議における話者ダイアライゼーションと比べ，BGMや環境音などの影響が大きい。そのため，音声と映像を用いたマルチモーダル話者ダイアライゼーションが効果的である。 Felicienら[1]はトークショーを対象にした実験で，音声情報と話者の服の色を特徴量として用いているが，本研究の対象である映画のように明暗の切り替わりが激しい映像で用いることは難しい。そこで本研究では音声・動画像の因子分析を用いる話者ダイアライゼーションを提案する。

Home

各種検索

サポート

T2R2について

関連リンク

論文・著書情報