音声・動画像の因子分析を用いる話者ダイアライゼーション

西 史人; 井上 中順; 篠田 浩一

Publication Information

Title

Japanese:	音声・動画像の因子分析を用いる話者ダイアライゼーション
English:

Author

Japanese:	西史人, 井上中順, 篠田浩一.
English:	Fumito Nishi, Nakamasa Inoue, Koichi Shinoda.

Language

Japanese

Journal/Book name

Japanese:	日本音響学会2015年秋季研究発表会講演論文集
English:	Proc. of Acoustical Society of Japan September 2015

Volume, Number, Page

pp. 175-176

Published date

Sept. 16, 2015

Publisher

Japanese:
English:

Conference name

Japanese:	2015年度日本音響学会秋季研究発表会
English:	2015 ASJ Autumn Meeting

Conference site

Japanese:	福島県会津若松市
English:	Aizu-wakamatsu city, Fukushima Pref.

File

Abstract

話者ダイアライゼーションとは「誰が，いつ」発話しているかを音声や画像の情報を用いて事前情報なしに推定するタスクである。トークショーや映画における話者ダイアライゼーションは電話や会議における話者ダイアライゼーションと比べ，BGMや環境音などの影響が大きい。そのため，音声と映像を用いたマルチモーダル話者ダイアライゼーションが効果的である。 Felicienら[1]はトークショーを対象にした実験で，音声情報と話者の服の色を特徴量として用いているが，本研究の対象である映画のように明暗の切り替わりが激しい映像で用いることは難しい。そこで本研究では音声・動画像の因子分析を用いる話者ダイアライゼーションを提案する。

Home

Search

Support

About T2R2

Related Links

Publication Information