マルチモーダルi-vectorを用いた話者ダイアライゼーション

西 史人; 井上 中順; 篠田 浩一

論文・著書情報

タイトル

和文:	マルチモーダルi-vectorを用いた話者ダイアライゼーション
英文:	Multimodal i-vectors for speaker diarization

著者

和文:	西史人, 井上中順, 篠田浩一.
英文:	Fumito Nishi, Nakamasa Inoue, Koichi Shinoda.

言語

Japanese

掲載誌/書名

和文:	情報処理学会研究報告 SLP
英文:

巻, 号, ページ

vol. 107 no. 4 pp. 1-6

出版年月

2015年7月17日

出版者

和文:
英文:

会議名称

和文:	平成27年度第107回情報処理学会音声言語情報処理研究会
英文:

開催地

和文:	長野県諏訪市
英文:	Suwa-shi, Nagano Pref.

ファイル

アブストラクト

映画を対象とするマルチモーダル話者ダイアライゼーションにおいて,マルチモーダル i-vector を用いる手法を提案する. i-vector とは話者認識において使われている特徴量であり,発話者の情報を表した低次元ベクトルである.音声の i-vector に,動画中の話者の顔画像から抽出した i-vector を結合することで作られたマルチモーダル i-vector に対して教師無しクラスタリングを行う.評価実験は映画「ハンナとその姉妹」のデータセットで行い,Diarization Error Rate (DER) は音声のみを用いた場合比べ,68.3%から 65.5%に改善された.

Home

各種検索

サポート

T2R2について

関連リンク

論文・著書情報