マルチモーダルi-vectorを用いた話者ダイアライゼーション

西 史人; 井上 中順; 篠田 浩一

Publication Information

Title

Japanese:	マルチモーダルi-vectorを用いた話者ダイアライゼーション
English:	Multimodal i-vectors for speaker diarization

Author

Japanese:	西史人, 井上中順, 篠田浩一.
English:	Fumito Nishi, Nakamasa Inoue, Koichi Shinoda.

Language

Japanese

Journal/Book name

Japanese:	情報処理学会研究報告 SLP
English:

Volume, Number, Page

vol. 107 no. 4 pp. 1-6

Published date

July 17, 2015

Publisher

Japanese:
English:

Conference name

Japanese:	平成27年度第107回情報処理学会音声言語情報処理研究会
English:

Conference site

Japanese:	長野県諏訪市
English:	Suwa-shi, Nagano Pref.

File

Abstract

映画を対象とするマルチモーダル話者ダイアライゼーションにおいて,マルチモーダル i-vector を用いる手法を提案する. i-vector とは話者認識において使われている特徴量であり,発話者の情報を表した低次元ベクトルである.音声の i-vector に,動画中の話者の顔画像から抽出した i-vector を結合することで作られたマルチモーダル i-vector に対して教師無しクラスタリングを行う.評価実験は映画「ハンナとその姉妹」のデータセットで行い,Diarization Error Rate (DER) は音声のみを用いた場合比べ,68.3%から 65.5%に改善された.

Home

Search

Support

About T2R2

Related Links

Publication Information