音韻レベルの話者情報を用いた音声認識における話者適応

伊藤光一; 篠田浩一

論文・著書情報

タイトル

和文:	音韻レベルの話者情報を用いた音声認識における話者適応
英文:

著者

和文:	伊藤光一, 篠田浩一.
英文:	Koichi Ito, Koichi Shinoda.

言語

Japanese

掲載誌/書名

和文:	日本音響学会第153回(2025年春季)研究発表会講演論文集
英文:

巻, 号, ページ

pp. 991-992

出版年月

2025年3月3日

出版者

和文:	一般社団法人日本音響学会
英文:

会議名称

和文:	日本音響学会第153回(2025年春季)研究発表会
英文:

開催地

和文:	埼玉県
英文:

公式リンク

https://acoustics.jp/annualmeeting/program/

アブストラクト

音声認識は音声をテキストに変換する技術であり，スマートスピーカーや会議記録システム，音声翻訳などのベースとなっている。近年の深層学習ベースの音声認識は，モデルとデータの大規模化に伴い高い精度を記録するようになった。しかし，雑音下や複数話者条件下などで課題が残り，話者適応が重要である。従来は深層学習における話者情報の利用では発話全体に対する特徴が利用されてきたが，話者の違いは音韻レベルにも現れる。本研究では音声認識における話者適応について，深層学習ベースの音韻レベルの細かい話者情報を用いたマルチタスク学習手法を提案する。話者情報の利用方法について複数の手法を比較検討するための実験を行い，その結果を示す。

Home

各種検索

サポート

T2R2について

関連リンク

論文・著書情報