受容野の自動最適化によるモードに適応的なTransformerの開発

浅倉 拓也; 井上中順; 横田 理央; 篠田 浩一

doi:10.11517/pjsai.JSAI2023.0_4I3OS1b05

論文・著書情報

タイトル

和文:	受容野の自動最適化によるモードに適応的なTransformerの開発
英文:	Mode-Adaptive Transformer by Automatic Optimization of the Receptive Field

著者

和文:	浅倉拓也, 井上中順, 横田理央, 篠田浩一.
英文:	Takuya Asakura, Nakamasa Inoue, Rio Yokota, Koichi Shinoda.

言語

Japanese

掲載誌/書名

和文:	人工知能学会全国大会 (第37回)論文集
英文:	Proceedings of the Annual Conference of JSAI

巻, 号, ページ

出版年月

2023年6月

出版者

和文:	一般社団法人人工知能学会
英文:	Japanese Society for Artificial Intelligence

会議名称

和文:	人工知能学会全国大会 (第37回)
英文:

開催地

和文:	熊本県熊本市
英文:

ファイル

公式リンク

https://www.ai-gakkai.or.jp/jsai2023/

DOI

https://doi.org/10.11517/pjsai.JSAI2023.0_4I3OS1b05

アブストラクト

近年の深層学習による画像処理分野において，畳み込みの代わりにAttentionを特徴抽出に用いるVision Transformer（ViT）が高い性能を発揮した．この成果はTransformerが自然言語と画像の両者に対応可能であることを示しており，データのモードに依存しない汎用的なモデルとして期待されている．一方，ViTの派生モデルの多くは特徴抽出の受容野を絞ることで画像処理における頑強性を向上させているため，音声などの時系列データに対する適応力は損なわれている．本研究では，与えられたデータのモードに対して適応的に受容野を最適化する手法を提案する．提案手法を用いたTransformerベースのモデルを作成し，画像と音声の2種類のデータについて実験を行った結果，両者において従来手法以上の性能を発揮した．また，画像データに対して最適化した提案手法は一般的な画像処理フィルタに似た形状に収束した一方で，音声データに対しては長期的な依存関係を抽出する形状に収束しており，提案手法がデータのモードに応じて適した受容野を獲得可能であることが示されている．

Home

各種検索

サポート

T2R2について

関連リンク

論文・著書情報