Home >

news ヘルプ

論文・著書情報


タイトル
和文:受容野の自動最適化によるモードに適応的なTransformerの開発 
英文:Mode-Adaptive Transformer by Automatic Optimization of the Receptive Field 
著者
和文: 浅倉 拓也, 井上中順, 横田 理央, 篠田 浩一.  
英文: Takuya Asakura, Nakamasa Inoue, Rio Yokota, Koichi Shinoda.  
言語 Japanese 
掲載誌/書名
和文:人工知能学会全国大会 (第37回)論文集 
英文:Proceedings of the Annual Conference of JSAI 
巻, 号, ページ        
出版年月 2023年6月 
出版者
和文:一般社団法人 人工知能学会 
英文:Japanese Society for Artificial Intelligence 
会議名称
和文:人工知能学会全国大会 (第37回) 
英文: 
開催地
和文:熊本県熊本市 
英文: 
公式リンク https://www.ai-gakkai.or.jp/jsai2023/
 
DOI https://doi.org/10.11517/pjsai.JSAI2023.0_4I3OS1b05
アブストラクト 近年の深層学習による画像処理分野において,畳み込みの代わりにAttentionを特徴抽出に用いるVision Transformer(ViT)が高い性能を発揮した.この成果はTransformerが自然言語と画像の両者に対応可能であることを示しており,データのモードに依存しない汎用的なモデルとして期待されている.一方,ViTの派生モデルの多くは特徴抽出の受容野を絞ることで画像処理における頑強性を向上させているため,音声などの時系列データに対する適応力は損なわれている.本研究では,与えられたデータのモードに対して適応的に受容野を最適化する手法を提案する.提案手法を用いたTransformerベースのモデルを作成し,画像と音声の2種類のデータについて実験を行った結果,両者において従来手法以上の性能を発揮した.また,画像データに対して最適化した提案手法は一般的な画像処理フィルタに似た形状に収束した一方で,音声データに対しては長期的な依存関係を抽出する形状に収束しており,提案手法がデータのモードに応じて適した受容野を獲得可能であることが示されている.

©2007 Tokyo Institute of Technology All rights reserved.