English
Home
各種検索
研究業績検索
論文・著書検索
( 詳細検索 )
特許検索
( 詳細検索 )
研究ハイライト検索
( 詳細検索 )
研究者検索
組織・担当から絞り込む
サポート
よくあるご質問(FAQ)
T2R2登録申請
学位論文登録について
組織単位データ出力について
(学内限定)
サポート・問合せ
T2R2について
T2R2とは?
運用指針
リーフレット
本文ファイルの公開について
関連リンク
東京科学大学
東京科学大学STARサーチ
国立情報学研究所(学術機関リポジトリ構築連携支援事業)
Home
>
ヘルプ
論文・著書情報
タイトル
和文:
受容野の自動最適化によるモードに適応的なTransformerの開発
英文:
Mode-Adaptive Transformer by Automatic Optimization of the Receptive Field
著者
和文:
浅倉 拓也
,
井上中順
,
横田 理央
,
篠田 浩一
.
英文:
Takuya Asakura
,
Nakamasa Inoue
,
Rio Yokota
,
Koichi Shinoda
.
言語
Japanese
掲載誌/書名
和文:
人工知能学会全国大会 (第37回)論文集
英文:
Proceedings of the Annual Conference of JSAI
巻, 号, ページ
出版年月
2023年6月
出版者
和文:
一般社団法人 人工知能学会
英文:
Japanese Society for Artificial Intelligence
会議名称
和文:
人工知能学会全国大会 (第37回)
英文:
開催地
和文:
熊本県熊本市
英文:
ファイル
公式リンク
https://www.ai-gakkai.or.jp/jsai2023/
DOI
https://doi.org/10.11517/pjsai.JSAI2023.0_4I3OS1b05
アブストラクト
近年の深層学習による画像処理分野において,畳み込みの代わりにAttentionを特徴抽出に用いるVision Transformer(ViT)が高い性能を発揮した.この成果はTransformerが自然言語と画像の両者に対応可能であることを示しており,データのモードに依存しない汎用的なモデルとして期待されている.一方,ViTの派生モデルの多くは特徴抽出の受容野を絞ることで画像処理における頑強性を向上させているため,音声などの時系列データに対する適応力は損なわれている.本研究では,与えられたデータのモードに対して適応的に受容野を最適化する手法を提案する.提案手法を用いたTransformerベースのモデルを作成し,画像と音声の2種類のデータについて実験を行った結果,両者において従来手法以上の性能を発揮した.また,画像データに対して最適化した提案手法は一般的な画像処理フィルタに似た形状に収束した一方で,音声データに対しては長期的な依存関係を抽出する形状に収束しており,提案手法がデータのモードに応じて適した受容野を獲得可能であることが示されている.
©2007
Institute of Science Tokyo All rights reserved.