映像から物体・動作・シーンを検出することを目的としたセマンティックインデクシングに対して,単語ベクトルを用いた語彙拡張方法を提案する.提案手法は,Zero-shot Learningの一手法であり,物体・動作・シーンを表す語の中から,映像もしくは画像の学習データがある語に対する検出器の重み付き和で,学習データの無い語の検出器を構成する.具体的には,学習データがある語の単語ベクトルの内挿により,それ以外の語の単語ベクトルを求め,その重み係数を検出器の重み付けに用いる.ここで,単語ベクトルとは,Mikolovらのword2vecなどにより,単語をベクトルで表し,ベクトル間の距離で単語間の類似度を算出できるものである.評価実験では,ImageNETにおける1000種類の物体画像を学習データとして用い,TRECVIDデータセットで,学習データに含まれていない346種類の物体・動作・シーンの検出を行った.その結果,Mean Average Precisionで0.153を得た.これは,Fisher vectorとTRECVIDの学習サンプル100個を用いて学習したサポートベクトルマシンに相当する性能である.