Home >

news ヘルプ

論文・著書情報


タイトル
和文:仮想マシンエミュレータを用いた特定故障パターン発生時に おけるアプリケーションの誤差の評価 
英文: 
著者
和文: 小林 佑矢, 實本 英之, 野村 哲弘, 松岡 聡.  
英文: Yuya Kobayashi, HIDEYUKI JITSUMOTO, Akihiro Nomura, SATOSHI MATSUOKA.  
言語 Japanese 
掲載誌/書名
和文:研究報告ハイパフォーマンスコンピューティング(HPC) 
英文: 
巻, 号, ページ 2016-HPC-155    10    1 - 7
出版年月 2016年8月1日 
出版者
和文: 
英文: 
会議名称
和文:2016年並列/分散/協調処理に関する『松本』サマー・ワークショップ (SWoPP2016) 
英文:Summer United Workshops on Parallel, Distributed and Cooperative Processing 
開催地
和文:長野県 松本市 
英文: 
公式リンク https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=174124&item_no=1&page_id=13&block_id=8
 
アブストラクト 高性能計算機の規模は年々大きくなっている.大規模化に伴う故障率の増加により,Silent Data Corruption (SDC) と呼ばれる問題が深刻になると予想されている.SDC はアプリケーションが異常な結果を出力するが,停止には至らないため計算結果の誤りを検知できない障害である.SDC に対処するため多くの研究が行われたが,計算機の変化とともに故障の種類や発生傾向も変化しており,新たな耐故障手法が求められている.本研究は連続したメモリデータの破壊または複数のビットエラーが DRAM 上に発生した際に,NAS Parallel Benchmark の CG カーネルに現れる SDC の調査を目的とする.またそのために,DRAM に特定の故障パターンを注入する故障発生器を,仮想マシンエミュレータである QEMU を拡張して作成した.これにより,SDC が発生しうること,アプリケーションの特性により SDC の発生割合が約 5%減少することを確認した.また連続したデータ破壊が発生したとき,アプリケーションは約 80%の割合で正常な結果を返すが,同じビット数のビットエラーを注入した際には約 90%の割合で異常終了することを確認した.

©2007 Tokyo Institute of Technology All rights reserved.