次世代ナノ統合                           シミュレーションソフトウェアの研究開発
次世代ナノ統合                           シミュレーションソフトウェアの研究開発
トップページ

二次元分割並列三次元FFTの性能評価と実アプリケーションへの応用


(筑波大)○多田野寛人,高橋大介,佐藤三久,(分子研)吉田紀生,丸山豊,平田文男


1. はじめに
 本発表では,並列三次元FFTの並列度を向上させるアルゴリズムである,二次元分割並列三次元FFT[1]について述べる. 同アルゴリズムの実アプリケーションへの応用例として,3D-RISM法に適用し性能を評価する.


2. 二次元分割並列三次元FFT
 データ点数nが n = nx×ny×nz のときに,一次元方向(例えばz方向)のみに分割して三次元FFTを並列化する場合は,高々nz並列までの計算しか行うことができない(Fig. 1参照). 一方,二次元分割並列三次元FFT [1]では y, z 方向を分割して並列化を行っているため,最大でny×nzの並列化が可能となる(Fig. 2参照).

3. 実験結果
 実験にはマルチコア超並列クラスタであるT2K-Tsukubaシステムを用いた. コンパイラはIntel Fortran ver.10.1 を用い,コンパイルオプションは-O3 -xOとした. 通信ライブラリはMVAPICH2 1.2RC2 を用いた. 同システムはマルチコアクラスタであるため,OpenMPとMPIのハイブリッド並列による計算が可能である. OpenMP/MPIハイブリッド並列では,1プロセスあたり4スレッド並列で計算を行った.
 3D-RISM法に対して二次元分割並列三次元FFTを適用し,同FFTの性能評価を行った. 実験は水分子の透過に関係したたんぱく質であるアクアポリンを対象とし,x, y, z方向への分割数は256とした.
Table 1に,3D-RISM法において二次元分割三次元FFTに要した全体時間,通信時間(秒),及び通信時間の割合(%)を示す. 使用コア数が少ない場合は,flat MPI並列の方が高速であったが,1,024コア,2,048コアを使用した場合はOpenMP/MPIハイブリッド並列の方が高速になった. 16コアを用いたときの時間を基準とすると,2,048コアを用いた場合の速度向上率は,flat MPI:27.1,OpenMP/MPIハイブリッド:46.9となった. Table 1.二次元分割並列三次元FFTに要した全体時間,通信時間(秒),及び通信時間の割合(%).

 
Fig. 3に,使用コア数に対する3D-RISM法の速度向上率を示す.同図は16コアを用いたときを基準として算出している. 16コアから512コアを用いた計算では,Flat MPI, OpenMP/MPIハイブリッドともに同等の速度向上率を示した. 一方,1024コアを用いた場合の速度向上率は,Flat MPI: 29.2, OpenMP/MPIハイブリッド: 41.6であり,2048コアを用いた場合は,Flat MPI: 36.6, OpenMP/MPIハイブリッド:59.9 となった. 以上より,並列度が高い場合はOpenMP/MPIハイブリッドを用いることで高い速度向上率が得られた.
Fig.3 3D-RISM法の速度向上率.

【参考文献】
[1] D. Takahashi. An Implementation of Parallel 3-D FFT with 2-D Decomposition on a Massively Parallel Cluster of Multi-Core Processors, Proc. 8th International Conference on Parallel Processing and Applied Mathematics (PPAM 2009), Lecture Notes in Computer Science, No. 6067, pp. 606-614, Springer-Verlag (2010).



*出典:ナノ統合
第4回公開シンポジウム要旨集より。
 掲載に際しては多田野寛人助教、佐藤三久教授のご了承を得ています。



筑波大学計算科学研究センターへのリンク: http://www.ccs.tsukuba.ac.jp/CCS/index-j.html

前へ先頭へトップページ

分子研マーク 分子科学研究所
次世代スーパーコンピュータプロジェクト ナノ統合拠点事務局
*このページ内の著作権はすべて分子科学研究所に属します。無断転載等は一切お断りいたします。