学術情報処理研究 No.1 1997 pp.90-100

並列計算機の最新技術動向-日立SR2201を中心に-


(株)日立製作所 汎用コンピュータ事業部 HPC推進センタ

神奈川県秦野市堀山下1番地
TEL 0463-88-8129 , FAX 0463-88-8262 
Email sr2201@kanagawa.hitachi.co.jp

概要

 科学技術計算分野での大規模な計算ニーズに対応するため、RISCプロセッサを複数 台並列処理させる、超並列計算機の日立SR2201を紹介する。SR2201では、擬似ベクトル機構や 3次元クロスバネットワークを採用し、実行性能、スケーラビリティ、操作性を高めている。

キーワード

 超並列計算機、スーパーコンピュータ、擬似ベクトル機構


The state of the art technology of massively parallel processors -HITACHI SR2201-


HPC Business Center
General Computer Division, Hitachi,Ltd.


1 Horiyamasita,Hadano-shi,kanagawa-ken,259-13,Japan

Abstract

 We introduce the massively parallel processor SR2201 to meet accelerating demands for higher performance in engineering/scientific community. The system has been designed with special emphasis on sustained performance, salability, and flexibility in operation. The most notable is the pseudo vector feature and the three-dimensional crossbar network.

Keywords

 massively parallel processor, supercomputer,pseudo vector feature

1.はじめに

 計算物理学や構造解析,流体解析などの数値解析をはじめとする科学技術計算分野では, これまでベクトル型スーパーコンピュータが幅広く利用されていますが、この分野の計算 ニーズは急速にのびています。
 これに対し、近年進歩の著しいRISC型高速プロセッサを用い、これを多数結合した 超並列計算機は、科学技術計算において一般的に良好なコストパフォースを有し、 総合性能/メモリ容量/一貫したプログラム技術等の点で高いスケーラビリティを 実現できます。並列コンピュータSR2201はこのようなニーズに対応する製品です。

2.SR2201の特長

 並列コンピュータSR2201は新開発のRISCプロセッサを採用し、最小8プロセッサ から最大2048プロセッサまでのレパートリがあります。研究室向きのコンパクト モデルと、センタマシン用のハイエンドモデルとがあり、最大構成の2048プロセッサ では、浮動小数点演算を1秒間に最大約6000億回実行できる演算性能(約600GFLOPS) を持っています。(図1参照)




 このRISCプロセッサには、大規模計算での実行性能を高める擬似ベクトル処理 機構を搭載しています。
 また、これらのプロセッサ間を3次元クロスバネットワークにより高速に接続し、 高いシステム性能が実現できます。またSR2201システムは、国際標準のUNIXプラ ットフォームでオープン化に対応しています。

3.ハードウエア

 ハードウェアは、各々のプロセッサおよびプロセッサを結合するプロセッサ間ネット ワークに以下のような特長を持っています。

3.1ハードウエアの構成と仕様

 SR2201のハードウエア構成例を図2に、仕様をTable 1に示します。 PE(Processing Element)は3次元に配列され、PE間をクロスバスイッチが3方向 (x,y,z)に接続します。PEは計算を行なうPU(計算ユニット)と、主にIO処理を行なう IOU(IOユニット)に分かれます。また、IOUにはシステム全体の制御を行なう SIOU(Supervisory IOU)が含まれます。IOUにはディスク、ネットワークインタフェ ース等のIOが接続されます。









 PEの処理速度はピーク300MFLOPS、PEの主記憶容量は最大1GB、PE間ネット ワーク(クロスバ)の転送速度は片方向ピーク300MB/s、双方向で600MB/sです。

3.2ハードウエアの機能と特長

 以下にSR2201の主なハードウェア機能を示します。

(1) 擬似ベクトル処理機構
 擬似ベクトル処理機構はPE での数値計算を高速化するための支援機構です。
 従来のRISCプロセッサでは,データがキャッシュからあふれるような大規模数値計 算では、データがキャッシュにある時に比べ大きく性能が低下します。この原因は、 キャッシュからあふれると計算に必要なデータを読み出す時間が、主記憶から読みだ す時間分かかり、要素毎の処理(データ読み出し-計算-ストア)時間が大きくなるからで す。
 擬似ベクトル処理機構(図3参照)では、1)浮動小数点レジスタの本数の増大 2)パイプライン動作可能なメモリを構成 3)後続命令の実行を止めない でメモリから直接データを浮動小数点レジスタに取り込むメモリ先読みをサポートしました。




 これによって異なる要素のデータ読み出し、計算、ストアの同時実行が可能になり、 上記のメモリレイテンシによる性能低下を防ぎます(図4参照)。




(2) 3次元クロスバネットワーク
 並列処理は演算処理をPE上に分割配置し、部分処理に変換、実行し、結果を集約 するプロセスです。従って高速化のためには、各PEでの演算処理の高速化とともに、 分割、集約のオーバヘッドをいかに小さくするかが重要になります。
 SR2201は、3次元クロスバネットワークを採用することにより論理的に他のトポ ロジーの結合網を大部分包含でき、しかも種々の転送パターンにおいても,結合網での 制約(衝突)による性能の低下を起こすことなく通信が可能となります。

(3) リモートDMA転送
 通常のPEの通信はOSを介した通信であり、送信側PEはユーザー空間内のデー タをOSの送信バッファにコピーし、受信側PEに転送します。受信側PEはOSの 受信バッファにこれを受け、受信するユーザープロセスから要求を受けるとデータを ユーザー空間にコピーします。
これに対しリモートDMA転送は、OSを介さずユーザー空間からユーザー空間へ 直接データを転送します。これによって通信処理オーバヘッドを低減でき、ネットワ ークの高速性を最大限に活用し、大量のデータをPE間で高速に転送することができ ます。(図5、図6参照)






(4) 分割運転機能
 柔軟なシステムの運転を可能にするために、ハードウエアによる分割運転機能をサ ポートしています。分割時には分割したユニットはいくつかのグループに分けられ、 それぞれのグループで独立してプログラムやアプリケーションが実行できます。分割 は最大8分割まで可能です。

4.ソフトウェア

 SR2201をサポートするオペレーティングシステム(HI-UX/MPP)は、並列・分散用 OSとして最新の技術を取り入れたMachマイクロカーネルをベースとし、その上 に業界標準・国際標準に準拠した仕様を採用したUNIXサーバを搭載したOSです。こ のマイクロカーネル方式の採用により、並列コンピュータを従来UNIXシステムと同 様な使い勝手で利用することが可能となります。

4.1ソフトウェア構成

 Table 2にSR2201に搭載されるソフトウェア構成を示します。





4.2ソフトウェアの特長

 SR2201に搭載されるソフトウェアの特長は以下の通りです.

(1)シングルUNIXシステム
 SR2201の計算ノードにはマイクロカーネルのみを搭載し、I/Oノードにはマイク ロカーネル及びUNIXサーバを搭載します。マイクロカーネル及びUNIXサーバの連 携により、ユーザやプログラム及びネットワークに接続された外部のコンピュータか ら一つのUNIXシステムであるかのように見えます。これにより計算ノードの位置に よらずすべてのノードからファイルシステムや外部ネットワークを一元的にアクセ スすることができます。
図7にシングルUNIXシステムの概念図を示します.





(2)擬似ベクトル化に対応した言語プロセッサ
 最適化FORTRAN90(FORTRAN77仕様を含みます)、最適化C、最適化C++、Parallel FORTRANを提供します。
 最適化FORTRAN90、最適化C、最適化C++では、ホストやWSで実現した強力 な最適化に加えて、単体CPU性能を引き出す擬似ベクトル化オブジェクトを出力す る最適化機能を追加しています。
 また、Parallel FORTRANではHPF(High Performance FORTRAN)第1.0版をサ ポートし、データ分割を指示するだけで並列プログラムを作成することができます。
更に、WS上でSR2201の実行コードを生成するクロスコンパイラ(FORTRAN,C) を提供しており、WS上での一貫したプログラム開発が行えSR2201を計算処理に専 念させることができます。

(3)並列プログラム開発支援
 並列プログラム開発支援ツールとしてPARALLELWAREを提供します。 PAERALLELWAREではメッセージパッシング方式の並列プログラムの開発を 支援する並列ライブラリ、チューニング用のパフォーマンスモニタ、並列デバッガを 提供します(PARALLELWAREの米国での製品名称はExpressです)。  また、国際標準的な並列ライブラリであるMPI,PVMもサポートしています。

(4)並列化に対応した数値計算ライブラリ
 行列計算副ライブラリとしてMATRIX/MPP及びMATRIX/MPP/SSSを提供しま す。MATRIX/MPPは連立1次方程式や、固有値、高速フーリエ変換、擬似乱数生成 といった技術計算の分野でよく使われる計算を並列処理する副プログラムライブラ リであり、FORTRAN、Cプログラムから容易に利用することが出来ます。
 MATRIX/MPP/SSSは構造解析の分野で扱う大次元疎行列に対する連立1次方程式 の解法の一つである高性能スカイライン法ライブラリです。 MATRIX/MPP同様に並列化がなされており、FORTRAN、Cプログラムから容易に 利用することが出来ます。

(5)柔軟な運用機能
 以下に示す豊富な運用機能により効果的な利用が可能となります。

(a)対話処理とバッチ処理
 HI-UX/MPPは直接ログインして使用する対話処理機能とNQSを使用したバッチ処 理機能を提供します。

(b)パーティション分割によるノードスケジューリング
 運用に応じて計算ノードを任意のノード数毎にグルーピングし、複数のパーティシ ョンに分割して運用できます。ノードの割り当てはコマンド/ジョブ中で指定したパー テイションの中から行います。バッチジョブではNQSのジョブキューとパーテイシ ョンの対応付けが行われ、指定したジョブキューに対応するパーティションの中から ノードの割り当てが行われます。
各パーティションには種々の属性を設定でき多様な運用に対応することが出来ま す。属性には特定のユーザ/グループにパーティションを占有使用させる属性、パーテ ィション内のノードを一つのユーザ/ジョブに占有使用させる属性、パーティション中 で同時実行させる多重度数等の属性を付与することができます。(図8参照)






(c)上限値管理機能
 プロセス単位及びプロセスグループ単位にシステム資源(CPU使用量、メモリ使用 量ファイル使用量など)の使用状況をチェックし、あらかじめ設定した上限値を越えた ジョブの実行を打ち切ることができます。

(d)予実算管理機能
 ユーザやグループ及び課金番号毎の予算値の設定と実算値の集計ができ、予算内で の使用を制御することが出来ます。

(6)リアルタイムでの稼働・性能モニタ(リアルタイムパフォーマンスモニタ)
 リアルタイムパフォーマンスモニタは外部ネットワークに接続された日立WS画 面上にSR2201のシステム資源(CPU,メモリ,ネットワーク)の使用状況をリアルタイ ムで表示することが出来ます。これにより実行中の並列プログラムやOSの各ノード 上での動作状況が視覚的に把握できるようになり、システムの負荷分散や負荷集中の 状況及び並列プログラムの並列化状況やホットスポット・ボトルネック等を解析する ことができます。
稼働・性能モニタ情報をディスクのログファイルに保存しておき、プレイバック表 示することもできます。

5.最先端の半導体と実装技術

(1) 高速プロセッサ
 各PEのCPUは、最先端の0.3μm CMOSテクノロジを用いて新たに開発した高 速RISC プロセッサです。

(2) 高密度モジュール
 CPUチップ、メモリ制御LSI、通信制御LSI、2次キャッシュメモリを高密度セラ ミック配線基板にコンパクトに実装することで最大1GBのメモリをもつPEを約 15cmx20cmの面積に凝縮しました。

(3)筐体構造
 最新の実装技術により、パッケージ(LSI搭載基板)あたり8台のPEの搭載を可能にしました。 (図9参照)16枚のパッケージと32個のクロスバLSIを1枚のプリント基板に実装する マザーボードを開発し、ハイエンドモデルでは、このマザーボードを2段積みにすることに よって1筐体で256PEの格納を可能にし、性能あたりの設置スペースを従来の1/8の大きさまで にしました(当社比)。






(4)冷却方式
 高密度実装に対応した冷却技術により、空冷方式で冷却することができます。
 これらの最新の実装技術により、SR2201はその性能に対して著しい省電力、省スペ ースを特長としています。

6.性能

 SR2201の性能について、著名なLINPACK(96.6.6, J.Dongarra, Table 3)についての 結果を図10に示します。このSR2201/1024PEのLINPACK性能は、現在世界最高ク ラスを達成しています。




7.おわりに

 以上SR2201のハードウェア、ソフトウェア、性能例について簡単に述べました。 並列コンピュータは実行性能の高い演算処理とともに、使いやすさや利用アプリ ケーションの拡充が重要であり、この点に力点を置き開発しました。今後とも ユーザニーズに合う高速計算機の提供に努力していきます。



Contents Back Next