「京」CEATECレポート

 CEATEC2011の富士通ブースに「京」の1ノードが展示されていた。ボードも展示されていたのでじっくり観察し、色々質問してみた。
「次世代スーパーコンピュータ」:富士通

 京の原型はPRIMEPOWER for HPCから。これは同社の汎用UNIXサーバPRIMEPOWERをインターコネクトで接続したもので、16384CPUを実現していた。元々、汎用の商用UNIXサーバとして作られたGRANPOWER/PRIMEPOWERシリーズだが、SPARC64GPの頃からアウトオブオーダ実行などの効果でSunのUltraSPARCよりも速かった。浮動小数点演算も2個同時に実行できたのでなぜか大学からの引き合いがあった。おそらく、これがSPARC64VIIIfxを作る動機となったのだろう。

京


 これはCPU間の接続を示す六次元メッシュトーラスの模型。
 大きなボールが12個、密に接続されている。

京


 これはボール1個の拡大図。中には12個の小さいボール。これが1CPUに相当する。システムボードには4CPUあるので、3つのシステムボードで1個の大きなボールになる。1つの筐体には24ボードあるので、大きなボール8個に相当する。つまり、六次元メッシュトーラスの模型は1.5筐体に相当する。なお、1CPUには8コア内蔵している。
 ウエハーは直径30cmで、112個のダイが採れる(数えた)。45nmルールでダイサイズは22.6mm×22.7mm=513平方mm。参考までにIntelのBloomfieldは45nmで263平方mmということなので、倍くらいのサイズ。歩留まり心配。 参考:後藤弘茂のWeekly海外ニュース Intelの次世代CPU「Sandy Bridge」の正体

京


 システムボードについて。4個のCPU、4個のICC(インターコネクト)、DC-DCコンバータ、1CPUあたりDIMM8枚合計32枚、ALTERAのFPGA CycloneIII,MaxIIにフラッシュメモリ(STマイクロM29W640 NOR FLASH)。シンプルで部品種別が少ない。展示してあるボードの版数は005AD版であった。
 CPUとICCは1対1接続。CPUとICCは速度の関係からおそらくは同じ半導体プロセスで作られ、その他のLSIが必要な所はASICを起こさずFPGAで対処している。24ボード×800筐体=19200個なので新規設計してもよさそうだが、仕様変更に柔軟に対処できるようFPGAにしたのだろうか。フラッシュメモリは8Mbit+24MbitバンクのNOR FLASHだが用途はなんだろう?ボードごとの故障情報などのログ用だろうか?
 CPUとICCは銅製の水冷ヘッドで繋がれている。パイプの下部はプラスチックの受け皿らしきもので保護されており、液漏れによるシステムボード損傷対策と思われる。
 FPGAとフラッシュメモリの用途については恐らく低速の制御用との事だった。詳細は不明。
 メモリはMicron製のDDR3 Registered ECC付き2GB PC3-8500Rで1CPUあたり8枚(16GB)、4CPUで64GB。案外パソコン並。しかし1筐体に24ボードなので1536GBもある。これが800筐体で1,228,800GB=1.2PB!
しかもDIMMが2GBでこの容量なので4GBや8GBのDIMMに交換すれば倍率ドン、さらに倍の2.4PB、4.8PB。アイエエエ……気絶するしかない。

京


 筐体について。
 上段に12枚のシステムボードが斜め挿し、中段左側は電源12個、右側はPCIのインターフェース12個、その下にサービスプロセッサが2枚、すぐ下に起動ディスク、下段は12枚のシステムボードが斜め挿し。
同社のUNIXサーバが同程度のサイズの筐体にシステムボードが8枚くらいとすると、京は上下に合計24枚を搭載しているのでかなりの高密度。
 システムボード、電源、PCI-Expressのインターフェース、サービスプロセッサはホットスワップ可能。起動ディスクは非対応だが多重化してある。なお起動ディスクは2Uの19インチラックマウント品。筐体は一般的なPCサーバがすっぽり入るくらい大きい。
 内部の右側は水冷システムでポンプがひとつ見える。水冷システムは筐体単体では冗長ではないが、京を収める施設では水冷塔がありそこから冷却水が供給されるとのこと。
 ボード類が見える面はメンテナンス側で、実はその左側の鉄板が広報などで見える部分。エアフローはメンテナンス面から吸気、その反対側に排気。水冷しているのでさほど熱は持たないがDIMMなどの冷却のため、騒音はたいしたことないとか。(従来のUNIXサーバは下から吸気、上に排気でとてもうるさい)
 消費電力は公開されているそうで、TOP500の計測時に8割の構成で9.9MW。ただしディスクアレイなどもろもろ込み。
 信頼性については、TOP500計測時に93%の負荷で28Hの連続稼働とのこと。ただし最終構成ではないので、との断りがあったがあの台数でこの長時間ランニングはすごい。PCサーバだとどうだろうね?
 一般的なサーバと違い、イーサネットなどはインターコネクト直結しているので必要ない。サービスプロセッサ用に存在する。そのインターコネクト用ケーブルは筐体上部で引き回しているそうだ。

 OSはLinuxをSPARC64に移植し計算ノード向けに不要なコマンドなど省きインターコネクト周りのドライバを追加したもの。なんでSolarisにしなかったのだろうか―質問はしなかったが、特殊な構成のシステムであることとライセンス料の問題もあるかもしれない。

で、色々質問してみた。
「筐体にPCIスロットなんで?」「データディスク読み書きが一箇所だとボトルネックになってしまうので各筐体ごとにディスクアレイを繋ぐようにしている」
「サービスプロセッサ2枚あるけど?」「耐故障性能を高めるための冗長構成」
「電源は12個もあるけど?」「ホットスワップ可能な冗長構成」
あと、聞きもしないのにGPUと比べてSPARC64VIIIfxはフラットなメモリ構成でユーザにとってプログラミングしやすい、との話をされた。
「DIMMは2GB品だけど4GB/8GBは対応している?」「対応しているが予算の関係で2GB品」
「本当にPCIバスですか?PCI-Xじゃないの?」「PCIバスです」これでは遅い気がしたので別の日に確認したら「PCI-Expressです」

 できれば動態展示して欲しかったなあ。コンソールから謎スクリプトを実行すると別のグラフィック画面に怪しげな流体がリアルタイムで表示されて一堂「おおーっ」と。
動作状態での爆音も聞いてみたかったところだ。


・ICCの個数訂正。写真みたら4個でした。 thanks @Cozy57
・CPUボード→システムボード その他10/7の調査結果を反映
・サービスプロセッサはホットスワップ対応、I/OはPCI-Express、その他追記多数


ブログ気持玉

クリックして気持ちを伝えよう!

ログインしてクリックすれば、自分のブログへのリンクが付きます。

→ログインへ

なるほど(納得、参考になった、ヘー)
驚いた
面白い
ナイス
ガッツ(がんばれ!)
かわいい

気持玉数 : 0

この記事へのコメント

2011年10月07日 07:42
計算違いがあるらしいとご指摘がありました。また立ち仕事なので見直しが遅れます><

この記事へのトラックバック