竹下世界塔の計算機よもやま話

アクセスカウンタ

zoom RSS ParallellaとEpiphanyチップ

<<   作成日時 : 2012/10/08 20:32   >>

なるほど(納得、参考になった、ヘー) ブログ気持玉 1 / トラックバック 0 / コメント 0

 ちょっと気になったので調べたメモ。

Parallella: A Supercomputer For Everyone

ここでの募集では16コア品と64コア品がある。
ベースにはZedboardを使用。Cortex-A9+FPGAのZynq-7000搭載。これをホストとして使っている。
Xilinx Zynq-7000
Zedboard

□主役のEpiphany(主顕祭)チップについて

Adapteva
Ten Processor Myths Debunked by the Epiphany-IV 64-Core Microprocessor (2012/09/08)
MICROPORCESSOR REPORT ADAPTEVA: MORE FLOPS, LESS WATTS (2011/06)[pdf]

N-E-W-S四方向の接続というとトランスピュータ。
トランスピュータ(Wikipedia)
浮動小数点演算を持ってきたのはコネクションマシンのCM-2で浮動小数点プロセッサを接続可能にしたのを連想。
コネクションマシン(Wikipedia)

 Epiphanyは2命令(整数とFPU)同時発行、32bit幅の64本の6R3Wレジスタファイル、命令/データが一緒の32KバイトRAM。キャッシュメモリではない。面積が増える分岐予測機構は持たず、パイプラインは6ステージ。整数演算は3オペランド、浮動小数点演算は4オペランド、積和演算を持っている。浮動小数点演算は単精度でIEEE754のサブセット。レイテンシが変わることがある除算、平方根は持たない。積和に特化している所がDSPっぽい。内部は縦横方向のインターコネクトで4×4または8×8コアを接続し、外部には1サイクルあたり64bitのバスが出ている。外部に直接メモリは接続できない。
 32bit(=4GB)のアドレス空間にそれぞれのコアのメモリをマッピング。NUMAですね。

 命令セットは公開しておらずお問い合わせください、と。Cortex-A9との比較が多いので似てるんじゃないだろうかと推測。開発ツール類も要お問い合わせ。

※追記 命令セットアーキテクチャ公開されてた
Epiphany Architecture Reference Manual


E64G401は28nmで面積は8.2mm^2。実装されるコアの規模を推定する。
NVDIA GK110 500mm^2/2880CUDAコアと比較して 8.2mm^2の面積には47.2CUDAコアはいる。つまりEpiphany1コアはCUDA1コアよりも小さい。

参考:NVIDIAが世界最多トランジスタ数のチップ「GK110」を公開

 これらから想像すると、Epiphanyはメモリが接続できないGPUと考えればよさそう。

 16コアのE16G301と64コアのE64G401がある。サイクル当たりの性能を計算して比較してみる。
Epiphany-III 16-core 65nm Microprocessor (E16G301) 2012/08/19
16 High Performance RISC CPU Cores
1 GHz Operating Frequency
32 GFLOPS Sustained Performance
512GB/s Local Memory Bandwidth 512÷16=32GB/s 1コアあたり、÷1GHzで1サイクルあたり32バイト=256bit、32bitアクセス同時に8つ
→ 命令フェッチに64、レジスタファイルへのアクセスに64、DMAに64、ルータに64なので計算は合う
64GB/s Network-On-Chip Bisection Bandwidth 16コアなので縦4本+横4本=8本のバス、102÷8÷1GHzで1サイクルあたり8バイト=64bit
8 GB/s Off-Chip Bandwidth 8÷1GHz=8 外部アクセスは1サイクルあたり8バイト=64bit
0.5 MB On-Chip Distributed Shared Memory 512KB÷32K 1コアあたり32KB
2 Watt Maximum Chip Power Consumption
IEEE Floating Point Instruction Set →単精度

Epiphany-IV 64-core 28nm Microprocessor (E64G401) 2012/08/19
64 High Performance RISC CPU Cores
800 MHz Operating Frequency
100 GFLOPS Sustained Performance
1638 GB/s Local Memory Bandwidth 1638÷64=25.59GB/s 1コアあたり、÷0.8GHzで1サイクルあたり32バイト=256bit、32bitアクセス同時に8つ
→ 命令フェッチに64、レジスタファイルへのアクセスに64、DMAに64、ルータに64なので計算は合う
102 GB/s Network-On-Chip Bisection Bandwidth 64コアなので縦8本+横8本=16本のバス、102÷16÷0.8GHzで1サイクルあたり8バイト=64bit
6.4 GB/s Off-Chip Bandwidth 6.4GB/s、 6.4÷0.8GHz=8 外部アクセスは1サイクルあたり8バイト=64bit
2 MB On-Chip Distributed Shared Memory 2048÷64個=32K 1コアあたり32KB
2 Watt Maximum Chip Power Consumption
IEEE Floating Point Instruction Set →単精度

・図はE16G301のままだなー

 これらにより、E16G301とE64G401はコアの構造は同じと判断できる。


 さて、ここまで調べてみた主な原因は45GHzといった現状ありえない宣伝の仕方。インチキな製品かと思ったよ。

当初は51GHzと言ってたらしい。
Googleキャッシュに残っていた記事。これだとコアは約800MHz換算。45GHzだと700MHz換算
64-core/51GHz/100GFLOPS/2W Microprocessor (E64G401)

 こんな計算方法だと「京」の場合、
24ボード×800筐体=19200個、1ボードあたり4CPUで76800個、1CPUあたり8コアで614400コア。2GHz動作だから12ペタヘルツ換算になっちゃうよ。

 セガサターンの32bit+32bitで64bitみたいな表現は誤解を招くのでやめてほしい。

テーマ

注目テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ
気持玉数 : 1
なるほど(納得、参考になった、ヘー)

トラックバック(0件)

タイトル (本文) ブログ名/日時

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文




ParallellaとEpiphanyチップ 竹下世界塔の計算機よもやま話/BIGLOBEウェブリブログ
文字サイズ:       閉じる