|
|
PCIe XpressLiteGX Design Kit von PLDA |
|
Die südfranzösische Firma PLD Applications (
PLDA) offeriert
PCI Express-Karten
mit rekonfigurierbaren Logik-Chips (FPGAs) von Altera oder Xilinx
bereits zu Preisen von etwa 2000 Euro, das japanische Unternehmen
K&F Computing Research verlangt für die einfachste
PCI-X-Karte
GRAPE-7 model 100 mit einem Altera-Chip rund 1300 Euro. Mit dem
passenden Know-how lassen sich auch solche vergleichsweise günstigen
Erweiterungskarten als Coprozessoren zur Applikationsbeschleunigung
nutzen – die Firma
ClearSpeed
verlangt rund 8000 US-Dollar für ihre "Advance"-Boards mit zwei
CSX600-Prozessoren, für die es aber auch bereits fertige Software (für
Matlab 7.1/7.2 sowie Mathematica 5.2) und ein Software Development Kit
(SDK) gibt.
|
|
GRAPE-7 model 100 von K&F |
|
Atsushi Kawai vom
Saitama Institute of Technology der Universität Tokyo hat zwei
x86-PC-Mainboards
mit FPGA-Erweiterungskarten bestückt und in den FPGAs jeweils 10
beziehungsweise 16 parallel arbeitende Rechenwerke (Pipes) zur
Simulation des
N-Körper-Problems
der Astrophysik implementiert. Jede N-Körper-Pipe schaffte 38
Berechnungen pro Taktzyklus; bei 10 Pipes und 125 MHz Taktfrequenz
erreichte die PCIe-Karte von PLDA also 47,5 GFlop/s (20×38×125
Millionen Berechnungen/s), die PCI-X-Karte von K&F mit 16 Pipes und
133-MHz-Chip brachte es sogar auf 80,9 GFlop/s. Weil die selbst
zusammengebauten x86-Rechner samt Coprozessorkarten relativ günstig
waren, hat Kawai ein minimales Preis-Leistungsverhältnis von zunächst
158 und nach kleinen Optimierungen sogar 105 US-Dollar pro GFlop/s
errechnet; damit kam er unter die Finalisten in der
Preis-Leistungs-Kategorie für den anlässlich der Supercomputing 06
verliehenen
Gordon-Bell-Preis.
Wie auch andere bisher vorgestellte Coprozessoren für
Standardrechner (Cell-Blade, AMD Stream Processor) arbeiten die
Kawai-Rechenwerke mit einfacher (Single-Precision-)Genauigkeit; laut
Kawai ist das für das Simulationsprojekt aber ausreichend. Das von IBM
zum Listenpreis von knapp 19.000 US-Dollar vertriebene Blade mit zwei Cell BE soll etwas mehr als 500 GFlop/s liefern, der 2600 US-Dollar teure Stream Processor
auf Basis eines ATI-Grafikchips etwa 375 GFlop/s. Rechnet man
einen Basis-PC-Preis von grob geschätzten 1000 US-Dollar dazu,
kommt man beim Cell-BE-Blade zurzeit auf mindestens
40 USD/GFlop/s; günstiger ist die Cell-Karte von Mercury
(35 USD/GFlop/s). Beim Stream Processor fallen aber lediglich
9,6 USD/GFlop/s an – bei der ab 600 US-Dollar teuren
Playstation 3 kostet 1 GFlop/s gerade mal
3,12 US-Dollar, selbst wenn man einrechnet, dass dort nur 6 der
8 SPEs der Cell BE laufen (außerdem stehen nur 256 MByte
Speicher zur Verfügung). Ein PC mit ClearSpeed-Karte (2 CSX600 mit
zusammen 50 GFlop/s) bringt es nach dieser Rechnung auf
180 USD/GFlop/s, aber bei doppelter Genauigkeit – wenn eine
Cell BE wie versprochen etwa 25 GFlop/s in Double Precision
erreicht, liefert die Mercury-Karte also doppelt so teure Performance
(360 USD/GFlop/s); zum Glück gibt es aber auch noch Mixed-Precision-Tricks.
Die erwähnten Coprozessoren sind allerdings allesamt nicht
rekonfigurierbar, lassen sich also nicht optimal an die
Aufgabenstellung anpassen. Außerdem schlucken sie sehr viel mehr
elektrische Leistung als die FPGAs, die zwischen 10 und 25 Watt
benötigen.
Anzeige
|
Laut Intel erreicht ein Core-2-Duo-Kern bei 3 GHz (also etwa im
Xeon 5160 mit 80 Watt) 24 GFlop/s theoretische
Maximalleistung pro Kern, wenn seine SSE-Einheiten
Single-Precision-Gleitkommazahlen verarbeiten. In Double Precision
sollen es noch 12 GFlop/s sein – davon bleibt bei Messungen mit
dem Benchmark Linpack, der die Double-Precision-FP-Performance misst,
kaum mehr als die Hälfte übrig, mit weniger stark optimiertem Code also
noch weniger.
Coprozessor-Konzepte für HPC liegen zurzeit im Trend, siehe die Berichterstattung über AMD Torrenza und PCIe Geneseo. Dafür gibt es auch Fördermittel. Zurzeit konkurrieren noch viele unterschiedliche Konzepte und Schnittstellen, etwa CUDA von Nvidia, CTM für den AMD Stream Processor, das Cell-SDK für Linux oder das ClearSpeed-SDK.
(ciw/c't)