-
Integer
Autor: kernash 21.06.16 - 00:36
Ein Vergleich der Integer-Leistung statt floating point wäre interessant. Ich dachte, da kann die Architektur gegenüber GPUs punkten.
-
Re: Integer
Autor: Anonymer Nutzer 21.06.16 - 06:31
kernash schrieb:
--------------------------------------------------------------------------------
> Ein Vergleich der Integer-Leistung statt floating point wäre interessant.
> Ich dachte, da kann die Architektur gegenüber GPUs punkten.
Eben. Die Frage ist warum da nichts im Detail erwähnt wird. Lässt im Grunde nichts gutes erahnen. -
Re: Integer
Autor: Ext3h 21.06.16 - 10:04
kernash schrieb:
--------------------------------------------------------------------------------
> Ein Vergleich der Integer-Leistung statt floating point wäre interessant.
> Ich dachte, da kann die Architektur gegenüber GPUs punkten.
Nein, mal ganz davon abgesehen das Integer-Leistung auch kaum relevant ist.
Wo die GPUs sich allerdings massiv von den Goldmont-Kernen im Knights Landing unterscheiden, ist die erzwungende SIMD Architektur bei den GPUs. Sprich mindestens 32 (Nvidia) bzw. 64 (AMD) Threads müssen immer im Gleichschritt laufen
Jede Form von konditioneller Ausführung die nicht jeweils die gesamte Threadgruppe betrifft führt unmittelbar zu Leistungseinbußen.
Die Knights Landing haben zwar auch SIMD-Instruktionen die auch nötig sind um die nominelle Leistung zu erreichen, dieses sind allerdings deutlich(!) schmaler. Die Kerne erreichen dank Out-of-order-Execution, komplexer Brandprediktion und dergleichen eine deutlich höhere Leistung bzw. Durchsatz pro Thread, und brauchen damit im Vergleich zu GPUs wesentlich weniger Threads pro Kern für eine komplette Auslastung.
Im Gegenzug sind die Kerne aber auch um ein vielfaches größer, und schlucken im direkten Vergleich zu einer GPU bei gleicher Leistung auch entweder mehr Strom, oder nehmen wesentlich mehr Platz ein.
Es gibt mehr als genug Probleme bei denen die Ausführungsstrategie der GPUs nicht wirklich gut geeignet ist, entweder weil sich das Problem nicht trivial auf zehntausende Threads (sondern max. ein paar hundert) aufteilen lässt, oder weil sich keine Threadgruppen finden lassen die zuverlässig dem gleichen Ablaufpfad folgen.
Im Gegenzug sind die GPUs bei Problemen bei denen das gut funktioniert einfach in jeder Hinsicht unschlagbar. Mal abgesehen von noch stärker spezialisierten ASICs. -
Re: Integer
Autor: L3G0 21.06.16 - 15:12
Nicht zu vergessen sollte hierbei auch sein, das für Wissenschaftler/Ingenieure/... die sich nicht in CUDA eingearbeitet haben, die Entwicklung mit Xeon Phi um ein vielfaches leichter ist.
Negativ ist, das die angegebenen TeraFlop Werte - zumindestens bei den Vorgängern - das Maximum unter Verwendung von FMA darstellen. Multipliziert man mal nicht gerade zufällig Matrizen, wo man massiv von dem FMA profitiert, wird die Leistung nur bei der Hälfte liegen. - Wie dies bei den Grafikchips ist kann ich gerade gar nicht sagen, habe nur zu Testzwecken selbst in CUDA Programmiert.