Abo
  1. Foren
  2. Kommentare
  3. Sonstiges
  4. Alle Kommentare zum Artikel
  5. › Core i9-7980XE im Test: Intel…

Keine AVX512 Benchmarks?

Anzeige
  1. Thema

Neues Thema Ansicht wechseln


  1. Keine AVX512 Benchmarks?

    Autor: Theoretiker 26.09.17 - 14:17

    Die großen Skylake Chips sollten doch inzwischen auch AVX512 unterstützen, oder? Die Consumervarianten haben das nicht, aber die Skylake-Xeon sollten das haben. Laut Intel ist die Leistung ja nochmal verdoppelt, weil die Vektorlänge verdoppelt worden ist. Realistisch scheitert es dann an der Speicherbandbreite, aber das ist eine andere Sache.

    Gerade für High Performance Computing wäre es schon interessant, weil dort der Code mit AVX512 läuft, zumindest teilweise.

  2. Re: Keine AVX512 Benchmarks?

    Autor: ms (Golem.de) 26.09.17 - 14:36

    Im Consumer-Segment gibt's AFAIK bisher nichts mit AVX512, nur AVX2 ... sieht man von Tools wie FLOPS oder y-Cruncher mal ab.

    Mit freundlichen Grüßen
    Marc Sauter
    Golem.de

  3. Re: Keine AVX512 Benchmarks?

    Autor: Bonita.M 26.09.17 - 16:05

    AVX-512 wird sicher bei manchen Distributed-Computing-Anwendungen die sich nicht auf die GPU übertragen lassen genutzt werden. Da könnten dann die Intel-CPUs die AMD-CPUs weit hinter sich lassen.

  4. Re: Keine AVX512 Benchmarks?

    Autor: Jürgen Troll 26.09.17 - 16:25

    So steht es wohl in der Werbebroschüre von Intel?

  5. Re: Keine AVX512 Benchmarks?

    Autor: Bonita.M 26.09.17 - 17:23

    > So steht es wohl in der Werbebroschüre von Intel?

    Intel würde wohl kaum die anteilig wenigen Leute die an DC-Projekten teilnehmen adressieren.
    Aber grundsätzlich ist es so, dass wenn man ein DC-Projekt was zwingend auf der CPU laufen muss und von AVX(2) gebrauch machen kann, das mit hoher Wahrscheinlichkeit noch mit AVX-512 gravierend zulegt.
    Es ist ja jetzt schon so, dass die Intel-CPUs in DC-Projekten die AVX nutzen deutlich die Nase ggü Zen-CPUs von AMD vorne haben weil die AMD-CPUs AVX-Operationen nicht mit einem Throughput von einem Takt rechnen können, sondern die AVX-Bündel in zwei hälften geteilt mit den SSE-Rechenwerken gerechnet werden.

  6. AVX? Gäähnn.....

    Autor: Crass Spektakel 26.09.17 - 18:18

    90 bis 99% der AVX-Anwendungen lassen sich auch als OpenCL/CUDA-Anwendung lösen die dann auf GPUs für einen Bruchteil der Kosten mit einem Vielfachen der Leistung läuft.

    OpenCL hat gegenüber AVX noch den Vorteil dass es hochportabel ist.

    Intel macht natürlich riesiges Gewese um AVX auf CPUs weil sie gegen OpenCL auf GPUs nicht aufbieten können.

    Wohlgemerkt, wäre AVX512 auf allen Intel-CPUs verfügbar dann wäre das schon interessant frei nach dem Motto besser haben und nicht brauchen als brauchen und nicht haben. Aber solange das nur auf sündhaftteuren Dongle-Abzock-CPUs verfügbar ist ist die Welt mit OpenCL besser bedient.

    Bestes Argument für AVX: Altlasten deren Portierung auf OpenCL nicht lohnen.

  7. Re: AVX? Gäähnn.....

    Autor: Theoretiker 27.09.17 - 09:42

    Crass Spektakel schrieb:
    --------------------------------------------------------------------------------
    > 90 bis 99% der AVX-Anwendungen lassen sich auch als OpenCL/CUDA-Anwendung
    > lösen die dann auf GPUs für einen Bruchteil der Kosten mit einem Vielfachen
    > der Leistung läuft.

    Die Krylov-Solver (Conjugate Gradient, BiCGStab), die wir in unseren Simulationen laufen, haben wir einmal als AVX512 und einmal als CUDA Implementierung. Im Institut haben wir Hardware mit NVIDIA P100 Karten, es scheint also letztlich auf den GPUs kosteneffizienter zu laufen als auf einer vergleichbaren Menge Intel Xeon Phi Knights Landing CPUs.

    > OpenCL hat gegenüber AVX noch den Vorteil dass es hochportabel ist.

    Das Ärgerliche ist nur, dass auf NVIDIA GPUs wohl CUDA einfach mehr Performance herausholen kann als OpenCL. Daher programmieren die Wissenschaftler in CUDA und die Rechenzentren kaufen von NVIDIA, weil die Leute ja CUDA nutzen. Da hat sich leider ein Vendor-Lock-In ergeben.

    > Intel macht natürlich riesiges Gewese um AVX auf CPUs weil sie gegen OpenCL
    > auf GPUs nicht aufbieten können.

    Die Knights Landing (KNL) sind je nach Anwendung schon in Ordnung, das OmniPath Fabric soll auch günstiger sein als Infiniband. NVIDIA mit NVLink ist da nochmal deutlich besser, aber das muss wohl extrem teuer sein.

    Intel nutzt im Marketing bei der theoretischen Leistung alles, was sie können. So multiplizieren sie einfach alles miteinander:

    - Anzahl der Kerne,
    - Anzahl Threads/HyperThreads,
    - Taktrate,
    - Vektorlänge, und
    - noch einen Faktor zwei, weil sie Fused-Multiply-Add (FMA oder axpy) annehmen.

    Dadurch entstehen bei KNL theoretische Rechenleistungn von 3.5 TF/s. Der MCDRAM hat mit 450 GB/s zwar eine enorme Bandbreite, ist jedoch bei Anwendungen mit geringer arithmetischer Intensität (Berechnungen pro Speicherzugriff) der limitierende Faktor. So holt der hochoptimierte Code dort um 400 GF/s heraus, also gut einen Faktor 8 weniger raus. Daher muss man da schon vorsichtig sein und wirklich mal messen.

    Und in jedem Takt auf jedem Thread eine FMA ausführen werden wohl die wenigsten Algorithmen.

    > Wohlgemerkt, wäre AVX512 auf allen Intel-CPUs verfügbar dann wäre das schon
    > interessant frei nach dem Motto besser haben und nicht brauchen als
    > brauchen und nicht haben. Aber solange das nur auf sündhaftteuren
    > Dongle-Abzock-CPUs verfügbar ist ist die Welt mit OpenCL besser bedient.

    Ist es mit Kaby Lake nicht bei den Consumern schon angekommen?

    Das Problem mit AVX512 ist auch, dass es davon ganz viele Ausbaustufen gibt. Wenn man in der Intel Intrinsics Übersicht mal AVX512 aufklappt sieht man die ganzen Varianten. Und dann muss man schauen, was der Chip davon überhaupt alles hat.

    KNL sind ja so bei 3000 EUR, das ist schon nicht für jeden bezahlbar. Und die großen Xeon sind ja sicher auch nicht viel günstiger.

    > Bestes Argument für AVX: Altlasten deren Portierung auf OpenCL nicht
    > lohnen.

    Ja und nein. Intel bewirbt die KNL Platform (und vorher KNC auch) ja als Alternative zu GPUs, gerade weil man damit einfach x86 Code ausführen kann. KNL bootet sogar ein ganz normales OS, sodass man das wie einen normalen Server mit Xeon nutzen kann. Und weil KNL ja auf dem Papier 3,5 TF/s kann, ist plötzlich alles ganz schnell.

    Leider gilt das eben nur, wenn man auch in jedem Takt eine AVX512-FMA nutzt, was die wenigsten Algorithmen wirklich füllen können. Dann muss der Code entsprechend umgeschrieben werden. Außerdem muss man in die 16 GB MCDRAM passen, damit man die VPUs überhaupt mit genug Daten versorgen kann. Zudem ist die Single-Core-Performance von KNL ziemlich schlecht, sodass nicht-parallelisierte Teile einen richtig nach unten ziehen. Somit muss man dann doch ziemlich viel Arbeit reinstecken, damit das schnell läuft.

    Und dann ist es vielleicht auch einfacher, die Hauptteile des Programms nochmal neu in CUDA oder OpenCL zu schreiben und dann das auf einer GPU machen. Man hat zwar dann noch das Problem mit dem Flaschenhals PCIe, aber je nach Anwendung kann sich das trotzdem rechnen.

  8. Re: AVX? Gäähnn.....

    Autor: burzum 29.09.17 - 14:04

    @Theoretiker klasse Beitrag, gehaltvollere Info als in manch längerem Artikel von Golem selbst! :)

    Ash nazg durbatulûk, ash nazg gimbatul, ash nazg thrakatulûk agh burzum-ishi krimpatul.

  9. Re: AVX? Gäähnn.....

    Autor: david430 30.09.17 - 21:30

    Theoretiker schrieb:
    --------------------------------------------------------------------------------
    > Crass Spektakel schrieb:
    > ---------------------------------------------------------------------------
    > -----
    > ...

    Algorithmen muss man ja auch für den GPU-Einsatz umschreiben und sich um das Hin-und Herschieben der Daten zwischen RAM und Grafikkartenspeicher kümmern. Jede Kontrollflussanweisung kostet auch auf Grafikkarten Leistung, da die Threads in Warps/Gleichschritt laufen. Im Endeffekt agieren die GPU-Threads parallel auf den Daten, ähnlich wie die CPU unter Einsatz von AVX. In beiden Fällen muss der Algorithmus also ein hohes Maß an Datenparallelität aufweisen. (um die Vorzüge der Beschleunigung ausnutzen zu können)

  10. Re: AVX? Gäähnn.....

    Autor: Theoretiker 01.10.17 - 14:35

    Definitiv! Wir haben dünnbesetzte lineare Algebra, allerdings mit einem sehr homogenen Stencil-Operator. Daher können wir gut auf GPU und CPU mit SIMD rechnen. Viele andere Operationen sind natürlich nicht so einfach parallelisierbar auf allen Ebenen, daher läuft das auch effizient.

    Wir haben auch keinen Kontrollfluss innerhalb des Stencils, können also so gut 2000 Operationen am Stück rechnen lassen.

Neues Thema Ansicht wechseln


Um zu kommentieren, loggen Sie sich bitte ein oder registrieren Sie sich. Zum Login

Anzeige
Stellenmarkt
  1. Dataport, Altenholz bei Kiel, Hamburg
  2. Transgourmet Deutschland GmbH & Co. OHG, Mainz, Riedstadt
  3. Deloitte, verschiedene Standorte
  4. CEMA AG, verschiedene Standorte

Golem pur
  • Golem.de ohne Werbung nutzen

Anzeige
Spiele-Angebote
  1. 79,98€ + 5€ Rabatt (Vorbesteller-Preisgarantie)
  2. (-75%) 7,49€
  3. mit Gutscheincode PCGAMES17 nur 82,99€ statt 89,99€


Haben wir etwas übersehen?

E-Mail an news@golem.de


ZFS ausprobiert: Ein Dateisystem fürs Rechenzentrum im privaten Einsatz
ZFS ausprobiert
Ein Dateisystem fürs Rechenzentrum im privaten Einsatz
  1. Librem 5 Purism zeigt Funktionsprototyp für freies Linux-Smartphone
  2. Pipewire Fedora bekommt neues Multimedia-Framework
  3. Linux-Desktops Gnome 3.26 räumt die Systemeinstellungen auf

Verschlüsselung: Niemand hat die Absicht, TLS zu knacken
Verschlüsselung
Niemand hat die Absicht, TLS zu knacken
  1. TLS-Zertifikate Zertifizierungsstellen müssen CAA-Records prüfen
  2. Apache-Lizenz 2.0 OpenSSL-Lizenzwechsel führt zu Code-Entfernungen
  3. Certificate Transparency Webanwendungen hacken, bevor sie installiert sind

Zotac Zbox PI225 im Test: Der Kreditkarten-Rechner
Zotac Zbox PI225 im Test
Der Kreditkarten-Rechner

  1. Spieleklassiker: Mafia digital bei GoG erhältlich
    Spieleklassiker
    Mafia digital bei GoG erhältlich

    Wer bisher den ersten Mafia-Teil mit einem aktuellen Windows-Betriebssystem am PC spielen wollte, benötigte eine spezielle DVD- oder die nicht mehr verfügbare Steam-Version. Bei GoG gibt es nun eine DRM-freie Ausgabe des Spieleklassikers, wenngleich einzig in Englisch und ohne die stimmungsvolle 30er-Jahre-Musik.

  2. Air-Berlin-Insolvenz: Bundesbeamte müssen videotelefonieren statt zu fliegen
    Air-Berlin-Insolvenz
    Bundesbeamte müssen videotelefonieren statt zu fliegen

    Die Air-Berlin-Pleite sorgt gezwungenermaßen für ein Umdenken in der Verwaltung. Statt teurer und nun auch langwieriger Dienstreisen per Zug sollen die Beamten mehr Videokonferenzen abhalten. Unumstritten ist der Einsatz von modernen Kommunikationsmethoden jedoch keineswegs.

  3. Fraport: Autonomer Bus im dichten Verkehr auf dem Flughafen
    Fraport
    Autonomer Bus im dichten Verkehr auf dem Flughafen

    Die R+V-Versicherung und Fraport testen auf dem Gelände Flughafen Frankfurt einen kleinen autonomen Elektrobus, der nicht etwa auf einem abgesperrten Gelände, sondern auf einer belebten Straße fährt. Dabei handelt es sich allerdings nicht um eine öffentliche Straße.


  1. 17:14

  2. 16:25

  3. 15:34

  4. 13:05

  5. 11:59

  6. 09:03

  7. 22:38

  8. 18:00