Abo
  1. Foren
  2. Kommentare
  3. Sonstiges
  4. Alle Kommentare zum Artikel
  5. › Core i9-7980XE im Test: Intel…

Keine AVX512 Benchmarks?

Anzeige
  1. Thema

Neues Thema Ansicht wechseln


  1. Keine AVX512 Benchmarks?

    Autor: Theoretiker 26.09.17 - 14:17

    Die großen Skylake Chips sollten doch inzwischen auch AVX512 unterstützen, oder? Die Consumervarianten haben das nicht, aber die Skylake-Xeon sollten das haben. Laut Intel ist die Leistung ja nochmal verdoppelt, weil die Vektorlänge verdoppelt worden ist. Realistisch scheitert es dann an der Speicherbandbreite, aber das ist eine andere Sache.

    Gerade für High Performance Computing wäre es schon interessant, weil dort der Code mit AVX512 läuft, zumindest teilweise.

  2. Re: Keine AVX512 Benchmarks?

    Autor: ms (Golem.de) 26.09.17 - 14:36

    Im Consumer-Segment gibt's AFAIK bisher nichts mit AVX512, nur AVX2 ... sieht man von Tools wie FLOPS oder y-Cruncher mal ab.

    Mit freundlichen Grüßen
    Marc Sauter
    Golem.de

  3. Re: Keine AVX512 Benchmarks?

    Autor: Bonita.M 26.09.17 - 16:05

    AVX-512 wird sicher bei manchen Distributed-Computing-Anwendungen die sich nicht auf die GPU übertragen lassen genutzt werden. Da könnten dann die Intel-CPUs die AMD-CPUs weit hinter sich lassen.

  4. Re: Keine AVX512 Benchmarks?

    Autor: Jürgen Troll 26.09.17 - 16:25

    So steht es wohl in der Werbebroschüre von Intel?

  5. Re: Keine AVX512 Benchmarks?

    Autor: Bonita.M 26.09.17 - 17:23

    > So steht es wohl in der Werbebroschüre von Intel?

    Intel würde wohl kaum die anteilig wenigen Leute die an DC-Projekten teilnehmen adressieren.
    Aber grundsätzlich ist es so, dass wenn man ein DC-Projekt was zwingend auf der CPU laufen muss und von AVX(2) gebrauch machen kann, das mit hoher Wahrscheinlichkeit noch mit AVX-512 gravierend zulegt.
    Es ist ja jetzt schon so, dass die Intel-CPUs in DC-Projekten die AVX nutzen deutlich die Nase ggü Zen-CPUs von AMD vorne haben weil die AMD-CPUs AVX-Operationen nicht mit einem Throughput von einem Takt rechnen können, sondern die AVX-Bündel in zwei hälften geteilt mit den SSE-Rechenwerken gerechnet werden.

  6. AVX? Gäähnn.....

    Autor: Crass Spektakel 26.09.17 - 18:18

    90 bis 99% der AVX-Anwendungen lassen sich auch als OpenCL/CUDA-Anwendung lösen die dann auf GPUs für einen Bruchteil der Kosten mit einem Vielfachen der Leistung läuft.

    OpenCL hat gegenüber AVX noch den Vorteil dass es hochportabel ist.

    Intel macht natürlich riesiges Gewese um AVX auf CPUs weil sie gegen OpenCL auf GPUs nicht aufbieten können.

    Wohlgemerkt, wäre AVX512 auf allen Intel-CPUs verfügbar dann wäre das schon interessant frei nach dem Motto besser haben und nicht brauchen als brauchen und nicht haben. Aber solange das nur auf sündhaftteuren Dongle-Abzock-CPUs verfügbar ist ist die Welt mit OpenCL besser bedient.

    Bestes Argument für AVX: Altlasten deren Portierung auf OpenCL nicht lohnen.

  7. Re: AVX? Gäähnn.....

    Autor: Theoretiker 27.09.17 - 09:42

    Crass Spektakel schrieb:
    --------------------------------------------------------------------------------
    > 90 bis 99% der AVX-Anwendungen lassen sich auch als OpenCL/CUDA-Anwendung
    > lösen die dann auf GPUs für einen Bruchteil der Kosten mit einem Vielfachen
    > der Leistung läuft.

    Die Krylov-Solver (Conjugate Gradient, BiCGStab), die wir in unseren Simulationen laufen, haben wir einmal als AVX512 und einmal als CUDA Implementierung. Im Institut haben wir Hardware mit NVIDIA P100 Karten, es scheint also letztlich auf den GPUs kosteneffizienter zu laufen als auf einer vergleichbaren Menge Intel Xeon Phi Knights Landing CPUs.

    > OpenCL hat gegenüber AVX noch den Vorteil dass es hochportabel ist.

    Das Ärgerliche ist nur, dass auf NVIDIA GPUs wohl CUDA einfach mehr Performance herausholen kann als OpenCL. Daher programmieren die Wissenschaftler in CUDA und die Rechenzentren kaufen von NVIDIA, weil die Leute ja CUDA nutzen. Da hat sich leider ein Vendor-Lock-In ergeben.

    > Intel macht natürlich riesiges Gewese um AVX auf CPUs weil sie gegen OpenCL
    > auf GPUs nicht aufbieten können.

    Die Knights Landing (KNL) sind je nach Anwendung schon in Ordnung, das OmniPath Fabric soll auch günstiger sein als Infiniband. NVIDIA mit NVLink ist da nochmal deutlich besser, aber das muss wohl extrem teuer sein.

    Intel nutzt im Marketing bei der theoretischen Leistung alles, was sie können. So multiplizieren sie einfach alles miteinander:

    - Anzahl der Kerne,
    - Anzahl Threads/HyperThreads,
    - Taktrate,
    - Vektorlänge, und
    - noch einen Faktor zwei, weil sie Fused-Multiply-Add (FMA oder axpy) annehmen.

    Dadurch entstehen bei KNL theoretische Rechenleistungn von 3.5 TF/s. Der MCDRAM hat mit 450 GB/s zwar eine enorme Bandbreite, ist jedoch bei Anwendungen mit geringer arithmetischer Intensität (Berechnungen pro Speicherzugriff) der limitierende Faktor. So holt der hochoptimierte Code dort um 400 GF/s heraus, also gut einen Faktor 8 weniger raus. Daher muss man da schon vorsichtig sein und wirklich mal messen.

    Und in jedem Takt auf jedem Thread eine FMA ausführen werden wohl die wenigsten Algorithmen.

    > Wohlgemerkt, wäre AVX512 auf allen Intel-CPUs verfügbar dann wäre das schon
    > interessant frei nach dem Motto besser haben und nicht brauchen als
    > brauchen und nicht haben. Aber solange das nur auf sündhaftteuren
    > Dongle-Abzock-CPUs verfügbar ist ist die Welt mit OpenCL besser bedient.

    Ist es mit Kaby Lake nicht bei den Consumern schon angekommen?

    Das Problem mit AVX512 ist auch, dass es davon ganz viele Ausbaustufen gibt. Wenn man in der Intel Intrinsics Übersicht mal AVX512 aufklappt sieht man die ganzen Varianten. Und dann muss man schauen, was der Chip davon überhaupt alles hat.

    KNL sind ja so bei 3000 EUR, das ist schon nicht für jeden bezahlbar. Und die großen Xeon sind ja sicher auch nicht viel günstiger.

    > Bestes Argument für AVX: Altlasten deren Portierung auf OpenCL nicht
    > lohnen.

    Ja und nein. Intel bewirbt die KNL Platform (und vorher KNC auch) ja als Alternative zu GPUs, gerade weil man damit einfach x86 Code ausführen kann. KNL bootet sogar ein ganz normales OS, sodass man das wie einen normalen Server mit Xeon nutzen kann. Und weil KNL ja auf dem Papier 3,5 TF/s kann, ist plötzlich alles ganz schnell.

    Leider gilt das eben nur, wenn man auch in jedem Takt eine AVX512-FMA nutzt, was die wenigsten Algorithmen wirklich füllen können. Dann muss der Code entsprechend umgeschrieben werden. Außerdem muss man in die 16 GB MCDRAM passen, damit man die VPUs überhaupt mit genug Daten versorgen kann. Zudem ist die Single-Core-Performance von KNL ziemlich schlecht, sodass nicht-parallelisierte Teile einen richtig nach unten ziehen. Somit muss man dann doch ziemlich viel Arbeit reinstecken, damit das schnell läuft.

    Und dann ist es vielleicht auch einfacher, die Hauptteile des Programms nochmal neu in CUDA oder OpenCL zu schreiben und dann das auf einer GPU machen. Man hat zwar dann noch das Problem mit dem Flaschenhals PCIe, aber je nach Anwendung kann sich das trotzdem rechnen.

  8. Re: AVX? Gäähnn.....

    Autor: burzum 29.09.17 - 14:04

    @Theoretiker klasse Beitrag, gehaltvollere Info als in manch längerem Artikel von Golem selbst! :)

    Ash nazg durbatulûk, ash nazg gimbatul, ash nazg thrakatulûk agh burzum-ishi krimpatul.

  9. Re: AVX? Gäähnn.....

    Autor: david430 30.09.17 - 21:30

    Theoretiker schrieb:
    --------------------------------------------------------------------------------
    > Crass Spektakel schrieb:
    > ---------------------------------------------------------------------------
    > -----
    > ...

    Algorithmen muss man ja auch für den GPU-Einsatz umschreiben und sich um das Hin-und Herschieben der Daten zwischen RAM und Grafikkartenspeicher kümmern. Jede Kontrollflussanweisung kostet auch auf Grafikkarten Leistung, da die Threads in Warps/Gleichschritt laufen. Im Endeffekt agieren die GPU-Threads parallel auf den Daten, ähnlich wie die CPU unter Einsatz von AVX. In beiden Fällen muss der Algorithmus also ein hohes Maß an Datenparallelität aufweisen. (um die Vorzüge der Beschleunigung ausnutzen zu können)

  10. Re: AVX? Gäähnn.....

    Autor: Theoretiker 01.10.17 - 14:35

    Definitiv! Wir haben dünnbesetzte lineare Algebra, allerdings mit einem sehr homogenen Stencil-Operator. Daher können wir gut auf GPU und CPU mit SIMD rechnen. Viele andere Operationen sind natürlich nicht so einfach parallelisierbar auf allen Ebenen, daher läuft das auch effizient.

    Wir haben auch keinen Kontrollfluss innerhalb des Stencils, können also so gut 2000 Operationen am Stück rechnen lassen.

Neues Thema Ansicht wechseln


Um zu kommentieren, loggen Sie sich bitte ein oder registrieren Sie sich. Zum Login

Anzeige
Stellenmarkt
  1. BG-Phoenics GmbH, Hannover
  2. Autobahndirektion Südbayern, München
  3. Robert Bosch GmbH, Stuttgart, Vaihingen
  4. operational services GmbH & Co. KG, Sindelfingen

Golem pur
  • Golem.de ohne Werbung nutzen

Anzeige
Spiele-Angebote
  1. 25,99€
  2. (-85%) 5,99€
  3. (-44%) 13,99€


Haben wir etwas übersehen?

E-Mail an news@golem.de


Vorratsdatenspeicherung: Die Groko funktioniert schon wieder
Vorratsdatenspeicherung
Die Groko funktioniert schon wieder
  1. Dieselgipfel Regierung fördert Elektrobusse mit 80 Prozent
  2. Gutachten Quote für E-Autos und Stop der Diesel-Subventionen gefordert
  3. Sackgasse EU-Industriekommissarin sieht Diesel am Ende

2-Minuten-Counter gegen Schwarzfahrer: Das sekundengenaue Handyticket ist möglich
2-Minuten-Counter gegen Schwarzfahrer
Das sekundengenaue Handyticket ist möglich
  1. Handy-Ticket in Berlin BVG will Check-in/Be-out-System in Bussen testen
  2. VBB Schwarzfahrer trotz Handy-Ticket

Kilopower: Ein Kernreaktor für Raumsonden
Kilopower
Ein Kernreaktor für Raumsonden
  1. Raumfahrt Nasa zündet Voyager-Triebwerke nach 37 Jahren
  2. Bake in Space Bloß keine Krümel auf der ISS
  3. Raumfahrtpionier Der Mann, der lange vor SpaceX günstige Raketen entwickelte

  1. Niederlande: Deutsche Telekom übernimmt Tele2
    Niederlande
    Deutsche Telekom übernimmt Tele2

    Die Telekom legt in den Niederlanden ihr Geschäft mit Tele2 zusammen. Damit wollen die Netzbetreiber besser mit VodafoneZiggo konkurrieren.

  2. Drive Me: Volvo macht Rückzieher bei autonomen Autos
    Drive Me
    Volvo macht Rückzieher bei autonomen Autos

    Volvos Versuch, autonom fahrende Autos auf normale Straßen zu lassen, soll laut einem Medienbericht intern ausgebremst worden sein. Das Projekt Drive Me hat offenbar Probleme und will zunächst kleiner starten als geplant.

  3. Astronomie: Die acht Planeten von Kepler-90
    Astronomie
    Die acht Planeten von Kepler-90

    Bei der Auswertung von Daten des Kepler-Weltraumteleskops mit einem neuronalen Netzwerk haben Astronomen einen achten Planeten in einem fernen Sternsystem gefunden. Ein neuer Rekord.


  1. 09:01

  2. 08:58

  3. 08:31

  4. 08:16

  5. 07:53

  6. 07:17

  7. 16:10

  8. 15:30