1. Foren
  2. Kommentare
  3. Internet
  4. Alle Kommentare zum Artikel
  5. › Rekord: Startup sortiert 100 Terabyte…

Welche Art der Sortierung/Verarbeitung?

  1. Thema

Neues Thema Ansicht wechseln


  1. Welche Art der Sortierung/Verarbeitung?

    Autor: Didatus 15.10.14 - 09:49

    Grundsätzlich klingt es ja schon nach einer guten Leistung, so viel in so kurzer Zeit zu verarbeiten. Allerdings könnte man die Leistung sicherlich noch besser einschätzen, wie genau die Daten Verarbeitet wurden und was für Daten es denn waren. Ich sag mal 100TB Textdateien nach dem Dateinamen sortieren ist sicherlich Leistungstechnisch günstiger, als 100TB Bilder nach Motiv zu sortieren, nur um mal zwei Extreme zu nennen.

  2. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: purzelbaum 15.10.14 - 09:57

    Es kommt doch auch noch dadrauf an wieviele dateien es waren. & ohne mich da auszukennen: wie die dateien im vorhinein lagen d.h. nicht jeder dieser wettbeqetb hat die gleichen voraussetzungen oder wird das immer mit den gleichen daten gemacht?, und die wetbewerber bestimmen "nur" wie sie sie sortieren (hardware/software)?

  3. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Niantic 15.10.14 - 10:02

    Didatus schrieb:
    --------------------------------------------------------------------------------
    > Grundsätzlich klingt es ja schon nach einer guten Leistung, so viel in so
    > kurzer Zeit zu verarbeiten. Allerdings könnte man die Leistung sicherlich
    > noch besser einschätzen, wie genau die Daten Verarbeitet wurden und was für
    > Daten es denn waren. Ich sag mal 100TB Textdateien nach dem Dateinamen
    > sortieren ist sicherlich Leistungstechnisch günstiger, als 100TB Bilder
    > nach Motiv zu sortieren, nur um mal zwei Extreme zu nennen.

    ich denke mal es geht eindeutig darum nach einem ausdruck(alphanum asc zb) zu sortieren. das ist beim sortieren momentan der heilige gral, zumindest was die effizienz angeht.

    was die datengrundlage angeht, wir wahrscheinlich eine datenbank sein. steht aber nunmal leider nicht im article.

  4. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: pythoneer 15.10.14 - 10:11

    Da hast du recht, da habe ich erst auch gar nicht dran gedacht. Es wäre doch ein leichtes 2 50TB Datensätze zu sortieren (anhand irgend eines Merkmals). Schwieriger wäre es wohl gewesen einzelne Bits zu sortieren :D ... alle Einsen kommen nach da und die Nullen dort rüber :D

  5. Es ist eine Datenbank

    Autor: Poison Nuke 15.10.14 - 10:21

    das wozu auch Hadoop da ist. Man erzeugt über TeraGen eine Testdatenbank und diese wird dann nach verschiedenen Kriterien sortiert.

    Vereinfacht, stellt euch vor Facebook wollte seine Nutzerdatenbank nach Adresse sortieren. Das dürfte der Aufgabe wohl fast am nächsten kommen wenn ich so die Kriterien von Graysort lese.

    Greetz

    Poison Nuke

  6. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Kinkilla 15.10.14 - 10:31

    Einfach 10^10 Datensätze zu je 100 Byte sortieren.

    Bei diesen Datensätzen sind die ersten 10Byte komplett zufällig, Dann wird einfach nacht diesem Schlüssel sortiert


    Wenn man einfach mal alles lesen würde, dann würde man sich hier die Hälfte der Mutmassungen sparen können



    1 mal bearbeitet, zuletzt am 15.10.14 10:35 durch Kinkilla.

  7. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: DanielSchulz 15.10.14 - 12:40

    > Didatus schrieb:
    > ---------------------------------------------------------------------------
    > was die datengrundlage angeht, wir wahrscheinlich eine datenbank sein.
    > steht aber nunmal leider nicht im article.

    Datengrundlage war das HDFS (Hadoop Distributed File System). Von dort wurde es in Spark in RDDs (Resilient Distributed Dataset) geladen und in-memory gehalten.

  8. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Cerdo 15.10.14 - 16:33

    Kinkilla schrieb:
    --------------------------------------------------------------------------------
    > Einfach 10^10 Datensätze zu je 100 Byte sortieren.
    >
    > Bei diesen Datensätzen sind die ersten 10Byte komplett zufällig, Dann wird
    > einfach nacht diesem Schlüssel sortiert
    >
    > Wenn man einfach mal alles lesen würde, dann würde man sich hier die Hälfte
    > der Mutmassungen sparen können
    Die Fragen sind trotzdem gerechtfertigt. Wenn das nicht jedes Mal der gleiche Datensatz ist, dann schwankt die Sortierarbeit teilweise enorm.
    Was bringt die Leistung, wenn die Arbeit zufälligerweise gar nicht so groß war?

    Zudem steht im Artikel auch nicht das Sortierverfahren (geraten: Merge-Sort?).

  1. Thema

Neues Thema Ansicht wechseln


Um zu kommentieren, loggen Sie sich bitte ein oder registrieren Sie sich. Sie müssen ausserdem in Ihrem Account-Profil unter Forum einen Nutzernamen vergeben haben. Zum Login

Stellenmarkt
  1. ING-DiBa AG, Frankfurt
  2. über duerenhoff GmbH, Raum Frankfurt
  3. Deutsche Gesellschaft für Internationale Zusammenarbeit (GIZ) GmbH, Eschborn
  4. über duerenhoff GmbH, Stuttgart

Golem pur
  • Golem.de ohne Werbung nutzen

Anzeige
Spiele-Angebote
  1. 33,49€
  2. (-74%) 12,99€
  3. 31,49€
  4. (-30%) 41,99€


Haben wir etwas übersehen?

E-Mail an news@golem.de


  1. SIA: US-Chipbranche will 37 Milliarden Dollar für America First
    SIA
    US-Chipbranche will 37 Milliarden Dollar für America First

    Um ihre Führung bei Chiptechnologie zu sichern, müssen die USA viel Geld ausgeben. 5G wird dort auch als entscheidend für Kriegsführung angesehen.

  2. Sony: The Last of Us 2 wird PS5-kompatibel
    Sony
    The Last of Us 2 wird PS5-kompatibel

    Ab Juli 2020 dürfen Entwickler bei Sony nur noch Spiele zur Freigabe einreichen, die auf der PS4 und auf der Playstation 5 funktionieren.

  3. Android: Oppo bringt Smartphones mit Vierfachkamera ab 200 Euro
    Android
    Oppo bringt Smartphones mit Vierfachkamera ab 200 Euro

    Das Oppo A52 und Oppo A72 kommen in Deutschland auf den Markt: Käufer erhalten Mittelklassegeräte mit Qualcomm-Chips und Vierfachkameras.


  1. 18:38

  2. 17:09

  3. 16:30

  4. 15:57

  5. 14:57

  6. 14:15

  7. 14:00

  8. 13:14