1. Foren
  2. Kommentare
  3. Internet-Forum
  4. Alle Kommentare zum Artikel
  5. › Rekord: Startup sortiert 100…

Welche Art der Sortierung/Verarbeitung?

Neue Foren im Freiraum! Raumfahrt und freie Software haben jetzt einen Platz, die Games tummeln sich jetzt alle in einem Forum.
  1. Thema

Neues Thema Ansicht wechseln


  1. Welche Art der Sortierung/Verarbeitung?

    Autor: Didatus 15.10.14 - 09:49

    Grundsätzlich klingt es ja schon nach einer guten Leistung, so viel in so kurzer Zeit zu verarbeiten. Allerdings könnte man die Leistung sicherlich noch besser einschätzen, wie genau die Daten Verarbeitet wurden und was für Daten es denn waren. Ich sag mal 100TB Textdateien nach dem Dateinamen sortieren ist sicherlich Leistungstechnisch günstiger, als 100TB Bilder nach Motiv zu sortieren, nur um mal zwei Extreme zu nennen.

  2. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: purzelbaum 15.10.14 - 09:57

    Es kommt doch auch noch dadrauf an wieviele dateien es waren. & ohne mich da auszukennen: wie die dateien im vorhinein lagen d.h. nicht jeder dieser wettbeqetb hat die gleichen voraussetzungen oder wird das immer mit den gleichen daten gemacht?, und die wetbewerber bestimmen "nur" wie sie sie sortieren (hardware/software)?

  3. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Niantic 15.10.14 - 10:02

    Didatus schrieb:
    --------------------------------------------------------------------------------
    > Grundsätzlich klingt es ja schon nach einer guten Leistung, so viel in so
    > kurzer Zeit zu verarbeiten. Allerdings könnte man die Leistung sicherlich
    > noch besser einschätzen, wie genau die Daten Verarbeitet wurden und was für
    > Daten es denn waren. Ich sag mal 100TB Textdateien nach dem Dateinamen
    > sortieren ist sicherlich Leistungstechnisch günstiger, als 100TB Bilder
    > nach Motiv zu sortieren, nur um mal zwei Extreme zu nennen.

    ich denke mal es geht eindeutig darum nach einem ausdruck(alphanum asc zb) zu sortieren. das ist beim sortieren momentan der heilige gral, zumindest was die effizienz angeht.

    was die datengrundlage angeht, wir wahrscheinlich eine datenbank sein. steht aber nunmal leider nicht im article.

  4. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: pythoneer 15.10.14 - 10:11

    Da hast du recht, da habe ich erst auch gar nicht dran gedacht. Es wäre doch ein leichtes 2 50TB Datensätze zu sortieren (anhand irgend eines Merkmals). Schwieriger wäre es wohl gewesen einzelne Bits zu sortieren :D ... alle Einsen kommen nach da und die Nullen dort rüber :D

  5. Es ist eine Datenbank

    Autor: Poison Nuke 15.10.14 - 10:21

    das wozu auch Hadoop da ist. Man erzeugt über TeraGen eine Testdatenbank und diese wird dann nach verschiedenen Kriterien sortiert.

    Vereinfacht, stellt euch vor Facebook wollte seine Nutzerdatenbank nach Adresse sortieren. Das dürfte der Aufgabe wohl fast am nächsten kommen wenn ich so die Kriterien von Graysort lese.

    Greetz

    Poison Nuke

  6. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Kinkilla 15.10.14 - 10:31

    Einfach 10^10 Datensätze zu je 100 Byte sortieren.

    Bei diesen Datensätzen sind die ersten 10Byte komplett zufällig, Dann wird einfach nacht diesem Schlüssel sortiert


    Wenn man einfach mal alles lesen würde, dann würde man sich hier die Hälfte der Mutmassungen sparen können



    1 mal bearbeitet, zuletzt am 15.10.14 10:35 durch Kinkilla.

  7. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: DanielSchulz 15.10.14 - 12:40

    > Didatus schrieb:
    > ---------------------------------------------------------------------------
    > was die datengrundlage angeht, wir wahrscheinlich eine datenbank sein.
    > steht aber nunmal leider nicht im article.

    Datengrundlage war das HDFS (Hadoop Distributed File System). Von dort wurde es in Spark in RDDs (Resilient Distributed Dataset) geladen und in-memory gehalten.

  8. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Cerdo 15.10.14 - 16:33

    Kinkilla schrieb:
    --------------------------------------------------------------------------------
    > Einfach 10^10 Datensätze zu je 100 Byte sortieren.
    >
    > Bei diesen Datensätzen sind die ersten 10Byte komplett zufällig, Dann wird
    > einfach nacht diesem Schlüssel sortiert
    >
    > Wenn man einfach mal alles lesen würde, dann würde man sich hier die Hälfte
    > der Mutmassungen sparen können
    Die Fragen sind trotzdem gerechtfertigt. Wenn das nicht jedes Mal der gleiche Datensatz ist, dann schwankt die Sortierarbeit teilweise enorm.
    Was bringt die Leistung, wenn die Arbeit zufälligerweise gar nicht so groß war?

    Zudem steht im Artikel auch nicht das Sortierverfahren (geraten: Merge-Sort?).

  1. Thema

Neues Thema Ansicht wechseln


Um zu kommentieren, loggen Sie sich bitte ein oder registrieren Sie sich. Sie müssen ausserdem in Ihrem Account-Profil unter Forum einen Nutzernamen vergeben haben. Zum Login

Stellenmarkt
  1. Digitalisierungsexperte (Smart Factory) und Lean Manager (m/w/d)
    Knauf Gips KG, Iphofen bei Würzburg
  2. IT Manager / Digitalisierungsarchitekt (m/w/d)
    Siedlungswerk GmbH, Stuttgart
  3. KIS-Betreuer iMedOne (m/w/d)
    Helios IT Service GmbH, Leipzig
  4. DevOps Engineer (m/f/d) for Embedded Software Integration
    Elektrobit Automotive GmbH, Erlangen

Detailsuche


Golem pur
  • Golem.de ohne Werbung nutzen

Anzeige
Hardware-Angebote
  1. 499,99€


Haben wir etwas übersehen?

E-Mail an news@golem.de