1. Foren
  2. Kommentare
  3. Internet
  4. Alle Kommentare zum Artikel
  5. › Rekord: Startup sortiert 100 Terabyte…

Welche Art der Sortierung/Verarbeitung?

  1. Thema

Neues Thema Ansicht wechseln


  1. Welche Art der Sortierung/Verarbeitung?

    Autor: Didatus 15.10.14 - 09:49

    Grundsätzlich klingt es ja schon nach einer guten Leistung, so viel in so kurzer Zeit zu verarbeiten. Allerdings könnte man die Leistung sicherlich noch besser einschätzen, wie genau die Daten Verarbeitet wurden und was für Daten es denn waren. Ich sag mal 100TB Textdateien nach dem Dateinamen sortieren ist sicherlich Leistungstechnisch günstiger, als 100TB Bilder nach Motiv zu sortieren, nur um mal zwei Extreme zu nennen.

  2. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: purzelbaum 15.10.14 - 09:57

    Es kommt doch auch noch dadrauf an wieviele dateien es waren. & ohne mich da auszukennen: wie die dateien im vorhinein lagen d.h. nicht jeder dieser wettbeqetb hat die gleichen voraussetzungen oder wird das immer mit den gleichen daten gemacht?, und die wetbewerber bestimmen "nur" wie sie sie sortieren (hardware/software)?

  3. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Niantic 15.10.14 - 10:02

    Didatus schrieb:
    --------------------------------------------------------------------------------
    > Grundsätzlich klingt es ja schon nach einer guten Leistung, so viel in so
    > kurzer Zeit zu verarbeiten. Allerdings könnte man die Leistung sicherlich
    > noch besser einschätzen, wie genau die Daten Verarbeitet wurden und was für
    > Daten es denn waren. Ich sag mal 100TB Textdateien nach dem Dateinamen
    > sortieren ist sicherlich Leistungstechnisch günstiger, als 100TB Bilder
    > nach Motiv zu sortieren, nur um mal zwei Extreme zu nennen.

    ich denke mal es geht eindeutig darum nach einem ausdruck(alphanum asc zb) zu sortieren. das ist beim sortieren momentan der heilige gral, zumindest was die effizienz angeht.

    was die datengrundlage angeht, wir wahrscheinlich eine datenbank sein. steht aber nunmal leider nicht im article.

  4. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: pythoneer 15.10.14 - 10:11

    Da hast du recht, da habe ich erst auch gar nicht dran gedacht. Es wäre doch ein leichtes 2 50TB Datensätze zu sortieren (anhand irgend eines Merkmals). Schwieriger wäre es wohl gewesen einzelne Bits zu sortieren :D ... alle Einsen kommen nach da und die Nullen dort rüber :D

  5. Es ist eine Datenbank

    Autor: Poison Nuke 15.10.14 - 10:21

    das wozu auch Hadoop da ist. Man erzeugt über TeraGen eine Testdatenbank und diese wird dann nach verschiedenen Kriterien sortiert.

    Vereinfacht, stellt euch vor Facebook wollte seine Nutzerdatenbank nach Adresse sortieren. Das dürfte der Aufgabe wohl fast am nächsten kommen wenn ich so die Kriterien von Graysort lese.

    Greetz

    Poison Nuke

  6. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Kinkilla 15.10.14 - 10:31

    Einfach 10^10 Datensätze zu je 100 Byte sortieren.

    Bei diesen Datensätzen sind die ersten 10Byte komplett zufällig, Dann wird einfach nacht diesem Schlüssel sortiert


    Wenn man einfach mal alles lesen würde, dann würde man sich hier die Hälfte der Mutmassungen sparen können



    1 mal bearbeitet, zuletzt am 15.10.14 10:35 durch Kinkilla.

  7. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: DanielSchulz 15.10.14 - 12:40

    > Didatus schrieb:
    > ---------------------------------------------------------------------------
    > was die datengrundlage angeht, wir wahrscheinlich eine datenbank sein.
    > steht aber nunmal leider nicht im article.

    Datengrundlage war das HDFS (Hadoop Distributed File System). Von dort wurde es in Spark in RDDs (Resilient Distributed Dataset) geladen und in-memory gehalten.

  8. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Cerdo 15.10.14 - 16:33

    Kinkilla schrieb:
    --------------------------------------------------------------------------------
    > Einfach 10^10 Datensätze zu je 100 Byte sortieren.
    >
    > Bei diesen Datensätzen sind die ersten 10Byte komplett zufällig, Dann wird
    > einfach nacht diesem Schlüssel sortiert
    >
    > Wenn man einfach mal alles lesen würde, dann würde man sich hier die Hälfte
    > der Mutmassungen sparen können
    Die Fragen sind trotzdem gerechtfertigt. Wenn das nicht jedes Mal der gleiche Datensatz ist, dann schwankt die Sortierarbeit teilweise enorm.
    Was bringt die Leistung, wenn die Arbeit zufälligerweise gar nicht so groß war?

    Zudem steht im Artikel auch nicht das Sortierverfahren (geraten: Merge-Sort?).

  1. Thema

Neues Thema Ansicht wechseln


Um zu kommentieren, loggen Sie sich bitte ein oder registrieren Sie sich. Zum Login

Stellenmarkt
  1. FACKELMANN GmbH + Co. KG, Hersbruck bei Nürnberg
  2. Bundeskriminalamt, Wiesbaden
  3. GOM GmbH, Braunschweig
  4. Tecan Software Competence Center GmbH, Mainz-Kastel

Golem pur
  • Golem.de ohne Werbung nutzen

Anzeige
Top-Angebote
  1. 119,99€
  2. (u. a. Kärcher Akku-Fenstersauger für 63,74€, Black+Decker Rolltasche für 32,00€)
  3. 799,99€
  4. 229,99€


Haben wir etwas übersehen?

E-Mail an news@golem.de


Cloud Gaming im Test: Leise ruckelt der Stream
Cloud Gaming im Test
Leise ruckelt der Stream

Kurz vor Weihnachten werben Dienste wie Google Stadia und Playstation Now um Kunden - mit noch nicht ganz perfekter Technik. Golem.de hat Cloud Gaming bei mehreren Anbietern ausprobiert und stellt Geschäftsmodelle und Besonderheiten vor.
Von Peter Steinlechner

  1. Apple und Google Die wollen nicht nur spielen
  2. Medienbericht Twitch plant Spielestreaming ab 2020
  3. Spielestreaming Wie archiviert man Games ohne Datenträger?

Jobs: Spielebranche sucht Entwickler (m/w/d)
Jobs
Spielebranche sucht Entwickler (m/w/d)

Die Hälfte aller Gamer ist weiblich. An der Entwicklung von Spielen sind aber nach wie vor deutlich weniger Frauen beteiligt.
Von Daniel Ziegener

  1. Medizinsoftware Forscher finden "rassistische Vorurteile" in Algorithmus
  2. Mordhau Toxische Spieler und Filter für Frauenhasser

Staupilot: Der Zulassungsstau löst sich langsam auf
Staupilot
Der Zulassungsstau löst sich langsam auf

Nach jahrelangen Verhandlungen soll es demnächst internationale Zulassungskriterien für hochautomatisierte Autos geben. Bei höheren Automatisierungsgraden strebt die Bundesregierung aber einen nationalen Alleingang an.
Ein Bericht von Friedhelm Greis

  1. San José Bosch und Daimler starten autonomen Taxidienst
  2. Autonomes Fahren Ermittler geben Testfahrerin Hauptschuld an Uber-Unfall
  3. Ermittlungsberichte Wie die Uber-Software den tödlichen Unfall begünstigte

  1. Baystream: The Pirate Bay mit neuem Streaming-Angebot
    Baystream
    The Pirate Bay mit neuem Streaming-Angebot

    Neuer Anlauf für hochwertiges Streaming aus meist illegalen Quellen bei The Pirate Bay. Doch Baystream läuft noch nicht besonders stabil.

  2. GrapheneOS: Ein gehärtetes Android ohne Google, bitte
    GrapheneOS
    Ein gehärtetes Android ohne Google, bitte

    Äußerlich unterscheidet es nicht viel von einem sauberen Android 10 - nur die Google-Apps fehlen. Doch im Inneren von GrapheneOS stecken einige Sicherheitsfunktionen. Wir haben den Nachfolger von Copperhead OS ausprobiert.

  3. Microsoft: Xbox Scarlett streamt möglicherweise schon beim Download
    Microsoft
    Xbox Scarlett streamt möglicherweise schon beim Download

    Solange der Download des Spiels läuft, könnten Besitzer der nächsten Xbox ja schon mal per Cloud Gaming das Tutorial oder die ersten Levels absolvieren: Das plant Microsoft laut einem Medienbericht für die nächste Konsolengeneration. Ein paar technische Spezifikationen sind ebenfalls geleakt.


  1. 12:04

  2. 12:03

  3. 11:52

  4. 11:40

  5. 11:30

  6. 11:15

  7. 11:00

  8. 10:45