Abo
  1. Foren
  2. Kommentare
  3. Internet
  4. Alle Kommentare zum Artikel
  5. › Rekord: Startup sortiert 100 Terabyte…

Welche Art der Sortierung/Verarbeitung?

  1. Thema

Neues Thema Ansicht wechseln


  1. Welche Art der Sortierung/Verarbeitung?

    Autor: Didatus 15.10.14 - 09:49

    Grundsätzlich klingt es ja schon nach einer guten Leistung, so viel in so kurzer Zeit zu verarbeiten. Allerdings könnte man die Leistung sicherlich noch besser einschätzen, wie genau die Daten Verarbeitet wurden und was für Daten es denn waren. Ich sag mal 100TB Textdateien nach dem Dateinamen sortieren ist sicherlich Leistungstechnisch günstiger, als 100TB Bilder nach Motiv zu sortieren, nur um mal zwei Extreme zu nennen.

  2. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: purzelbaum 15.10.14 - 09:57

    Es kommt doch auch noch dadrauf an wieviele dateien es waren. & ohne mich da auszukennen: wie die dateien im vorhinein lagen d.h. nicht jeder dieser wettbeqetb hat die gleichen voraussetzungen oder wird das immer mit den gleichen daten gemacht?, und die wetbewerber bestimmen "nur" wie sie sie sortieren (hardware/software)?

  3. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Niantic 15.10.14 - 10:02

    Didatus schrieb:
    --------------------------------------------------------------------------------
    > Grundsätzlich klingt es ja schon nach einer guten Leistung, so viel in so
    > kurzer Zeit zu verarbeiten. Allerdings könnte man die Leistung sicherlich
    > noch besser einschätzen, wie genau die Daten Verarbeitet wurden und was für
    > Daten es denn waren. Ich sag mal 100TB Textdateien nach dem Dateinamen
    > sortieren ist sicherlich Leistungstechnisch günstiger, als 100TB Bilder
    > nach Motiv zu sortieren, nur um mal zwei Extreme zu nennen.

    ich denke mal es geht eindeutig darum nach einem ausdruck(alphanum asc zb) zu sortieren. das ist beim sortieren momentan der heilige gral, zumindest was die effizienz angeht.

    was die datengrundlage angeht, wir wahrscheinlich eine datenbank sein. steht aber nunmal leider nicht im article.

  4. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: pythoneer 15.10.14 - 10:11

    Da hast du recht, da habe ich erst auch gar nicht dran gedacht. Es wäre doch ein leichtes 2 50TB Datensätze zu sortieren (anhand irgend eines Merkmals). Schwieriger wäre es wohl gewesen einzelne Bits zu sortieren :D ... alle Einsen kommen nach da und die Nullen dort rüber :D

  5. Es ist eine Datenbank

    Autor: Poison Nuke 15.10.14 - 10:21

    das wozu auch Hadoop da ist. Man erzeugt über TeraGen eine Testdatenbank und diese wird dann nach verschiedenen Kriterien sortiert.

    Vereinfacht, stellt euch vor Facebook wollte seine Nutzerdatenbank nach Adresse sortieren. Das dürfte der Aufgabe wohl fast am nächsten kommen wenn ich so die Kriterien von Graysort lese.

    Greetz

    Poison Nuke

  6. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Kinkilla 15.10.14 - 10:31

    Einfach 10^10 Datensätze zu je 100 Byte sortieren.

    Bei diesen Datensätzen sind die ersten 10Byte komplett zufällig, Dann wird einfach nacht diesem Schlüssel sortiert


    Wenn man einfach mal alles lesen würde, dann würde man sich hier die Hälfte der Mutmassungen sparen können



    1 mal bearbeitet, zuletzt am 15.10.14 10:35 durch Kinkilla.

  7. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: DanielSchulz 15.10.14 - 12:40

    > Didatus schrieb:
    > ---------------------------------------------------------------------------
    > was die datengrundlage angeht, wir wahrscheinlich eine datenbank sein.
    > steht aber nunmal leider nicht im article.

    Datengrundlage war das HDFS (Hadoop Distributed File System). Von dort wurde es in Spark in RDDs (Resilient Distributed Dataset) geladen und in-memory gehalten.

  8. Re: Welche Art der Sortierung/Verarbeitung?

    Autor: Cerdo 15.10.14 - 16:33

    Kinkilla schrieb:
    --------------------------------------------------------------------------------
    > Einfach 10^10 Datensätze zu je 100 Byte sortieren.
    >
    > Bei diesen Datensätzen sind die ersten 10Byte komplett zufällig, Dann wird
    > einfach nacht diesem Schlüssel sortiert
    >
    > Wenn man einfach mal alles lesen würde, dann würde man sich hier die Hälfte
    > der Mutmassungen sparen können
    Die Fragen sind trotzdem gerechtfertigt. Wenn das nicht jedes Mal der gleiche Datensatz ist, dann schwankt die Sortierarbeit teilweise enorm.
    Was bringt die Leistung, wenn die Arbeit zufälligerweise gar nicht so groß war?

    Zudem steht im Artikel auch nicht das Sortierverfahren (geraten: Merge-Sort?).

  1. Thema

Neues Thema Ansicht wechseln


Um zu kommentieren, loggen Sie sich bitte ein oder registrieren Sie sich. Zum Login

Stellenmarkt
  1. LORENZ Life Sciences Group, Frankfurt am Main
  2. WBS GRUPPE, deutschlandweit (Home-Office)
  3. Pfennigparade SIGMETA GmbH, Stuttgart
  4. Impetus Unternehmensberatung GmbH, Eschborn

Golem pur
  • Golem.de ohne Werbung nutzen

Anzeige
Spiele-Angebote
  1. 4,99€
  2. 137,70€
  3. (-12%) 52,99€
  4. 34,99€


Haben wir etwas übersehen?

E-Mail an news@golem.de


Apple TV+: Apples Videostreamingdienst ist nicht konkurrenzfähig
Apple TV+
Apples Videostreamingdienst ist nicht konkurrenzfähig

Bei so einem mickrigen Angebot hilft auch ein mickriger Preis nicht: Apples Streamingdienst hat der Konkurrenz von Netflix, Amazon und bald Disney nichts entgegenzusetzen - und das wird sich auf Jahre nicht ändern.
Eine Analyse von Ingo Pakalski

  1. Apple TV+ Disney-Chef tritt aus Apple-Verwaltungsrat zurück
  2. Apple TV+ Apples Streamingangebot kostet 4,99 Euro im Monat
  3. Videostreaming Apple TV+ startet mit fünf Serien für 10 US-Dollar monatlich

Manipulierte Zustimmung: Datenschützer halten die meisten Cookie-Banner für illegal
Manipulierte Zustimmung
Datenschützer halten die meisten Cookie-Banner für illegal

Nur die wenigsten Cookie-Banner entsprechen den Vorschriften der DSGVO, wie eine Studie feststellt. Die Datenschutzbehörden halten sich mit Sanktionen aber noch zurück.
Ein Bericht von Christiane Schulzki-Haddouti

  1. Chrome & Privacy Google möchte uns in Zukunft anders tracken
  2. Tracking Google und Facebook tracken auch auf vielen Pornoseiten
  3. Android Apps kommen auch ohne Berechtigung an Trackingdaten

Dick Pics: Penis oder kein Penis?
Dick Pics
Penis oder kein Penis?

Eine Studentin arbeitet an einer Software, die automatisch Bilder von Penissen aus Direktnachrichten filtert. Wer mithelfen will, kann ihr Testobjekte schicken.
Ein Bericht von Fabian A. Scherschel

  1. Medienbericht US-Regierung will soziale Netzwerke stärker überwachen
  2. Soziales Netzwerk Openbook heißt jetzt Okuna
  3. EU-Wahl Spitzenkandidat Manfred Weber für Klarnamenpflicht im Netz

  1. Fiber To The Pole: Kabelnetzbetreiber für oberirdische Glasfaser
    Fiber To The Pole
    Kabelnetzbetreiber für oberirdische Glasfaser

    Glasfaser an den Masten sei die einzige Möglichkeit, die Ausbauziele der Bundesregierung noch zu erfüllen. Keinere Firmen sind von einem Vorstoß von Bundeskanzleramtsminister Helge Braun begeistert. Doch das hat auch Nachteile.

  2. Bayern: Mobilfunkversorgung an Autobahnen weiter lückenhaft
    Bayern
    Mobilfunkversorgung an Autobahnen weiter lückenhaft

    Bayern hat als erstes Bundesland selbst nachgemessen und herausgefunden, dass der LTE-Ausbau nicht den Auflagen entspricht. Am besten steht die Telekom da. Doch eigentlich hätte die Landesregierung gar nicht selbst messen müssen.

  3. Mixer: Microsoft integriert Werbebanner in seine Streamingplattform
    Mixer
    Microsoft integriert Werbebanner in seine Streamingplattform

    Es war nur eine Frage der Zeit: Microsoft blendet erste Werbebanner vor den Inhalten von Streamern wie Ninja auf Mixer ein. Das sei immer geplant gewesen, sagt das Unternehmen im Livestream. Allerdings erhält Microsoft wohl noch alle Einnahmen.


  1. 18:39

  2. 17:41

  3. 16:27

  4. 16:05

  5. 15:33

  6. 15:00

  7. 15:00

  8. 14:45