1. Foren
  2. » Kommentare
  3. » Security
  4. » Alle Kommentare zum Artikel
  5. » Entwickler des SchülerVZ-Crawlers…

halleluja...

Anzeige
  1. Thema
  1. 1
  2. 2

Neues Thema Ansicht wechseln


  1. halleluja...

    Autor razer 19.10.09 - 22:56

    der typ hat ja ne schöne portion arroganz mit sich.. puh..

  2. Re: halleluja...

    Autor Crawler 19.10.09 - 23:05

    Der Typ hat vor allem etwas drauf. Ich würde den als Fachinformatiker einstellen, damit der sich um die Wegpräsentation des Unternehmens kümmert und was sonnst noch so anfällt...

  3. Re: halleluja...

    Autor panda guy 19.10.09 - 23:11

    Diesen Crawler hätte jeder Informatikstudent im 4. Semester schreiben können. Ein wenig HTML analysieren, Zeug in eine Datenbank schreiben, hin und wieder ein einfaches Captcha brechen.

    Haben sicher auch schon viele - nur nicht alle stellen die Datenbank ins Netz und ziehen so die Aufmerksamkeit des Betreibers auf sich.

  4. Re: halleluja...

    Autor wfe 19.10.09 - 23:19

    Aber auch nur wenn er mit anderen Pickelgesichtern im Keller sitzt.

  5. rofl

    Autor jesus09 19.10.09 - 23:20

    War ja klar, dass der mal gebusted wird, schon als der Pro7-Stream direkt neben dem Impressum verlinkt war. Hoffentlich ists ihm eine Lehre.

  6. Re: halleluja...

    Autor Ja-Sager 19.10.09 - 23:27

    @panda guy: Du bist echt lustig :) Keinen Plan von nix (ok, wahrscheinlich grad im dritten Silvester) aber große Töne spucken. Bist Du neidisch, dass Du das nicht kannst?

    Meine Erfahrung mit Informatikstudis: In der Theorie wissen die das alle, in der Praxis nur ganz, ganz wenige. Egal, ob sie im ersten oder 20 Semester sind. Die meisten, die ich kenne, würden schon am HTML Parser scheitern, beim Captcha dann die anderen bis auf drei oder vier Stück.

  7. Re: halleluja...

    Autor panda guy 19.10.09 - 23:37

    "Jeder" war natürlich übertrieben. Aber ich bleibe dabei dass ich keinen Punkt sehe der wirklich schwierig zu implementieren wäre.

    Kann es sein dass du bisher nur mit Uni-Studenten zu tun hattest? Ich kenne mich nur mit dem Studiengang an Hochschulen aus, und der ist so praxisorientiert dass auf jeden Fall viele Studenten mit etwas Freizeit eine solche Anwendung schreiben könnten.
    Das ist wiklich kein Hexenwerk. Das schwierigste scheint noch der OCR-Teil zu sein, und dafür gibt es ja genug fertige Lösungen im Netz.

  8. Re: halleluja...

    Autor inchinafaellteinsackreisum 19.10.09 - 23:41

    Ach, da muss man nicht mal Info studieren... Da lernt man sowas sowieso nicht.

    Ein bisschen mit Python beschäftigen reicht da schon, da sind alle nötigen Module fürs Data Mining direkt mit an Board. Captcha Erkennungs Algorithmen sind auch genug im Netz. Sowas hätte wirklich jeder halbwegs intelligente Freak schaffen können.

    Die Aufregung um die Sache verstehe ich auch nicht. Jeder ist selbst dafür verantwortlich welche Daten er ins Netz stellt. Wenn ich meine Telefonnummer ins Telefonbuch eintragen lasse, muss ich mich auch nicht wundern, wenn Leute im Telefonbuch blättern...

  9. Re: halleluja...

    Autor itachi 19.10.09 - 23:50

    Das Python Zeugs is auch recht einfach lernbar. Wenn mir mal fad is werd ich für mein Anmeldesystem von meiner Uni nen kleinen Bot basteln, für den Fall dass noch Prüfungen/Übungen kommen die immer gleich voll sind sobald die Anmeldung anfängt^^. Anonsten, hätt ich nicht die Lust so ein Ding zu bauen. Aber ich denke mal, in Perl oder Python bekommt ma das als Halbwegs interessierter hin. Zum Thema selber nen Lexer/Parser schreiben. Das is ne scheiss Hackn. Musste das für Übersetzerbau machen (mit Flex/Yacc/Ox/BFE bzw. Burg). Böse anstrengende Sache.. aber geil wenn am Ende dann aus der eigenen Pseudoprogrammiersprache Assemblercode rauskommt).

  10. Re: halleluja...

    Autor Entengrütze 20.10.09 - 03:28

    Also ich habe nicht Informatik studiert, aber auch mal einen Captcha-Ausleser-Crawler gebaut.

    Hab Abends um 18:00 Uhr angefangen, und war morgens um 04:00 Uhr mit allem fertig.

    Python ist auch wunderschön, aber als Sprache habe ich mich für Java entschieden (Wobei die Sprache bei so einer einfachen Aufgabe wohl egal sein dürfte). HTTP-Zeug hab ich mit ner Apache-Lib gemacht, weil da sone schöne SSL bzw. Cookie unterstützung drin ist. Aufs parsen von HTML hab ich fast völlig verzichtet ... hab mit Hilfe von Regulären Ausdrücken ne funktionsfähige und schnelle Lösung gefunden.

    Lief übrigens alles nebenläufig mit ca. 100 gleichzeitigen Verbindungen.

    Das komplizierteste (eigentlich primitiv!) war die Captcha Erkennung. Ich hab dafür keine geeignete Lib gefunden und mir alles selber aus den Fingern gesaugt. Hab mir einfach überlegt, wie man diese verhunzten Zeichen irgendwie freistellen und lesen kann. Erkennungsrate über 95%.

    Die gesammelten Daten wurden anschließend als CSV gespeichert. (Wie gesagt, sollte einfach schnell gehen.)

    Das war alles in allem wirklich keine große Sache, und nicht an einer einzigen Stelle hab ich mich irgendwie herausgefordert gefühlt.

    Ich denke wirklich, sowas kann jeder Interessierte (sog. Skript-Kiddie?) innerhalb von einem Tag von null auf selbst entwickeln. Und unter "Hacker" verstehe ich Leute, die wirklich was interessantes leisten. (Linux-Kernel, Treiber, Assembler-Zeugs, etc.)

    Naja, aber der arme Mann tut mir leid, dasser für sone Spielerei sonen Ärger bekommen hat. Leider wird immer oft und viel übertrieben.

    Schönen Tag noch an alle. :)

  11. Haftungsausschluss

    Autor Entengrütze 20.10.09 - 04:08

    Klarstellung für die Juristen: Ich habe die Software ausschließlich auf meinem eigenen Server getestet und nicht an fremden ausprobiert!

  12. Re: Haftungsausschluss

    Autor micha6270 20.10.09 - 08:50

    mh. Ist die automatische Überwindung eines Captchas und das Auslesen von Daten denn per se illegal?

  13. Re: halleluja...

    Autor Basement Dad 20.10.09 - 09:09

    Na klar, du hast dir in ca. 2h das aus den Fingern gesaugt, was man normalerweise in einem Semester in Mustererkennung lernt. Träum weiter.

  14. Re: halleluja...

    Autor trivialergehtsja 20.10.09 - 09:22

    inchinafaellteinsackreisum schrieb:
    --------------------------------------------------------------------------------
    > Ach, da muss man nicht mal Info studieren... Da lernt man sowas sowieso
    > nicht.

    Wie man ein Captcha knackt lernt man da aber schon, wenn man will. ;-)

    Der Rest ist eh zu trivial um es überhaupt als "Software Engineering" zu bezeichnen und ist ein Projekt für einen Sonntagnachmittag mit Kater.

    Aber klar wie du schon sagst, selbst fertige Captcha-Algorithmen gibt es schon ausreichend und dann ist es NUR noch ein Projekt für einen Sonntagnachmittag für jeden beliebigen mit genügen Ambitionen.

  15. Re: halleluja...

    Autor trivialergehtsja 20.10.09 - 09:29

    Basement Dad schrieb:
    --------------------------------------------------------------------------------
    > Na klar, du hast dir in ca. 2h das aus den Fingern gesaugt, was man
    > normalerweise in einem Semester in Mustererkennung lernt. Träum weiter.

    Kommt wohl aufs Captcha an.
    Wenn keinerlei Transformationen drauf angewandt wurden, ein fester Satz an Zeichen verwendet wird und auch sonst kein großes künstliches Rauschen hinzugefügt wurde, kann man recht einfach einen Matchingalgorithmus schreiben.

    Da muss man dann nichts von Hough Transformation, Watershed oder Graphpartitionierung, Scalespace, SIFT oder sonst was gehört haben.

  16. Re: halleluja...

    Autor Vollstrecker 20.10.09 - 09:31

    Zwischen 18 und 4 Uhr sind für mir 10 Stunden und schau mal hier: http://lmgtfy.com/?q=Mustererkennung

  17. Re: halleluja...

    Autor BenPen 20.10.09 - 09:49

    Crawler schrieb:
    --------------------------------------------------------------------------------
    > Der Typ hat vor allem etwas drauf. Ich würde den als Fachinformatiker einstellen

    Ich würde nicht mit einem solchen Soziopathen zusammen arbeiten wollen. Ausserdem würde er wahrscheinlich Firmendaten (Dokumente sowie Mitarbeiterinfos) auch zu seinem Selbstzweck veröffentlichen und verkaufen.

  18. Re: halleluja...

    Autor diebanane 20.10.09 - 11:55

    Also ich habe schon mit 16 meinen ersten Crawler geschrieben. Man muss nen kleinen Überblick über html haben und die Phpfunktion fopen kennen.
    Dafür braucht man kein Informatikstudium.

  19. Re: halleluja...

    Autor Toreon 20.10.09 - 14:40

    Entengrütze schrieb:
    --------------------------------------------------------------------------------

    > Ich denke wirklich, sowas kann jeder Interessierte (sog. Skript-Kiddie?)
    > innerhalb von einem Tag von null auf selbst entwickeln. Und unter "Hacker"
    > verstehe ich Leute, die wirklich was interessantes leisten. (Linux-Kernel,
    > Treiber, Assembler-Zeugs, etc.)
    >

    Klingt mir auch unter einfachsten Bedingungen trotzdem nach guter Arbeit, die nach meiner Erfahrung 90% nicht hinbekommen hätten, weil sie nicht gleichzeitig die technischen Fähigkeiten haben, strukturiert arbeiten und die Problemlösung in Alternativen durchgehen können. Also das spricht eher für Dich!

  20. Re: halleluja...

    Autor Entengrütze 20.10.09 - 16:50

    Bist du auch einer von denen, die in der Schule Formeln auswendig gelernt haben und nicht ableiten können?

    Wieso muss ich für meine Mustererkennung studieren?

    Kleines Beispiel, wie ich Rauschen entfernt habe:
    Captcha in Graustufen umwandeln ((R + G + B) / 3) leicht weichzeichnen (durchschnittswert mit Nachbarpixeln bilden) und danach durch einen Schwellenwert-Filter (Grauwert < 127 ? 0 : 255) laufen lassen. Schwupps. Kein Rauschen mehr und alle Kanten schön glatt.

    Das ganze war noch etwas ausgefeilter, mit automatischer Spektral- und Kontrastoptimierung. Aber im Großen und Ganzen sehr einfach.

    Setz dich doch einfach mal hin (ohne Vorwissen) und unterscheide ein "O" von einem "A" ... is ja soooo kompliziert. Naaaja ... muss jeder selbst wissen, was er sich zutraut, und was nicht.

    Ciao :)

  1. 1
  2. 2

Neues Thema Ansicht wechseln


Entschuldigung, nur registrierte Benutzer dürfen in diesem Forum schreiben. Klicken Sie hier um sich einzuloggen


Meistgelesen
  1. Libreoffice

    "Wir wollen Nutzer in die ODF-Welt ziehen"

  2. Browser

    Kauft Facebook Opera?

  3. Datenschutz

    Neue EU-Regeln zu Cookies treten in Kraft

  4. Samsung Galaxy S3

    Siri braucht sich nicht zu fürchten

  5. Schmerzlos

    MIT-Forscher entwickeln Injektor mit Lorentzkraft-Antrieb


Meistkommentiert
  1. Kommentare: 222 | letzter Beitrag 26.05. 23:51

  2. Kommentare: 169 | letzter Beitrag 15:11 Uhr

  3. Kommentare: 94 | letzter Beitrag 26.05. 19:45

  4. Kommentare: 68 | letzter Beitrag 14:48 Uhr

  5. Kommentare: 64 | letzter Beitrag 26.05. 17:51

Mehr



Haben wir etwas übersehen?

E-Mail an news@golem.de


Project Glass: Videoaufnahme mit der Google-Brille
Project Glass
Videoaufnahme mit der Google-Brille

Immer wieder zeigt Google seine Project Glass genannten Datenbrillen, ohne aber bislang konkrete Ankündigungen zu machen. Neben zahlreichen Fotos, die mit der Brille gemacht wurden, stellte Google nun auch ein erstes Video, das mit der Brille aufgenommen wurde, ins Netz.

  1. Gedämpfte Erwartungen Google-Brille mit reduziertem Interface
  2. Google-Brille Ein Blick, ein Foto
  3. Project Glass Googles Datenbrille auch für Fehlsichtige

PGP vs. Geheimdienste: "PGP ist weiterhin sicher"
PGP vs. Geheimdienste
"PGP ist weiterhin sicher"

Symantec hat sich zu den Aussagen der Bundesregierung geäußert, nach denen Geheimdienste in der Lage seien, SSH oder PGP zu knacken oder zu umgehen. Mathematisch gesehen sei kein wirksamer Angriff bekannt.

  1. Bundesregierung Deutsche Geheimdienste können PGP entschlüsseln
  2. Mobilfunk Achtung, Eltern lesen mit!
  3. Überwachungskameras Aldi-Manager zoomten Kundinnen unter den Rock

Energy Harvesting: Strom aus dem Teelicht
Energy Harvesting
Strom aus dem Teelicht

T-Pod ist ein kleines Kraftwerk für unterwegs. Betrieben mit einer kleinen Kerze, erzeugt das Gerät Strom für eine Leselampe oder das Laden des Smartphone-Akkus.

  1. Energy Harvesting Viren in der Schuhsohle liefern Strom fürs Smartphone
  2. Saubere Energie In New York kommt Strom bald aus der Wasserleitung

  1. Renesas: Chiphersteller will ein Drittel der Beschäftigten loswerden
    Renesas
    Chiphersteller will ein Drittel der Beschäftigten loswerden

    Renesas ist nach Elpida der zweite schwer angeschlagene japanische Chiphersteller. Renesas, das Hitachi, Mitsubishi Electric und NEC gehört, macht Verlust und will seine größte Fabrik verkaufen.

  2. Blackberry: RIM plant Massenentlassungen
    Blackberry
    RIM plant Massenentlassungen

    RIM soll in den kommenden Tagen erneut einen massiven Stellenabbau ankündigen. "Ich habe herausgefunden, welche Teile ich in meinem Puzzle nicht mehr benötige", sagte Firmenchef Thorsten Heins.

  3. Browser: Kauft Facebook Opera?
    Browser
    Kauft Facebook Opera?

    Ein britisches Blog will erfahren haben, dass Facebook den norwegischen Browserhersteller Opera Software kaufen will. Beide Unternehmen wollen sich dazu nicht äußern.


  1. 15:41

  2. 13:23

  3. 14:48

  4. 14:29

  5. 14:24

  6. 12:30

  7. 12:23

  8. 18:49