der typ hat ja ne schöne portion arroganz mit sich.. puh..
Der Typ hat vor allem etwas drauf. Ich würde den als Fachinformatiker einstellen, damit der sich um die Wegpräsentation des Unternehmens kümmert und was sonnst noch so anfällt...
Diesen Crawler hätte jeder Informatikstudent im 4. Semester schreiben können. Ein wenig HTML analysieren, Zeug in eine Datenbank schreiben, hin und wieder ein einfaches Captcha brechen.
Haben sicher auch schon viele - nur nicht alle stellen die Datenbank ins Netz und ziehen so die Aufmerksamkeit des Betreibers auf sich.
Aber auch nur wenn er mit anderen Pickelgesichtern im Keller sitzt.
War ja klar, dass der mal gebusted wird, schon als der Pro7-Stream direkt neben dem Impressum verlinkt war. Hoffentlich ists ihm eine Lehre.
@panda guy: Du bist echt lustig :) Keinen Plan von nix (ok, wahrscheinlich grad im dritten Silvester) aber große Töne spucken. Bist Du neidisch, dass Du das nicht kannst?
Meine Erfahrung mit Informatikstudis: In der Theorie wissen die das alle, in der Praxis nur ganz, ganz wenige. Egal, ob sie im ersten oder 20 Semester sind. Die meisten, die ich kenne, würden schon am HTML Parser scheitern, beim Captcha dann die anderen bis auf drei oder vier Stück.
"Jeder" war natürlich übertrieben. Aber ich bleibe dabei dass ich keinen Punkt sehe der wirklich schwierig zu implementieren wäre.
Kann es sein dass du bisher nur mit Uni-Studenten zu tun hattest? Ich kenne mich nur mit dem Studiengang an Hochschulen aus, und der ist so praxisorientiert dass auf jeden Fall viele Studenten mit etwas Freizeit eine solche Anwendung schreiben könnten.
Das ist wiklich kein Hexenwerk. Das schwierigste scheint noch der OCR-Teil zu sein, und dafür gibt es ja genug fertige Lösungen im Netz.
Ach, da muss man nicht mal Info studieren... Da lernt man sowas sowieso nicht.
Ein bisschen mit Python beschäftigen reicht da schon, da sind alle nötigen Module fürs Data Mining direkt mit an Board. Captcha Erkennungs Algorithmen sind auch genug im Netz. Sowas hätte wirklich jeder halbwegs intelligente Freak schaffen können.
Die Aufregung um die Sache verstehe ich auch nicht. Jeder ist selbst dafür verantwortlich welche Daten er ins Netz stellt. Wenn ich meine Telefonnummer ins Telefonbuch eintragen lasse, muss ich mich auch nicht wundern, wenn Leute im Telefonbuch blättern...
Das Python Zeugs is auch recht einfach lernbar. Wenn mir mal fad is werd ich für mein Anmeldesystem von meiner Uni nen kleinen Bot basteln, für den Fall dass noch Prüfungen/Übungen kommen die immer gleich voll sind sobald die Anmeldung anfängt^^. Anonsten, hätt ich nicht die Lust so ein Ding zu bauen. Aber ich denke mal, in Perl oder Python bekommt ma das als Halbwegs interessierter hin. Zum Thema selber nen Lexer/Parser schreiben. Das is ne scheiss Hackn. Musste das für Übersetzerbau machen (mit Flex/Yacc/Ox/BFE bzw. Burg). Böse anstrengende Sache.. aber geil wenn am Ende dann aus der eigenen Pseudoprogrammiersprache Assemblercode rauskommt).
Also ich habe nicht Informatik studiert, aber auch mal einen Captcha-Ausleser-Crawler gebaut.
Hab Abends um 18:00 Uhr angefangen, und war morgens um 04:00 Uhr mit allem fertig.
Python ist auch wunderschön, aber als Sprache habe ich mich für Java entschieden (Wobei die Sprache bei so einer einfachen Aufgabe wohl egal sein dürfte). HTTP-Zeug hab ich mit ner Apache-Lib gemacht, weil da sone schöne SSL bzw. Cookie unterstützung drin ist. Aufs parsen von HTML hab ich fast völlig verzichtet ... hab mit Hilfe von Regulären Ausdrücken ne funktionsfähige und schnelle Lösung gefunden.
Lief übrigens alles nebenläufig mit ca. 100 gleichzeitigen Verbindungen.
Das komplizierteste (eigentlich primitiv!) war die Captcha Erkennung. Ich hab dafür keine geeignete Lib gefunden und mir alles selber aus den Fingern gesaugt. Hab mir einfach überlegt, wie man diese verhunzten Zeichen irgendwie freistellen und lesen kann. Erkennungsrate über 95%.
Die gesammelten Daten wurden anschließend als CSV gespeichert. (Wie gesagt, sollte einfach schnell gehen.)
Das war alles in allem wirklich keine große Sache, und nicht an einer einzigen Stelle hab ich mich irgendwie herausgefordert gefühlt.
Ich denke wirklich, sowas kann jeder Interessierte (sog. Skript-Kiddie?) innerhalb von einem Tag von null auf selbst entwickeln. Und unter "Hacker" verstehe ich Leute, die wirklich was interessantes leisten. (Linux-Kernel, Treiber, Assembler-Zeugs, etc.)
Naja, aber der arme Mann tut mir leid, dasser für sone Spielerei sonen Ärger bekommen hat. Leider wird immer oft und viel übertrieben.
Schönen Tag noch an alle. :)
Klarstellung für die Juristen: Ich habe die Software ausschließlich auf meinem eigenen Server getestet und nicht an fremden ausprobiert!
mh. Ist die automatische Überwindung eines Captchas und das Auslesen von Daten denn per se illegal?
Na klar, du hast dir in ca. 2h das aus den Fingern gesaugt, was man normalerweise in einem Semester in Mustererkennung lernt. Träum weiter.
inchinafaellteinsackreisum schrieb:
--------------------------------------------------------------------------------
> Ach, da muss man nicht mal Info studieren... Da lernt man sowas sowieso
> nicht.
Wie man ein Captcha knackt lernt man da aber schon, wenn man will. ;-)
Der Rest ist eh zu trivial um es überhaupt als "Software Engineering" zu bezeichnen und ist ein Projekt für einen Sonntagnachmittag mit Kater.
Aber klar wie du schon sagst, selbst fertige Captcha-Algorithmen gibt es schon ausreichend und dann ist es NUR noch ein Projekt für einen Sonntagnachmittag für jeden beliebigen mit genügen Ambitionen.
Basement Dad schrieb:
--------------------------------------------------------------------------------
> Na klar, du hast dir in ca. 2h das aus den Fingern gesaugt, was man
> normalerweise in einem Semester in Mustererkennung lernt. Träum weiter.
Kommt wohl aufs Captcha an.
Wenn keinerlei Transformationen drauf angewandt wurden, ein fester Satz an Zeichen verwendet wird und auch sonst kein großes künstliches Rauschen hinzugefügt wurde, kann man recht einfach einen Matchingalgorithmus schreiben.
Da muss man dann nichts von Hough Transformation, Watershed oder Graphpartitionierung, Scalespace, SIFT oder sonst was gehört haben.
Zwischen 18 und 4 Uhr sind für mir 10 Stunden und schau mal hier: http://lmgtfy.com/?q=Mustererkennung
Crawler schrieb:
--------------------------------------------------------------------------------
> Der Typ hat vor allem etwas drauf. Ich würde den als Fachinformatiker einstellen
Ich würde nicht mit einem solchen Soziopathen zusammen arbeiten wollen. Ausserdem würde er wahrscheinlich Firmendaten (Dokumente sowie Mitarbeiterinfos) auch zu seinem Selbstzweck veröffentlichen und verkaufen.
Also ich habe schon mit 16 meinen ersten Crawler geschrieben. Man muss nen kleinen Überblick über html haben und die Phpfunktion fopen kennen.
Dafür braucht man kein Informatikstudium.
Entengrütze schrieb:
--------------------------------------------------------------------------------
> Ich denke wirklich, sowas kann jeder Interessierte (sog. Skript-Kiddie?)
> innerhalb von einem Tag von null auf selbst entwickeln. Und unter "Hacker"
> verstehe ich Leute, die wirklich was interessantes leisten. (Linux-Kernel,
> Treiber, Assembler-Zeugs, etc.)
>
Klingt mir auch unter einfachsten Bedingungen trotzdem nach guter Arbeit, die nach meiner Erfahrung 90% nicht hinbekommen hätten, weil sie nicht gleichzeitig die technischen Fähigkeiten haben, strukturiert arbeiten und die Problemlösung in Alternativen durchgehen können. Also das spricht eher für Dich!
Bist du auch einer von denen, die in der Schule Formeln auswendig gelernt haben und nicht ableiten können?
Wieso muss ich für meine Mustererkennung studieren?
Kleines Beispiel, wie ich Rauschen entfernt habe:
Captcha in Graustufen umwandeln ((R + G + B) / 3) leicht weichzeichnen (durchschnittswert mit Nachbarpixeln bilden) und danach durch einen Schwellenwert-Filter (Grauwert < 127 ? 0 : 255) laufen lassen. Schwupps. Kein Rauschen mehr und alle Kanten schön glatt.
Das ganze war noch etwas ausgefeilter, mit automatischer Spektral- und Kontrastoptimierung. Aber im Großen und Ganzen sehr einfach.
Setz dich doch einfach mal hin (ohne Vorwissen) und unterscheide ein "O" von einem "A" ... is ja soooo kompliziert. Naaaja ... muss jeder selbst wissen, was er sich zutraut, und was nicht.
Ciao :)
Kommentare: 222 | letzter Beitrag 26.05. 23:51
Kommentare: 169 | letzter Beitrag 15:11 Uhr
Kommentare: 94 | letzter Beitrag 26.05. 19:45
Kommentare: 68 | letzter Beitrag 14:48 Uhr
Kommentare: 64 | letzter Beitrag 26.05. 17:51
E-Mail an news@golem.de

Immer wieder zeigt Google seine Project Glass genannten Datenbrillen, ohne aber bislang konkrete Ankündigungen zu machen. Neben zahlreichen Fotos, die mit der Brille gemacht wurden, stellte Google nun auch ein erstes Video, das mit der Brille aufgenommen wurde, ins Netz.

Symantec hat sich zu den Aussagen der Bundesregierung geäußert, nach denen Geheimdienste in der Lage seien, SSH oder PGP zu knacken oder zu umgehen. Mathematisch gesehen sei kein wirksamer Angriff bekannt.

T-Pod ist ein kleines Kraftwerk für unterwegs. Betrieben mit einer kleinen Kerze, erzeugt das Gerät Strom für eine Leselampe oder das Laden des Smartphone-Akkus.

Renesas ist nach Elpida der zweite schwer angeschlagene japanische Chiphersteller. Renesas, das Hitachi, Mitsubishi Electric und NEC gehört, macht Verlust und will seine größte Fabrik verkaufen.

RIM soll in den kommenden Tagen erneut einen massiven Stellenabbau ankündigen. "Ich habe herausgefunden, welche Teile ich in meinem Puzzle nicht mehr benötige", sagte Firmenchef Thorsten Heins.

Ein britisches Blog will erfahren haben, dass Facebook den norwegischen Browserhersteller Opera Software kaufen will. Beide Unternehmen wollen sich dazu nicht äußern.