Habe gerade mal einen Test mit dem Bild gemacht, dass auf der Seite angeboten wird (RFC von HTTP/1.1).
Originalbild: http://googlecodesamples.com/docs/php/HTTP.jpg
OCR-Ergebins: http://docs.google.com/View?id=dgj3njtc_10d3hwvhd5
Ich bin von der Qualität nicht sehr begeistert. (Ich habe hier aber auch gerade keine Vergleichsmöglichkeit zu anderen Texterkennern)
Ich bin mir nicht sicher, ob es vielleicht besser funktioniert, wenn man die Sprache der Quelle angibt. Denn viele Fehler wären vermutlich einfach zu beheben, wenn man weiß, dass im englischen kein "ß" und kein "ñ" gibt...
Vor allem scheint das OCR aber Probleme bei den geklammerten Zahlen zu haben.
Nichtsdestotrotz ist das ein guter Service, wenn man an der Qualität der Erkennung noch etwas dreht.
Das sind spezialfälle diese geklamerten Zahlen.
Das Ergebnis ist schon zufriedenstellend. Problem ist eher das die Sprache der OCR engine nicht richtig eingestellt ist (Englisch in diesem Fall) und deshalb die "ff" nicht richtig erkannt werden.
Aber trotzdem ein normales Ergebnis für eine gute OCR engine
> Das sind spezialfälle diese geklamerten Zahlen.
Naja, die erste Klammer erkennt er... Dann sollte sich der Algorithmus schon auf eine schließende einstellen, oder?
> Das Ergebnis ist schon zufriedenstellend. Problem ist eher das die Sprache
> der OCR engine nicht richtig eingestellt ist (Englisch in diesem Fall) und
> deshalb die "ff" nicht richtig erkannt werden.
Das mit der Sprache habe ich ja auch schon vermutet, allerdings liest sich folgender Abschnitt eher so, dass man die Dokumentensprache nur eingibt, für die automatische Übersetzung.
>>Außerdem hat Google die Übersetzungsfunktion in die Programmierschnittstelle eingebaut. So können Texte nach dem Upload direkt übersetzt und in Googles Texte und Tabellen eingefügt werden. Dazu müssen nur die Parameter "targetLanguage" und "sourceLanguage" an den Uploadrequest angehängt werden<<
Kommentare: 171 | letzter Beitrag 20:42 Uhr
Kommentare: 94 | letzter Beitrag 26.05. 19:45
Kommentare: 77 | letzter Beitrag 20:57 Uhr
Kommentare: 70 | letzter Beitrag 18:56 Uhr
Kommentare: 60 | letzter Beitrag 20:11 Uhr
E-Mail an news@golem.de

Der japanische Spieldesigner Goichi Suda - Fans sagen schlicht "Suda 51" - ist für schräge Actionspiele bekannt. Sein nächstes Werk schickt ein scheinbar braves Schulmädchen in den Kampf gegen Zombies.

Weitgehend unbemerkt hat der US-Händler Tigerdirect die ersten Chromebox-Systeme von Google ausgeliefert. Für 330 US-Dollar bekommt der Nutzer recht gute Hardware in Nettop-Form, die sehr viel leistungsfähiger ist als die des Chromebook mit ChromeOS.

Der neue Chef der Piratenpartei steht im Verteidigungsministerium unter Druck. Elektronische Kommunikation für seine Partei ist ihm in der Dienstzeit untersagt. "Es gibt Leute im Ministerium, die darauf warten, dass ich Fehler mache", sagte Schlömer.

Renesas ist nach Elpida der zweite schwer angeschlagene japanische Chiphersteller. Renesas, das Hitachi, Mitsubishi Electric und NEC gehört, macht Verlust und will seine größte Fabrik verkaufen.

RIM soll in den kommenden Tagen erneut einen massiven Stellenabbau ankündigen. "Ich habe herausgefunden, welche Teile ich in meinem Puzzle nicht mehr benötige", sagte Firmenchef Thorsten Heins.

Ein britisches Blog will erfahren haben, dass Facebook den norwegischen Browserhersteller Opera Software kaufen will. Beide Unternehmen wollen sich dazu nicht äußern.