Schon jemand getestet was die Vorteile/Unterschiede gegenüber YQL (Yahoo Query Language) sind?
http://developer.yahoo.com/yql/
efwoieufhliue schrieb:
--------------------------------------------------------------------------------
> Schon jemand getestet was die Vorteile/Unterschiede gegenüber YQL (Yahoo
> Query Language) sind?
> developer.yahoo.com
Wenn ich es richtig verstehe, dann sind das zwei verschiedene Paar Schuhe. YQL ist schon um einiges komplexer.
Doppelganger scheint wohl einfach nur ein Verzeichnis von IDs/PrimaryKeys für verschiedene WebServices zu sein. Nach dem Muster:
Anstatt bei zehn Diensten einzeln eine Suchanfrage nach der ID für Berlin zu stellen und dann erst sich die Daten zu Berlin holen zu können, stellt man eine einzelne Suchanfrage an Doppelganger mit dem Ort und bekommt dann alle IDs, mit denen man bei den anderen Diensten die Daten holen kann. Das spart 9 Requests und im Idealfall lässt sich das Daten-Abholen parallelisieren, wodurch ein weiterer Vorteil entsteht (sonst liesse es sich erst parallelisieren, nachdem der jeweilige Dienst die ID rausgerückt hat).
Das funktioniert natürlich nur für statische IDs, was aber nicht immer der Fall sein muss. Sind die IDs dynamisch, dann dürfte es schnell haarig für den Doppelgänger werden, den Überblick zu behalten ;)
> > Schon jemand getestet was die Vorteile/Unterschiede gegenüber YQL (Yahoo
> > Query Language) sind?
> > developer.yahoo.com
>
> Wenn ich es richtig verstehe, dann sind das zwei verschiedene Paar Schuhe.
> YQL ist schon um einiges komplexer.
Doppelganger macht Duplikaterkennung, oder auch Record Linkage genannt. Das heißt die Engine sucht ähnliche Objekte in den Datenbanken und bestimmt dann ob sie mich hoher Wahrscheinlichkeit gleich sind. Und manchmal muss nochmal ein Mensch draufschauen.
>
> Doppelganger scheint wohl einfach nur ein Verzeichnis von IDs/PrimaryKeys
> für verschiedene WebServices zu sein. Nach dem Muster:
> Anstatt bei zehn Diensten einzeln eine Suchanfrage nach der ID für Berlin
> zu stellen und dann erst sich die Daten zu Berlin holen zu können, stellt
> man eine einzelne Suchanfrage an Doppelganger mit dem Ort und bekommt dann
> alle IDs, mit denen man bei den anderen Diensten die Daten holen kann. Das
> spart 9 Requests und im Idealfall lässt sich das Daten-Abholen
> parallelisieren, wodurch ein weiterer Vorteil entsteht (sonst liesse es
> sich erst parallelisieren, nachdem der jeweilige Dienst die ID rausgerückt
> hat).
Genau. Wir (ich arbeite bei Uberblic) helfen vorallem in solchen Fällen wenn das Suchen in verschiedenen Diensten nicht so einfach ist. "Berlin" findet man noch, aber meist hat man es mit unbereinigten Datenbanken zu tun. Schreibweise der Namen, Addressen, etc, alles fuzzy.
> Das funktioniert natürlich nur für statische IDs, was aber nicht immer der
> Fall sein muss. Sind die IDs dynamisch, dann dürfte es schnell haarig für
> den Doppelgänger werden, den Überblick zu behalten ;)
Dynamische IDs sind meist recht ungeeignetete IDs in APIs :)
1 mal bearbeitet, zuletzt am 16.08.11 16:12 durch gkob.
Danke für die weitere Erklärung. Sicher eine spannende Sache, wenn es ins Detail geht.
> [..] Wir (ich arbeite bei Uberblic) [..]
Prima! Dann zieht bitte noch das Impressum auf Eurer Seite nach ;)
Soweit ich das sehe sind die Standort basierten Daten schon längst über eindeutige Werte verknüpft. Man nennt es Koordinaten ;-) Zumindest die APIs mit denen ich bisher so gearbeitet habe, können das.
Der wirkliche Mehrwert ist ja anscheinend nur die Duplikaterkennung bzw. Bereinigung.
Ich frag mich ob das alles sein soll was Doppelganger können soll oder was ist da noch so für die Zukunft geplant?
Als erstes fielen mir da mal Sachen ein wie diverse Aktionen der unterschiedlichen API Plattformen mit eurere API zu vereinen. Sowas ist allerdings auch kein Hexenwerk.
AndreK schrieb:
--------------------------------------------------------------------------------
> Soweit ich das sehe sind die Standort basierten Daten schon längst über
> eindeutige Werte verknüpft. Man nennt es Koordinaten ;-) Zumindest die APIs
> mit denen ich bisher so gearbeitet habe, können das.
Koordinaten sind ungenau. Da gibt es in Innenstädten gerne mal 10-20 Meter Abweichung.
Um z.B. ein Restaurant eindeutig in einer Datenbank zu bestimmen nimmt man nicht die Koordinate, sondern eine ID. Oder fragt APIs nach einer Kombination aus Koordinate und Name, und das ist dann eine Suche.
Der Use Case den wir bedienen wäre aus einer API Restaurant Öffnungszeiten zu ziehen, aus einer anderen API die passenden Restaurantkritiken.
> Der wirkliche Mehrwert ist ja anscheinend nur die Duplikaterkennung bzw.
> Bereinigung.
> Ich frag mich ob das alles sein soll was Doppelganger können soll oder was
> ist da noch so für die Zukunft geplant?
Klar ist für die Zukunft mehr geplant :) Die Duplikaterkennung / Zusammenführung von Datenbanken ist der Kern, wir lösen ein Problem das sehr viele Produktentwickler haben und eigentlich am liebsten nicht haben würden.
> Als erstes fielen mir da mal Sachen ein wie diverse Aktionen der
> unterschiedlichen API Plattformen mit eurere API zu vereinen. Sowas ist
> allerdings auch kein Hexenwerk.
Wenn es ein Hexenwerk wäre würde ich es auch nicht anfassen wollen :)
Der Mehrwert für unsere Kunden ist 50% dass wir technisch Dinge können die sie selber nicht können, und 50% dass wir uns um Dinge kümmern um die sie sich nicht kümmern wollen.
Kommentare: 170 | letzter Beitrag 15:54 Uhr
Kommentare: 94 | letzter Beitrag 26.05. 19:45
Kommentare: 74 | letzter Beitrag 18:52 Uhr
Kommentare: 70 | letzter Beitrag 18:56 Uhr
Kommentare: 58 | letzter Beitrag 18:36 Uhr
E-Mail an news@golem.de

Der japanische Spieldesigner Goichi Suda - Fans sagen schlicht "Suda 51" - ist für schräge Actionspiele bekannt. Sein nächstes Werk schickt ein scheinbar braves Schulmädchen in den Kampf gegen Zombies.

Weitgehend unbemerkt hat der US-Händler Tigerdirect die ersten Chromebox-Systeme von Google ausgeliefert. Für 330 US-Dollar bekommt der Nutzer recht gute Hardware in Nettop-Form, die sehr viel leistungsfähiger ist als die des Chromebook mit ChromeOS.

Der neue Chef der Piratenpartei steht im Verteidigungsministerium unter Druck. Elektronische Kommunikation für seine Partei ist ihm in der Dienstzeit untersagt. "Es gibt Leute im Ministerium, die darauf warten, dass ich Fehler mache", sagte Schlömer.

Renesas ist nach Elpida der zweite schwer angeschlagene japanische Chiphersteller. Renesas, das Hitachi, Mitsubishi Electric und NEC gehört, macht Verlust und will seine größte Fabrik verkaufen.

RIM soll in den kommenden Tagen erneut einen massiven Stellenabbau ankündigen. "Ich habe herausgefunden, welche Teile ich in meinem Puzzle nicht mehr benötige", sagte Firmenchef Thorsten Heins.

Ein britisches Blog will erfahren haben, dass Facebook den norwegischen Browserhersteller Opera Software kaufen will. Beide Unternehmen wollen sich dazu nicht äußern.