1. Foren
  2. » Kommentare
  3. » Internet
  4. » Alle Kommentare zum Artikel
  5. » Semantisches Web - W3C verabschiedet…

Kewl Hoffentlich setzen sich ontologien durch

Anzeige
  1. Thema

Neues Thema Ansicht wechseln


  1. Kewl Hoffentlich setzen sich ontologien durch

    Autor Siga9876 29.10.09 - 12:15

    Ontologien kommen iirc von "Stadt-"Büchereien. Die brauchen einen simple Zuordnung (Algorithmus, Regel-Werk) wie welche Bücher in welche Kategorie gehören.
    Probleme sind dann z.b. "VBA mit Excel und Word". Kommt das unter "Naturwissenschaften->Computer(und Informatik)->Microsoft->Word"
    "Naturwissenschaften->Computer(und Informatik)->Microsoft->Excel"
    "Naturwissenschaften->Computer(und Informatik)->Programmieren->VBA"
    Ein Buch kann nur an einer Stelle stehen. Tomaten sind ja auch nicht bei den CDs sondern beim anderen Gemüse.
    Bei Multi-Themen-Büchern muss man dann überlegen, wo man es reinmacht und hoffentlich nicht bereuen.
    Inzwischen durch Computer kann man PHP und PHP+Mysql-Bücher in separate Regalreihen packen. Früher (Microfiche, Kartei-Zettel) wären PHP und PHP+Mysql-Bücher ewig durcheinander beisammen gestanden weil der Umzugs-Aufwand zu hoch gewesen wäre.

    Das Ontologien wichtig sind, habe ich schon öfter geschrieben. Es dürfte im Forum quasi kein Posting mit dem Wort "ontologien" "ontologie" geben, was nicht von mir ist. Damit können Beleidiger-Spacken meine Überlegenheit und Vorausschau erkennen.

    Endlich gibts das auch allgemein und ich kann mich freuen weil es jetzt etwas gibt, was ich vor 5-10 Jahren schon hätte haben wollen.

    Ontologien sind wichtig: Beispiel Online-Shop:
    Mainboard / Hauptplatine / Motherboard / Abit / Asus
    RAM / Speicher / Hauptspeicher / S0-Dimm / DDR1 DDR2 DDR3 usw.
    Bei Reichelt findet man "Solarzellen" nicht (früher zumindest). Die heissen dort "Solarmodule". Sowas verhindert Käufe.

    Speziell für Tag-Clouds wäre es nett, wenn man die Leute massiv motiviert, !möglichst! dieselben Tags zu nutzen wie alle anderen.

    Aliasse wären auch nett. Man fängt also alle Kleinanzeigen oder Angebote (als preisvergleicher oder als froogle) mit "Hauptplatine" und verpasst ihnen automatisch "Mainboard". Gleiches für "Hauptspeicher" was man durch "RAM" ersetzt.
    Hauptspeicher ist auch in der TagCloud sichtbar aber wenn ma ndraufklickt landet man bei RAM. Sowas ist wichtig, weil die Leute unterschiedliche Begriffe suchen.

    Bevor hier Gelaber kommt, das wäre nur für Maschinen:
    Wenn es um Kontenrahmen o.ä. geht, braucht man sowas natürlich nicht. Aber viele Ontologien sind halt AUCH für Endnutzer. Oder sollte es sein.
    Die Leute suchen einen "Zahnkranz" und kein "Ritzel" (offizieller Name). Oder einen Mantel für Fahrrad-Reifen und keine "Decke" usw.

    Produktgruppen bei Ebay oder Marketplace oder Preisvergleichern bieten sich dafür an. Ein Objekt/Angebot/Kleinanzeige sollte mindestens in einer "Schublade" landen. Und nach Möglichkeit nicht "sonstiges/sonstiges" sondern bestenfalls "USB-2-Geräte/Sonstiges->USB-Föhn".

    Wegen der W3C-Standards:
    Wer XSLT-1 kennt, weiss, das sie dort noch einiges hätten reinmachen müssen/können. Man schreibt sich nämlich einen Wolf bei manchen Dingen. In XSLT-2 sind diese Dinge drin. Manche davon wären aber besser schon in XSLT-1 drin gewesen.

    Hoffentlich ist das bei OWL nicht so "halbgar".

  2. Re: Kewl Hoffentlich setzen sich ontologien durch

    Autor Daniel E. 29.10.09 - 13:18

    Hmm, jetzt vermischst Du aber einige Dinge (Ontologie, Taxonomie, Thesaurus, Stemming).

    Habe mich während meines Studiums eingängiger mit Semantiken (RDF, OWL, etc.) beschäftigt. Das Beispiel mit den Büchern will mir nicht ganz klar werden. Willst Du damit sagen, dass Ontologien schlecht sind, weil sie nur eine strikte Zuordnung wie in einer Bibliothek erlauben oder willst Du uns sagen, dass Du genau das Gegenteil begrüßt?

    Das Problem bei den Onlineshop besteht ja genau darin, dass sie keine Ontologie verwenden, sondern in der Regel Artikel taxonomisch (also hierarchisch) zuordnen. Bauteile -> Mainboard -> Asus ist halt keine ontologische Zuordnung. In Einer Ontologie würde das eher so aussehen, dass jedem Produkt verschiedene Infomationstripel (Subjekt, Prädikat, Objekt) zugeordnet sind, also:

    P55XXXX :wird-hergestellt-von Asus
    P55XXXX :ist Hauptplatine
    P55XXXX :kostet 120,-
    Hauptplatine :ist-Synonym-fuer Mainboard
    Hauptplatine :ist-Synonym-fuer Motherboard
    Mainboard :ist-Unterkategorie-von Bauteile
    usw.

    Das schöne dabei ist dann, dass Inferenzmaschinen solche Suchanfragen (häufig XQuery, seltens NL) wie z.B.: "zeige mir alle Mainboards von Asus, die weniger als 140,- kosten" möglich sind. Weil durch die Ontologie Rückschlüsse möglich werden.

    Das obige Beispiel ist natürlich nicht ganz korrekt. Da diese Tripel immer nur in eine Richtung funktionieren müssten die Synonymdefinitionen in beide Richtungen vorhanden sein. Leichter lassen sich so Etwas natürlich über einen klassischen Thesaurus, wie er auch häufig in Suchmaschinen und Information Access Lösungen eingesetzt wird, realisieren. Ein Stemming muss dann natürlich auch noch mit eingeplant werden, damit nicht nur der Prozessor sondern auch die Prozessoren gefunden werden.

    Interessant wird es, wenn man all diese Methoden (Ontologien, Taxonomien [mittels Ontologie modelliert], Stemming, Thesauri) kombiniert und in NLP-IR-Software packt. Dann erhält man so schöne Dinge, wie z.B. opencalais.
    Dann ist es halt nicht notwendig, dass ein Nutzer seinen USB-Föhn in eine Kategorie einordnet, dass würde dann direkt am Text erkannt werden, weil die Begriffe USB und Föhn vorkommen. Und gerade der USB-Föhn ist auch ein Paradebeispiel, warum die Vielzahl der Lösungen sich mit der deutschen Sprach schwer tut. Hier sind USB und Föhn zwei Begriffe, die getrennt voneinander betrachtet werden können und so den Artikel auszeichnen. Häufig ist das allerdings auch nicht der Fall. Dies zu entscheiden funktioniert maschinell leider nur sehr schlecht. In anderen Sprachen sieht das anders aus. Da wäre es der: usb föhn oder der föhn mit usb anschluss.

    Nur meine 2 Pfennig.

    daniel

  3. Re: Kewl Hoffentlich setzen sich ontologien durch

    Autor Siga9876 29.10.09 - 15:37

    Ich meinte statt ontologie eigentlich eher Klassifizierung oder sowas wie Taxonomie. Das hat mir mal jemand falsch erklärt.

    Auch bin ich nicht aus der Branche und nicht wissenschaftlich und auch der unpassende Diskussionspartner dafür, sondern will allerwelts-Probleme gelöst sehen und was gebacken kriegen wo es bisher augenscheinlich keine üblichen Infrastrukturen gibt.

    Wenn ich reich genug wäre, würde ich u.u. versuchen, alle Sachverhalte per RDF(?) darzustellen und alle Agenturmeldungen nach RDF konvertieren[1]. Dann automatisch alle Agenturmeldungen automatisiert in allen Sprachen anbieten.
    Gleiches für Bilanzberichte usw. wenn man die als XML bekäme (siehe auch unten).
    Wenn man einen Satz konvertiert hat, kann man alle anderen Ähnlichen Sätze auch automatisch konvertieren.
    "Helmut Kohl wird Kanzler" => ...RDF...
    macht dann die automatisierte Umformung von
    "Angela Merkel wird Kanzler". D.h. wenn man ihm einmal was verklickert, wird das Template immer wieder nutzbar. D.h. die Menschen müssen nach einer Weile nur noch recht wenig selber und dafür "interessanteres" machen, weil der Rest automatisiert läuft. Im deutschen vielleicht nicht so, aber sowas könnte z.b. Missverständlichkeiten, Mehrdeutige Formulierungen usw. fett anzeigen weil diese dann nicht übersetzt werden können.
    (Sowas wie "Dangling Else" beim Compiler. if(a)then if(b) then c else d wo keiner weiss ob das 'd' zu 'if(b)' oder 'if(a)' gehört)

    Wieder zum Thema (aus Laien-Sicht):
    Z.b. Tags/Keywords finde ich extrem wichtig. Auch diese Suchen wie Du beschreibst, wären hilfreich.
    Bisher wird das (sinnvolle Tags, Schlagworte,...) aber viel zu wenig genutzt und das Rauschen (Firefox Plugins, Opera-Widgets usw.) in solchen Katalogen ist enorm.

    Wegen der Bücher: Man muss nicht immer etwas gut/schlecht finden oder auf irgendwem seiner Seite stehen.

    Echte Bücher können nur in einem Regal stehen. Daher müssen sie eindeutig in einen Sack gesteckt werden wie halt in Kategorien üblich. Problem ist das die Kunden das auch mitkriegen und das Buch auch finden.

    Bei Tieren ist das u.u. anders und mehrfaches Erben geht (siehe die Folge mit Lehrer bei Southpark erklärt die Evolution. Oder Mulis+Maulesel).

    Bei virtuellen Katalogen kann man aber bei "VBA mit Excel und Word" eine Haupt und zwei Neben-Zuordnungen nehmen. Mit Computersuche findet man das Buch dann. Es steht halt nicht in der Regalreihe mit Excel und nicht in der mit Word sondern in der mit "VBA-Programmierung". Früher hätte man sich die Arbeit eines inversen Index für (Neben-)Schlagworte u.u. nicht gemacht weil es zu viel Arbeit (Karteikarten, Kataloge, Listen, !Schreibmaschine!,...) gewesen wäre.

    Und bei Computern kann man Aliasse unterstützen. Macht man in den Gelben Seiten ja auch. Hier z.b. "Textildruck->Druckereien".

    Die Taxonomie muss das Objekt in die richtige Schublade/Schubladen stecken. Alle gleichen Objekte sollten !alle! in dieser Schublade stecken (Unterschubladen gibts dann auch noch). Speziell bei Preisvergleichen ist das sehr wichtig. Sonst hat man eine Liste für die Preise von "Rocky 6 BluRay" und eine für die Preise von "Rocky 6 Blu-Ray".
    Der Kunde sucht aber in anderen Schubladen so das man daher "Aliasse/Umleitungen/ ->..." bringen sollte.

    Auch echte Kategorien sind nicht unbedingt nötig. Im Computer kann ein Objekt auch in mehrere Schubladen gesteckt sein:
    Schallplatten->Beatles->Yellow Submarine (signiert)
    Sammlerkrams->Schallplatten->Yellow Submarine (signiert)
    Oft ist die Taxonomie unpassend vermutlich der Grund für sowas. Aber ist mir auch egal. Man muss ja im Onlineshop finden, was man sucht und sich irgendwie durchschlagen.

    Jeder muss Tags auch selber vergeben können. Wenn jetzt einer aber "MountainBike" statt "Mountain-Bike" macht, steht in der tag-Cloud bei Ebay oder Kleinanzeiten-Markt:
    "(Mountain-Bike 12345*) (MountainBike 5*)"
    D.h. man kann sich Aufmerksamkeit verschaffen die einem nicht zusteht. D.h. "MountainBike" würde verboten werden und wird beim Eintragen automatisch durch das "richtige" "Mountain-Bike" ersetzt. In der Suchmaschine kann man bei Suche nach "MontainBike" dann den richtige Begriff nutzen. Man glaubt nicht, wie viel Tippfehler in Suchmaschinen eingegeben werden. Wer schlau ist, hilft seinen Besuchern dabei.

    Das man mehrdimensional arbeitet und Taxonomien für Art (USB-Stick), Anschluss (Mini-USB), Datenrate (USB3) und Größe (4 GigaByte) hat, überschreitet manchen Teilnehmern hier im Forum oft ihre augenscheinlich geringen Fähigkeiten.

    Und das der Preisvergleicher merkt, wenn der Stick auch ein GPS-Logger ist, und die Properties von GPS-Loggern anbietet, überschreitet vielen hier noch mehr.
    Multiple Property-Sets hat schon jeder der in zwei Vereinen ist oder zwei Arbeitgeber hatte. Progger und Anfänger peilen sowas aber leider nicht so schnell. Das dasselbe Objekt(Person) dann noch Property-Sets als Bürger und Geschäftsführer hat, ist vielen zu schwer. Oder Autos haben immer Properties für ihre technischen Daten und manchmal auch für ihren Abschreibungs-Plan/Buchwert.


    Das interessante an OWL ist vielleicht nichtmal der Standard selber, sondern das es hoffentlich dann bald Werkzeuge gibt, die einem gewisse Dinge erleichtern.

    HTML müsste partiell durch XML (ruhig Microformate wenn es ist, was ich denke und wonach es klingt) ersetzt werden. HTML ist für Menschen. XML auch für Computer. Daher kann man bisher gar nicht automatisiert (legale) Informationen abgreifen.

    XML ist aber voll unbeliebt bei vielen Leuten. Die weigern sich dagegen mit Händen und Füßen. Das ist wie x86-Anbeter vs. RISC-Fans.

    Wenn Anwälte fordern würden, das man Impressum als XML macht um automatisch die Ladungs-Anschrift auszulesen und vollautomatisch abzumahnen, wäre XML plötzlich eine Verordnung/Gesetz.

    Aber das man mal alle Firmen und Wertpapiere xml-mößig KOSTENLOS listet und man automatisiert die Bilanzen als XML runterlädt um automatisch Analysen zu machen oder mit anderen Firmen zu vergleichen, dazu langt es der Finanzaufsicht natürlich nicht.

    Und das Beispiel mit XML-Bilanzen ist sicher fast 10 Jahre alt und nicht von mir. Daraus ist wohl leider nichts geworden.
    Die Spacken (deren Praktikanten) tippen lieber Umsatzahlen in Excel ein oder leechen die Daten teuer mit teuren Adobe-Acrobat-Scripten oder kaufen sie :-( . Wenn also Coca-Cola oder Nintendo Bilanzen veröffentlicht, wird in zigtausenden Firmen und Redaktionen die Zahlen mit copy&paste in die eigenen Excel-Tabellen übertragen wie wir bei heise/golem öfters zu sehen kriegen. Jedes Quartal. Na "super".

    Mathematica-Wolframs Suchmaschine ist wohl gut im scrapen/zuordnen von Informationen. Mit xml wäre die Notwendigkeit weniger vorhanden.

Neues Thema Ansicht wechseln


Entschuldigung, nur registrierte Benutzer dürfen in diesem Forum schreiben. Klicken Sie hier um sich einzuloggen


Meistgelesen
  1. Samsung Galaxy S3

    Siri braucht sich nicht zu fürchten

  2. Schmerzlos

    MIT-Forscher entwickeln Injektor mit Lorentzkraft-Antrieb

  3. Browser

    Kauft Facebook Opera?

  4. Libreoffice

    "Wir wollen Nutzer in die ODF-Welt ziehen"

  5. CSU-Vizechefin

    Aussagen zur Internetsucht sind absurd


Meistkommentiert
  1. Kommentare: 222 | letzter Beitrag 26.05. 23:51

  2. Kommentare: 216 | letzter Beitrag 00:27 Uhr

  3. Kommentare: 160 | letzter Beitrag 26.05. 23:16

  4. Kommentare: 93 | letzter Beitrag 26.05. 19:45

  5. Kommentare: 68 | letzter Beitrag 25.05. 12:17

Mehr



Haben wir etwas übersehen?

E-Mail an news@golem.de


F2, F8, F12: Windows 8 startet zu schnell
F2, F8, F12
Windows 8 startet zu schnell

Windows 8 kann auf entsprechender Hardware in weniger als 8 Sekunden booten. Dabei bleibt zu wenig Zeit, um den Bootvorgang zum Sprung ins Bios, ins UEFI-Menü oder in die Startauswahl von Windows zu unterbrechen.

  1. Dice Einige Frostbite-2-Spiele nur mit 64-Bit-Betriebssystem
  2. Windows RT Windows-Tablet-Lizenz soll angeblich 100 US-Dollar kosten
  3. Windows 8 Release Preview Microsoft verbessert Multi-Monitor-Unterstützung

Kim Dotcom: "Gebt mir meine Rechner zurück!"
Kim Dotcom
"Gebt mir meine Rechner zurück!"

Kim Schmitz will Zugriff auf seine 135 Computer und Festplatten, die die neuseeländischen Behörden im Januar 2012 beschlagnahmt haben. Das FBI halte das Material von der Justiz in Neuseeland zurück, um seine Verteidigung im Fall Megaupload zu erschweren, sagt er.

  1. Megaupload Kim Dotcom darf wieder das Internet benutzen
  2. Nach Megaupload Mediafire und weitere Filehoster im Fokus der Filmindustrie
  3. Megaupload Kim Schmitz muss mit monatlich 37.000 Euro zurechtkommen

Toshiba AT300: 10-Zoll-Tablet mit Quad-Core-Prozessor und Android 4
Toshiba AT300
10-Zoll-Tablet mit Quad-Core-Prozessor und Android 4

Toshiba hat das Excite 10 unter der Bezeichnung AT300 für Europa angekündigt. Das Tablet hat einen 10-Zoll-Touchscreen, den Quad-Core-Prozessor Tegra 3 von Nvidia und wird mit Android 4 alias Ice Cream Sandwich ausgeliefert.

  1. Smartphones und Tablets Fünf Nexus-Geräte zum fünften Geburtstag von Android?
  2. Iconia Tab A510/A511 Lieferprobleme bei Acers Android-Tablets
  3. Acer Iconia Tab A700 Android-4-Tablet mit 10-Zoll-Full-HD-Display kommt im Juni

  1. Browser: Kauft Facebook Opera?
    Browser
    Kauft Facebook Opera?

    Ein britisches Blog will erfahren haben, dass Facebook den norwegischen Browserhersteller Opera Software kaufen will. Beide Unternehmen wollen sich dazu nicht äußern.

  2. Datenschutz: Neue EU-Regeln zu Cookies treten in Kraft
    Datenschutz
    Neue EU-Regeln zu Cookies treten in Kraft

    Am 26. Mai 2012 treten neue Datenschutzregeln der EU in Kraft. Websitebetreiber und Werbenetzwerke müssen Nutzer um Erlaubnis fragen, wenn sie Cookies setzen.

  3. Libreoffice: "Wir wollen Nutzer in die ODF-Welt ziehen"
    Libreoffice
    "Wir wollen Nutzer in die ODF-Welt ziehen"

    Libreoffice könne mehr als Openoffice und biete Entwicklern zudem Vorteile, sagte Michael Meeks auf dem Linuxtag 2012. Außerdem spricht er mit Golem.de über Libreoffice-Online, woran er derzeit arbeitet.


  1. 14:48

  2. 14:29

  3. 14:24

  4. 12:30

  5. 12:23

  6. 18:49

  7. 18:33

  8. 18:08