Abo
  1. Foren
  2. Kommentare
  3. Wirtschaft
  4. Alle Kommentare zum Artikel
  5. › In eigener Sache: Golem.de erhält…

Wie viele Ebenen werden diese Auszüge haben?

  1. Thema

Neues Thema Ansicht wechseln


  1. Wie viele Ebenen werden diese Auszüge haben?

    Autor: ThaKilla 24.02.16 - 19:28

    Ich finde die Idee sehr gut.

    Generell wünsche ich mir sogar eine Art Kaskadierung um sich immer tiefer in bisher unbekannte bzw. vernachlässigte Themen einarbeiten zu können. Ideal wäre es wenn man aus einem Artikel mit zwei Absätzen, ein mehrere Seiten starkes Manuskript aufklappen könnte.

    Jedoch frage ich mich, wie genau diese automatischen relevanten Informationen zu den Artikeln passen werden.
    Was ich mir definitiv nicht wünsche ist, dass alles vorgeschlagen wird was nur im entferntesten mit dem Namen einer Firma und/oder eines Produktes zu tun hat. Also keine im Artikel integrierte Googlesuche, sondern tatsächlich relevante Erweiterungen, welche dann gerne auch, wie oben erwähnte Kaskadierung, über am liebsten beliebige ebenen verfügt.

    Dafür würde ich sofort ein Abo abschließen.

  2. Re: Wie viele Ebenen werden diese Auszüge haben?

    Autor: am (golem.de) 24.02.16 - 20:05

    > Generell wünsche ich mir sogar eine Art Kaskadierung um sich immer tiefer
    > in bisher unbekannte bzw. vernachlässigte Themen einarbeiten zu können.
    > Ideal wäre es wenn man aus einem Artikel mit zwei Absätzen, ein mehrere
    > Seiten starkes Manuskript aufklappen könnte.
    In diese Richtung soll es auch gehen.

    > Jedoch frage ich mich, wie genau diese automatischen relevanten
    > Informationen zu den Artikeln passen werden.
    Wir uns auch. Eines der Ziele des Projektes ist es, herauszufinden, ob es mit vertretbaren Mitteln möglich ist, eine angemessene Qualität zu erreichen ist. Im Gegensatz zu einer Uni können wir das Problem nicht mit unbegrenzt Hardware und Zeit zu erschlagen.

    Grüße,
    Alexander Merz (golem.de)

  3. Re: Wie viele Ebenen werden diese Auszüge haben?

    Autor: Tigtor 25.02.16 - 06:56

    Nur Interesse halber: muss dabei auch ein funktionierendes Produkt herauskommen oder kann/darf das Projekt auch scheitern?

    Am einfachsten wäre natürlich entsprechende Absätze per keyword zu Flaggen, aber das ist ja nicht Sinn der Sache und würde auch für alte Artikel nicht funktionieren. Ich könnte mir vorstellen, dass es möglich wäre alte Artikel zu analysieren und einzelne Abschnitte auf keywords zu analysieren ( Google hat diese Technik ja schon selbst verwendet ) d.h. Häufigkeit und ggf. Zusammenhang mit anderen key words im selben Abschnitt oder Satz.

    Und dann dem Benutzer beim Auftreten dieser key words in anderen Artikeln die Option zu liefern bestehend Artikelabschnitte einzublenden ( Starship troopers - erfahren sie mehr XD )
    Allerdings sollte man dem Benutzer eine Auswahl geben damit dieser selbst entscheiden kann, welcher der Inhalte für ihn relevant ist.

    1000-7

  4. Re: Wie viele Ebenen werden diese Auszüge haben?

    Autor: am (golem.de) 25.02.16 - 12:50

    > Nur Interesse halber: muss dabei auch ein funktionierendes Produkt
    > herauskommen oder kann/darf das Projekt auch scheitern?
    Scheitern ist eine Option.
    Das Warum werden wir in dem Fall ausführlich schildern.

    > Am einfachsten wäre natürlich entsprechende Absätze per keyword zu Flaggen,
    > aber das ist ja nicht Sinn der Sache und würde auch für alte Artikel nicht
    > funktionieren.
    Das würde auch bei neuen Artikel nicht funktionieren, da dass manuelle Verschlagworten auf Absatzebene unglaublich Zeit kostet.

    > Ich könnte mir vorstellen, dass es möglich wäre alte Artikel
    > zu analysieren und einzelne Abschnitte auf keywords zu analysieren ( Google
    > hat diese Technik ja schon selbst verwendet ) d.h. Häufigkeit und ggf.
    > Zusammenhang mit anderen key words im selben Abschnitt oder Satz.
    Ja, in diese Richtung laufen unsere Ideen. Die Schwierigkeit besteht darin, abzuklopfen in wie weit bestehende Technik tatsächlich mit dem Fachvokabular und zuweilen kryptischen Produktbezeichnungen auf Golem.de klar kommt. Wenn die Technik einen Intel i3 und einen Intel i7 zusammenwirft oder nicht unterscheiden kann zwischen einer Matrox-450-Grafikkarte und einer Mali-450-GPU, dann wird das nix.

    Grüße,
    Alexander Merz (golem.de)

  5. Re: Wie viele Ebenen werden diese Auszüge haben?

    Autor: Ext3h 25.02.16 - 18:28

    Da sehe ich Probleme die deutlich über das bloße abstimmen von Stichwörtern hinaus geht.

    Das Problem ist, dass die Absätze zwar häufig ein paar gut erkennbare Begriffe aufweisen die einen Kontext geben sollen, dafür dann aber zum einen zu viele, und zum anderen ergeben sich die interessanten Zusammenhänge erst aus dem Kontext.

    Den zu extrahieren dürfte schwierig werden - es sei denn ihr gebt diesen beim verfassen des Artikels bereits explizit formal an. Der Hauptfokus sollte dabei darauf liegen zu unterscheiden welche Art von Hintergrundinformationen relevant sind.

    Begriffsklärung? Liste von historischen Ereignissen für einen zeitlichen Kontext? Verwandte Hintergrundinformation?

    Im Endeffekt würde man dann für diese 3 Kategorien jeweils neue Absätze entsprechend tragen, wobei tags gruppiert werden und die Länge des sets ausdrückt wie spezifisch die information ist.

    Per default würde dann versucht auf verwandte Informationen zu verlinken. Sprich größte Übereinstimmung pro Set. Welche Art von information Präzedenz haben sollte hängt von der Art des aktuellen Absatz ab. Eine Begriffserklärung wird sehr wahrscheinlich weitere erfordern, ein zeitlicher Kontext wird primär nach weiteren Ereignissen erfordern. Aus beiden kann, aber muss nicht, ein bereits auf verwandte Informationen relevant sein.

    Begriffe die ein Absatz zwar referenziert, aber nicht selber behandelt müssen per query annotiet werden, optional mit einem Hinweis welche Art von information in den Kontext passen wurde.

    Zur Verbesserung, bzw Verbreiterung des Suchraum sollten Begriffe außerhalb (!) des Artikels mit Parent-Child-Relationen verlinkt werden. Geschwister eines Begriffs sind durchaus ebenfalls interessant. Zudem gibt es dem Autor bei der Auswahl der Begriffe einen Kontext, und reduziert damit das Risiko von Bedienfehlern. Neben Parent-Child auch noch Aliasse, so das synonyme Begriffe für den Autor alle verwendbar sind ohne die DB auf zu blähen.


    Vergesst es die Bestandsdaten per NLP sortieren zu wollen, das wird nicht funktionieren. Stellt lieber eueren Autoren eine funktionierende Autovervollständigung für die DSL zur Verfügung, da bekommt ihr deutlich bessere Daten raus. Selbst im englischen, mit den eher kurzen Sätzen funktioniert NLP schon eher schlecht als recht, aber im deutschen mit den Schlangensätzen und den doch teilweise schwierigen Sprachkonstrukten wie zusammengesetzten Wörtern oder eingedeutschten begriffen funktioniert das überhaupt nicht.

    PS: Mit simplen abgleichen von automatisch extrahierten Stichwörtern würdet ihr zwar tolles SEO betreiben, aber für den menschlichen Leser der neben einer thematischen Übereinstimmung auch einen strukturierten Lesefluss erwartet taugt das absolut nichts.



    2 mal bearbeitet, zuletzt am 25.02.16 18:41 durch Ext3h.

  1. Thema

Neues Thema Ansicht wechseln


Um zu kommentieren, loggen Sie sich bitte ein oder registrieren Sie sich. Zum Login

Stellenmarkt
  1. Weleda AG, Schwäbisch Gmünd
  2. Die Haftpflichtkasse VVaG, Roßdorf
  3. Marienhaus Dienstleistungen GmbH, Ottweiler, Hermeskeil, Bitburg, Neuwied, Bad Neuenahr-Ahrweiler
  4. Hess GmbH Licht + Form, Villingen-Schwenningen

Golem pur
  • Golem.de ohne Werbung nutzen

Anzeige
Hardware-Angebote
  1. 59,90€ (zzgl. Versandkosten)


Haben wir etwas übersehen?

E-Mail an news@golem.de


WEG-Gesetz: Bundesländer preschen bei Anspruch auf Ladestellen vor
WEG-Gesetz
Bundesländer preschen bei Anspruch auf Ladestellen vor

Können Elektroauto-Besitzer demnächst den Einbau einer Ladestelle in Tiefgaragen verlangen? Zwei Bundesländer haben entsprechende Ergebnisse einer Arbeitsgruppe schon in einem eigenen Gesetzentwurf aufgegriffen.
Eine Analyse von Friedhelm Greis

  1. Startup Rivian plant elektrochromes Glasdach für seine Elektro-SUVs
  2. Elektroautos Mehr als 7.000 neue Ladepunkte in einem Jahr
  3. Elektroautos GM und Volkswagen verabschieden sich vom klassischen Hybrid

Whatsapp: Krankschreibung auf Knopfdruck
Whatsapp
Krankschreibung auf Knopfdruck

Ein Hamburger Gründer verkauft Arbeitsunfähigkeitsbescheinigungen per Whatsapp. Ist das rechtens? Ärztevertreter warnen vor den Folgen.
Von Miriam Apke

  1. Medizin Schadsoftware legt Krankenhäuser lahm
  2. Medizin Sicherheitslücken in Beatmungsgeräten
  3. Gesundheitsdaten Gesundheitsapps werden beliebter, trotz Datenschutzbedenken

Arbeit: Hilfe für frustrierte ITler
Arbeit
Hilfe für frustrierte ITler

Viele ITler sind frustriert, weil ihre Führungskraft nichts vom Fach versteht und sie mit Ideen gegen Wände laufen. Doch nicht immer ist an der Situation nur die Führungskraft schuld. Denn oft verkaufen die ITler ihre Ideen einfach nicht gut genug.
Von Robert Meyer

  1. IT-Fachkräftemangel Freie sind gefragt
  2. Sysadmin "Man kommt erst ins Spiel, wenn es brennt"
  3. Verdeckte Leiharbeit Wenn die Firma IT-Spezialisten als Fremdpersonal einsetzt

  1. Segway-Ninebot: E-Scooter sollen autonom zur Ladestation fahren
    Segway-Ninebot
    E-Scooter sollen autonom zur Ladestation fahren

    Das Aufladen von E-Scootern ist für die Verleihdienste aufwendig und kostspielig. Daher könnten künftig Geister-Scooter durch die Städte rollen. Beim Kauf "normaler" E-Scooter gibt es derweil Verzögerungen.

  2. Streit über Qualitätsmängel: Tesla stoppt Model-3-Lieferungen an Nextmove
    Streit über Qualitätsmängel
    Tesla stoppt Model-3-Lieferungen an Nextmove

    Die Autovermietung Nextmove sieht sich als Vorreiter für die Elektromobilität. Doch ein Großauftrag für 100 Tesla Model 3 scheiterte an zu vielen Mängeln bei den Neuwagen.

  3. Protokolle: Chrome entfernt FTP-Unterstützung
    Protokolle
    Chrome entfernt FTP-Unterstützung

    Der Chrome-Browser wird bald keine FTP-Downloads mehr ermöglichen. Als Grund wird die geringe Nutzung angegeben.


  1. 12:29

  2. 11:36

  3. 09:15

  4. 17:43

  5. 16:16

  6. 15:55

  7. 15:23

  8. 14:54