-
Ich würde Modelle mit Reddit-Training vermeiden
Autor: Wormbo 18.02.24 - 11:38
Die Ausnahme wäre, wenn ich Bots erstellen wollte, die unterschwellig oder ganz offen toxisch sein sollen. Man kann ja nichtmal pro Post oder Kommentar sicherstellen, dass der Ersteller nur mit einer Sprache spricht, oder auch nur Ansatzweise korrekte Rechtschreibung benutzt hat.
-
Re: Ich würde Modelle mit Reddit-Training vermeiden
Autor: Hotohori 18.02.24 - 12:40
Wormbo schrieb:
--------------------------------------------------------------------------------
> Die Ausnahme wäre, wenn ich Bots erstellen wollte, die unterschwellig oder
> ganz offen toxisch sein sollen. Man kann ja nichtmal pro Post oder
> Kommentar sicherstellen, dass der Ersteller nur mit einer Sprache spricht,
> oder auch nur Ansatzweise korrekte Rechtschreibung benutzt hat.
Gerade wegen letzterem sind Foren und Social Media generell eine extrem schlechte Quelle für Hochqualitative Trainingsdaten.
Auf solchen Portalen sind eine ganze Menge Menschen unterwegs, deren Muttersprache nicht englisch ist und daher eher nicht so gutes englisch schreiben. Und selbst Leute, deren Muttersprache englisch ist, sind in Sachen Rechtschreibung nicht immer besonders gut. Sonst hätten ja alle in der Schule eine Bestnote in ihrer Muttersprache. Wie viele gibt es aber, die eher eine schlechtere Note haben? Mehr als genug.
Das erklärt dann oft auch wieso solche KIs gewisse Fehler machen, die man häufig auch bei Menschen findet, weil man diese relativ leicht machen kann und daher auch massig auf Reddit und Co zu finden sind und so in die KI einfließen.
OpenAIs Modelle sind nur so gut, weil sie die Trainingsdaten (in billig Ländern zu miesen Löhnen) auf Qualität kontrollieren und korrigieren lassen. Aber eine menschliche Kontrolle wird immer dazu führen, dass Fehler trotzdem wieder übersehen werden. Selbst wenn 10 Menschen einen Text kontrollieren können noch immer Fehler enthalten sein.
Die Frage ist ob man KI benutzen kann um die Qualität der Trainingsdaten zu verbessern. Bin mir sehr sicher, dass OpenAI da selbst schon lange daran arbeitet. Es werden ja jetzt schon teils synthetische Trainingsdaten von GPT3.5/4 genutzt um Open Source Modelle zu füttern... obwohl OpenAI das eigentlich nicht erlaubt, was aber auch nicht optimal ist. Aber ich dachte da eher richtiges Trainingsmaterial durch ein LLM zu jagen um Fehler zu finden und zu korrigieren. -
Re: Ich würde Modelle mit Reddit-Training vermeiden
Autor: Sharra 18.02.24 - 15:36
Um eine Bestnote in der Muttersprache in der Schule zu erhalten, muss man nicht nur fehlerfrei schreiben können. Dazu gehört dann doch ein ganzer Stapel mehr.
-
Re: Ich würde Modelle mit Reddit-Training vermeiden
Autor: violator 18.02.24 - 16:34
Wormbo schrieb:
--------------------------------------------------------------------------------
> Die Ausnahme wäre, wenn ich Bots erstellen wollte, die unterschwellig oder
> ganz offen toxisch sein sollen.
Das kann man in keinem Forum. -
Re: Ich würde Modelle mit Reddit-Training vermeiden
Autor: jonasz 18.02.24 - 18:36
Sharra schrieb:
--------------------------------------------------------------------------------
> Um eine Bestnote in der Muttersprache in der Schule zu erhalten, muss man
> nicht nur fehlerfrei schreiben können. Dazu gehört dann doch ein ganzer
> Stapel mehr.
Nicht wirklich, wenn die Bewertung einem objektiven Maßstab folgt. Die Einschätzung der sprachlichen Leistung ist meist recht subjektiv, das liegt halt an dem Personal. Jedoch gibt es zumindest in meiner Gegend sehr einfache Parameter. Für die deutsche und italienische Sprache war die Fehlerdichte ausschlaggebend. Der Wortschatz sollte dem Alter und Sprachniveau entsprechen, und die Verwendung zeitlich logischer Abfolgen sollte gezeigt werden können. Man kann alles entsprechend oft im Präteritum oder Perfekt verfassen, aber man kann die zeitlichen Abfolgen durch die Verwendung der Zeitformen darstellen. Dasselbe galt für Englisch, jedoch kannst du dort keine Fehler bei den Fällen machen, wie falsche Präpositionen und Artikel. -
Re: Ich würde Modelle mit Reddit-Training vermeiden
Autor: Hotohori 19.02.24 - 08:27
Naja, ich meinte jetzt nicht nur Rechtschreibung, klar gehört auch Grammatik dazu. Und dann gibt es auch noch unterschiedlichste Schreibstile, die eine KI auch besser auseinander halten können sollte, denn Niemand will eine Geschichte die in einer wissenschaftlichen Sprache verfasst ist. :D
-
Re: Ich würde Modelle mit Reddit-Training vermeiden
Autor: dbettac 19.02.24 - 10:18
Es kommt immer darauf an, was Du mit Deinem Textbot machen möchtest. Wenn es Dir darum geht, Texte verfassen zu lassen, die wie die Produkte von echten Menschen aussehen, ist Reddit als Trainingsmaterial wahrscheinlich ideal.
-
Re: Ich würde Modelle mit Reddit-Training vermeiden
Autor: isstdudasnoch 19.02.24 - 10:29
Hotohori schrieb:
--------------------------------------------------------------------------------
> Wormbo schrieb:
> ---------------------------------------------------------------------------
> -----
> > Die Ausnahme wäre, wenn ich Bots erstellen wollte, die unterschwellig
> oder
> > ganz offen toxisch sein sollen. Man kann ja nichtmal pro Post oder
> > Kommentar sicherstellen, dass der Ersteller nur mit einer Sprache
> spricht,
> > oder auch nur Ansatzweise korrekte Rechtschreibung benutzt hat.
>
> Gerade wegen letzterem sind Foren und Social Media generell eine extrem
> schlechte Quelle für Hochqualitative Trainingsdaten.
>
Viele "KI"-Unternehmen sehen das so ähnlich wie Stalin: Quantität hat eine eigene Qualität.
Ceterum censeo Muskum esse delendam -
Re: Ich würde Modelle mit Reddit-Training vermeiden
Autor: Sharra 19.02.24 - 15:01
Es gibt bei euch keine Aufsätze? Referate? Zusammenfassungen? Textanalysen in Deutsch? Gar nichts?



