1. Foren
  2. Kommentare
  3. Wissenschaft
  4. Alle Kommentare zum Artikel
  5. › Tacotron 2: Googles…

Die Samples klingen beeindruckend

  1. Thema

Neues Thema Ansicht wechseln


  1. Die Samples klingen beeindruckend

    Autor: HiddenX 21.12.17 - 18:46

    Zumindest was normalen Text ohne spezielle Wörter angeht (wie z.B. das AllHipHop). Wenn das nicht nur die besten Samples sind sondern die übliche Qualität wirklich sehr interessant.

  2. Re: Die Samples klingen beeindruckend

    Autor: sithik 21.12.17 - 19:16

    HiddenX schrieb:
    --------------------------------------------------------------------------------
    > Zumindest was normalen Text ohne spezielle Wörter angeht (wie z.B. das
    > AllHipHop). Wenn das nicht nur die besten Samples sind sondern die übliche
    > Qualität wirklich sehr interessant.

    Ja, die klingen in der Tat schon sehr gut, ich liebe auch die Zungenbrecher. Müsste halt nur noch echtzeitfähig sein :)

    Im letzten Teil "Tacotron 2 or Human?" soll ja jeweils eins Synthese sein und das andere eingesprochen. Offensichtlich wurde für die Synthese die Stimme von der gleichen Dame verwendet. Was ich heraushöre:

    “That girl did a video about Star Wars lipstick.”
    1 -> Maschine
    2 -> Mensch

    “She earned a doctorate in sociology at Columbia University.”
    -> nahezu identisch, kann es nicht unterscheiden

    “George Washington was the first President of the United States.”
    1 -> Maschine
    2 -> Mensch

    “I'm too busy for romance.”
    1 -> Mensch
    2 -> Maschine

    Was denkt ihr?

  3. Re: Die Samples klingen beeindruckend

    Autor: Anonymer Nutzer 21.12.17 - 19:33

    sithik schrieb:
    --------------------------------------------------------------------------------
    > HiddenX schrieb:
    > ---------------------------------------------------------------------------
    > -----
    > > Zumindest was normalen Text ohne spezielle Wörter angeht (wie z.B. das
    > > AllHipHop). Wenn das nicht nur die besten Samples sind sondern die
    > übliche
    > > Qualität wirklich sehr interessant.
    >
    > Ja, die klingen in der Tat schon sehr gut, ich liebe auch die
    > Zungenbrecher. Müsste halt nur noch echtzeitfähig sein :)
    >
    > Im letzten Teil "Tacotron 2 or Human?" soll ja jeweils eins Synthese sein
    > und das andere eingesprochen. Offensichtlich wurde für die Synthese die
    > Stimme von der gleichen Dame verwendet. Was ich heraushöre:
    >
    > “That girl did a video about Star Wars lipstick.”
    > 1 -> Maschine
    > 2 -> Mensch
    >
    > “She earned a doctorate in sociology at Columbia University.”
    > -> nahezu identisch, kann es nicht unterscheiden
    >
    > “George Washington was the first President of the United
    > States.”
    > 1 -> Maschine
    > 2 -> Mensch
    >
    > “I'm too busy for romance.”
    > 1 -> Mensch
    > 2 -> Maschine
    >
    > Was denkt ihr?

    Mhh ich finde beide haben sich angehört wie ein Mensch ^^' Ich mein nicht jeder redet mit der "perfekten" Ausprache :D

  4. Re: Die Samples klingen beeindruckend

    Autor: Cespenar 21.12.17 - 20:13

    sithik schrieb:
    --------------------------------------------------------------------------------
    > HiddenX schrieb:
    > ---------------------------------------------------------------------------
    > -----
    > > Zumindest was normalen Text ohne spezielle Wörter angeht (wie z.B. das
    > > AllHipHop). Wenn das nicht nur die besten Samples sind sondern die
    > übliche
    > > Qualität wirklich sehr interessant.
    >
    > Ja, die klingen in der Tat schon sehr gut, ich liebe auch die
    > Zungenbrecher. Müsste halt nur noch echtzeitfähig sein :)
    >
    > Im letzten Teil "Tacotron 2 or Human?" soll ja jeweils eins Synthese sein
    > und das andere eingesprochen. Offensichtlich wurde für die Synthese die
    > Stimme von der gleichen Dame verwendet. Was ich heraushöre:
    >
    > “That girl did a video about Star Wars lipstick.”
    > 1 -> Maschine
    > 2 -> Mensch
    >
    > “She earned a doctorate in sociology at Columbia University.”
    > -> nahezu identisch, kann es nicht unterscheiden
    >
    > “George Washington was the first President of the United
    > States.”
    > 1 -> Maschine
    > 2 -> Mensch
    >
    > “I'm too busy for romance.”
    > 1 -> Mensch
    > 2 -> Maschine
    >
    > Was denkt ihr?

    Bin auch schwer beeindruckt von den Samples! Hoffe es gibt mal eine Version zum selber Text2Speech testen.
    War der Meinung das immer das 2te ne menschliche Stimme war. Würde mich aber auch nicht wundern wenn beides vom Computer oder beides vom Menschen eingesprochen/synthetisiert wurde.
    Mich würde auch eine deutsche Variante interessieren, schlicht weil ich Englisch zwar sehr gut verstehe, aber es ist eben nicht meine Muttersprache. Evtl. hört man dann kleinere Unstimmigkeiten noch besser raus.

  5. Re: Die Samples klingen beeindruckend

    Autor: katze_sonne 21.12.17 - 20:19

    HiddenX schrieb:
    --------------------------------------------------------------------------------
    > Zumindest was normalen Text ohne spezielle Wörter angeht (wie z.B. das
    > AllHipHop). Wenn das nicht nur die besten Samples sind sondern die übliche
    > Qualität wirklich sehr interessant.
    Muss ich auch sagen, Hut ab. Aber gut, das ist nur Englisch - durch den Deep Learning Ansatz sollte sich sowas aber auch besser auf andere Sprache übertragen lassen als "herkömmliche" Methoden zur Sprachsynthese. Derzeit zum Beispiel finde ich die aktuelle Google-TTS (Google Assistant, Google Translate) auf Englisch schon sehr gut. Auf Deutsch geht die aber gar nicht - hier hat Alexa einen riesigen Vorsprung.

    Das größte Problem haben sie aber alle gemeinsam: Fremdwörter. Wie ja auch hier wieder am Ende des Artikels eingeschränkt wird. Die Formulierung klingt da noch etwas zu verharmlosend wie ich finde. Das sind Probleme, die man seit 20 Jahren nicht in den Griff bekommen hat. Alles andere in der Sprachsynthese ist immer besser und besser geworden. Nur hier sehe ich kaum bis gar keine Fortschritte. Am Ende bleibt da vermutlich nicht viel mehr übrig als eine Art Fremdwörterbuch zu erstellen, in dem die Aussprache von Worten irgendwie "maschinenlesbar" dargestellt wird. Menschen haben auch immense Probleme mit Fremdwörtern, meistens hat man kaum andere Möglichkeiten, außer die Aussprache auswendig zu lernen.

  6. Re: Die Samples klingen beeindruckend

    Autor: johnsonmonsen 21.12.17 - 20:25

    Hallo sithik!

    >Was denkt ihr?

    Also ich war mir nur bei dem Romance-Satz ziemlich sicher, dass das erste Sample menschlich eingesprochen wurde. Die Betonung auf "too busy" klingt eher nach einer bewussten Absicht, z.B. einen Annäherungsversuch scherzvoll abzuwehren.

    Von den Beispielen bin ich mehr als nur beeindruckt. Irgendwann können so wohl praktisch alle beliebigen Stimmen als Ausgangsbasis verwendet werden. Wird es dann so etwas wie ein Realstimmcopyright geben, welches die Verteilung von Stimmprofilen verhindern soll? Politiker, Promis, historische Persönlichkeiten - die Möglichkeiten zur Gestaltung von Filmen, Dialogen, Höspielen etc. - absolut gigantisch :-)!

    Noch eine Evolutionsstufe weiter kann bestimmt einmal sogar Singen bzw. das Intonieren von melodischen Lauten simuliert werden - angewandt auf die verfügbaren Aufnahmen der entsprechenden Person. Krasse Spielerein kann man dann machen, dagegen wird die heute übliche Autotune-Verwursterei von Sprachaufnahmen wirklich verblassen, obwohl da schon viel lustiges dabei ist...

    Viele Grüße :-)!

  7. Re: Die Samples klingen beeindruckend

    Autor: johnsonmonsen 21.12.17 - 20:37

    Hallo katze_sonne!

    >Am Ende bleibt da vermutlich nicht viel mehr übrig als eine Art Fremdwörterbuch zu erstellen, in dem die Aussprache von Worten irgendwie "maschinenlesbar" dargestellt wird.

    Ich finde, es wäre vom Ansatz her gerade auch interessant zu simulieren, wie genau ein Sprecher das unbekannte Wort versuchen würde auszusprechen. Also sprachtypische Dinge darstellbar zu machen, mit denen ein menschlicher Sprecher unbekannten Wörtern begegnet. So, wie mancher z.B. französischen Wörtern artikuliert, indem er sie nach deutschem Muster ausspricht, dabei aber vergeblich versucht französisch zu klingen. Das klingt dann wirklich menschlich und könnte dem Vorleseprogramm eine realistische Note verleihen. Das Problem also zur Tugend zu erheben...

    Viele Grüße :-)!

  8. Re: Die Samples klingen beeindruckend

    Autor: sithik 21.12.17 - 20:59

    katze_sonne schrieb:
    --------------------------------------------------------------------------------
    > Das größte Problem haben sie aber alle gemeinsam: Fremdwörter. Wie ja auch
    > hier wieder am Ende des Artikels eingeschränkt wird. Die Formulierung
    > klingt da noch etwas zu verharmlosend wie ich finde. Das sind Probleme, die
    > man seit 20 Jahren nicht in den Griff bekommen hat. Alles andere in der
    > Sprachsynthese ist immer besser und besser geworden. Nur hier sehe ich kaum
    > bis gar keine Fortschritte. Am Ende bleibt da vermutlich nicht viel mehr
    > übrig als eine Art Fremdwörterbuch zu erstellen, in dem die Aussprache von
    > Worten irgendwie "maschinenlesbar" dargestellt wird. Menschen haben auch
    > immense Probleme mit Fremdwörtern, meistens hat man kaum andere
    > Möglichkeiten, außer die Aussprache auswendig zu lernen.

    Naja, ein Fremdwörterbuch wird nicht viel bringen, höchstens für Eigennamen, um die Aussprache zu optimieren. Ich vermute, das wird mittlerweile auch gemacht.

    Das Hauptproblem ist eher zuverlässig zu erkennen, was in welcher Sprache ist, dann würde sich daraus die Aussprache ergeben. Wenn man im Text ganze Sätze oder Teile davon aus einer anderen Sprache zitiert, hilft dir ein Fremdwörterbuch überhaupt nicht weiter. Bei einzelnen Wörtern oder kurzen Wortgruppen müsste man aus dem Kontext heraus erkennen, welche Sprache das ist. Schwierig, wenn es sie in mehreren Sprachen gibt, aber unterschiedlich ausgeprochen werden – ist das nun englisch, französisch, italienisch, oder doch spanisch?

  9. Re: Die Samples klingen beeindruckend

    Autor: logged_in 22.12.17 - 06:23

    2 Sekunden nach dem Play-Button kam mir nur ein "Wow..." raus.

    Ist echt brutal, was die da geschafft haben.

    2017 hätte eigentlich als Jahr des Bitcoin in die Geschichte gehen sollen, aber hiermit?

    Computer hörten sich zum ersten mal menschlich an.

  10. Re: Die Samples klingen beeindruckend

    Autor: Christian72D 22.12.17 - 09:19

    Ich würde ZU gerne mal profesionelle Sprecher hören die die beiden Zungenbrecher vorlesen sollen. :)

  1. Thema

Neues Thema Ansicht wechseln


Um zu kommentieren, loggen Sie sich bitte ein oder registrieren Sie sich. Sie müssen ausserdem in Ihrem Account-Profil unter Forum einen Nutzernamen vergeben haben. Zum Login

Stellenmarkt
  1. Hasso-Plattner-Institut für Digital Engineering gGmbH, Potsdam
  2. CURRENTA GmbH & Co. OHG, Leverkusen
  3. SCHOTT AG, Mainz
  4. OEDIV KG, Bielefeld

Golem pur
  • Golem.de ohne Werbung nutzen

Anzeige
Top-Angebote
  1. (u. a. 8tlg. Robust Line Holzspiralbohrer Set für 9,29€, 5 Stück Trennscheibe Expert for Inox...
  2. (u. a. HP Elitedesk 800 G1 SFF generalüberholt, i7, 8GB, 256GB SSD für 379€, HP Elite 8300 MT...
  3. (u. a. Microsoft Office 2019 Home & Student multilingual, PC/Mac für 99,99€, Zahnbürsten und...
  4. 36,90€ (Bestpreis)


Haben wir etwas übersehen?

E-Mail an news@golem.de