Wie Henry Higgins, der Sänger aus George Bernard Shaws Stück „Pygmalion“, zeigten Marius Kotescu und Georgy Tenchev kürzlich, wie ihr Schüler versuchte, seine Artikulationsschwierigkeiten zu überwinden.
Die beiden Datenwissenschaftler, die beide für Amazon in Europa arbeiten, unterrichteten Alexa, die digitale Assistentin des Unternehmens. Ihre Mission: Alexa mithilfe künstlicher Intelligenz und Aufnahmen von Muttersprachlern dabei zu helfen, Englisch mit irischem Akzent zu meistern.
Während der Demonstration erzählte Alexa von einer unvergesslichen Nacht. „Die Party gestern Abend war so verrückt“, sagte Alexa schließlich und benutzte das irische Wort zum Spaß. „Auf dem Heimweg bekamen wir ein Eis und waren froh, wieder rauszukommen.“
Herr Tenchev schüttelte den Kopf. Alexa hat das „r“ im Wort „Party“ weggelassen, sodass das Wort flach klingt, wie „pah-tee“. Er kam zu dem Schluss, dass er sehr britisch war.
Die Technologen sind Teil eines Teams bei Amazon, das in einem anspruchsvollen Bereich der Datenwissenschaft arbeitet, der als Audiodekodierung bekannt ist. Es handelt sich um ein herausforderndes Problem, das im Zuge einer Welle von KI-Entwicklungen eine neue Bedeutung erlangt hat, da Forscher glauben, dass das Rätsel von Sprache und Technologie dazu beitragen kann, KI-gestützte Geräte, Bots und Sprachsynthesizer gesprächiger zu machen – das heißt, sie für viele anzusprechen regionale Akteure. Akzente.
Der Umgang mit der phonemischen Entwirrung umfasst mehr als nur das Erlernen von Vokabeln und Grammatik. Die Tonhöhe, die Klangfarbe und der Akzent des Sprechers geben den Worten oft die genaue Bedeutung und das emotionale Gewicht. Linguisten nennen diese Sprachfunktion „Anzeige“ und es ist etwas, was Maschinen nur schwer beherrschen können.
Erst in den letzten Jahren haben Forscher dank der Fortschritte bei künstlicher Intelligenz, Computerchips und anderen Geräten Fortschritte bei der Lösung des Problems der Audiodekodierung gemacht und computergenerierte Sprache in etwas angenehmeres für das Ohr verwandelt.
Solche Arbeiten könnten schließlich mit einer Explosion der „generativen KI“ einhergehen, sagen die Forscher, einer Technologie, die es Chatbots ermöglicht, ihre eigenen Antworten zu generieren. Chatbots wie ChatGPT und Bard könnten eines Tages vollständig auf den Sprachbefehlen der Benutzer basieren und verbal reagieren. Gleichzeitig werden Sprachassistenten wie Alexa und Apples Siri gesprächiger, was das Interesse der Verbraucher an einem Technologiesektor, der offenbar ins Stocken geraten ist, wiederbeleben könnte, sagen Analysten.
Sprachassistenten wie Alexa, Siri und Google Assistant dazu zu bringen, mehrere Sprachen zu sprechen, war ein teurer und zeitaufwändiger Prozess. Technologieunternehmen haben Synchronsprecher engagiert, um Hunderte Stunden Sprache aufzuzeichnen, was dazu beigetragen hat, künstliche Stimmen für digitale Assistenten zu schaffen. Fortgeschrittene künstliche Intelligenzsysteme, die als „Text-to-Speech-Modelle“ bekannt sind – weil sie Text in natürlich klingende synthetische Sprache umwandeln – Ich fange gerade erst an zu vereinfachen dieser Prozess.
Die Technologie sei „jetzt in der Lage, eine menschliche Stimme und eine synthetische Stimme basierend auf Texteingaben in verschiedenen Sprachen, Dialekten und Dialekten zu erzeugen“, sagte Marion Laborie, Chefstrategin bei Deutsche Bank Research.
Amazon steht unter dem Druck, im Wettlauf um künstliche Intelligenz mit Konkurrenten wie Microsoft und Google gleichzuziehen. Im April sagte Andy Jassy, CEO von Amazon: für Wall-Street-Analysten dass das Unternehmen plante, Alexa mit Hilfe der hochmodernen generativen KI „aktiver und sprechender“ zu machen, sagte Rohit Prasad, Amazons Chefwissenschaftler für Alexa. er sagte CNBC Im Mai sah er den Sprachassistenten als sprachgesteuerte „sofort verfügbare persönliche KI“.
Irish Alexa feierte im November sein kommerzielles Debüt, nachdem neun Monate lang trainiert worden war, einen irischen Akzent zu verstehen und dann zu sprechen.
„Akzent ist etwas anderes als Sprache“, sagte Herr Prasad in einem Interview. KI-Techniken müssen lernen, Akzente aus anderen Wortarten wie Intonation und Frequenz zu extrahieren, bevor sie die Merkmale lokaler Dialekte reproduzieren können – beispielsweise ist das „a“ vielleicht flacher und die „t“s werden kräftiger ausgesprochen.
Diese Systeme müssten diese Muster erkennen, sagte er, „damit sie einen völlig neuen Akzent erzeugen können.“ „das ist schwierig.“
Noch schwieriger ist es, die Technologie dazu zu bringen, einen neuen Akzent praktisch selbstständig aus einer anders klingenden Sprachform zu lernen. Das ist es, was das Team von Herrn Cotescu versucht hat, die irische Alexa zu bauen. Um ihnen beizubringen, irisches Englisch zu sprechen, stützten sie sich stark auf das bestehende Sprachmodell mit hauptsächlich englisch-britischen Akzenten – mit einer viel kleineren Auswahl an amerikanischen, kanadischen und australischen Akzenten.
Das Team stand vor verschiedenen sprachlichen Herausforderungen der englisch-irischen Sprache. Die Iren neigen dazu, das „h“ im „th“ wegzulassen und die Buchstaben beispielsweise als „t“ oder „d“ auszusprechen, sodass „bath“ wie „bat“ oder sogar „bad“ klingt. Irisches Englisch ist außerdem rhotisch, was bedeutet, dass der Buchstabe „r“ übermäßig ausgesprochen wird. Das bedeutet, dass das „r“ in „party“ stärker ausgeprägt ist als das, was man aus dem Mund eines Londoners hören könnte. Alexa musste diese Sprachfunktionen erlernen und beherrschen.
Irisches Englisch sei „schwierig“, sagte Herr Kotescu, der Rumäne ist und der Hauptermittler für Alexas irisches Team war.
Sprachmodelle, die Alexas verbale Fähigkeiten unterstützen, haben sich in den letzten Jahren immer weiter entwickelt. Im Jahr 2020 brachten Amazon-Forscher Alexa bei Er spricht fließend Spanisch Von einem englischsprachigen Model.
Herr Cotescu und das Team sahen Dialekte als die nächste Grenze für Alexas Sprachfähigkeiten. Sie haben die irische Alexa so konzipiert, dass sie sich beim Aufbau ihres Sprachmodells mehr auf KI als auf Schauspieler verlässt. Infolgedessen wurde die irische Alexa in einer relativ kleinen Gruppe trainiert – etwa 24 Stunden lang Aufnahmen von Synchronsprechern, die 2.000 Reden in irischem Englisch vortrugen.
Als Amazon-Forscher der noch lernenden irischen Alexa die irischen Aufnahmen präsentierten, passierten zunächst einige seltsame Dinge.
Manchmal sickerten Buchstaben und Silben aus der Antwort durch. Manchmal kleben die „S“ zusammen. Ein oder zwei Worte, manchmal entscheidend, wurden unerklärlicherweise gemurmelt und waren unverständlich. In mindestens einem Fall wurde Alexas weibliche Stimme um einige Oktaven tiefer und klang männlicher. Schlimmer noch, die männliche Stimme klang eindeutig britisch, die Art von Blödsinn, die in manchen irischen Haushalten für Stirnrunzeln sorgen würde.
„Das sind große Blackboxen“, sagte Tenchev, ein Bulgare und Amazons leitender Wissenschaftler am Projekt, über die Sprachmodelle. „Man muss über viele Erfahrungen verfügen, auf die man sich einstellen kann.“
Das haben die Techniker getan, um Alexas „parteiischen“ Ausrutscher zu korrigieren. Sie entwirren Sprache, Wort für Wort, Ton (das kleinste hörbare Stück eines Wortes) für Stimme, um genau zu bestimmen, wo Alexa ausrutscht. Anschließend fütterten sie das irische Sprachmodell von Alexa mit weiteren aufgezeichneten Audiodaten, um den verbalen Fehler zu korrigieren.
Ergebnis: „r“ wird in „party“ zurückgegeben. Doch dann verschwand das „p“.
Also haben Datenwissenschaftler den gleichen Prozess noch einmal durchgeführt. Schließlich konzentrieren sie sich auf den Ton, der das fehlende „p“ enthält. Dann haben sie das Modell weiter verfeinert, sodass der „p“-Ton zurückkehrte und das „r“ nicht verschwand. Alexa hat endlich gelernt, wie eine Dublinerin zu sprechen.
Seitdem haben zwei irische Linguisten – Eileen Vaughan, die an der University of Limerick lehrt, und Kate Tallon, eine Doktorandin, die im Phonetics and Speech Lab am Trinity College Dublin arbeitet – Alexa gute Noten für den irischen Akzent gegeben. Sie sagten, die Art und Weise, wie die irische Alexa das „r“ betonte und das „t“ milderte, hörte auf und Amazon hat den Akzent genau richtig hinbekommen.
„Es kommt mir real vor“, sagte Frau Tallon.
Amazon-Forscher zeigten sich erfreut über das überwiegend positive Feedback. Ihre Sprachmodelle entschlüsselten den irischen Akzent so schnell, dass sie hofften, dass die Akzente an anderer Stelle reproduziert werden könnten.
Und sie schrieben in der Sprache von A Forschungspapier vom Januar Über das irische Alexa-Projekt.
More Stories
Dieses 100-W-GaN-Ladegerät ist dünn und faltbar
Kuo: Das RAM-Upgrade auf 12 GB im nächsten Jahr wird auf das iPhone 17 Pro Max beschränkt sein
Verdansk kehrt endlich zu Call of Duty Warzone zurück und die Fans freuen sich darüber