KI kann Sprache mit überraschender Genauigkeit aus Gehirnaktivitäten entschlüsseln

Die Forschung ist noch weit davon entfernt, Menschen zu helfen, die nicht durch Sprache kommunizieren können

Künstliche Intelligenz ist der nicht-invasiven Entschlüsselung dessen, was wir hören und sagen wollen, aus den Daten der Gehirnaktivität einen Schritt nähergekommen.

Andriy Onufriyenko/Moment/Getty Images

Eine künstliche Intelligenz kann Wörter und Sätze aus der Hirnaktivität mit überraschender - wenn auch noch begrenzter - Genauigkeit entschlüsseln. Anhand von nur wenigen Sekunden an Gehirnaktivitätsdaten errät die KI, was eine Person gehört hat. In bis zu 73 Prozent der Fälle listet sie die richtige Antwort unter den ersten 10 Möglichkeiten auf, wie Forscher in einer vorläufigen Studie herausfanden.

Die Leistung der KI "lag über dem, was viele Leute in diesem Stadium für möglich hielten", sagt Giovanni Di Liberto, ein Informatiker am Trinity College Dublin, der nicht an der Forschung beteiligt war.

Die bei der Facebook-Muttergesellschaft Meta entwickelte KI könnte schließlich eingesetzt werden, um Tausenden von Menschen auf der ganzen Welt zu helfen, die nicht in der Lage sind, durch Sprache, Tippen oder Gesten zu kommunizieren, berichten Forscher am 25. August auf arXiv.org. Dazu gehören viele Patienten, die sich in einem Zustand minimalen Bewusstseins, in einem eingeschlossenen oder "vegetativen Zustand" befinden - was heute allgemein als Syndrom des nicht ansprechbaren Wachzustands bekannt ist (SN: 2/8/19).

Die meisten bestehenden Technologien, die solchen Patienten bei der Kommunikation helfen sollen, erfordern riskante Gehirnoperationen, um Elektroden zu implantieren. Dieser neue Ansatz "könnte einen gangbaren Weg bieten, um Patienten mit Kommunikationsdefiziten ... ohne invasive Methoden zu helfen", sagt der Neurowissenschaftler Jean-Rémi King, ein Meta AI-Forscher an der École Normale Supérieure in Paris.

King und seine Kollegen trainierten ein computergestütztes Tool zur Erkennung von Wörtern und Sätzen anhand von 56.000 Stunden Sprachaufnahmen aus 53 Sprachen. Das Tool, auch Sprachmodell genannt, lernte, bestimmte Sprachmerkmale sowohl auf einer feinkörnigen Ebene - etwa Buchstaben oder Silben - als auch auf einer breiteren Ebene, etwa einem Wort oder Satz, zu erkennen.

Das Team wendete eine KI mit diesem Sprachmodell auf Datenbanken von vier Institutionen an, die Gehirnaktivitäten von 169 Freiwilligen enthielten. In diesen Datenbanken hörten die Teilnehmer verschiedene Geschichten und Sätze, z. B. aus Ernest Hemingways "Der alte Mann und das Meer" und Lewis Carrolls "Alices Abenteuer im Wunderland", während die Gehirne der Probanden entweder mit Magnetoenzephalographie oder Elektroenzephalographie gescannt wurden. Mit diesen Techniken wird die magnetische oder elektrische Komponente der Gehirnsignale gemessen.

Mit Hilfe einer Berechnungsmethode, die die physikalischen Unterschiede zwischen den Gehirnen berücksichtigt, versuchte das Team dann zu entschlüsseln, was die Teilnehmer gehört hatten, indem es nur drei Sekunden Gehirnaktivitätsdaten von jeder Person verwendete. Das Team wies die KI an, die Sprachgeräusche aus den Aufzeichnungen der Geschichten mit den Mustern der Gehirnaktivität abzugleichen, die die KI als übereinstimmend mit dem errechnete, was die Menschen hörten. Anschließend machte sie aus mehr als 1000 Möglichkeiten Vorhersagen darüber, was die Person in dieser kurzen Zeit gehört haben könnte.

Bei der Magnetoenzephalographie (MEG) lag die richtige Antwort in bis zu 73 Prozent der Fälle unter den ersten 10 Vermutungen der KI, fanden die Forscher heraus. Bei der Elektroenzephalografie sank dieser Wert auf nur noch 30 Prozent. "Diese MEG-Leistung ist sehr gut", sagt Di Liberto, aber er ist weniger optimistisch, was den praktischen Nutzen angeht. "Was können wir damit machen? Nichts. Absolut nichts."

Der Grund dafür ist, dass für die MEG ein sperriges und teures Gerät benötigt wird. Um diese Technologie in die Kliniken zu bringen, sind wissenschaftliche Innovationen erforderlich, die die Geräte billiger und einfacher zu bedienen machen.

Es ist auch wichtig zu verstehen, was "Dekodierung" in dieser Studie wirklich bedeutet, sagt Jonathan Brennan, ein Linguist an der Universität von Michigan in Ann Arbor. Das Wort wird oft verwendet, um den Prozess der Entschlüsselung von Informationen direkt aus einer Quelle zu beschreiben - in diesem Fall Sprache aus Gehirnaktivität. Die KI konnte dies jedoch nur tun, weil ihr eine endliche Liste möglicher richtiger Antworten zur Verfügung stand, um ihre Vermutungen anzustellen.

"Bei der Sprache reicht das nicht aus, wenn wir sie in der Praxis einsetzen wollen, denn Sprache ist unendlich", sagt Brennan.

Darüber hinaus, so Di Liberto, entschlüsselte die KI Informationen von Teilnehmern, die passiv einem Ton zuhörten, was für nonverbale Patienten nicht direkt relevant ist. Damit die KI zu einem sinnvollen Kommunikationsinstrument wird, müssen die Wissenschaftler lernen, aus der Gehirnaktivität zu entschlüsseln, was diese Patienten zu sagen beabsichtigen, einschließlich des Ausdrucks von Hunger, Unbehagen oder eines einfachen "Ja" oder "Nein".

Bei der neuen Studie geht es um "die Dekodierung der Sprachwahrnehmung, nicht um die Produktion", stimmt King zu. Obwohl die Sprachproduktion das ultimative Ziel ist, "sind wir noch ziemlich weit davon entfernt".