Auf der 64. Jahrestagung der Deutschen Gesellschaft für Klinische Neurophysiologie und Funktionelle Bildgebung (DGKN) vom 10. bis zum 14. November stellten Experten die neuesten Entwicklungen auf dem Gebiet von Brain-Computer-Interfaces (BCI) vor. Eine vielversprechende Arbeit ist an der University of California entstanden.
Einige Menschen mit schweren Sprachbehinderungen lernen, ihre Gedanken Buchstabe für Buchstabe mit Hilfsmitteln zu formulieren, die sehr kleine Augen- oder Gesichtsmuskelbewegungen verfolgen. Dann werden ihnen mögliche Buchstaben oder Wörter auf einem Bildschirm präsentiert. Der wohl berühmteste Patient mit ALS (fortgeschrittene Amyotrophe Lateralsklerose), der 2018 verstorbene Physiker Stephen Hawking, steuerte seine Stimme bis zuletzt über Muskelbewegungen im Daumen oder in der Wange.
Doch manche PatientInnen mit neurodegenerativen Erkrankungen wie Parkinson, Multipler Sklerose und ALS, Hirnverletzungen oder nach einem Schlaganfall im Hirnstamm können nicht mal mehr Kopf- oder Augenbewegungen machen und sind somit völlig von der Kommunikation abgeschnitten. Ihnen wollen Forschende durch BCI wieder ein Stück Lebensqualität zurückgeben. BCI arbeitet entweder über Elektroenzephalografie (EEG) direkt auf der Kopfhaut oder über Elektroden, die mittels eines invasiven Eingriffs auf der Gehirnoberfläche aufgebracht werden und die dortige Aktivität messen.
Während der Mensch normalerweise etwa 150 Wörter pro Minute spricht, können bisherige Sprechcomputer nicht mehr als zehn Wörter pro Minute generieren. Zudem ist diese Technik fehleranfällig. Eine vielversprechende Arbeit über die Dekodierung von sprachrelevanten Vorgängen im Gehirn ist im vergangenen Jahr an der University of California in San Francisco entwickelt worden. Das Team um den Neurowissenschaftler Edward Chang, den Biotechniker Josh Chartier und den Sprachwissenschaftler Gopala Anumanchipalli konnte ganze gesprochene Sätze basierend auf der Gehirnaktivität eines Individuums erzeugen. Dafür wurden Elektroden auf dem motorischen Sprachzentrum der Großhirnrinde platziert und die dort entstandenen Signale aktivierten die Motorik von Zunge, Lippen, Kiefer und Kehlkopf.
Anumanchipalli vermutet, dass manche Gehirnregionen nicht direkt die akustischen Eigenschaften von Sprachlauten darstellen, sondern Anweisungen, die zur Koordinierung der Bewegungen der Sprache erforderlich sind. "Die Beziehung zwischen den Bewegungen des Stimmapparates und den erzeugten Sprachlauten ist kompliziert. Wir sollten versuchen, diese Signale zu dekodieren, wenn diese Sprachzentren im Gehirn Bewegungen codieren und nicht Geräusche."
Für die neue Studie machten Anumanchipalli und Chartier Tests mit Epilepsie-PatientInnen, denen im Rahmen von Operationsvorbereitungen ohnehin Elektroden ins Gehirn implantiert worden waren. Ein Glücksfall, denn andere Tests am Gehirn sind aus ethischer Sicht nicht zu vertreten.
Die Probanden trainierten einen Dekoder mit Hunderten vorgegebenen Sätzen und schafften ein virtuelles Wörterbuch, das später von Gelähmten durch die Gehirnaktivität gesteuert werden soll. Basierend auf den Audioaufnahmen der Stimmen wurden mithilfe sprachlicher Prinzipien die Bewegungen des Stimmapparates hergestellt, die zur Erzeugung bestimmter Geräusche erforderlich sind: Zusammendrücken der Lippen, mit der Zunge die Zähne berühren und vieles mehr.
Durch diese detaillierte Abbildung des Klangs konnte für jeden Teilnehmenden ein realistischer virtueller Vokaltrakt erstellt werden. Möglich machen das zwei Algorithmen für maschinelles Lernen: ein Decoder, der während des Sprechens erzeugte Gehirnaktivitätsmuster in Bewegungen des virtuellen Vokaltrakts umwandelt, und ein Synthesizer, der diese Bewegungen in eine synthetische Annäherung an die Stimme des Teilnehmenden umwandelt.
Eine Umfrage unter Hunderten Testpersonen ergab, dass die synthetische Sprache durch Algorithmen viel natürlicher wirkte als synthetische Sprache, die keine Simulationen der Stimmwege der Sprecher einbezog. Die Transkriptoren waren erfolgreicher, wenn ihnen kürzere Wortlisten zur Auswahl gegeben wurden, wie dies bei Pflegepersonen der Fall wäre, die auf die Art Anfragen vorbereitet sind, die Patienten möglicherweise äußern. Die Transkriptoren identifizierten 69 Prozent der synthetisierten Wörter aus Listen mit 25 Alternativen genau und transkribierten 43 Prozent der Sätze sehr genau. Bei einer Auswahl von 50 Wörtern sank die Genauigkeit auf 47 Prozent. Man sei bereits sehr gut darin, langsamere Sprachklänge wie 'sh' und 'z' zu synthetisieren und Rhythmen und Intonationen der Sprache sowie das Geschlecht und die Identität des Sprechers beizubehalten, erklärt Chartier. Abruptere Klänge wie 'b' und 'p' dagegen wäre etwas verschwommen gewesen.
Derzeit experimentiert das Forschungsteam mit Elektrodenarrays mit höherer Dichte und fortschrittlicheren Algorithmen für maschinelles Lernen, um die synthetische Sprache zu verbessern. Dann will es ermitteln, ob jemand, der nicht sprechen kann, das System verwenden kann, ohne es mit seiner eigenen Stimme trainieren zu können, und es auf alles zu verallgemeinern, was er sagen möchte. Bei einem Forschungsteilnehmenden konnten bereits neuartige Sätze aus der Gehirnaktivität nahezu genauso dekodiert und synthetisiert werden wie die Sätze, auf die der Algorithmus trainiert wurde. Selbst wenn der Teilnehmende lediglich Sätze ohne Ton aussprach, konnte das System verständliche synthetische Versionen der nachgeahmten Sätze in der Stimme des Sprechers erzeugen.
In neuen Tests konnte die Stimmtraktsimulation eines Probanden an die neuronalen Anweisungen angepasst werden, die vom Gehirn eines anderen Teilnehmenden aufgezeichnet wurden. Personen mit Sprachverlust aufgrund einer neurologischen Beeinträchtigung scheint es demnach möglich zu sein, eine Sprachprothese zu steuern, die der Stimme einer Person mit intakter Sprache nachempfunden ist.
Durch BCI könnte in Zukunft auch eine synthetisierte Version der Stimme einer Person erstellt und irgendwann auch Emotionen und die Persönlichkeit des Sprechers vermittelt werden.