Vor einer Weile habe ich auf YouTube den Kanal Emergent Garden entdeckt, der neben (medien-)kulturell spannenden Themen wie Memes und Evolution interessante informatisch-philosophische Perspektiven auf künstliche Intelligenz und insbesondere künstliche neuronale Netze eröffnet.
In einem der Videos, das mich besonders beeindruckt hat, geht es darum, die Visualisierung des Prozesses zu ermöglichen, wie künstliche neuronale Netze lernen. Hierbei werden unterschiedliche Komplexitätsgrade aufgearbeitet und verschiedene Methoden und Architekturen miteinander verglichen:
Spannend und sicherlich auch zu problematisieren ist die Grundannahme, dass „Funktionen die Welt beschreiben“, die direkt zum Beginn des Videos mit einem Ausschnitt einer Vorlesung eines Mathematikprofessors vorgestellt wird. Hierbei hat man es mit einer Sichtweise auf Welt zu tun, die den Anspruch auf eine absolute Berechenbarkeit erhebt. Dieses repräsentationalistische Denken blendet aus, dass Daten immer ganz spezifischen Entstehungskontexten entspringen und keine „objektiven Repräsentationen der Welt“ sind. Naturwissenschaftliche Fächer wie bspw. die Physik greifen mittels mathematischer Funktionen auf Möglichkeiten der Quantifizierung realweltlicher Phänomene und Prozesse zurück. Es geht darum, eine schrittweise Annäherung an Funktionen zu realisieren, die es anhand messbarer Einheiten und Datenpunkte zu rekonstruieren gilt. Künstliche neuronale Netze werden in diesem Kontext als sogenannte „universal function approximators“ verhandelt, die sich mit der geeigneten Architektur und ausreichenden Daten an alle möglichen Funktionen auch hochdimensionale Weise annähern können.
Dabei kommen einige offensichtliche Fragen auf, die gerade im Bezug auf komplexe Phänomene und bspw. soziale Zusammenhänge von Bedeutung erscheinen:
- Was sind die Grenzen der Komplexität und Dimensionalität dieser Annäherungen?
- Welche Form der Annäherung impliziert die Funktionsweise und Architektur dieser künstlichen neuronalen Netze?
- Welche realweltlichen Zusammenhänge lassen sich überhaupt mithilfe klar definierbarer (vieldimensionaler) Funktionen beschreiben?
- Wie sind die nicht-encodierbaren Elemente zu bewerten, z. B. die soziale Dimension der Sprache, die in den Daten zur Annäherung an Funktionen (noch) keine Berücksichtigung finden?
- Was leisten bspw. Sprachmodelle, bei denen Modelle rein auf der Basis von Text trainiert werden, und was geht hierbei verloren?
- Lässt sich am Beispiel von Sprache wirklich eine Annäherung vornehmen, die in einem vermeintlich universalen Modell menschlicher Kommunikation münden kann?
- Welche Rolle spielen unterschiedliche Sprachen und Multilingualität in diesem Kontext? Unterschiedliche Kulturen und Menschen aus Ländern überall auf der Welt haben jeweils spezifische Weisen die Welt im Verhältnis zu sich selbst und anderen in wie auch immer gearteten Zeichensystemen zu beschreiben. Was bedeutet das für Sprachmodelle und insbesondere für multilinguale Sprachmodelle?
- Und zu guter letzt: Welche (theoretische) Rolle spielt Materialität bei diesen Annäherungen, insbesondere im Kontext von physical AI? Denn: Gegenwärtige KI-Modelle modellieren etwas, das gänzlich losgelöst von materiell-orientierten Daten ist und lediglich Beschreibungen dieser enthält.
Das alles sind Fragen, die in den meist informatisch geprägten Diskursen um künstliche Intelligenz nur vereinzelt adressiert werden. Es erweist sich für uns als immer schwerer nachvollziehbar, wie diese Modelle angesichts ihrer hohen Dimensionalität überhaupt funktionieren und welche (statistischen) Muster sich in den vielschichtigen Trainings- und Optimierungsprozess herausbilden. Dass moderne tiefe künstliche neuronale Netze im Kern aus einer absurden Anzahl sehr einfacher Recheneinheiten (Perzeptrons) bestehen, macht es uns Menschen nicht unbedingt leichter, die komplexen Strukturen, die sich in ihnen widerspiegeln, nachzuvollziehen.
Vielversprechend erscheint das Potenzial multimodaler Modelle, die in Anbetracht der Berücksichtigung einer Vielzahl an Modalitäten (Text, Bild, Video, 3D-Modelle, Haptik, etc.) komplexere Annäherungen versprechen. Allerdings erfolgt hierbei eine „Annäherung an Welt“ bislang nur so weit, wie es die Abbildung im Raum des Digitalen, die gleichermaßen auf bestimmte privilegierte und voreingenommene Weisen fokussiert ist, zulässt.
Zumindest aus der Perspektive des Forschungsfeldes der künstlichen Intelligenz, als Teilgebiet der Informatik, verspricht man sich hierdurch eine immer bessere Annäherung an das, was Menschen als vermeintlich „authentisch intelligent“ wahrnehmen. Gegenwärtig sind große multimodale Modelle auf Basis der sogenannten Transformer-Architektur der state of the art, doch wir müssen beachten, dass sich das Feld der KI überaus dynamisch entwickelt und viele führende Forscher bereits diskutieren, dass LLMs (bzw. LMMs → Large Multimodal Models) an Relevanz verlieren werden. Wir müssen jederzeit damit rechnen, dass es weitere Umbrüche, wie den, der durch den Transformer ausgelöst wurde, geben wird. Die Verortung von KI in der physischen Welt hat derzeit in Forschung und Entwicklung einen besonderen Stellenwert. Gerade hier werden mit Ansätzen des Reinforcment Learning immense Fortschritte erzielt. Die Qualität und Diversität der Daten, die für das Training und Finetuning von KI-Modellen herangezogen werden, spielen darüber hinaus eine nicht zu unterschätzende Rolle. Bei Sprachmodellen (und weiterführend multimodalen Modellen) sind die Ursprünge von Textdaten aus dem Internet bei diesen „universellen Funktionsannäherungen“ besonders kritisch zu bewerten.
Sprachmodelle, die bspw. grundlegend mithilfe von Common Crawl (und oftmals vielen weiteren größeren sowie handerlesenen Datensätzen) trainiert wurden (Basismodell), sind in erster Linie Modelle von Sprache im Internet. Andrej Kaparthy, ein KI-Forscher, der sich zunehmend für KI in Bildungskontexten einsetzt, bezeichnet diese (Basis-)Modelle als verlustbehaftete Komprimierungen des Internets. Sie sind insbesondere durch die englische Sprache, durch Menschen mit Zugang zum Internet und grundsätzlich westlich geprägt. Wenn nun mit synthetischen Daten – das heißt, dass generative KI-Modelle Inhalte generieren, die wiederum für das Training späterer Modelle verwendet werden – gearbeitet wird, werden potenzielle Voreingenommenheiten reproduziert und verstärkt, was nach wie vor nicht angemessen problematisiert wird.
Insbesondere aus pädagogischer Sicht gilt es, diese Sachverhalte zum Gegenstand pädagogischer Auseinandersetzungen zu machen. Gerade die Grenzen künstlicher neuronaler Netze in diesem Kontext gilt es konsequent zu beachten, wenn es um eine kritische Reflexion dieser technologischen Entwicklungen geht. Vor allem wenn es um die nicht-encodierbaren sowie nicht-digitalisierten Aspekte von Kultur und Welt geht, müssen wir auf andere Weise über KI nachdenken.
Der YouTube-Kanal von Emergent Garden – der als Aufhänger und Anstoß für diese frei formulierten Gedanken diente – bietet viele weitere spannende Einblicke in die Thematik und ist aus meiner Sicht überaus sehenswert! Die Inhalte sind sehr anregend und irritierend 😉