Grosse Sprachmodelle der Künstlichen Intelligenz (KI) wie GPT-3 schaffen es, sich selbst neue Dinge beizubringen. Den Schlüsselmechanismus hinter dieser Fähigkeit haben jetzt Forschende der Eidgenössischen Technischen Hochschule Zürich (ETH) und von Google möglicherweise aufgedeckt. Darüber berichtet die ETH in einem Interview mit dem Doktoranden Johannes von Oswald, der Lernalgorithmen für neuronale Netze untersucht. Sein Forschungsbericht wird Ende Juli in Hawaii an der International Conference on Machine Learning vorgestellt.
Wie er ausführt, würden neuronale Netze allgemein als Black-box betrachtet: Bei einer Eingabe spucken sie eine Ausgabe aus. Das Innenleben grosser Sprachmodelle wie der GPT-Modellfamilie von OpenAI und Google Bard sei selbst für ihre Entwickler ein Geheimnis, so die ETH. Das Team habe jedoch dokumentiert, „dass Transformer von sich aus lernen können, neue Algorithmen in ihre Architektur einzubauen“, führt von Oswald aus. „In unserem Fall konnten wir zeigen, dass sie von sich aus einen klassischen maschinellen Lernalgorithmus implementieren.“
Es sei überraschend, aber wahr, dass das Modell sich selbst eine Technik beibringt, um aus dem gegebenen Kontext heraus neue Dinge zu lernen, „einfach aus dem Zwang heraus, die eigenen Vorhersagen zu verbessern“. Die Forschungsgruppe stellt die Hypothese auf, „dass die Architektur des Transformers grundsätzlich dazu neigt zu lernen. Das bedeutet im Grunde, dass die Fähigkeit, diese Lernmechanismen zu entwickeln, implizit im Design eingebaut ist, noch bevor das Modell trainiert wird.“ ce/mm