ChatGPT, Bard und Co.: Was können Sprachmodelle und welche Probleme ergeben sich?: BuB

Ein Beitrag zur Leistungsfähigkeit und zu den Grenzen aktueller KI-Sprachmodelle wie ChatGPT und Google Bard.

Armin Glatzmeier

13. Jul 2023

Kommentare (0)

Das Sprachmodell ChatGPT von OpenAI ist in aller Munde und auch die Google-Mutter Alphabet hat ihren Chatbot »Bard« mittlerweile veröffentlicht. Die Sprachmodelle eröffnen viele Chancen und bergen soch auch manch ein Risiko. Foto: ThisIsEngineering - pexels.com

Ein guter Ausgangspunkt, um sich mit den Möglichkeiten und Problemen textgenerierender KI-Modelle zu befassen, ist die Frage, was diese gegenwärtig und in naher Zukunft leisten können. Die derzeit leistungsfähigsten großen Sprachmodelle (Large Language Models, LLM)¹ basieren auf einer Transformer-Architektur. Diese Technik ist realtiv neu. Sie wurde 2017 etabliert² und führte zu einer enormen Effizienzsteigerung bei der maschinellen Sprachverarbeitung,³ insbesondere weil sie im Vergleich zu vorherigen Modellen größere Datenmengen in kürzerer Zeit verarbeiten kann.⁴

Wie entstehen nun aber die Texte von Sprachmodellen wie Bard von der Google-Mutter Alphabet, Open Assistant von der gemeinnützigen Organisation LAION oder ChatGPT (OpenAI)? Stark vereinfacht sind LLM mit Textdaten vortrainiert, aus denen sie allgemeine Sprachmuster, grammatikalische und sprachliche Kontexte »lernen«, mit dem Ziel einer möglichst hohen Annäherung an menschliche Textproduktion bzw. Sprache. Die Texterzeugung selbst erfolgt überwiegend wahrscheinlichkeitsbasiert und beruht auf einer kontextsensitiven Prognose der Verwendung bestimmter Wortkombinationen. Dabei greifen reine LLM nicht auf feste Datenbestände, Datenbanken oder das Internet zurück.⁵

Sprachmodelle sind keine Wissensmodelle

Wichtig ist dabei, dass wir es bei LLM mit Sprach- und nicht mit Wissensmodellen zu tun haben. Es ist zentral für das Verständnis der gegenwärtig verfügbaren Sprachmodelle, dass diese zwar in der Lage sind, verständlichen, zusammenhängenden Text zu produzieren, der zudem auf inhaltlicher Ebene Aussagen, Fakten, teils auch Wissensbestände abbildet. Die Modelle selbst weisen aber kein Verständnis von natürlicher Sprache auf⁶ und können auch den Wahrheitsgehalt einer im Text generierten Aussage nicht einschätzen.⁷ Das heißt, die in den KI-generierten Texten enthaltenen Wissensinhalte ergeben sich basierend auf den Trainingsdaten eher beiläufig.

»Die Modelle selbst weisen aber kein Verständnis von natürlicher Sprache auf und können auch den Wahrheitsgehalt einer im Text generierten Aussage nicht einschätzen.«

Das Missverständnis, dass LLM (auch) Wissensmodelle sind, zeigte sich etwa in den zahlreichen Beispielen von Chatverläufen, in denen ChatGPT selbst offensichtlich einfache Fragen falsch beantwortete, die unmittelbar nach der Veröffentlichung des Modells im November 2022 in den sozialen Medien die Runde machten. Dabei ist der Umstand, dass LLM in bestimmten Situationen »halluzinieren« in einschlägigen Publikationen gut dokumentiert und Gegenstand aktueller Forschung.⁸

Semantik und Wahrscheinlichkeit

In der Praxis definiert die Anfrage an der Eingabezeile (Prompt) einen semantischen Raum, in dem verschiedene Antwortmöglichkeiten mehr oder weniger wahrscheinlich sind.

Auf die Frage »Wie ist das Wasser?« sind kontextabhängig sehr verschiedene Antworten denkbar. Bezieht sich die Frage auf den Aggregatzustand, sind »fest«, »flüssig« oder »gasförmig« mögliche Antworten. Bezieht sie sich auf Gewässer, kämen Angaben zur (Bade-)Temperatur, zur Wasserqualität usw. infrage. Entsprechend lässt sich die Wahrscheinlichkeit einer korrekten Beantwortung der Frage durch möglichst präzises Prompting erhöhen.

»Obwohl ein Wechsel hin zu einer vollständig offenen Verwertungskultur wissenschaftlicher Texte und Daten zunächst radikal erscheinen mag, so spricht die zu erwartende qualitative Verbesserung bei der inhaltlichen Dimension massiv für einen solchen Vorstoß.«

Bleiben wir kurz bei diesem Beispiel. Nehmen wir an, in den Trainingsdaten eines Sprachmodells fände sich mit Bezug auf Wasser nur der Satz: »Wasser ist nass.« In diesem Fall wäre der Raum der Antwortmöglichkeiten auf eine einzige Aussage beschränkt. Das Modell würde somit deterministisch auf die Frage »Wie ist das Wasser?« immer mit »Das Wasser ist nass.« antworten. Je umfangreicher die Trainingsdaten, je mehr verschiedene Aussagen über Wasser im Modell als Möglichkeiten angelegt sind, desto größer wird die sprachliche Variabilität des Modells.

Entsprechend komplex sind die Probleme beim Einsatz allgemeiner LLM bei der wissensbasierten oder wissenschaftlichen Textproduktion. So wies zuletzt das Herausgeberteam von »Nature« auf die zentrale Rolle verlässlicher fachspezifischer Trainingsdaten für die Entwicklung spezialisierter LLM hin und forderte – ohne auf den Zielkonflikt zwischen offenen Wissenschaftspraktiken und kommerziellen Verwertungsinteressen hinzuweisen – einen Wandel in der fachwissenschaftlichen Publikationskultur.⁹

Obwohl ein Wechsel hin zu einer vollständig offenen Verwertungskultur wissenschaftlicher Texte und Daten zunächst radikal erscheinen mag, so spricht die zu erwartende qualitative Verbesserung bei der inhaltlichen Dimension massiv für einen solchen Vorstoß – allerdings nur dann, wenn diese Datensätze allen Anbietern von LLM zugänglich gemacht werden. Ob und in welcher Weise sich diese Verbesserung auch im Antwortverhalten niederschlägt, ist schwer zu prognostizieren und hängt mit einem weiteren Faktor der Modellierung zusammen.

»Das Vertrauen in KI-generierte Texte lässt sich zum einen mit dem Fehlschluss erklären, es handle sich bei LLM auch um Wissensmodelle.«

Welche Antwortoption das Modell letztlich wählt, hängt neben der Trainingsgrundlage zudem von der Gewichtung ab, mit der verschiedene mögliche Sprachzusammenhänge aus den Trainingsdaten in das Modell einfließen. Dies ist nicht unerheblich, denn würden alle möglichen Sprachzusammenhänge gleich gewichtet, so könnte das Modell auf die Frage »Was sind Männer?« mit gleicher Wahrscheinlichkeit eine biologische oder eine soziale Definition geben, aber auch mit »Schweine« antworten, sofern Texte der Band »Die Ärzte« zu den Trainingsdaten gehören.

Es menschelt

Aber würden wir eine Antwort wie »Schweine« akzeptieren? Ob wir die Antwort eines LLM als richtig oder falsch betrachten, hängt davon ab, ob uns die Antwort plausibel erscheint, das heißt aber, dass wir die KI-generierten Texte vor dem Hintergrund unseres eigenen Sprach- und Wissensbestands interpretieren und dem Sprachmodell »Wissen« unterstellen.¹⁰ Die sprachliche Qualität der Antworten und die Tatsache, dass LLMs mittlerweile auf verschiedenste Prompts plausible Antworten geben, verleiten dazu, den Antworten von Sprachmodellen auch dann zu vertrauen, wenn wir die Korrektheit der Antwort nicht verifizieren können oder eigene Fehlinformationen bestätigt werden.

Dieses Vertrauen in KI-generierte Texte lässt sich zum einen mit dem Fehlschluss erklären, es handle sich bei LLM auch um Wissensmodelle. Die sehr menschliche Art der Textproduktion, die sich im Rahmen einer »Unterhaltung« vollzieht und für viele Bereiche der Alltagskommunikation schnelle und verwertbare Ergebnisse liefern kann, mag diese Tendenz unterstützen. Hinzu kommt, dass sich digitale Tools und Medien mittlerweile in vielen Bereichen als (verlässliche) Rechercheinstrumente bzw. Informationsquellen etabliert haben. Doch ist dieses Vertrauen gerechtfertigt?

Von Männern und Schweinen

Noch einmal zurück zu Männern und Schweinen: Die Trainingsdaten entscheiden nicht nur darüber, ob ein LLM auf unterschiedliche Sprachkontexte reagieren kann, sondern auch darüber, wie es das tut. Konkret geht es dabei um problematische Inhalte in den Trainingsdaten wie etwa Falschinformationen, Vorurteile, Biases, Stereotype, Beleidigungen, pornografische Inhalte oder gar Anleitungen zum Bau einer Bombe. Entsprechend wird beim Training von LLMs zum einen eine Auswahl bezüglich der Trainingsdaten und deren Gewichtung getroffen. Zudem werden die Modelle nachjustiert, um den Antwortraum auf sozial erwünschte Antworten zu beschränken und potenziell gefährliche Inhalte, wie die Frage nach dem Bau einer Bombe, gar nicht erst zu beantworten.

»Kommerzielle Anbieter nehmen eine zentrale Gatekeeper-Rolle ein, die unabhängig von einer missbräuchlichen Verwendung von LLM zumindest hypothetisch das Potenzial umfasst, gesellschaftliche Diskurse zu beeinflussen.«

So plausibel dieser Zugang zunächst erscheint, ergibt sich daraus ein zentrales Problem kommerzieller LLM. Denn bezüglich der konkret verwendeten Trainingsdaten besteht bereits in diesem frühen Stadium der Entwicklung kaum mehr Transparenz. Wurden die Trainingsdaten der frühen Transformer-Modelle zunächst (zumindest teilweise) offengelegt,¹¹ gab OpenAI mit Veröffentlichung von GPT-4, der aktuellen Generation seines LLMs, bekannt, dass die Trainingsdaten und andere zentrale Informationen zu diesem Modell aus marktstrategischen Gründen und Sicherheitserwägungen nicht mehr publiziert würden.¹²

Damit fehlen bei derart geschlossenen Systemen die oben angesprochenen Angaben zu Art, Umfang und Qualität der Trainingsdaten, zur Gewichtung, mit der spezifische Daten in das Training des Modells eingeflossen sind. Ferner bleibt unklar, nach welchen Kriterien die Trainingsdaten kuratiert wurden bzw. werden, welche Aussagen oder Informationen etwa als beleidigend oder gefährlich eingestuft und entfernt wurden. Das bedeutet in der Summe, dass kommerzielle Anbieter hier eine zentrale Gatekeeper-Rolle einnehmen, die angesichts der zu erwartenden starken Nutzung bereits unabhängig von einer bewussten missbräuchlichen Verwendung von LLM zumindest hypothetisch das Potenzial umfasst, gesellschaftliche Diskurse zu beeinflussen. Insofern ist die Entwicklung quelloffener Sprachassistenten wie etwa des Open Assistant von LAION¹³ zu begrüßen, die eine transparente Alternative zu den derzeit dominanten kommerziellen Angeboten bieten könnten.

Von Texten und Texten

Wie können wir KI-generierte Texte einordnen und wie sollen wir mit diesen umgehen? Natürlich haben wir es bei KI-generierten Texten mit Texten zu tun. Doch die Fragen, die bei ihrer Nutzung unmittelbar im Raum stehen – Können KI-generierte Texte (un-)gekennzeichnet genutzt werden und wie können sie als Quellen verwendet werden? – verweisen bereits darauf, dass es sich um sehr spezielle Texte handelt.

Zunächst haben wir es mit Texten zu tun, auf die das Kriterium einer klassischen Autorschaft nicht zutrifft. Hierzu fehlt rein formal schon ein personaler Autor, der zielgerichtet eine eigene kreative Idee, ein wissenschaftliches Interesse oder Ähnliches verfolgt. Da die Textgenerierung als Reaktion auf die Prompts erfolgt, könnte eine Autorschaft des Nutzenden infrage kommen. In den USA wurde ein solcher Fall indes von der Urheberrechtsbehörde abschlägig entschieden.¹⁴ Anbieterseitig sind die Nutzungsrechte an KI-generiertem Text recht unterschiedlich geregelt: Während OpenAI sogar eine kommerzielle Nutzung der KI-generierten Antworten erlaubt,¹⁵ schließt LAION exklusive Nutzungs- oder Autorschaftsrechte explizit aus.¹⁶

»Eine ungeprüfte Verwertung scheidet für die eigene wissensbasierte Textproduktion ohnehin aus, da die aktuell verfügbaren LLM primär nicht darauf trainiert sind, Fragen inhaltlich korrekt zu beantworten, sondern lediglich stochastisch plausible Antworten liefern.«

In diesem Zusammenhang wurde unmittelbar nach der Veröffentlichung von ChatGPT eine Debatte über missbräuchliche Verwendung KI-generierter Texte insbesondere im akademischen und universitären Umfeld geführt. Dabei wurden KI-generierte Inhalte häufig als Plagiate bezeichnet. Wie sich aus der fehlenden Autorschaft an KI-generierten Inhalten ergibt, sind solche Texte in der Regel nicht plagiierbar, schlicht, weil sie kein fremdes geistiges Eigentum darstellen. Plagiate im eigentlichen Sinne, also wörtliche oder inhaltliche Übereinstimmung mit fremden Werken, sind aufgrund der technischen Bedingungen der Textproduktion nur zu erwarten, wenn der Antwortraum auf eine konkrete Frage (quasi-)deterministisch wird. Gleichwohl kann in der ungekennzeichneten Nutzung solcher Tools ein prüfungsrechtlicher Verstoß liegen, wenn diese als kennzeichnungspflichtige Hilfsmittel eingeschätzt werden.

Allerdings scheidet eine ungeprüfte Verwertung für die eigene wissensbasierte Textproduktion ohnehin aus, da die aktuell verfügbaren LLM primär nicht darauf trainiert sind, Fragen inhaltlich korrekt zu beantworten, sondern lediglich stochastisch plausible Antworten liefern. Dies veranlasste etwa die American Medical Association (AMA) dazu, explizit klarzustellen, dass die Verantwortung für die inhaltliche Richtigkeit eingereichter Beiträge bei den Autorinnen und Autoren liegt und die Verwendung KI-gestützter Technologien offengelegt werden muss.¹⁷

Ein transparenter Umgang mit der Nutzung textgenerierender KI-Tools empfiehlt sich indes ganz unabhängig von dieser Debatte: zum einen aus Gründen des Selbstschutzes, um sich selbst als Autor/-in bei Fehlinformationen zu entlasten, zum anderen aber um den Leserinnen und Lesern eine kritische Lektüre eines mit KI-Unterstützung verfassten Textes zu ermöglichen. Entsprechend haben die American Psychological Association (APA) und die Modern Language Association (MLA) Vorschläge zum wissenschaftlichen Umgang mit KI-generierten Texten vorgelegt.¹⁸

1 Zum Beispiel der General Pretrained Transformer (GPT) von OpenAI, Bard von Google oder der vom deutschen Large-scale Artificial Intelligence Open Network als quelloffen dokumentierte Open Assistant.

2 Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin. Attention is all you need. In: Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS 2017). Paginiertes PDF. https://doi.org/10.48550/arXiv.1706.03762

3 Aleksandra Klofat, Wie funktionieren Transformer? Definition und Praxis. https://www.informatik-aktuell.de/betrieb/kuenstliche-intelligenz/wie-funktionieren-transformer-definition-und-praxis.html

4 Vaswani et al. (Anm. 2) S. 10; Emily M. Bender, Timnit Gebru, Angelina McMillan-Major, Shmargaret Shmitchell. On the dangers of stochastic parrots. Can language models be too big? In: Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT 2021). Association for Computing Machinery, New York, S. 610–623, hier S. 610. https://doi.org/10.1145/3442188.3445922

5 Sam Altman. Written testimony of Sam Altman Chief Executive Officer OpenAI before the U.S. Senate Committee on the Judiciary, Subcommittee on Privacy, Technology, & the Law. 2023. Unpaginiertes PDF. www.judiciary.senate.gov/committee-activity/hearings/oversight-of-ai-rules-for-artificial-intelligence, S. 8.

Dirk Srocke, Jonas Kuhn. Interdisziplinäre Perspektive bringt KI voran. Interview. Universität Stuttgart. 2023. https://www.uni-stuttgart.de/universitaet/aktuelles/meldungen/Interdisziplinaere-Perspektive-bringt-KI-voran/

6 Bender at al. (Anm. 4) S. 615f. sowie Steve Shwartz. GPT-3 does not understand what it is saying. 2020. https://www.aiperspectives.com/gpt-3-does-not-understand/

7 Joshua Maynez, Shashi Narayan, Bernd Bohnet, Ryan McDonald. On faithfulness and factuality in abstractive summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, S. 1906–1919. http://dx.doi.org/10.18653/v1/2020.acl-main.173

8 Craig S. Smith. Hallucinations could blunt ChatGPT’s success. OpenAI says the problem’s solvable, Yann LeCun says we’ll see. IEEE Spectrum. 2023. https://spectrum.ieee.org/ai-hallucination

Ashish Agarwal, Clara Wong-Fannjiang, David Sussillo, Katherine Lee, Orhan Firat. Hallucinations in neural machine translation. 2018. https://openreview.net/forum?id=SkxJ-309FQ

Ziwei Ji, Nayeon Lee, Rita Frieske, Tiezheng Yu, Dan Su, Yan Xu, Etsuko Ishii, Yejin Bang, Wenliang Dai, Andrea Madotto, Pascale Fung. Survey of hallucination in Natural Language Generation. In: arXiv :2202.03629. 2022. https://arxiv.org/abs/2202.03629

9 For chemists, the AI revolution has yet to happen. Editorial. In: Nature 612(2023), S. 438. https://www.nature.com/articles/d41586-023-01612-x

10 Bender et al. (Anm. 4) S. 616f.

11 Zu Googles BARD s. Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker et al. LaMDA: Language models for dialog applications. In: arXiv:2201.08239. 2022. Paginiertes PDF. https://arxiv.org/abs/2201.08239

Zu OpenAIs GPt-3 s. Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell et al. Language models are few-shot learners. In: arXiv:2005:14165. 2020. Paginiertes PDF. https://arxiv.org/abs/2005.14165

12 OpenAI. GPT-4. Technical report. In: arXiv: 2303.08774. 2023. Paginiertes PDF. arxiv.org/abs/2303.08774, hier S. 2.

13 open-assistant.io/de. Das Modell wird von LAION (Large-scale Artificial Intelligence Open Network) entwickelt und hat seinen Sitz in Deutschland.

14 U.S. Copyright Office. Re: Zarya of the Dawn (Registration # VAu001480196). Schreiben vom 21.02.2023. https://www.copyright.gov/docs/zarya-of-the-dawn.pdf

15 What is ChatGPT? Hier Nr. 14. 2023. https://help.openai.com/en/articles/6783457-what-is-chatgpt

16 Terms of Service. Hier 2.2. 2023. https://open-assistant.io/de/terms-of-service

17 Flanagin, Annette, Kirsten Bibbins-Domingo, Michael Berkwits, Stacy L. Christiansen. Nonhuman “authors” and implications for the integrity of scientific publication and medical knowledge. In: JAMA 329(2023)8, S. 637–639. doi:10.1001/jama.2023.1344

18 APA: apastyle.apa.org/blog/how-to-cite-chatgpt; MLA: style.mla.org/citing-generative-ai/

Der Autor

Dr. Armin Glatzmeier ist Mitarbeiter der Stabsstelle Kompetenzentwicklung wissenschaftliches Arbeiten an der Universitätsbibliothek der Freien Universität Berlin und beschäftigt sich seit 2018 unter anderem mit wissenschaftlichem Fehlverhalten. Glatzmeier studierte Politikwissenschaft mit den Nebenfächern Rechtswissenschaft und Psychologie und promovierte zur funktionalen Rolle der Verfassungsgerichtsbarkeit in Demokratien. – ORCID 0000-0002-4702-3555

Telefon	07121 3491-0
Telefax	07121 3491-34

ChatGPT, Bard und Co.: Was können Sprachmodelle und welche Probleme ergeben sich?

Sprachmodelle sind keine Wissensmodelle

»Die Modelle selbst weisen aber kein Verständnis von natürlicher Sprache auf und können auch den Wahrheitsgehalt einer im Text generierten Aussage nicht einschätzen.«

Semantik und Wahrscheinlichkeit

»Obwohl ein Wechsel hin zu einer vollständig offenen Verwertungskultur wissenschaftlicher Texte und Daten zunächst radikal erscheinen mag, so spricht die zu erwartende qualitative Verbesserung bei der inhaltlichen Dimension massiv für einen solchen Vorstoß.«

»Das Vertrauen in KI-generierte Texte lässt sich zum einen mit dem Fehlschluss erklären, es handle sich bei LLM auch um Wissensmodelle.«

Es menschelt

Von Männern und Schweinen

»Kommerzielle Anbieter nehmen eine zentrale Gatekeeper-Rolle ein, die unabhängig von einer missbräuchlichen Verwendung von LLM zumindest hypothetisch das Potenzial umfasst, gesellschaftliche Diskurse zu beeinflussen.«

Von Texten und Texten

»Eine ungeprüfte Verwertung scheidet für die eigene wissensbasierte Textproduktion ohnehin aus, da die aktuell verfügbaren LLM primär nicht darauf trainiert sind, Fragen inhaltlich korrekt zu beantworten, sondern lediglich stochastisch plausible Antworten liefern.«

Interessantes Thema?

Teilen Sie diesen Artikel mit Kolleginnen und Kollegen:

Die BuB-App

Alle Infos auf einen Blick!

ChatGPT, Bard und Co.: Was können Sprachmodelle und welche Probleme ergeben sich?

»Die Modelle selbst weisen aber kein Verständnis von natürlicher Sprache auf und können auch den Wahrheitsgehalt einer im Text generierten Aussage nicht einschätzen.«

»Obwohl ein Wechsel hin zu einer vollständig offenen Verwertungskultur wissenschaftlicher Texte und Daten zunächst radikal erscheinen mag, so spricht die zu erwartende qualitative Verbesserung bei der inhaltlichen Dimension massiv für einen solchen Vorstoß.«

»Das Vertrauen in KI-generierte Texte lässt sich zum einen mit dem Fehlschluss erklären, es handle sich bei LLM auch um Wissensmodelle.«

»Kommerzielle Anbieter nehmen eine zentrale Gatekeeper-Rolle ein, die unabhängig von einer missbräuchlichen Verwendung von LLM zumindest hypothetisch das Potenzial umfasst, gesellschaftliche Diskurse zu beeinflussen.«

»Eine ungeprüfte Verwertung scheidet für die eigene wissensbasierte Textproduktion ohnehin aus, da die aktuell verfügbaren LLM primär nicht darauf trainiert sind, Fragen inhaltlich korrekt zu beantworten, sondern lediglich stochastisch plausible Antworten liefern.«

Verwandte Nachrichten

Interessantes Thema? Teilen Sie diesen Artikel mit Kolleginnen und Kollegen:

Die BuB-App

Alle Infos auf einen Blick!

Interessantes Thema?

Teilen Sie diesen Artikel mit Kolleginnen und Kollegen: