Wer sind die Spitzenkandidat:innen der einzelnen Parteien bei der Wahl in Thüringen 2024? Das ist eine von vielen Fragen, die Bürger:innen beispielsweise dem populären Chatbot-Tool ChatGPT gestellt haben. Gemini von Google und Copilot von Microsoft sind ebenfalls etablierte KI-Chatbots, die wie ChatGPT als Suchwerkzeuge genutzt werden.
Anlässlich der im September stattgefundenen Landtagswahlen in Thüringen und Sachsen haben die gemeinnützige Nichtregierungsorganisation AlgorithmWatch und das Unternehmen CASM–Technology vorab eine Studie durchgeführt. Am 12. September 2024 wurden die Ergebnisse dieser Studie in einem Podiumsgespräch zusammengetragen und mit Expert:innen aus Wissenschaft und Politik diskutiert.
Suchmaschinen helfen uns bei der Recherche von Informationen und tragen damit auch zur Meinungsbildung bei. Das gleiche gilt auch für KI-gesteuerte Chatbots, die mittlerweile bei der politischen Orientierung für viele Menschen eine wichtige Rolle spielen, ohne dass wir wissen, woher diese Informationen genau stammen.
Aus diesem Grund haben AlgorithmWatch und CASM-Technology gemeinsam getestet, ob KI-Chatbots Fragen zu den vergangenen Landtagswahlen korrekt und unvoreingenommen beantwortet haben.
Grundlage der Studie ist die These, dass sich in immer mehr Staaten autokratische Strukturen verfestigen, und sie somit von einem sogenannten democratic backsliding bedroht werden. Dabei geht es um die Erosion von demokratischen Werten und Praktiken, die zu einer schleichenden Aushöhlung der Demokratie führen können. Die Manipulationen bei Wahlen, Angriffe auf die Unabhängigkeit der Wahlkommissionen oder die Diskriminierung politischer Gegner ist dabei nur ein Bestandteil dieser Entwicklung, die durch KI gesteuerte Chatbots beschleunigt werden können.
Die Ergebnisse der Studie zeigen in diesem Zusammenhang, dass Chatbots häufig falsche Informationen ausgeben oder durch einseitige Darstellungen die Meinungsbildung gravierend beeinflussen können. Die Betreiber der Sprachmodelle weisen zwar auf Besserungen hin, aber die Lücken bei der Transparenz und informativen Sicherheit bleiben gravierend.
Bezüglich der drei getesteten Sprachmodelle lässt sich im Allgemeinen festhalten, dass sie in ihren Antworten politische Meinungen bestärken, wenn diese auch in den formulierten Fragen enthalten sind. Außerdem werden auch die in den formulierten Fragen enthaltenen Annahmen in den Antworten aufgenommen, auch wenn diese Annahmen nicht der Realität entsprechen. So wurde beispielsweise die Frage, ob in Sachsen Ende September Landtagswahlen stattfinden, von Gemini bestätigt, obwohl diese am 1.Septeber stattgefunden hatten.
ChatGPT bzw. das GPT-3.5. gab bezüglich Fragen zu den Landtagswahlen in ca. 30% der Fälle Falschinformation. In der kostenpflichtigen Version 4.0 waren im Vergleich nur 15% fehlerhafte Antworten zu erkennen. Beide Modelle geben nur selten Quellenangaben für ihre Antworten an.
Microsoft hat in seinen Richtlinien erklärt, dass sein Large Language Modell Copilot keine Fragen zu Wahlen beantworten soll. Diese Richtlinie wurde allerdings in der Untersuchung nicht eingehalten und Copilot beantwortete etwa 65% der gestellten Fragen. Nichtsdestotrotz lässt sich sagen, dass die Antworten von Copilot, in Vergleich zu den anderen Chatbots, genauer waren. Nur 5% der Antworten des KI-Chatbots waren nicht korrekt und positiv wurde zudem vermerkt, dass Quellenangaben zu den gelieferten Informationen vorhanden waren.
Auffallend war außerdem, dass die KI-Programme in manchen Fällen veraltete Daten verwendeten wie z.B. Namen von Kandidat:innen aus vorherigen Wahlen. Außerdem wurden Parteien und Kandidat:innen falsche Informationen zugeordnet oder erfunden, wenn nicht genügend Daten vorhanden waren. An dieser Stelle sollte jedoch die unzureichende Informationsbasis thematisiert werden. So hatten die Programme große Schwierigkeiten Fragen zum Bündnis Sarah Wagenknecht richtig zu beantworten. Wurde nach Kandidat:innen dieser Partei gefragt, verwiesen die Programme auf andere oder erfundene Organisationen wie “Bündnis-Sachsen-Wir”.
Basierend auf diesen Ergebnissen zeigt die Studie, dass KI basierte Chatbots (noch) keine Suchmaschinen sind und sich auch als solche wenig eignen. Sie sind für politische Themen, insbesondere der politischen Meinungsbildung und Wahlentscheidungen, nicht zuverlässig genug und stellen laut Studie zudem eine Gefahr für den Ruf der Kandidat:innen und zitierten Medien dar. Aufgrund der hohen Zahl an irreführenden und falschen Informationen, die die Programme als Antworten ausgeben, empfehlen die Autor:innen , dass Bürger:innen, in Bezug auf die Recherche von politischen Themen, vertrauenswürdige und transparente Quellen oder etablierte Suchmaschinen heranziehen sollten. Ergänzend gewährleisten etablierte Medien durch ihre langjährige Expertise und die gesetzliche Aufsicht, eine transparente und sichere Berichterstattung. Um ein democratic backsliding zu verhindern, müssen genau diese Informationssysteme weiterhin gestärkt werden, um den immer wichtiger werdenden KI gesteuerten Chatbots etwas entgegenzusetzen.
Text: CC-BY-SA 3.0