22 öffentlich-rechtliche Anstalten aus 18 Ländern testen ChatGPT, Copilot, Perplexity und Gemini – 45 Prozent signifikante Fehlerquote, Google Gemini versagt bei 72 Prozent der Quellenangaben.
Die Europäische Rundfunkunion präsentierte am Mittwoch ernüchternde Ergebnisse ihrer groß angelegten KI-Chatbot-Evaluation. 22 öffentlich-rechtliche Medienanstalten aus 18 Ländern testeten führende KI-Assistenten in 14 Sprachen. Das Fazit: Künstliche Intelligenz bleibt eine unzuverlässige Nachrichtenquelle. Von über 3.000 Antworten auf 30 Kernfragen zu aktuellen Ereignissen enthielten 45 Prozent mindestens einen gravierenden Fehler. Bei Einbeziehung geringfügiger Mängel steigt die Quote auf 81 Prozent. Die Problematik erweist sich als systemisch – unabhängig von Sprache, Region oder Plattform.
Der gravierendste Mangel: 31 Prozent aller Antworten wiesen signifikante Quellennachverfolgungsfehler auf. Die Systeme präsentierten Behauptungen, die angegebene Quellen nicht deckten, oder verzichteten komplett auf Quellenangaben. Google Gemini versagte besonders dramatisch: 72 Prozent der Ausgaben zeigten signifikante Quellenmängel – ein Vielfaches der unter 25 Prozent liegenden Fehlerquoten anderer Assistenten. Faktische Genauigkeit und Kontextbereitstellung bleiben kritisch: 20 respektive 14 Prozent signifikante Mängel. Die Forscher identifizierten fundamentale Sachfehler wie veraltete Amtsträger oder die Nennung des im April verstorbenen Papstes Franziskus als amtierend im Mai 2025. Perplexity, Gemini, Copilot und ChatGPT fabrizierten nicht existierende Links.
Die BBC koordinierte die Untersuchung unter deutscher Beteiligung von ARD und ZDF. Zwar verbesserte sich die Datenlage gegenüber einer früheren Erhebung – kritische Fehler reduzierten sich von 51 auf 37 Prozent. Paradoxerweise vertrauen jedoch über 30 Prozent britischer Nutzer den algorithmischen Zusammenfassungen. Das eigentliche Problem: KI-Systeme verweigern kaum noch Antworten (lediglich 0,5 Prozent). Statt Wissenslücken zuzugeben, produzieren sie lieber fragwürdigen Output. Kollateralschaden entsteht bei journalistischen Marken: 42 Prozent der Befragten zweifeln an Originalquellen, wenn KI-Antworten Fehler enthielten. Die Systeme beschädigen also Reputationen, die sie eigentlich nur wiedergeben sollten.
Die Rundfunkunion artikuliert klare Erwartungen: Entwickler müssen Fehlerquoten senken und sprachspezifische sowie marktbezogene Qualitätsmetriken offenlegen. Medienhäuser benötigen Kontrollrechte über ihre Inhalte plus vereinbarte Zitationsstandards mit sichtbarer Originalverlinkung. Regulatoren und Gesetzgeber sollen Hersteller für Output-Qualität haftbar machen. Öffentlich-rechtliche Inhalte müssen prominent platziert werden. Parallel brauchen Endnutzer realistische Aufklärung über Chatbot-Limitationen. Das Forschungsteam stellte ein praktisches "Toolkit" zur Verfügung.




