Wenn KI halluziniert: Deloitte zahlt Honorar zurück

blog main image
October 13, 2025
13.10.2025
3 Minuten Lesezeit

Azure OpenAI GPT-4o hat in einem australischen Regierungsgutachten erfundene Quellen produziert – ein Warnsignal für KI-gestützte Beratung.

Erfundene Studien in Wohlfahrtssystem-Analyse

Deloitte Australia erstattet Teile eines Honorars für ein Regierungsgutachten zurück, nachdem sich gravierende formale Mängel herausstellten. Das australische Arbeits- und Sozialministerium hatte die Analyse des umstrittenen automatisierten Sanktionssystems für Arbeitssuchende Ende 2024 für knapp 250.000 Euro beauftragt.

Die „Financial Times" berichtete: Das Dokument enthielt Verweise auf nicht existierende wissenschaftliche Studien, falsch zitierte Quellen, erfundene Literaturangaben und ungenaue juristische Zusammenfassungen. Die letzte Vertragsrate wird einbehalten.

Generative KI produziert fiktive Referenzen

Gegenüber der „Financial Times" bestätigte Deloitte den Einsatz von Azure OpenAI GPT-4o für Berichtsteile. Solche generativen Sprachmodelle neigen zu „Halluzinationen" – einem Phänomen, bei dem KI-Systeme Inhalte ohne faktische Grundlage erzeugen. Eine korrigierte Fassung erschien kurze Zeit später, in der Deloitte den KI-Einsatz im Anhang offenlegt. Die substanziellen Empfehlungen des Gutachtens bleiben vom Ministerium als valide eingestuft.

Aufsichtsbehörden sehen Kontrolldefizite

Obwohl das Ministerium den Technologieeinsatz autorisiert hatte, zeigt der Vorfall Gefahren für Beratungshäuser, die auf KI-Investitionen setzen, um im Wettbewerb zu bestehen. Britische Prüfungsaufseher mahnen bereits mangelnde Überwachungsmechanismen beim KI-Einsatz an. Der deutsche Markt agiert zurückhaltender bei der praktischen Implementation, trotz strategischer Bedeutung für Wirtschaftsprüfung und Finanzwesen. Deloitte teilte der „Financial Times" mit, man habe die Angelegenheit „direkt mit dem Kunden geklärt".

Implikationen für Professional Services

Der Fall wirft grundsätzliche Fragen zur Qualitätssicherung KI-gestützter Beratungsleistungen auf. Während generative Sprachmodelle Effizienzgewinne versprechen, erfordert deren Einsatz rigorose Kontrollmechanismen – insbesondere bei faktenbasierten Gutachten. Für Kanzleien und Prüfungsgesellschaften bedeutet dies: KI-Integration muss mit entsprechenden Prüfprozessen einhergehen, um Haftungsrisiken und Reputationsschäden zu vermeiden.