Neuauswertung nach Detektionssystem-Upgrade offenbart massives LLM-Training-Scraping – acht Prozent Besucherschwund gefährdet Spendenfinanzierung.
Marshall Miller von der Wikimedia Foundation dokumentiert in einem Blogbeitrag unerwartete Entdeckungen: Ursprünglich menschlichen Nutzern zugeordnete Mai- und Juni-Zugriffsspitzen entpuppten sich nach Upgrade der Identifikationssysteme als algorithmisch generiert. Die Automatisierung war gezielt konzipiert, Detektionsmechanismen zu täuschen. Geografische Anomalien – vorwiegend brasilianische IP-Adressen – triggerten Rückwärtsanalyse von März bis August. Ergebnis: Massive Bot-Invasionen während der Frühjahrsmonate, deren Verhaltensprofile menschliche Browsing-Muster imitierten.
Die identifizierten Automatisierungen extrahieren systematisch Enzyklopädie-Content zur Persistierung. Primärverwendung: Korpus-Material für Large-Language-Model-Training. Auch kommerzielle Suchmaschinen-Indexierer wie Google operieren mit vergleichbaren Crawling-Mechanismen. Bereits 2024 identifizierte die Foundation KI-Scraper als Ursache explodierender Multimedia-Bandbreite. Simultan kollabierte organischer Traffic: Humane Besucherzahlen schrumpften um acht Prozentpunkte im Jahresvergleich.
Der Besucherrückgang überrascht die Verantwortlichen nicht – Informationskonsum migriert zu LLM-Interfaces, Suchmaschinen-Snippets und Social-Media-Aggregation. Dennoch intensiviert sich die existenzielle Herausforderung: Wikipedia operiert durch Philanthropie und Volunteer-Editoren, die Content kreieren, pflegen und validieren. Beide Ressourcen erodieren bei sinkendem direktem Traffic. Die Ironie: LLM-Nutzer konsumieren indirekt Wikipedia-Wissen, da praktisch alle marktführenden Sprachmodelle mit extrahiertem Wikipedia-Content trainiert wurden – finanziert durch Spenden und produziert durch unbezahlte Autoren.
Die Foundation betrachtet LLMs, Suchmaschinen und Social Platforms als legitime Distributionskanäle. Ihr Desiderat an Betreiber: Implementiert Mechanismen, die Audiences zur originären Quelleninteraktion motivieren. Nur direkter Plattformkontakt sichere die Informationsbasis, die diese Intermediäre kommerziell verwerten.