Sonntag, 19. Juni 2011

Wikipedistik: die Neutralitäts-Bots kommen

Das Neutralitätsgebot der Wikipedia weist ähnliche Effekte auf, wie die Wikipedia selbst: theoretisch eine große Katastrophe, praktisch funktioniert es überraschend gut. Nur wenn man den hands-on-lass-mal-diskutieren-Ansatz aufgibt, und versucht die Neutralität wirklich zu beschreiben, stellt man fest, welche erkenntnistheoretische Katastorphe der Grundsatz ist: fest verankert in den wissenschaftlichen Abwegen des 19. Jahrhunderts, unbefleckt von Allem, was die Menschheit in den letzten 100 Jahren gelernt hat. Aber praktisch funktioniert der neutrale Standpunkt überraschend oft.

Nun kann man sich aber meine Skepsis vorstellen, als ich das Paper von Livnat Herzig, Alex Nunes und Batia Snir mit dem Titel sah "An Annotation Scheme for Automated Bias Detection in Wikipedia", veröffentlicht für Proceedings of the Fifth Law Workshop (LAW V), pages 47–55, Portland, Oregon, 23-24 June 2011. Die ausführliche Beschreibung schränkt da schon etwas ein:

BiasML is a novel annotation scheme with
the purpose of identifying the presence as
well as nuances of biased language within
the subset of Wikipedia articles dedicated
to service providers.

Die Forscher haben sich ein besonders Werbe-anfälliges Artikelsegment gegriffen, und wollen dort die echten Artikel von den getarnten Anzeigen trennen. Eine gute Wahl: die Artikel dort sind meistens nur wenig beachtet, außer den Werbetreibenden interessiert das Thema nicht so richtig, und im Gegensatz zu den großen Firmen mit intensiver Artikelbetreuung (McDonalds und Enercon fielen mir in de spontan ein), sind die kleinen meistens weniger subtil in ihrer Werbung.

Ihr Verfahren ist komplexer als ich es jetzt schildern mag, ich bin ja kein Computerlinguist oder welche Fachrichtung auch immer zuständig ist, denke aber den Überblick verstanden zu haben: Herzig/Nunes/Snir griffen sich eine Zahl menschlicher Auswerter, die ein festes Schema an die Hand bekamen, um Artikel zu bewerten. Je einheitlicher diese Auswerter auswerten, desto besser das Schema. Herzig/Nunes/Snir wählten sich für das Schema Kriterien aus, die Hinweise auf werbliche Artikel geben können:

* wertende Adjektive - klar
* persönliche Einbeziehung (Ich, Du, Sie, Wir) - oft in werbenden Texten verwendet, eigentlich nie in WP-Artikeln
* Wiederholung - auch gern von werbenden benutzt, um die Vorzüge eines Geschäfts darzustellen
* Weasel words - Wörter, die versuchen illegitimen Behauptungen einen legitimen Anstrich zu geben "wird gesagt", "Kritiker meinen", "gilt als" etc.

Dagegen rechnen sie dann Verweise auf Quellen, die die Neutralität wieder erhöhen können. Noch ist das ganze bei weitem nicht fertig: noch sind sie auch fern von der Entwicklung der Software, sondern arbeiten noch an einem Schema, dass man irgendwann automatisieren kann. Das scheint noch ein weiter Weg: While the low individual scores on intrasentential tags is disconcerting, the overall higher scores for annotator B are a positive indication that a decent understanding and execution of the scheme and guidelines are possible klingt mir nicht nach baldiger Vollendung.

Kleinanzeigen kleiner Geschäfte sind eh die Qualitätskontrolle für Anfänger - die erkennt jeder, vielleicht sogar ein Bot. Und wenn man mal den engen Wikipedia-Bereich verlässt, und solche Bots auf die Menschheit loslässt stelle ich mir wilde Anwendungen irgendwo zwischen Spam-Kontrolle und automatisierter Buchkritik vor.

In Wikipedia selbst: Jede Arbeit, die ein Bot verrichtet, muss man nicht selber machen.


2 Kommentare:

aschmidt hat gesagt…

Ein neues Kapitel aus der Serie: ''Die Macht der Computer und die Ohnmacht der Vernunft''. Erst gestern abend kämpfte ich wieder gegen so einen dämlich programmierten Bot...

dirk franke hat gesagt…

Ja und Nein. Prinzipiell JAAA. Konkret: Hat die Vernunft nicht besseres zu tun als furchtbare Wikipedia-Artikel zu finden, und daneben zu schreiben, dass es furchtbare Artikel sind?