Metriken für eine stärker nutzendenzentrierte Evaluation der Klassifikationsgüte

In diesem Beitrag auf der 14th International Conference on Recent Advances in Natural Language Processing werden Metriken vorgestellt, um praxisrelevante Anforderungen der Einsetzbarkeit von KI-basierten Werkzeugen zu evaluieren.

Zusammenfassung

Eine Lösung für begrenzte Annotationsbudgets ist aktives Lernen (Active Learning / AL), ein gemeinschaftlicher Prozess von Mensch und Maschine zur strategischen Auswahl einer kleinen, aber informativen Menge von Beispielen. Während aktuelle Maßnahmen AL aus der Perspektive des maschinellen Lernens optimieren, argumentieren wir, dass für eine erfolgreiche Übertragung in die Praxis zusätzliche Kriterien auf die zweite Säule von AL, die menschlichen Annotator*innen und ihre Bedürfnisse, abzielen müssen. Beispielsweise wird der Nutzen von AL-Verfahren im Bereich der Textklassifikation durch gängige Gütemaße wie Accuracy oder F1 bewertet. Solche Maße greifen jedoch bei praxisnahen Datensätzen, die eine erhöhte Anzahl von unausgewogenen Klassen aufweisen, zu kurz, da hier weitere Kriterien wie das schnelle Finden aller Klassen (z.B. Themen) oder die Identifikation seltener Fälle eine Rolle spielen. Wir führen daher vier Maße ein, die die klassenbezogenen Anforderungen widerspiegeln, die Benutzer*innen an die Datenerfassung stellen.

In einem umfassenden Vergleich von Unsicherheits- (Uncertainty), Diversitäts- (Diversity) und hybriden Datenauswahlstrategien auf sechs verschiedenen Datensätzen stellen wir z.B. fest, dass eine starke F1-Leistung nicht unbedingt mit einer vollständigen Klassenabdeckung verbunden ist (d.h. es werden nicht alle Themen gefunden) und dass die verschiedenen Datenauswahlstrategien unterschiedliche Stärken und Schwächen bezüglich der klassenbezogenen Anforderungen aufzeigen. Unsere empirischen Ergebnisse unterstreichen, dass eine ganzheitliche Betrachtung bei der Bewertung von AL-Ansätzen unerlässlich ist, um ihre Nützlichkeit in der Praxis sicherzustellen. Zu diesem Zweck müssen Standardmaße für die Bewertung von maschinellen Textklassifikationsverfahren durch solche ergänzt werden, die die Bedürfnisse der Nutzer besser widerspiegeln.

Wesentliche Ergebnisse

  • In dieser Publikation werden vier neue klassenbezogene Gütemaße für AL-Ansätze vorgeschlagen, die berücksichtigen, wie gut und schnell seltene oder alle Klassen erkannt werden. Diese Kriterien werden von Standardmaßen (z.B. F1) nicht im Detail berücksichtigt.
  • Die neuen Maße ermöglichen praxisrelevante Einsichten in die Performanz insbesondere auf Datensätzen mit unterschiedlichen oft vorkommenden Klassen sowie einer großen Spanne an verschiedenen Klassen – Eigenschaften, die in der Praxis (z.B. bei der Themenerkennung in Beteiligungsverfahren) weit verbreitet sind.
  • Es zeigt sich, dass die Wahl einer geeigneten AL-Strategie nicht nur aufgrund von Standardmaßen getroffen werden sollte. Die besten Ansätze nach dem F1-Maß können z.B. nicht sicherstellen, dass auch alle Klassen gefunden werden, obgleich dies eine essenzielle Anforderung in der automatisierten Auswertung von Beteiligungsbeiträgen ist: kein Thema sollte vernachlässigt werden, keine Stimme untergehen. Die von uns entwickelten Maße können die Auswahl zusätzlich informieren und so praxisorientierte Lösungen liefern.

Publikation

Romberg, J. (2023). Mind the User! Measures to More Accurately Evaluate the Practical Value of Active Learning Strategies. Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing, 996–1006. https://aclanthology.org/2023.ranlp-1.107/