Kodierung und Bereitstellung von Datensätzen

Im Rahmen unseres Projekts haben wir an der manuellen Annotation einer Vielzahl von Datensätzen gearbeitet mit dem Ziel die Entwicklung von KI-Verfahren zu Auswertung von Beteiligungsbeiträgen zu unterstützen.

Überwachte maschinelle Lernverfahren (supervised machine learning) benötigen Trainingsdatensätze um Eigenschaften und Muster der jeweiligen Kodierungen erlernen zu können. Im Bereich von Bürger*innenbeteiligung fehlt es hier an umfassend kodierten deutschsprachigen Datensätzen. Um den Bedarf zu decken, haben wir deshalb an der Kodierung deutschsprachiger Beteiligungsverfahren aus dem Bereich Mobilität nach vier Dimensionen gearbeitet:

  • Erstens haben wir Verfahren thematisch nach Verkehrsmitteln, weiteren Ansprüchen an den Raum, sowie unmittelbar zu behebenden Mängeln kodiert.
  • Zweitens haben wir Verfahren nach argumentativen Sätzen kodiert und diese in Vorschläge und Zustandsbeschreibungen unterteilt.
  • Drittens haben wir argumentativen Sinneinheiten zugeordnet, wie konkret diese sind.
  • Viertens haben wir textuelle Ortsangaben kodiert.

Eine detailliertere Beschreibung der Datensätze – Stand Juni 2022 – findet sich in unserer Publikation: Romberg, Julia; Mark, Laura; Escher, Tobias (2022, June). A Corpus of German Citizen Contributions in Mobility Planning: Supporting Evaluation Through Multidimensional Classification. Seitdem haben wir weiter an der thematischen Kodierung der Datensätze gearbeitet und unser Schema der Verkehrsmittel überarbeitet.

Die folgende Tabelle zeigt den aktuellen Stand der Kodierung und wird fortlaufend aktualisiert:

Im Einklang mit unserer Open Source-Richtlinie werden die kodierten Datensätzen der Öffentlichkeit nach Möglichkeit unter Creative Commons CC BY-SA License verfügbar gemacht.

Basierend auf diesen Datensätzen sind eine Reihe von Publikationen entstanden. Diese finden Sie unter https://www.cimt-hhu.de/gruppe/romberg/romberg-veroeffentlichungen/.

Masterarbeit zur thematischen Klassifikation von Beteiligungsbeiträgen mit Active Learning

Im Rahmen seiner Masterarbeit im MA Informatik an der Heinrich-Heine-Universität Düsseldorf hat sich Boris Thome mit der Klassifikation von Beteiligungsbeiträgen nach den enthaltenen Themen beschäftigt. Diese Arbeit führt die Arbeit von Julia Romberg und Tobias Escher fort, indem eine feinere Einteilung der Beiträge nach Unterkategorien untersucht wurde.

Zusammenfassung

Politische Behörden in demokratischen Ländern konsultieren die Öffentlichkeit regelmäßig zu bestimmten Themen, doch die anschließende Auswertung der Beiträge erfordert erhebliche personelle Ressourcen, was häufig zu Ineffizienzen und Verzögerungen im Entscheidungsprozess führt. Eine der vorgeschlagenen Lösungen ist die Unterstützung der menschlichen Analyst*innen bei der thematische Gruppierung der Beiträge durch KI.

Überwachtes maschinelles Lernen (supervised machine learning) bietet sich für diese Aufgabe an, indem die Vorschläge der Bürger nach bestimmten vordefinierten Themen klassifiziert werden. Durch die individuelle Natur vieler öffentlicher Beteiligungsverfahren ist der manuelle Aufwand zur Erstellung der benötigten Trainingsdaten jedoch oft zu teuer. Eine mögliche Lösung, um die Menge der Trainingsdaten zu minimieren, ist der Einsatz von Active Learning. In unser vorherigen Arbeit konnten wir zeigen, dass Active Learning den manuellen Annotationsaufwand zur Kodierung von Oberkategorien erheblich reduzieren kann. In dieser Arbeit wurde nachfolgend untersucht, ob dieser Vorteil auch dann noch gegeben ist, wenn die Oberkategorien in weitere Unterkategorien unterteilt werden. Eine besondere Herausforderung besteht darin, dass einige der Unterkategorien sehr selten sein können und somit nur wenige Beiträge umfassen.

In der Evaluation verschiedener Methoden wurden Daten aus Online-Beteiligungsprozessen in drei deutschen Städten verwendet. Die Ergebnisse zeigen, dass die maschinelle Klassifikation von Unterkategorien deutlich schwerer ist als die Klassifikation der Oberkategorien. Dies liegt an der hohen Anzahl von möglichen Unterkategorien (30 im betrachteten Datensatz), die zusätzlich sehr ungleich verteilt sind. Im Fazit ist weitere Forschung erforderlich, um eine praxisgerechte Lösung für die flexible Zuordnung von Unterkategorien durch maschinelles Lernen zu finden.

Publikation

Thome, Boris (2022): Thematische Klassifikation von Partizipationsverfahren mit Active Learning. Masterarbeit am Institut für Informatik, Lehrstuhl für Datenbanken und Informationssysteme, der Heinrich-Heine-Universität Düsseldorf. (Download)

Masterarbeit zur automatisierten Klassifikation von Argumenten in Beteiligungsbeiträgen

Im Rahmen ihrer Masterarbeit im MA Informatik an der Heinrich-Heine-Universität Düsseldorf hat sich Suzan Padjman mit der Klassifikation von Argumentationskomponenten in Beteiligungsbeiträgen beschäftigt. Diese Arbeit führt die bisherige Arbeit unseres Teams fort, indem Fälle betrachtet werden, in denen argumentative Sätze sowohl einen Vorschlag als auch eine Zustandsbeschreibung enthalten können.

Zusammenfassung

Öffentlichkeitsbeteiligungsverfahren ermöglichen es den Bürger*innen, sich an kommunalen Entscheidungsprozessen zu beteiligen, indem sie ihre Meinung zu bestimmten Themen äußern. Kommunen haben jedoch oft nur begrenzte Ressourcen, um eine möglicherweise große Menge an Textbeiträgen zu analysieren, welche zeitnah und detailliert ausgewertet werden müssen. Eine automatisierte Unterstützung bei der Auswertung kann daher hilfreich sein, z.B. um Argumente zu analysieren.

Bei der Klassifikation von argumentativen Sätzen nach Typen (hier: Vorschlag oder Zustandsbeschreibung) kann es vorkommen, dass ein Satz mehrere Komponenten eines Arguments beinhaltet. In diesem Fall besteht die Notwendigkeit einer Multi-Label Klassifikation, bei der mehr als eine Kategorie zugeordnet werden kann.

Um dieses Problem zu lösen, wurden in der Arbeit verschiedene Methoden zur Multi-Label Klassifikation von Argumentationskomponenten verglichen (SVM, XGBoost, BERT und DistilBERT). Im Ergebnis zeigte sich, dass BERT-Modelle eine macro F1-Vorhersagegüte von bis zu 0,92 erreichen können. Dabei weisen die Modelle datensatzübergreifend eine robuste Performance auf – ein wichtiger Hinweis auf den praktischen Nutzen solcher Verfahren.

Publikation

Padjman, Suzan (2022): Mining Argument Components in Public Participation Processes. Masterarbeit am Institut für Informatik, Lehrstuhl für Datenbanken und Informationssysteme, der Heinrich-Heine-Universität Düsseldorf. (Download)

Projektarbeit zur automatisierten Erkennung von Verortungen in Beteiligungsbeiträgen

Im Rahmen ihrer Projektarbeit im MA Informatik an der Heinrich-Heine-Universität Düsseldorf hat sich Suzan Padjman mit der Entwicklung von Verfahren zur automatisierten Erkennung von textuell beschriebenen Ortsangaben in Beteiligungsverfahren beschäftigt.

Zusammenfassung

Im Kontext der Verkehswende sind konsultative Verfahren ein beliebtes Hilfsmittel, um Bürger*innen die Möglichkeit zu geben, ihre Interessen und Anliegen zu vertreten und einzubringen. Insbesondere bei mobilitätsbezogenen Fragen ist ein wichtiger Anaylseaspekt der gesammelten Beiträge, welche Orte (z.B. Straßen, Kreuzungen, Rad- oder Fußwege) Probleme aufweisen und verbesserungswürdig sind, um die Mobilität nachhaltig zu fördern. Eine automatisierte Identifikation von solchen Verortungen hat das Potential, die ressourcenintensive manuelle Auswertung zu unterstützen.

Ziel dieser Arbeit war es daher, mithilfe von Methoden aus dem Natural-Language-Processing (NLP) eine automatisierte Lösung zur Identifikation von Verortungen zu finden. Dazu wurde eine Verortung als die Beschreibung eines konkreten Ortes eines Vorschlags definiert, welche auf einer Karte markiert werden könnte. Beispiele für Verortungen sind Straßennamen, Stadtteile und eindeutig zuordenbare Plätze, wie z.B. “in der Innenstadt” oder “am Ausgang des Hauptbahnhofs”. Reine Lagebeschreibungen ohne eine konkrete Ortszugehörigkeit wurden dagegen nicht als Verortung betrachtet. Methodisch wurde die Aufgabe als eine Sequence-Labeling-Aufgabe betrachtet, da Verortungen häufig aus mehreren hintereinanderfolgenden Token, sogenannten Wortsequenzen, bestehen.

Im Vergleich verschiedener Modelle (spaCy NER, GermanBERT, GBERT, dbmdz BERT, GELECTRA, multilingual BERT, multilingual XLM-RoBERTa) auf zwei deutschsprachigen Beteiligungsdatensätzen zur Radinfrastruktur in Bonn und Köln Ehrenfeld zeigte sich, dass GermanBERT die besten Ergebnisse erzielt. Dieses Modell kann Token, die Teil einer textuellen Ortsbeschreibung sind, mit einem vielversprechenden macro F1-Score von 0,945 erkennen. In zukünftiger Arbeit sollen die erkannten Textphrasen dann in Geokoordinaten überführt werden, um die erkannten Ortszugehörigkeiten von Vorschlägen auch kartenbasiert abbilden zu können.

Publikation

Padjman, Suzan (2021): Unterstützung der Auswertung von verkehrsbezogenen Bürger*innenbeteiligungsverfahren durch die automatisierte Erkennung von Verortungen. Projektarbeit am Institut für Informatik, Lehrstuhl für Datenbanken und Informationssysteme, der Heinrich-Heine-Universität Düsseldorf. (Download)

Verkehrswende konkret: Perspektiven der SÖF-Nachwuchsgruppen mit Schwerpunkt Mobilität

Gemeinsam mit CIMT starteten im Jahr 2019 zwei weitere BMBF-geförderten Nachwuchsgruppen in der sozial-ökologischen Forschung mit einem Fokus auf dem Verständnis und der Gestaltung der Verkehrswende: Experi, mit einem Fokus auf der Rolle von Reallaboren für die Mobilitätswende, und MoveMe mit einem besonderen Augenmerk auf den Besonderheiten für die Verkehrswende im suburbanen Raum.

In den letzten Jahren wurden zahlreiche theoretische und empirische Beiträge erarbeitet, und mittlerweile liegen in allen drei Nachwuchsgruppen zahlreiche Erkenntnisse vor. Im Rahmen eines gemeinsamen zweitägigen Workshops haben sich die drei Nachwuchsgruppen am 25. &. 26. Oktober in Hannover zu einem intensiven Austausch getroffen.

Ziel war die Vorstellung der jeweiligen Erkenntnisse, der Austausch über gemeinsame Herausforderungen, und die Identifikation möglicher Schnittstellen. Unter dem übergeordneten Anliegen der Gestaltung der Verkehrswende wurden dabei eine Reihe von Themen deutlich, zu denen in den Gruppen mit verschiedenen theoretischen Ansätzen und empirischen Methoden neue Perspektiven erarbeitet werden. Dazu gehören die Akzeptanz von Verkehrswendemaßnahmen, die Bedeutung von Partizipation und Konsultationsprozessen sowie die konkreten Optionen für eine Ausgestaltung zukünftiger Mobilität.

Der Workshop soll als Impuls dienen, in Zukunft verschiedene Formate der Zusammenarbeit auszuloten, z.B. in Form von gemeinsamen Veranstaltungen, Publikationen oder Projekten.

Übersicht über Ansätze computerbasierter Textanalyse zur Unterstützung der Auswertung von Beiträgen aus Öffentlichkeitsbeteiligungen

In diesem Artikel in der Zeitschrift Digital Government: Research and Practice geben Julia Romberg und Tobias Escher einen Überblick über automatisierte Techniken die bereits zur Unterstützung der Auswertung von Beiträgen in Beteiligungsprozessen verwendet wurden. Auf Basis einer systematischen Literaturstudie bewerten sie die Leistungsfähigkeit der bisher eingesetzten Verfahren und zeigen weiteren Forschungsbedarf auf.

Zusammenfassung

Öffentliche Institutionen, die Bürger*innen im Rahmen politischer Entscheidungsprozesse konsultieren, stehen vor der Herausforderung, die Beiträge der Bürger*innen auszuwerten. Unter demokratischen Aspekten ist diese Auswertung von wesentlicher Bedeutung, benötigt gleichzeitig aber umfangreiche personelle Ressourcen. Eine bislang noch zu wenig erforschte Lösung für dieses Problem bietet die Nutzung von künstlicher Intelligenz, wie beispielsweise computer-unterstützter Textanalyse. Wir identifizieren drei generische Aufgaben im Auswertungsprozess, die von der automatisierten Verarbeitung natürlicher Sprache (NLP) profitieren könnten. Auf Basis einer systematischen Literaturrecherche in zwei Datenbanken zu Computerlinguistik und Digital Government geben wir einen detaillierten Überblick über die existierenden Ansätze und deren Leistungsfähigkeit. Auch wenn teilweise vielversprechende Ansätze existieren, beispielsweise um Beiträge thematisch zu gruppieren oder zur Erkennung von Argumenten und Meinungen, so zeigen wir, dass noch bedeutende Herausforderungen bestehen, bevor diese in der Praxis zuverlässig zur Unterstützung eingesetzt werden können. Zu diesen Herausforderungen zählt die Qualität der Ergebnisse, die Anwendbarkeit auf nicht-englischsprachige Korpora und die Bereitstellung von Software, die diese Algorithmen auch Praktikter*innen zugänglich macht. Wir diskutieren verschiedene Ansätze zur weiteren Forschung, die zu solchen praxistauglichen Anwendungen führen könnten. Die vielversprechendsten Ansätze integrieren die Expertise menschlicher Analyst*innen, zum Beispiel durch Ansätze des Active Learning oder interaktiver Topic Models.

Ergebnisse

  • Es gibt eine Reihe von Aufgaben im Auswertungsprozess, die durch die automatisierte Verarbeitung natürlicher Sprache (NLP) unterstützt werden könnten. Dazu gehören i) die Erkennung von Duplikaten, ii) die thematische Gruppierung von Beiträgen, und iii) die detaillierte Analyse einzelner Beiträge. Der Großteil der Literatur in dieser Literaturstudie konzentriert sich auf die automatisierte Erkennung und Analyse von Argumenten, einen Aspekt der detaillierten Analyse einzelner Beiträge.
  • Wir stellen eine umfangreiche Zusammenfassung der genutzten Datensätze und der verwendeten Algorithmen vor, und bewerten deren Leistungsfähigkeit. Trotz der ermutigenden Ergebnisse wurde die deutlichen Entwicklungssprünge, in den letzten Jahren im NLP-Bereich erfolgt sind, bislang kaum für diesen Anwendungsfall genutzt.
  • Eine besondere auffällige Lücke besteht in der mangelnden Verfügbarkeit von Anwendungen, die Praktiker*innen die einfache Nutzung von NLP-basierten Verfahren für die Auswertung ihrer Daten erlauben würden.
  • Der Aufwand zur Erstellung von annotierten Daten, die zum Training von Modellen des maschinellen Lernens notwendig sind, kann dazu führen, dass sich die erhofften Effizienzvorteile einer automatisierten Auswertung nicht einstellen.
  • Wir empfehlen verschiedene vielversprechendsten Ansätze zur weiteren Forschung. Viele davon integrieren die Expertise menschlicher Analyst*innen, zum Beispiel durch Ansätze des Active Learning oder interaktiver Topic Models.

Publikation

Romberg, Julia; Escher, Tobias (2023): Making Sense of Citizens’ Input through Artificial Intelligence. In: Digital Government: Research and Practice, Artikel 3603254. DOI: 10.1145/3603254.

Unterstützung des manuellen Evaluierungsprozesses von Bürger*innenbeiträgen durch Natural Language Processing

Doktorarbeit von Julia Romberg

Die Einbindung der Öffentlichkeit in Entscheidungsprozesse ist ein weit verbreitetes Instrument in Demokratien. Einerseits dienen solche Verfahren dem Ziel, durch die Ideen und Vorschläge der Bürger*innen einen besser informierten Prozess zu erreichen und damit möglicherweise das Prozessergebnis, d.h. die daraus resultierende Politik, zu verbessern. Andererseits wird durch die Einbeziehung der Bürger*innen versucht, die Akzeptanz der getroffenen Entscheidungen in der Öffentlichkeit zu erhöhen.

Bei dem Versuch, die oft großen Mengen an Bürger*innenbeiträgen auszuwerten, sehen sich die Behörden regelmäßig mit Herausforderungen konfrontiert, die auf begrenzte Ressourcen (z.B. Personalmangel, Zeitmangel) zurückzuführen sind. Wenn es um textuelle Beiträge geht, bietet das Natural Language Processing (NLP) die Möglichkeit, die bisher noch überwiegend manuell durchgeführte Auswertung automatisiert zu unterstützen. Obwohl in diesem Bereich bereits einige Forschungsarbeiten durchgeführt wurden, sind wichtige Fragen bisher nur unzureichend oder gar nicht beantwortet worden. In meiner Dissertation habe ich mich deshalb auf die Teilaufgaben der thematischen Vorstrukturierung sowie die Analyse von Argumentation konzentriert.

Für die thematische Strukturierung der Beiträge habe ich einen überwachten Lernansatz (supervised machine learning) gewählt, der auf Klassifikationsalgorithmen und Active Learning basiert. Einerseits habe ich am Beispiel von drei Fallstudien aus deutschen Kommunen untersucht, wie viel manueller Aufwand durch solche Strategien reduziert werden kann (Details finden Sie in diesem Artikel). Andererseits habe ich Bewertungsmetriken entwickelt, die die Bedürfnisse der öffentlichen Analysten bei der Entwicklung von Themenklassifizierungsmethoden mit Active Learning widerspiegeln.

Bei der Analyse von Argumentation habe ich zum einen untersucht, wie robust die Methoden zur Identifizierung und Klassifizierung von Argumenten in verschiedenen Beteiligungsprozessen sind (Details finden Sie in diesem Artikel). Zum anderen habe ich mich auf die Konkretheit von Argumenten konzentriert. Zusätzlich zur Vorhersage eines dreistufigen Konkretheitslabels habe ich eine Methode entwickelt, um die Subjektivität von Konkretheitsbewertungen und deren Auswirkungen auf das Vorhersageergebnis zu berücksichtigen (Details finden Sie in diesem Artikel).

Subjektives Machine Lerning am Beispiel der Konkretheit von Argumenten in der Öffentlichkeitsbeteiligung

In dieser Veröffentlichung im Workshop on Argument Mining entwickelt Julia Romberg eine Methode, um menschlichen Perspektivismus in die maschinelle Vorhersage einzubeziehen. Die Methode wird an der Aufgabe der Konkretheit von Argumenten in Beiträgen zur Bürger*innenbeteiligung getestet.

Zusammenfassung

Obwohl Argumentation sehr subjektiv sein kann, besteht die gängige Praxis beim überwachten maschinellen Lernen (supervised machine learning) darin, eine aggregierte Grundwahrheit zu konstruieren und daraus zu lernen. Dieser Ansatz führt zu einer Vernachlässigung individueller, aber potenziell wichtiger Perspektiven und kann in vielen Fällen dem subjektiven Charakter der Aufgaben nicht gerecht werden. Eine Lösung für dieses Manko sind multiperspektivische Ansätze, die im Bereich des Argument Mining bisher nur wenig Beachtung gefunden haben.

In dieser Arbeit stellen wir PerspectifyMe vor, eine Methode zur Integration von Perspektivismus durch Anreicherung einer Aufgabe mit Subjektivitätsinformationen aus dem Datenannotationsprozess. Wir veranschaulichen unseren Ansatz anhand des Anwendungsfalls der Klassifizikation der Konkretheit von Argumenten und liefern erste vielversprechende Ergebnisse auf dem kürzlich veröffentlichten CIMT PartEval Argument Concreteness Corpus.

Ergebnisse

  • Beim maschinellen Lernen wird oft von einer einzigen Grundwahrheit ausgegangen, was aber für subjektive Aufgaben nicht zutrifft.
  • PerspectifyMe ist eine einfache Methode, um den Perspektivismus in bestehende maschinelle Lernprozesse einzubinden, indem ein aggregiertes Label durch eine Subjektivitätsbewertung ergänzt wird.
  • Ein Beispiel für eine subjektive Aufgabe ist die Einstufung der Konkretheit eines Arguments (gering, mittel, hoch). Die Automatisierung dieser Aufgabe ist auch von Interesse für die Auswertung von Bürger*innenbeteiligungsverfahren.
  • Erste Ansätze zur Klassifikation der Konkretheit von Argumenten (aggregiertes Label) zeigen eine Accuracy von 0,80 und einen F1-Wert von 0,67.
  • Ob die Konkretheit eines Arguments eine subjektive Wahrnehmung triggert, kann mit einer Accuracy von 0,72 bzw. einem F1-Wert von 0,74 vorhergesagt werden.

Publikation

Romberg, Julia (2022, October). Is Your Perspective Also My Perspective? Enriching Prediction with Subjectivity. In Proceedings of the 9th Workshop on Argument Mining (pp.115-125), Gyeongju, Republic of Korea. Association for Computational Linguistics. https://aclanthology.org/2022.argmining-1.11

Automatisierte thematische Kategorisierung von Bürger*innenbeiträgen: Reduzierung des manuellen Annotationsaufwands durch Active Learning

In dieser Veröffentlichung in Electronic Government untersuchen Julia Romberg und Tobias Escher das Potenzial von Active Learning, um den manuellen Annotationsaufwand bei der thematischen Kategorisierung von Bürger*innenbeteiligungsbeiträgen zu reduzieren.

Zusammenfassung

Politische Behörden in demokratischen Ländern konsultieren die Öffentlichkeit regelmäßig zu bestimmten Themen, doch die anschließende Auswertung der Beiträge erfordert erhebliche personelle Ressourcen, was häufig zu Ineffizienzen und Verzögerungen im Entscheidungsprozess führt. Eine der vorgeschlagenen Lösungen ist die Unterstützung der menschlichen Analyst*innen bei der thematische Gruppierung der Beiträge durch KI.

Überwachtes maschinelles Lernen (supervised machine learning) bietet sich für diese Aufgabe an, indem die Vorschläge der Bürger nach bestimmten vordefinierten Themen klassifiziert werden. Durch die individuelle Natur vieler öffentlicher Beteiligungsverfahren ist der manuelle Aufwand zur Erstellung der benötigten Trainingsdaten jedoch oft zu teuer. Eine mögliche Lösung, um die Menge der Trainingsdaten zu minimieren, ist der Einsatz von Active Learning. Während sich dieses halbüberwachte Verfahren in den letzten Jahren stark verbreitet hat, wurden diese neuen vielversprechenden Ansätze nicht für die Auswertung von Beteiligungsbeiträgen angewendet.

Daher verwenden wir Daten aus Online-Beteiligungsprozessen in drei deutschen Städten, stellen zunächst Baselines für die Klassifikation auf und bewerten anschließend, wie verschiedene Strategien des Active Learnings den manuellen Annotationsaufwand reduzieren und gleichzeitig eine gute Modellleistung beibehalten können. Unsere Ergebnisse zeigen nicht nur, dass Modelle des überwachten maschinellen Lernens die Beiträge zur Bürger*innenbeteiligung zuverlässig thematisch kategorisieren können, sondern auch, dass Active Learning die Menge der benötigten Trainingsdaten deutlich reduziert. Dies hat wichtige Implikationen für die Praxis der Öffentlichkeitsbeteiligung, da es den Zeitaufwand für die Auswertung drastisch reduziert, wovon insbesondere Prozesse mit einer größeren Anzahl von Beiträgen profitieren können.

Ergebnisse

  • Wir vergleichen verschiedene moderne Ansätze zur Textklassifikation und zum Active Learning anhand einer Fallstudie von drei Beteiligungsprozessen zur Radverkehrsplanung in den deutschen Kommunen Bonn, Köln Ehrenfeld und Moers.
  • Das Modell BERT kann in etwa 77 % der Fälle die richtigen Themen vorhersagen.
  • Active Learning reduziert den manuellen Annotationsaufwand erheblich: Es reichte aus, 20 bis 50 % der Datensätze manuell zu kategorisieren, um die Genauigkeit von 77% zu halten. Die Effizienzgewinne wachsen mit der Größe des Datensatzes.
  • Zugleich arbeiten die Modelle mit einer effizienten Laufzeit.
  • Unsere Hypothese ist daher, dass Active Learning in den meisten Anwendungsfällen den menschlichen Aufwand erheblich reduzieren sollte.

Publikation

J. Romberg and T. Escher. Automated topic categorisation of citizens’ contributions: Reducing manual labelling efforts through active learning. In M. Janssen, C. Csáki,I. Lindgren, E. Loukis, U. Melin, G. Viale Pereira, M. P. Rodríguez Bolívar, and E. Tambouris, editors,Electronic Government, pages 369–385, Cham, 2022. SpringerInternational Publishing. ISBN 978-3-031-15086-9

Datenkorpus zur Unterstützung der Evaluation von Partizipation in der Verkehrsplanung durch multidimensionale Klassifikation

In dieser Veröffentlichung der Conference on Language Resources and Evaluation stellen Julia Romberg, Laura Mark und Tobias Escher eine Sammlung von annotierten Datensätzen vor, die die Entwicklung von Ansätzen des maschinellen Lernens zur Unterstützung der Auswertung von Beteiligungsbeiträgen fördert.

Zusammenfassung

Behörden in demokratischen Ländern konsultieren regelmäßig die Öffentlichkeit, um den Bürger*innen die Möglichkeit zu geben, ihre Ideen und Bedenken zu bestimmten Themen zu äußern. Bei dem Versuch, die (oft zahlreichen) Beiträge der Öffentlichkeit auszuwerten, um sie in die Entscheidungsfindung einfließen zu lassen, stehen die Behörden aufgrund begrenzter Ressourcen dabei oft vor Herausforderungen.

Wir identifizieren mehrere Aufgaben, deren automatisierte Unterstützung bei der Auswertung von Bürger*innenbeteiligung helfen kann. Dies sind i) die Erkennung von Argumenten, genauer gesagt von Prämissen und deren Schlussfolgerungen, ii) die Bewertung der Konkretheit von Argumenten, iii) die Erkennung von textlichen Beschreibungen von Orten, um die Ideen der Bürger*innen räumlich verorten zu können, und iv) die thematische Kategorisierung von Beiträgen. Um in zukünftiger Forschung Techniken entwickeln zu können, die diese vier Aufgaben adressieren, veröffentlichen wir den CIMT PartEval Corpus. Dieser neue und öffentlich verfügbare deutschsprachigen Korpus enthält mehrere tausend Bürgerbeiträge aus sechs mobilitätsbezogenen Planungsprozessen in fünf deutschen Kommunen. Er bietet Annotationen für jede dieser Aufgaben, die in deutscher Sprache für den Bereich der Bürgerbeteiligung bisher entweder überhaupt noch nicht oder nicht in dieser Größe und Vielfalt verfügbar waren.

Ergebnisse

  • Der CIMT PartEval Argument Component Corpus umfasst 17.852 Sätze aus deutschen Bürgerbeteiligungsverfahren, die als nicht-argumentativ, Prämisse (premise) oder Schlussfolgerung (major position) annotiert sind.
  • Der CIMT PartEval Argument Concreteness Corpus besteht aus 1.127 argumentativen Textabschnitten, die nach drei Konkretheitsstufen annotiert sind: niedrig, mittel und hoch.
  • The CIMT PartEval Geographic Location Corpus provides 4,830 location phrases and the GPS coordinates for 2,529 public participation contributions.
  • Der CIMT PartEval Thematic Categorization Corpus basiert auf einem neuen hierarchischen Kategorisierungsschema für Mobilität, das Verkehrsarten (nicht-motorisierter Verkehr: Fahrrad, zu Fuß, Roller; motorisierter Verkehr: öffentlicher Nahverkehr, öffentlicher Fernverkehr, kommerzieller Verkehr) und einer Reihe von Spezifikationen wie fließender oder ruhender Verkehr, neue Dienstleistungen sowie Inter- und Multimodalität erfasst. Insgesamt wurden 697 Dokumente nach diesem Schema annotiert.

Publikation

Romberg, Julia; Mark, Laura; Escher, Tobias (2022, June). A Corpus of German Citizen Contributions in Mobility Planning: Supporting Evaluation Through Multidimensional Classification. In Proceedings of the Language Resources and Evaluation Conference (pp. 2874–2883), Marseille, France. European Language Resources Association. https://aclanthology.org/2022.lrec-1.308

Korpus verfügbar unter

https://github.com/juliaromberg/cimt-argument-mining-dataset

https://github.com/juliaromberg/cimt-argument-concreteness-dataset

https://github.com/juliaromberg/cimt-geographic-location-dataset

https://github.com/juliaromberg/cimt-thematic-categorization-dataset