Kodierung und Bereitstellung von Datensätzen

Im Rahmen unseres Projekts haben wir an der manuellen Annotation einer Vielzahl von Datensätzen gearbeitet mit dem Ziel die Entwicklung von KI-Verfahren zu Auswertung von Beteiligungsbeiträgen zu unterstützen.

Überwachte maschinelle Lernverfahren (supervised machine learning) benötigen Trainingsdatensätze um Eigenschaften und Muster der jeweiligen Kodierungen erlernen zu können. Im Bereich von Bürger*innenbeteiligung fehlt es hier an umfassend kodierten deutschsprachigen Datensätzen. Um den Bedarf zu decken, haben wir deshalb an der Kodierung deutschsprachiger Beteiligungsverfahren aus dem Bereich Mobilität nach vier Dimensionen gearbeitet:

  • Erstens haben wir Verfahren thematisch nach Verkehrsmitteln, weiteren Ansprüchen an den Raum, sowie unmittelbar zu behebenden Mängeln kodiert.
  • Zweitens haben wir Verfahren nach argumentativen Sätzen kodiert und diese in Vorschläge und Zustandsbeschreibungen unterteilt.
  • Drittens haben wir argumentativen Sinneinheiten zugeordnet, wie konkret diese sind.
  • Viertens haben wir textuelle Ortsangaben kodiert.

Eine detailliertere Beschreibung der Datensätze – Stand Juni 2022 – findet sich in unserer Publikation: Romberg, Julia; Mark, Laura; Escher, Tobias (2022, June). A Corpus of German Citizen Contributions in Mobility Planning: Supporting Evaluation Through Multidimensional Classification. Seitdem haben wir weiter an der thematischen Kodierung der Datensätze gearbeitet und unser Schema der Verkehrsmittel überarbeitet.

Die folgende Tabelle zeigt den aktuellen Stand der Kodierung und wird fortlaufend aktualisiert:

Im Einklang mit unserer Open Source-Richtlinie werden die kodierten Datensätzen der Öffentlichkeit nach Möglichkeit unter Creative Commons CC BY-SA License verfügbar gemacht.

Basierend auf diesen Datensätzen sind eine Reihe von Publikationen entstanden. Diese finden Sie unter https://www.cimt-hhu.de/gruppe/romberg/romberg-veroeffentlichungen/.