Frühjahrstagung des AK Demokratie 2024

Tagung von AK Demokratie und PrEval „Sollten wir die Demokratie(-förderung) und ihre Evaluation automatisieren?“ // Haus der Leibniz-Gemeinschaft, 3.–4. Juni 2024

Am 3. und 4. Juni 2024 fand in Kooperation mit dem Verbund­projekt PrEval – Zukunfts­werkstätten, Evaluation und Qualitäts­sicherung in der Extremismus­prävention, Demokratie­förderung und politischen Bildung die Frühjahrs­tagung des AK Demokratie der Deutschen Gesellschaft für Evaluation (DeGEval) statt. Im Haus der Leibniz-­Gemeinschaft in Berlin fanden sich Evaluator*innen, Wissenschaftler*innen, Zivilgesellschaft, Vertretungen von Bundes­ministerien und weitere Interessierte ein, insgesamt rund 60 Personen, um über die Rolle von Künstlicher Intelligenz (KI) in der Evaluation zu diskutieren. Im Zentrum der Tagung standen die Fragen, ob KI die Demokratie(-förderung) stärken kann und wie sie für deren Evaluation einsetzbar ist. Über zentrale Inputs und interaktive Formate wurden KI- Erhebungs­methoden und Ansätze des Wissens­transfers, politische und ethische Herausforderungen, die mit dem Einsatz von KI einhergehen sowie Fragen des Daten­schutzes erörtert. Ziel der Tagung war es, unter Berücksichtigung der Risiken herauszuarbeiten, welche neuen Möglichkeiten die KI für die Evaluation und die Demokratie(-förderung) bereithält.
 

Nach einleitenden Begrüßungen durch PD Dr. Rainer Strobl (proVal, für die Sprecher*innen des AK Demokratie) und Dr. J. Olaf Kleist (DeZIM-Institut, für die PrEval Zukunfts­werkstätten) begann die Tagung mit einer Diskussions­runde zum Einfluss der KI auf die Demokratie. Rainer Rehak (Weizenbaum-­Institut) erläuterte die verschiedenen Arten von KI und ihre Anwendungs­logiken, um einerseits einer Überschätzung ihrer Möglichkeiten zu widersprechen und andererseits die Notwendigkeit ihrer Regulierung zu betonen. Dr. Katja Muñoz (Deutsche Gesellschaft für Auswärtige Politik) fokussierte kritisch den Einsatz von KI für Desinformation und die Möglichkeit der Manipulation demokratischer Wahlen und Prozesse, während Dr. Deborah Schnabel (Bildungsstätte Anne Frank) die neuen Möglichkeiten der politischen Bildung hervorhob – etwa durch den Einsatz von Bots oder „Hologrammen“ anstelle von Zeitzeugen – aber auch vor Verstärkung von Rassismus und Antisemitismus durch antidemokratische Akteure warnte. Dr. Anneli Rüling (BMFSFJ) verwies auf die vielfältigen, potenziellen Anwendungen von KI im Bundes­familien­ministerium, z.B. in der Forschung und der Demokratie­förderung, um Daten erfassen und auswerten zu können, nicht ohne jedoch auf datenschutz­rechtliche Einschränkungen und halluzinierende Gefahren hinzuweisen. In der anschließenden Diskussion bestand Einigkeit darüber, dass die KI in alle Bereiche von Verwaltungen und politischer Bildung vordringen wird, Sinn und Zweck aber in jedem Einzelfall hinterfragt werden muss, zumal teils nicht absehbare Folgen damit verbunden sind. So müssten KI-Anwendungen eben evaluiert und analog einer kritischen Mediennutzung der Umgang mit KI gelernt und gelehrt werden.

Im zweiten Teil der Tagung stellten verschiedene Arbeitsgruppen der PrEval-­Zukunfts­werkstätten erste Überlegungen vor. Anknüpfend an die Podiums­diskussion präsentierte Marcus Kindlinger (Universität Duisburg-Essen/PrEval) Überlegungen zu einem Monitoring von KI-Verständnis (Literacy) und stellte dafür verschiedene Kriterien vor, die für einen bewussten Umgang mit der Technik – insbesondere für Jugendliche und im Bereich der Bildung – nötig sind. Anschließend fragten Svetla Koynova (PrEval/Violence Prevention Network) und Moritz Lorenz (PrEval/i-unito) in einem interaktiven Format, inwiefern ChatGPT dabei helfen kann, ein Evaluations­konzept zu erstellen. Die mit Prompts erfragten Ergebnisse, so der Kanon, waren durchaus richtig, aber für die Durchführung und sinnvolle Anwendung zu ungenau und zu unspezifisch: Ohne gute Kenntnisse von Evaluation war eine allgemeine generative KI nicht nutzbar. KI kann diese Arbeit zwar nicht entsprechend ausführen, aber hilfreiche Assistenz­funktionen übernehmen.

In der abendlichen, von Irina Bohn (ISS/AK Demokratie) moderierten Keynote spannte Linda Raftree (MERL Tech Initiative) einen breiten Rahmen auf: KI-Arten und Vorstellungen über diese, ihre kommerzielle Verarbeitung von KI-Daten bis hin zu Anwendungs­beispielen in der Evaluation wurden erläutert, um ethische Risiken und Einschränkungen aufzuzeigen. Die anschließende Debatte thematisierte dann die Implikationen von KI-Daten, ihrer gesellschaftlichen Nutzung und ihrer Entwicklungs­potentiale. Raftree stellte klar, dass die Nutzung von KI in der Evaluation noch ganz am Anfang stehe und hier Kollaborationen jenseits etablierter Tech-Giganten notwendig seien, um gemeinsam das demokratische und ethische Potential der KI für Evaluationen herauszuarbeiten und anzuwenden.

Der zweite Tag begann nach einer Begrüßung durch Dr. Mirjam Weiberg (DeZIM-Institut/AK Demokratie) mit Vorträgen zur Erhebung von (Evaluations-)Daten mittels KI. Kai Rompczyk (Deutsches Evaluierungsinstitut der Entwicklungs­zusammenarbeit) zeigte anhand der Evaluation von entwicklungs­politischen Projekten, wie eine automatische Kategorisierung durch KI transparent gestaltet wurde. Ein Instrument zur assestierten Auswertung qualitativer Interviews stellte Dr. Susanne Friese (Founding director of Queludra/Max-Planck-Institut zur Erforschung multireligiöser und multiethnischer Gesellschaften) vor, um zu zeigen, wie dabei Fallstricke umgangen und durch flexible Codierung verschiedenen Fragstellungen am gleichen Material bearbeitet werden können. Dimitar Dimitrov (GESIS) führte die Möglichkeit der Nutzung von Big Data durch KI aus, am Beispiel von Tweets während der COVID-Pandemie und ihres Bezugs auf wissenschaftliche Studien, um die Qualität öffentlicher Debatten zu steigern. In der anschließend von Simon Müller (DeZIM-Institut/PrEval) moderierten Diskussion, waren sich die Präsentierenden einig, dass der Einsatz von KI für die Sozial­forschung noch in Pilotphasen stecke, aber großes Potential besitze, Daten­mengen und damit auch Frage­stellungen zu bearbeiten, die bisher nicht in Betracht gezogen wurden. In dem abrundenden Vortrag zum Datenschutz bei der Nutzung von KI zog Dr. Susanne Friese eine positive Bilanz anhand der Nutzungs­bedingungen und Verarbeitung von Daten durch KI-Anbieter und -Plattformen, zumindest sofern die richtigen Einstellungen und Tools benutzt würden. In den Nachfragen wurde jedoch auch Skepsis laut, inwiefern Zusagen von Tech-Firmen und die Intransparenz von KI-Systemen vertrauens­würdig seien, nicht zuletzt da hier ein offener Graubereich zwischen legalem und ethischem Datenschutz bestehe.

Zum Abschluss der Tagung präsentierte Prof. Dr. Jan Hense, moderiert von PD Dr. Rainer Strobl (AK Sprecher*innenteam/proVal), in seiner Keynote die Überlappung von KI und den vielfältigen Aufgaben von Evaluierenden. Er gab einen Einblick in die Funktions­weise von Large Language Models (LLM) und ging dann entlang von Erhebungen und Studien der Frage nach, womit Evaluierende beschäftig seien. Das Ziel solle sein, Funktionen von KI und Aufgaben von Evaluationen in einer angedachten Matrix zusammen zu bringen: Wo und wie könnten KI-Anwendungen zukünftig hilfreich sein. Dabei betonte er, dass KI weniger die Arbeit und Verantwortung der Evaluation übernehmen könne, sondern dass sie vielmehr Hilfsmittel seien. Dies führte nicht nur zu Diskussionen darüber, wo die Kompetenzen von Evakuierenden liegen, sondern auch darüber, ob die Verantwortung letztlich nicht bei den Auftraggebenden liegen solle und diese mit passenden KI-Instrumenten Evaluationen daher selbst durchführen könnten. Am Ende bestätigte sich der Titel des Vortrags: „Vorhersagen sind schwer, vor allem, wenn sie die künstliche Intelligenz betreffen.“

Insgesamt konnte die Tagung einen Einblick in den aktuellen Stand im Themenfeld KI-Demokratie(-förderung) und Evaluation geben, zu Überlegungen und Diskussionen anregen und die Relevanz der KI für zukünftige Evaluationen zumindest vorsichtig unterstreichen.

Der Tagungsbericht wurde verfasst von Dr. J. Olaf Kleist und Simon Müller (DeZIM).