Verwaltungs- und Finanzgerichtsbarkeit - Stand und Entwicklungsperspektiven
1. Aufl. 2025
Besitzen Sie diesen Inhalt bereits,
melden Sie sich an.
oder schalten Sie Ihr Produkt zur digitalen Nutzung frei.
1. Einleitung
Die Verwaltungs- und Finanzgerichtsbarkeit ist 2024 zehn Jahre alt geworden. Viel hat sich getan seit ihrer Einführung im Jahr 2014. Die immer weiter voranschreitende Digitalisierung der unterschiedlichsten Lebensbereiche war wohl eine der einschneidendsten Veränderungen des letzten Jahrzehnts. Die Implikationen dieses Digitalisierungsprozesses für unsere Gesellschaft beschränken sich dabei freilich nicht auf die hier im Zentrum stehende Verwaltungs- und Finanzgerichtsbarkeit. Das mindert jedoch keineswegs die Bedeutung der Digitalisierung für ebendiese. Im Gegenteil: Der digitalisierungsbedingte technische Wandel hat vielmehr, so scheint es, das Potenzial, die Gerichtsbarkeit - und damit auch die hier interessierende Verwaltungs- und Finanzgerichtsbarkeit - in ihren Festungen zu erschüttern.
Dieser Beitrag, so wurde es mir von den Veranstaltern des Symposions aufgetragen, setzt sich mit einer Teilfacette dieses Komplexes auseinander, nämlich mit den digitalen Assistenzsystemen in der Verwaltungs- und Finanzgerichtsbarkeit. Es dürfte wohl kaum jemanden überraschen, dass damit insbesondere der Einsatz von künstlicher Intelligenz (KI) in einer den Richter unterstützenden Weise gemeint ist. Dies nicht nur deshalb, weil KI ein so weitgehender, ja nahezu universell einsetzbarer Begriff für digitale Systeme aller Art zu sein scheint, dass eine große Vielzahl derartiger digitaler Systeme wohl ohne besonderen Argumentationsaufwand als KI qualifiziert werden kann. Vielmehr fußt die Prominenz der KI innerhalb der Digitalisierungsdiskussion vor allem auf den besonders bemerkenswerten Weiterentwicklungen jener Technologien, die im Kern der KI angesiedelt sind; gerade die letzten zehn Jahre waren hier einschneidend.
S. 88KI als solche ist dabei freilich kein Kind der letzten zehn Jahre. Der Begriff selbst stammt bekanntlich aus den 1950er Jahren; die zugrunde liegende Technologie ist teils noch älter. Bei Einführung der Verwaltungs- und Finanzgerichtsbarkeit gab es also KI bereits. Und dennoch hat sich diese Technologie seit 2014 zu etwas weiterentwickelt, das eine grundlegende Auseinandersetzung mit ihren Implikationen für die Verwaltungs- und Finanzgerichtsbarkeit erfordert.
2. Digitale Assistenzsysteme: begriffliche Standortbestimmung
Eine solche Auseinandersetzung setzt im ersten Schritt eine Festlegung, was den Gegenstand der Untersuchung bildet, voraus. Während dies im Hinblick auf den Bedeutungsgehalt des Begriffs der Verwaltungs- und Finanzgerichtsbarkeit - jedenfalls für die Zwecke des vorliegenden Beitrags - hinreichend feststeht, erfordert der zweite hier im Zentrum stehende Terminus „digitale Assistenzsysteme“ eine Präzisierung. Mayrhofer definiert digitale Assistenzsystem als „digitale Werkzeuge, die Menschen bei der Erledigung von bestimmten Aufgaben unterstützen“. Er betont dabei - spezifisch vor dem Hintergrund des Einsatzes digitaler Assistenzsysteme in der Gerichtsbarkeit -, dass diese nicht gleichgesetzt werden dürfen mit „der - in den letzten Jahren in Österreich erheblich voranschreitenden - ‚Digitalisierung‘ der Gerichtsbarkeit“. Wie genau digitale Assistenzsysteme von Digitalisierung(sbestrebungen) der Gerichtsbarkeit abgegrenzt werden können, lässt Mayrhofer offen. Ganz generell scheint eine Differenzierung nach der Technologie, die digitalen Assistenzsystemen zugrunde liegt, nicht der entscheidende Faktor zu sein, zumal Mayrhofer betont, dass die hinter digitalen Assistenzsystemen stehende Technologie unterschiedlicher Natur sein kann. Aus dem Begriff „digital“ lässt sich demnach für die gegenständlichen Zwecke nicht allzu viel gewinnen; gerade in technischer Hinsicht handelt es sich dabei um einen heterogenen Begriff, der eine Vielzahl unterschiedlicher Systeme in sich vereint.
Naheliegender erscheint es vor diesem Hintergrund vielmehr, den Fokus auf die Konzeption eines Assistenzsystems und dabei wiederum insbesondere auf das Verständnis von „Assistenz“ zu richten. Spricht man von einem Assistenzsystem, so geht damit - und S. 89zwar bereits unmittelbar aufgrund der Verwendung des Begriffs „Assistenz“ und nicht etwa erst infolge allfälliger rechtlicher Grenzen vollautomatisierter Entscheidungen - notwendigerweise einher, dass diese „bloß assistieren, aber nicht an der Stelle natürlicher Personen entscheiden dürfen“. Für den spezifischen Kontext der (Verwaltungs- und Finanz-)Gerichtsbarkeit, die gegenwärtig durch menschliche Richter charakterisiert ist, bedeutet das, dass digitale Assistenzsysteme dem menschlichen Richter lediglich assistieren dürfen; die Entscheidung selbst muss er jedoch stets selbst treffen.
So einleuchtend der Schluss, dass ein Assistenzsystem „bloß assistieren, aber nicht an der Stelle natürlicher Personen entscheiden“ darf, klingt, so wenig wird damit deutlich, ab bzw bis zu welchem Stadium und unter welchen Voraussetzungen von Assistenz gesprochen werden kann. Dahingehend ist es also erforderlich zu überlegen, wie weit Assistenzleistungen gehen dürfen, bevor eine Übernahme jener Tätigkeit, die eigentlich einem Menschen vorbehalten ist, vorliegt. Auch maßgeblich erscheint eine Auseinandersetzung mit der Frage, wie eng die Assistenzleistung mit der Tätigkeit bzw der Entscheidung eines Menschen in Zusammenhang stehen muss, um noch als Assistenz zu ebendieser Tätigkeit bzw Entscheidung qualifiziert werden zu können. In beiden Fällen ist das im Lichte des konkreten Assistenzsystems sowie seines Anwendungsbereichs bzw der zu bewältigenden Tätigkeit zu beantworten.
Gerade in der rechtswissenschaftlichen Literatur findet sich häufig eine Präzisierung dahingehend, dass es nicht genüge, „dass eine natürliche Person bloß pro forma die Entscheidung trifft, tatsächlich jedoch das maschinelle System diese Entscheidung inhaltlich (teilweise oder zur Gänze) präformiert“. Diesem Gedanken liegt die Differenzierung zwischen dem Treffen einer Entscheidung im rechtlichen Sinn und dem Treffen einer Entscheidung im tatsächlichen Sinn zugrunde. So wäre es aus rechtlicher Perspektive denkbar, dass es für das Treffen einer Entscheidung im rechtlichen Sinn ausreicht, wenn eine natürliche Person einen von einem digitalen Assistenzsystem generierten Output ungeprüft übernimmt und in weiterer Folge zu ihrer Entscheidung erklärt. Eine derartige Konstellation könnte jedoch wohl kaum als das Treffen einer Entscheidung durch einen Menschen im tatsächlichen Sinn verstanden werden; liegt es doch auf der Hand, dass der entscheidende Mensch gerade nicht selbst, aus sich heraus, die ihm obliegende Entscheidung getroffen, S. 90sondern die Entscheidung eines anderen - und mag der „andere“ in dieser Konstruktion auch ein digitales System sein - lediglich unreflektiert übernommen hat.
Ob (noch) eine tatsächliche Entscheidung der zuständigen Person, im gegenständlichen Zusammenhang: des menschlichen Richters, vorliegt und damit das zum Einsatz kommende digitale System „bloß“ assistiert, ist letztlich wiederum abhängig davon, auf welches System in concreto zurückgegriffen wird, mit welcher Zielsetzung dies geschieht und wie der entscheidende Mensch mit dem vom System generierten Output in weiterer Folge verfährt. Dennoch lassen sich einige grundlegende Kriterien identifizieren, die zumindest eine gewisse Indizwirkung für oder aber gegen das Vorliegen einer tatsächlichen Entscheidung des Menschen für sich beanspruchen können. Diese Kriterien weisen eine zeitliche, eine psychologische und eine technische Dimension auf. Für die richterliche Entscheidungsfindung ist im Hinblick auf die zeitliche Dimension zu fragen, ob dem entscheidenden Richter ausreichend zeitliche Ressourcen zur Verfügung stehen, um all die ihm überantworteten Entscheidungen tatsächlich zu treffen, oder aber die zeitlichen Ressourcen derart knapp bemessen sind, dass eine ungeprüfte Übernahme der Ergebnisse eines digitalen Assistenzsystems wahrscheinlich(er) ist. Hinsichtlich der psychologischen Dimension gilt es zu untersuchen, inwieweit anzunehmen ist, dass der entscheidende Richter durch den Rückgriff auf ein digitales Assistenzsystem in eine Position versetzt wird, in der er sich einem Rechtfertigungsdruck ausgesetzt fühlt, so er von dem Ergebnis des digitalen Assistenzsystems abweichen möchte. Dabei ist freilich auch zu berücksichtigen, ob dieselbe Rechtfertigungssituation auch dann besteht, wenn das Ergebnis des digitalen Assistenzsystems vom Richter übernommen wird. Die technische Dimension betrifft die Frage, inwieweit es dem entscheidenden Richter überhaupt möglich ist nachzuvollziehen, wie das digitale Assistenzsystem zu dem Ergebnis gelangt, das es generiert. Zu analysieren ist dahingehend, ob dem Richter die Datengrundlage, auf deren Basis das digitale Assistenzsystem ein bestimmtes Ergebnis liefert, bekannt ist, sowie, ob er (ausreichende) Kenntnisse über die Funktionsweise des digitalen Assistenzsystems in abstracto sowie in Bezug auf die Implikationen für das konkrete Ergebnis besitzt, um es bewerten zu können. Auf dieser Grundlage ist wiederum zu untersuchen, ob sich das Ergebnis eines digitalen Assistenzsystems vom Richter veri- bzw falsifizieren lässt, und schließlich, ob er in der Lage ist, all dies den Adressaten seiner Entscheidung in der rechtlich vorgesehenen Weise zu erklären.
3. Digitale Assistenzsysteme in der Verwaltungs- und Finanzgerichtsbarkeit: ein Systematisierungsversuch
Vor dem Hintergrund dieser strukturellen Vorüberlegungen zur Konzeption digitaler Assistenzsysteme ist nun im nächsten Schritt zu überlegen, auf welche Art und Weise diese in concreto in Gerichtsverfahren zum Einsatz gelangen könnten. Beim Versuch einer Antwort sieht man sich mit einer Unzahl spezifischer Use Cases konfrontiert, die S. 91jeweils mit einzelnen Aspekten der richterlichen Tätigkeit in Verbindung gesetzt werden können. Es kann und soll an dieser Stelle gar nicht erst angestrebt werden, eine abschließende Auflistung aller dieser digitalen Assistenzsysteme zu bieten. Vielmehr wird im Folgenden eine grundsätzliche Einteilung der unterschiedlichen Arten digitaler Assistenzsysteme vorgenommen, und zwar basierend auf Systematisierungsvorschlägen, wie sie bereits zahlreich in der Literatur angestellt wurden. Maßgeblich für die Bildung der und die Zuweisung zu den einzelnen Kategorien ist dabei das Potenzial der jeweiligen digitalen Assistenzsysteme, die richterliche Entscheidungsfindung auf inhaltlicher Ebene zu beeinflussen. Wie bereits einleitend erwähnt, liegt der Fokus hierbei und auch in weiterer Folge auf KI-basierten Assistenzsystemen.
Die erste Kategorie digitaler Assistenzsysteme betrifft die Vor- und Nachbereitung der richterlichen Entscheidungstätigkeit sowie sonstige Hilfstätigkeiten ohne „inhaltlich-eigenständigen Beitrag zum Verfahren oder dessen Erledigung“. Im Rahmen der Vorbereitung wäre es etwa denkbar, digitale Assistenzsysteme einzusetzen, um einen (weiteren) Kommunikationskanal zwischen (Verwaltungs- bzw Finanz-)Gericht und Bürgern noch vor dem eigentlichen Verfahrensbeginn zur Verfügung zu stellen. Dies betrifft einerseits die Dateneingabe und -verarbeitung, die KI-unterstützt erfolgen könnte, wenn sich Bürger an das Gericht wenden. Andererseits liegt es gerade vor dem Hintergrund des Siegeszuges der Large Language Models (LLMs) nahe, KI-basierte Chatbots zum Einsatz zu bringen. Hinsichtlich der Nachbereitung des richterlichen Entscheidungsfindungsprozesses ist insbesondere der Rückgriff auf digitale Assistenzsysteme zur Anonymisierung getroffener Entscheidungen hervorzuheben. Begleitend zum Verfahren könnten KI-basierte Assistenzsysteme den Richter bei der Extraktion relevanter Informationen aus Akten unterstützen. Weiters wäre denkbar, dass diese Assistenzsysteme automatisierte Protokolle erstellen, insbesondere Wortprotokolle während mündlicher Verhandlungen.
Die zweite Kategorie digitaler Assistenzsysteme lässt sich als „Zusammenfassung von Informationen“ umschreiben. Digitale Assistenzsysteme, die eine solche Zusammenfassung auf Basis der ihnen zur Verfügung gestellten Informationen generieren, treffen dabei - im Unterschied zu digitalen Assistenzsystemen der ersten Kategorie - eigenständige Gestaltungsentscheidungen. Dies, indem das KI-System determiniert, welche Inhalte es als relevant (und daher als Teil der Zusammenfassung) qualifiziert und welche Inhalte demgegenüber als irrelevant bzw nicht ausreichend relevant einzustufen sind, sodass sie keinen Eingang in die Zusammenfassung finden.
S. 92Die dritte Kategorie könnte mit „Generierung von Informationen auf Basis erkannter Muster bzw Merkmale“ betitelt werden. Dieser Kategorie lassen sich besonders viele digitale Assistenzsysteme zuordnen; ihre denkbaren Anwendungsfelder sowie die spezifische Funktionsweise des konkreten KI-Systems sind dabei heterogen. Ein potenzieller Anwendungsbereich digitaler Assistenzsysteme dieser Art ist etwa die automatisierte Kategorisierung eingehender Rechtssachen. Dabei analysiert das KI-System die Sachverhaltsmerkmale des betreffenden Falles, identifiziert Ähnlichkeiten zwischen diesen und jenen, wie sie aus den Trainingsdaten bekannt sind, und führt verfahrensrelevante Informationen systematisch zusammen. Auch ist es denkbar, dass derartige digitale Assistenzsysteme komplexe Grafiken oder Dokumente, die spezielles Fachwissen erfordern, erklärend beschreiben, wodurch sie für die Verfahrensbeteiligten - allen voran den menschlichen Richter - verständlich(er) werden. KI-Systeme der dritten Kategorie könnten weiters den Richter bei der Vorbereitung, Formulierung und Anpassung von Fragen an Parteien und Zeugen unterstützen. Besonders wertvoll erscheinen KI-basierte Übersetzungen, etwa in die von der Gerichtssprache abweichende Muttersprache einer verfahrensbeteiligten Person oder aber auch in Gebärdensprache. KI-basierte digitale Assistenzsysteme könnten außerdem im Rahmen der Generierung von Beweismitteln oder der Würdigung von Beweisen eingesetzt werden. Schließlich ist es denkbar, solchen digitalen Assistenzsystemen die gezielte Recherche in juristischen Datenbanken nach relevanter Judikatur und Literatur zu übertragen.
Die vierte Kategorie digitaler Assistenzsysteme zeichnet sich durch einen starken Bezug zum Anlassfall aus, und zwar dahingehend, dass diese Systeme mit fallspezifischen Fragen konfrontiert und als solche beantwortet werden. Bei den Fragestellungen kann es sich sowohl um Sach- als auch um Rechtsfragen handeln. Der Präzisionsgrad der Fragen ist - innerhalb gewisser Grenzen - variabel. Schließlich ist hinsichtlich der Grundlage, die das KI-System für die Generierung einer Antwort auf die gestellte Frage heranzieht, eine mehr oder weniger ausgeprägte inhaltliche Steuerung denkbar. So könnten digitale Assistenzsysteme im Sinne der vierten Kategorie etwa einerseits auf einen Pool bekannter und verifizierter Daten beschränkt sein oder ihnen aber andererseits Zugriff auf einen nahezu unbeschränkten, kaum kontrollierbaren Datenpool (allen voran freilich das Internet) gewährt werden.
Die fünfte Kategorie digitaler Assistenzsysteme schließt unmittelbar an die vierte an; der Übergang zwischen diesen beiden Kategorien ist besonders fließend. Digitale Assistenzsysteme der fünften Kategorie zeichnen sich dadurch aus, dass sie Entwürfen und Empfehlungen erstellen. Wie bei digitalen Assistenzsystemen der vierten Kategorie besteht S. 93ein unmittelbarer Bezug zu einem spezifischen Fall. Die KI-generierten Entwürfe und Empfehlungen gehen jedoch über die Antwort auf eine fallspezifische Frage hinaus, und zwar insoweit, als der Richter - der Konzeption nach - den Output des digitalen Assistenzsystems unmittelbar als Teil seiner Entscheidung heranziehen könnte. Das Generieren von Entwürfen und Empfehlungen ist dabei im Hinblick auf alle drei Abschnitte richterlicher Entscheidungen denkbar: Vorschläge könnte KI für die Feststellung des Sachverhalts, für die Beweiswürdigung sowie für die rechtliche Würdigung konkreter Sachverhaltselemente liefern. Damit weisen digitale Assistenzsysteme der fünften Kategorie ein besonders hohes Potenzial auf, die richterliche Entscheidungsfindung auf inhaltlicher Ebene zu beeinflussen.
Das gemeinsame Merkmal aller dieser digitalen Assistenzsysteme ist, dass ihr jeweiliger Anwendungsbereich sowie ihr Output dem Grunde nach so konzipiert sind, dass die Letztentscheidung von einem menschlichen Richter getroffen wird. Handelt es sich demgegenüber um ein KI-System, das die Feststellung, die Beweiswürdigung sowie die rechtliche Würdigung eines konkreten Sachverhalts vollständig übernimmt, so liegt kein digitales Assistenzsystem, sondern ein sogenanntes „echtes“ Entscheidungssystem vor, das eine vollautomatisierte Entscheidung generiert.
4. Zentrale Problemfelder digitaler Assistenzsysteme in der Verwaltungs- und Finanzgerichtsbarkeit
Die Aufarbeitung und Systematisierung verschiedener digitaler Assistenzsysteme, wie sie potenziell in der Verwaltungs- und Finanzgerichtsbarkeit zum Einsatz gelangen können, gibt freilich für sich noch nicht Aufschluss darüber, ob und inwieweit ebendiese Systeme tatsächlich Verwendung finden dürfen. Maßgeblich für das Dürfen ist der Rechtsrahmen, wie er gegenwärtig für die Verwaltungs- und Finanzgerichtsbarkeit besteht.
Die zentralen rechtlichen Problemfelder digitaler Assistenzsysteme in der Verwaltungs- und Finanzgerichtsbarkeit sind bereits auf grundrechtlicher Ebene zu verorten, in erster Linie freilich auf jener der Verfahrensgrundrechte. So stellt sich etwa die Frage, ob das Recht auf den gesetzlichen Richter nach Art 83 Abs 2 B-VG auch das Recht auf einen menschlichen Richter impliziert. Gerade im Hinblick auf digitale Assistenzsysteme, die einen menschlichen Richter unterstützen, ist zu überlegen, wann (noch) eine Entscheidung des gesetzlichen Richters vorliegt, also welches Mindestmaß der richterlichen Tätigkeit der menschliche Richter erfüllen muss, damit von einem Tätigwerden des gesetzlichen Richters gesprochen werden kann.
S. 94Auch die richterlichen Garantien und dabei wiederum allen voran die richterliche Unabhängigkeit (Art 87 Abs 1 B-VG) werfen grundlegende Fragestellungen auf, wenn es um den Einsatz digitaler Assistenzsysteme in der Gerichtsbarkeit geht: Inwieweit ist das Konzept der richterlichen Unabhängigkeit mit KI kompatibel? Kann ein KI-System konzeptionell überhaupt unabhängig iSd Art 87 Abs 1 B-VG sein? Ist dies im Kontext „bloßer“ KI-Assistenz von Relevanz oder nur im Fall einer vollautomatisierten Entscheidung? Wird der menschliche Richter durch den Einsatz von KI ob der weitreichenden Einflussnahme der Assistenzsysteme auf die richterliche Entscheidungsfindung abhängig in einer mit Art 87 Abs 1 B-VG nicht vereinbaren Weise? Selbst wenn die tatsächliche Einflussnahme auf den menschlichen Richter nicht jenes Maß erreicht, wie es im Lichte der richterlichen Unabhängigkeit problematisch wäre, würde sich das Problem der Anscheinseinflussnahme durch den richterlichen Rückgriff auf KI stellen?
Alle diese Fragen stellen sich ebenso im Lichte des Rechts auf ein faires Verfahren, wie es in Art 6 EMRK verankert ist. Art 6 EMRK normiert nämlich bekanntlich auch das Recht auf ein unabhängiges und weiters unparteiisches Gericht. Gerade im Hinblick auf die Anforderung der richterlichen Unparteilichkeit wird in der Literatur immer wieder hervorgehoben, dass bei KI-basierten Systemen mangels „unsachlicher psychologischer Motive“ nur schwerlich eine subjektive Befangenheit angenommen werden könne. Sehr wohl aber werden im Kontext von KI-basierten Systemen Problemstellungen der Voreingenommenheit im Lichte allfälliger Biases dieser Anwendungen diskutiert, die sich letztlich ähnlich wie eine Befangenheit bei einem menschlichen Richter auf die Entscheidung auswirken können. Ist vor diesem Hintergrund das grundrechtliche Gebot der Unparteilichkeit so zu verstehen, dass das Gericht organisatorische Maßnahmen gegen das Voreingenommenheitsäquivalent zum Einsatz kommender KI-Systeme zu treffen hat? Wie lässt sich eine allfällige „technologische Voreingenommenheit“ überhaupt erkennen? Fällt eine dahingehende Einschätzung in den Zuständigkeitsbereich eines Richters oder auch eines Verfahrensbeteiligten? Welche Sicherungsmechanismen stehen dahingehend zur Verfügung und wer darf bzw muss von ihnen Gebrauch machen? Und welche Rechtsschutzmöglichkeiten bestehen, wenn „voreingenommene“ KI-basierte Assistenzsysteme im Rahmen des richterlichen Entscheidungsprozesses zum Einsatz gelangen? Lassen sich maschinelle Beiträge im Rechtsschutzweg auf ihre Rechtmäßigkeit hin überprüfen, und, wenn ja, anhand welches Maßstabs?
Art 6 EMRK geht freilich weit über das Recht auf ein unabhängiges und unparteiisches Gericht hinaus. Er normiert auf verfassungsrechtlicher Ebene vielmehr eine Art „Minimalverfahrensrecht“ mit zahlreichen Facetten, dessen Einhaltung erforderlich ist, um die Effektivität des Rechtsschutzes sicherzustellen. Dementsprechend stellt sich im S. 95Lichte des Art 6 EMRK darüber hinausgehend auch die Frage, welche Implikationen der Rückgriff auf KI-basierte Systeme im Rahmen der richterlichen Entscheidungsfindung für das Öffentlichkeitsgebot sowie das Prinzip der Unmittelbarkeit hat. Auch wird unter Bezugnahme auf Art 6 EMRK häufig diskutiert, ob durch den Einsatz von KI-basierten Assistenzsystemen der Zugang zum Recht verbessert oder aber erschwert wird. KI ist weiters Hoffnungsträger, wenn es um Verfahrensbeschleunigung sowie Effizienzsteigerung des gerichtlichen Entscheidungsprozesses insgesamt geht. Als besonders problematisch wird demgegenüber der Rückgriff auf KI im Rahmen der Gerichtsbarkeit im Hinblick auf die Gewährung rechtlichen Gehörs sowie auf das Recht auf eine Begründung der richterlichen Entscheidung gesehen.
Schließlich werden grundlegende Bedenken betreffend den Einsatz von KI-basierten Systemen im Rahmen der richterlichen Tätigkeit auch mit Blick auf den Gleichheitsgrundsatz (Art 7 B-VG, Art 1 StGG) sowie - häufig in Anlehnung an die deutsche Literatur - die Garantie der Menschenwürde diskutiert. Dies insbesondere im Hinblick auf das bereits erwähnte Diskriminierungspotenzial, das KI-Systemen zugeschrieben wird. Gemeint sind damit nicht bloß Fälle „bewusster Diskriminierung“ (also „Hard-coded“-Diskriminierungen), wie sie ohnedies eher die Ausnahme bilden. Vielmehr liegt der Fokus auf Diskriminierungskonstellationen, die Folge mangelnder Datenqualität sind und damit unbewusst zu Diskriminierungen führen können. In solchen Fällen werden die in der Datengrundlage enthaltenen diskriminierenden Annahmen in das jeweilige KI-System eingespeist, wodurch es zu einer Perpetuierung historischer Tendenzen kommt. Diese manifestieren sich wiederum in Outputs, die die diskriminierenden Tendenzen widerspiegeln. Im Fall von KI-basierten Systemen, die die Fähigkeit aufweisen zu lernen und sich dadurch weiterzuentwickeln, kann es gegebenenfalls sogar zu einer Verstärkung der diskriminierenden Annahmen kommen. Auch die Wahl des Modells, das einem KI-System zugrunde liegt, birgt die Gefahr einer diskriminierenden „Grundannahme“ (sogenannter inductive bias). Immer wieder wird in der Literatur auf die Verwendung von Proxy-Variablen verwiesen, um diskriminierende Annahmen des KI-Systems zu korrigieren; diese haben jedoch vielfach nicht die intendierte Wirkung, sondern können vielmehr selbst wiederum zu Diskriminierungen führen. Diskriminierungstendenzen von KI-Systemen lassen sich schließlich nicht nur auf die Datenqualität, sondern auch unmittelbar auf ihre Funktionsweise zurückführen.
S. 96Die Diskriminierungsproblematik von KI steht in unmittelbarem Zusammenhang mit der ebenso bereits oben erwähnten Erklärbarkeit eines KI-System sowie der Begründung(sfähigkeit bzw -möglichkeit) einer KI-basierten Entscheidung. Dies deshalb, weil Intransparenz potenziell Diskriminierung nährt: Werden die Entscheidungsgründe nicht offengelegt, so ist es kaum möglich zu beurteilen, ob die Entscheidung auf diskriminierenden Faktoren beruht bzw sachlich gerechtfertigt war. Auch ein hohes Maß an Komplexität des KI-Systems bzw seines Entscheidungsvorgangs führt regelmäßig dazu, dass der Output - jedenfalls für den durchschnittlichen Richter - auf nicht nachvollziehbaren Schlüssen beruht, die als solche eine diskriminierende Wirkung entfalten können.
Bei den soeben identifizierten zentralen rechtlichen Problemfeldern digitaler Assistenzsysteme in der Verwaltungs- und Finanzgerichtsbarkeit handelt es sich um keine Herausforderungen, die Folge der Besonderheiten der Verwaltungs- und Finanzgerichtsbarkeit im Vergleich zu sonstigen Arten der Gerichtsbarkeit sind. Vielmehr stellen sie Strukturfragen der Gerichtsbarkeit insgesamt dar, betreffen also die ordentliche Gerichtsbarkeit in derselben Weise. Spezifische rechtliche Bedenken ob der Besonderheiten der Verwaltungs- und Finanzgerichtsbarkeit, wie sie sich auf einfachgesetzlicher Ebene manifestieren, bestehen auf der hier in den Blick genommenen grundsätzlichen Ebene nicht. Dafür bedürfte es der Analyse ausgewählter konkreter Use Cases; nur auf einer solchen Konkretisierungsstufe ließen sich auch Anpassungsvorschläge einfachgesetzlicher Vorgaben (also insbesondere punktuelle Adaptionen des VwGVG oder auch des AVG) formulieren. Von einer derartigen Einschränkung des Untersuchungsgegenstandes wird hier jedoch bewusst Abstand genommen. Gerade vor dem Hintergrund des rasanten technischen Fortschritts und angesichts des Umstands, dass für die Verwaltungs- und Finanzgerichtsbarkeit der Einsatz spezifischer Use Cases aktuell noch nicht so weit spezifiziert wurde, dass eine Auswahl einzelner KI-Systeme nicht arbiträr erfolgen müsste, erscheint eine strukturierende Untersuchung auf einer höheren Abstraktionsebene gewinnbringender.
Aus den bisherigen Ausführungen lässt sich im Lichte dieser Ausrichtung des gegenständlichen Beitrags zusammenfassend festhalten, dass die rechtliche Einordnung digitaler Assistenzsysteme im Rahmen eines Gerichtsverfahrens vom Potenzial des jeweiligen KI-Systems, die richterliche Entscheidungsfindung zu beeinflussen, sowie der Art, wie diese Beeinflussung erfolgt, abhängt. Dabei gilt: Je weitreichender die Einflussnahme, desto höher die grundrechtlichen Anforderungen und desto eingeschränkter der verbleibende zulässige Anwendungsbereich für digitale Assistenzsysteme.
5. Grenzziehung in Kenntnis der strukturellen Andersartigkeit der KI
Die zentrale Frage, die sich in weiterer Folge stellt, ist jene nach der Grenzziehung; also ab wann welche Art der Beeinflussung im Lichte der aufgezeigten zentralen Problemfelder als mit dem geltenden Rechtsrahmen unvereinbar anzusehen ist. In der Literatur finden S. 97sich zahlreiche Überlegungen, wie eine solche Grenzziehung vorgenommen werden könnte. Im Folgenden sollen diese Vorschläge ihrer inhaltlichen Ausrichtung nach umrissen und kategorisiert werden. Sodann soll dargelegt werden, welche grundlegenden Defizite die unterschiedlichen Ansätze jeweils aufweisen.
5.1. Ansatz 1: Mehr Vorteile als Nachteile?
Der erste Ansatz lässt sich als „Mehr-Vorteile-als-Nachteile?“-Kriterium zusammenfassen. Was ist damit gemeint? Vertreter dieses Ansatzes sind sich zumeist der oben skizzierten Problemstellungen und Spannungsfelder im Lichte des grundrechtlichen Rahmens der richterlichen Entscheidungsfindung bewusst. Zugleich streichen sie jedoch die Vorteile, die der Einsatz KI-basierter Assistenzsysteme in der Gerichtsbarkeit mit sich bringen könnte, hervor. Vor diesem Hintergrund beantworten sie die Frage, ob der Richter durch KI unterstützt werden darf bzw sollte, in Abhängigkeit davon, ob die Verwendung solcher Assistenzsysteme bei einer Gesamtbetrachtung mehr Vorteile als Nachteile mit sich bringt. Die Perspektive, aus der eine solche Grenzziehung vorgenommen wird, ist zumeist jene des (Grund-)Rechtsadressaten.
Eine Grenzziehung anhand des „Mehr-Vorteile-als-Nachteile?“-Kriteriums erscheint zunächst naheliegend. Bei genauerer Betrachtung birgt dieser Ansatz jedoch grundlegende Probleme, die an der Plausibilität einer so vorgenommenen Grenzziehung zweifeln lassen. Die erste Ebene, die zu kritisieren ist, betrifft ein Missverhältnis zwischen dem Analysegegenstand auf der einen Seite und den daraus gezogenen Schlüssen auf der anderen Seite: Wie im vorherigen Abschnitt deutlich geworden ist, lassen sich die konkreten Vor- und Nachteile KI-basierter Assistenzsysteme kaum in abstracto bestimmen. Zu unterschiedlich sind ihre Funktionsweisen, zu vielfältig ihre Einsatzfelder, zu komplex die jeweiligen rechtlichen Rahmenbedingungen. Folglich werden Analysen der Vor- und Nachteile KI-basierter Assistenzsysteme zumeist anhand spezifischer Anwendungen exemplarisch durchgeführt. Dennoch, und hier erweist sich dieser Ansatz als problematisch, werden auf Basis dieser exemplarischen Untersuchungen pauschalisierende Schlüsse gezogen, welche Arten KI-basierter Assistenzsysteme als (noch) zulässig anzusehen sind und welche Kategorien jenseits der so ausgemachten Zulässigkeitsgrenze liegen.
Die Dissonanz zwischen Analysegegenstand und den darauf basierenden Schlussfolgerungen sowie die daraus resultierenden Schwächen einer derartigen Grenzziehung sind leicht erkennbar. Weniger offensichtlich, dafür allerdings umso grundlegender, ist ein tieferliegendes Abwägungs- bzw Vergleichsproblem zwischen dem menschlichen Richter auf der einen Seite und KI-basierten Systemen auf der anderen Seite, das dem „Mehr-Vorteile-als-Nachteile?“-Kriterium inhärent ist. Der Umstand, dass es sich um „bloße“ S. 98Assistenzsysteme handelt, ändert daran nichts. Denn unabhängig davon, ob die richterliche Entscheidungstätigkeit in ihrer Gesamtheit auf KI übertragen oder aber lediglich ein Teilaspekt ebendieser mit Hilfe von KI bewältigt werden soll, ist die Funktionsweise von KI stets eine fundamental andere als jene des Menschen. Insofern ist es bereits dem Grunde nach fraglich, inwieweit von „besser oder schlechter“ bzw „mehr oder weniger“ gesprochen werden kann.
Diese grundlegend andere Funktionsweise von Menschen auf der einen Seite und KI auf der anderen Seite manifestiert sich auf zahlreichen Ebenen. Für den Rückgriff auf KI im Rahmen gerichtlicher Verfahren steht der unterschiedliche Umgang mit natürlicher Sprache im Zentrum. Das Recht kommt bekanntlich - von wenigen Ausnahmen abgesehen - in natürlicher Sprache zum Ausdruck; natürliche Sprache stellt dabei, wie es stets bei Verwendung ebendieser durch den Menschen der Fall ist, das Medium dar. Auch KI ist in der Lage, natürliche Sprache zu verarbeiten. Im Fall generativer KI können derartige Systeme natürliche Sprache sogar selbstständig generieren. Anders als beim Menschen ist dabei natürliche Sprache jedoch gerade nicht das bloße Medium, um einen Sinngehalt zum Ausdruck zu bringen, um Information bzw Inhalte zu kommunizieren. Vielmehr stellt natürliche Sprache für KI das Endziel dar.
Dieser Unterschied ist deshalb von so zentraler Bedeutung, weil er eine unmittelbare Folge der Art, wie KI natürliche Sprache verarbeitet, ist: Bei KI-basierter Sprachverarbeitung handelt es sich - auch im Fall von LLMs - um eine rein statistische Analyse bloß auf Basis historischer Daten und der darin erkannten Muster. KI verfügt also gerade nicht über ein Verständnis der jeweils mit der natürlichen Sprache zum Ausdruck gebrachten Sachmaterie und damit auch über kein Sprachverständnis im menschlichen Sinn. Noam Chomsky, Ian Roberts und Jeffrey Watumull haben dies mit Aufstieg von ChapGPT eindrücklich auf den Punkt gebracht, indem sie betonen, dass jegliche Gleichsetzung von KI-basierter und menschlicher Sprachverarbeitung auf einer „fundamenS. 99tally flawed conception of language and knowledge“ basiert. KI-basierte Systeme sind - selbst dann, wenn sie aufgrund der generierten natürlichen Sprache einen anderen Eindruck erwecken mögen - unfähig, „the possible from the impossible“ zu unterscheiden, da sie von der realen physischen Welt losgelöst sind. Sie können daher ihrer Natur nach kein Verständnis für die durch natürliche Sprache zum Ausdruck gebrachten „physical and social situations“ aufweisen.
Dieser Mangel an einem tatsächlichen Sprachverständnis ist bereits im Umgang mit natürlicher Sprache problematisch. Im Kontext von Recht(ssprache) sind die negativen Implikationen des mangelnden Sprachverständnisses von KI besonders gravierend. Rechtsanwendung im Allgemeinen und richterliche Rechtsanwendung im Speziellen sind bekanntlich gerade keine (bloße) Sprachverarbeitung. Vielmehr folgen sie einer besonderen Methodik, wie sie sich innerhalb einer Rechtsgemeinschaft herausgebildet hat und im Rahmen der juristischen Ausbildung an die nächste Generation weitergegeben wird. Auch sind das Recht und seine Anwendung inhärent dynamisch. Strukturell weist der Prozess der Rechtsanwendung - jedenfalls im Fall zentraleuropäischer Rechtsordnungen wie der österreichischen, die der Civil-Law-Tradition folgen - einen Top-down-Zugang auf: Der Rechtsanwender, im gegenständlichen Fall: der Richter, leitet aus einer generellen Norm ab, wie der konkrete Fall zu beurteilen ist. Demgegenüber setzen KI-Systeme - so es sich um ML-Anwendungen handelt, was bei LLMs der Fall ist - ihrer Funktionsweise entsprechend nicht bei einer generellen Regel an, sondern bei einer Vielzahl an Einzelfällen: KI müsste zunächst bottom-up auf Basis aller dieser Einzelfälle jene generelle Regel abzuleiten in der Lage sein, bei welcher der menschliche Rechtsanwender beginnt. Bereits dies ist jedoch nach dem aktuellen Stand der Technik eine für KI kaum zu bewältigende Herausforderung. Um den Prozess der Rechtsanwendung replizieren zu können, müsste KI außerdem sodann auf Basis dieser generellen Regel S. 100den konkret zu entscheidenden Einzelfall beurteilen. Auch daran scheitert KI gegenwärtig jedoch. Vielmehr beurteilt KI den zu entscheidenden Einzelfall auf Basis jener Muster, die es aus der Vielzahl von Einzelfällen abgeleitet und - ohne der Methodik des Rechts zu folgen - auf den Einzelfall übertragen hat. Der von KI so generierte Output mag zwar mit jenem des Richters ident sein; der Weg zu ebendiesem könnte jedoch unterschiedlicher kaum sein.
5.2. Ansatz 2: So what? Fokussierung (lediglich) auf den Output
Dies leitet über zum zweiten Ansatz, wie die Grenze zwischen zulässigem KI-Einsatz im Rahmen eines Gerichtsverfahrens und unzulässiger Verwendung von KI im Zuge der richterlichen Entscheidungsfindung zu ziehen ist. Dieser Ansatz begegnet den soeben aufgezeigten Problemstellungen, die Folge der grundlegend anderen Funktionsweisen von KI und Mensch sind, dadurch, dass er den Weg, wie KI zu einem Output gelangt, vollständig ausblendet und stattdessen rein den Output als solchen einer Bewertung unterzieht. Die Kernargumentation des zweiten Ansatzes lässt sich also wie folgt zusammenfassen: Was im Inneren des jeweiligen Entscheidungssystems geschieht, ist nicht maßgeblich. Was zählt, ist der Output.
Der Output wird dabei aus einer äußeren Perspektive bewertet. Dieser Ansatz folgt damit im Kern der Grundlogik des Turning Tests. Im Hinblick auf den Rückgriff auf KI im Rahmen eines Gerichtsverfahrens wäre die für die Grenzziehung zu beantwortende Frage, ob sich der KI-generierte Output, insbesondere eine KI-generierte „Entscheidungsbegründung“, als nicht von einem menschlichen Richter stammend identifizieren lässt. Ist dem nicht so, so gibt es - der Logik dieses Ansatzes zufolge - dem Grunde nach keinen Anlass, KI nicht zum Einsatz zu bringen.
Auch dieser zweite Ansatz weist einen grundlegenden Mangel auf. Er übersieht, dass es bei der richterlichen Entscheidungstätigkeit gerade nicht bloß darauf ankommt, einen Text zu generieren, der klingt, als könnte er eine richterliche Entscheidung sein. Es ist vielmehr ein Wesensmerkmal der richterlichen Entscheidungsbegründung, dass diese nicht losgelöst von der getroffenen Entscheidung formuliert wird. Andernfalls müsste jede Begründung als Scheinbegründung qualifiziert werden, hätte sie in diesem Fall doch bloß zum Ziel, einer zuvor beliebigen, unter Umständen sogar aus „sachfremden Motiven“ getroffenen Entscheidung nachträglich den Schein der „juristische[n] Rationalität“ zu verleihen. Dem ist aber gerade nicht so. Die richterliche Entscheidungsbegründung dient der Offenlegung bzw Darstellung des richterlichen Entscheidungsfindungsprozesses des zuständigen Richters. Es besteht also ein innerer Zusammenhang zwischen Rechtsfindung und -begründung und damit zwischen Herstellung und DarS. 101stellung der richterlichen Entscheidung. Die richterliche Begründung wird erst zu dieser, wenn und weil der Richter in seiner Funktion und auf eine bestimmte Weise zu ebendieser Entscheidung gelangt. Maßgeblich ist damit die Art, wie der Richter das Ergebnis herstellt, nicht dessen Darstellung.
Selbst dann, wenn man - wie dies etwa der rechtsrealistischen Position entspricht - annehmen möchte, dass sich die Vorstellung, der Richter würde im Rahmen der Entscheidungsbegründung im Einzelnen seinen inneren Entscheidungsprozess darlegen, nicht mit dem deckt, wie der Richter tatsächlich seine Entscheidungen begründet, ändert dies im eingangs vorgebrachten Einwand nichts: Auch bei Konzipierung der richterlichen Begründung als eine Art Ex-post-Rationalisierung der richterlichen Intuition wird die Entscheidung des Richters durch die Notwendigkeit einer Begründung unmittelbar begrenzt. Lässt sich ein rechtliches Ergebnis nicht in der rechtlich erforderlichen Form begründen, darf der Richter diese Entscheidung nicht treffen.
Der Turning Test hat dahingehend keinerlei argumentativen Mehrwert. Wie bereits dessen ursprüngliche Bezeichnung als „imitation game“ deutlich macht, bildet er nämlich bloß den externen Standpunkt ab. Für die richterliche Begründung ist jedoch, wie soeben dargelegt, der interne Standpunkt (auch) maßgeblich. Ebendiese Facette erfüllt KI, jedenfalls nach dem aktuellen Stand der Technik, nicht.
5.3. Ansatz 3: KI soll dem menschlichen Richter „bloß“ assistieren
Der dritte Ansatz, wie die Grenzziehung zwischen zulässigem KI-Einsatz im Rahmen eines Gerichtsverfahrens und unzulässiger Verwendung von KI im Zuge der richterlichen Entscheidungsfindung zu ziehen ist, anerkennt - jedenfalls dem Grunde nach - sowohl die Problematik des Vergleichs zweier Systeme unterschiedlicher Art als auch die Mangelhaftigkeit des bloßen Abstellens auf den Output des jeweiligen Systems. Die Schlussfolgerung, die der dritte Ansatz vor diesem Hintergrund zieht, ist, dass KI den menschlichen Richter „bloß“ unterstützen soll. Der menschliche Richter bleibt dieser Logik zufolge unangefochtenes Entscheidungsorgan und kann alle jene Defizite ausgleichen, die KI mit sich bringt. Eine Parallele, die dahingehend häufig gezogen wird, ist jene mit wissenschaftlichen Mitarbeitern, Rechtspraktikanten und sonstigen Mitarbeitern des Gerichts. Auch diese unterstützen den Richter, ohne ihm die Entscheidung als solche zu entziehen. Wieso also soll das bei digitalen Assistenzsystemen anders sein?
S. 102Setzt man diese „KI-unterstützt-bloß“-Argumentation in einen Kontext, der über das gerichtliche Verfahren hinausgeht, so handelt es sich dabei um eine Ausformung des Human-in-the-loop-Arguments. Hinter Human-in-the-loop-Konstruktionen steckt die Intuition, dass KI-basierte Assistenzsysteme kategorisch weniger problematisch seien als eine vollständige Übertragung einer Entscheidung bzw einer Tätigkeit auf KI. Szenarien, in denen auf KI zurückgegriffen wird, während zugleich der Mensch „in the loop“ bleibt, betreffen dabei zumeist Bereiche, in denen sich KI (noch) nicht ausreichend bewährt hat, um die Aufgabenerfüllung vollständig zu übertragen. Zugleich scheint KI jedoch über ein gewisses Mindestmaß an relevanten Fähigkeiten zu verfügen, sodass die Versuchung groß ist, dennoch auf sie zurückzugreifen. Im Ergebnis führt dies zum Einsatz von KI in Bereichen bzw für Tätigkeiten, in denen KI die erforderlichen Fähigkeiten nicht (im notwendigen Ausmaß) aufweist, die durch menschliche Überwachung des KI-Einsatzes kompensiert werden sollen.
Die Stoßrichtung des Kompensationsmechanismus „Human in the loop“ ist dabei abhängig vom jeweils zum Einsatz kommenden KI-System, der zu bewältigenden Aufgabe bzw der zu treffenden Entscheidung sowie der Perspektive, die die Analyse einnimmt. Im Kern lassen sich drei argumentative Untergruppen identifizieren. Zunächst wird in den „Human in the loop“ die Hoffnung gesetzt, technische Herausforderungen, die bei Rückgriff auf KI auftreten können, zu kompensieren. So soll eine menschliche Nachkontrolle die negativen Folgen von Hacking(-versuchen) minimieren oder einen derartigen Angriff gar gänzlich unterbinden. Auch wird angenommen, dass das Ausnutzen allfälliger technischer Schwachstellen weniger gefährlich ist, wenn ein Mensch weiterhin in den Entscheidungsprozess eingebunden bleibt.
Die zweite Untergruppe an Argumenten, die zugunsten einer Human-in-the-loop-Konstruktion ins Treffen geführt werden, sind rechtlicher Natur. Besonders naheliegend sind haftungsrechtliche Argumente: So hoffen Hersteller von KI-Systemen, die Verantwortung für allfällige negative Konsequenzen des Einsatzes ihres Produkts auf den Anwender des KI-Systems überwälzen zu können, wenn dieser im Verhältnis zu jenen, die von den negativen Folgen des KI-Systems betroffen sind, als menschlicher Überwacher auftritt. Doch auch im Kontext von staatlicher Verwendung von KI lässt sich die hinter dem Haftungsargument stehende Grundlogik übertragen. Die Rede ist dabei jedoch primär von „Verantwortung“ der jeweiligen Entscheidungsträger sowie von demokratischer Legitimation des Entscheidungsorgans. Da KI selbst - jedenfalls im Lichte des gegenwärtig vorherrschenden Verständnisses von Zurechnungssubjekten, zu denen KI gerade S. 103nicht zählt - nicht für eine Entscheidung verantwortlich gemacht und auch nicht als demokratisch legitimiert angesehen werden kann, bedarf es eines demokratisch legitimierten Menschen wie etwa eines menschlichen Richters, dem die Entscheidung zugerechnet werden kann und der für sie Verantwortung übernimmt.
Die dritte Untergruppe an Argumenten bilden alle jene Ansätze, die die psychologische Wirkung eines „Human in the loop“ in den Mittelpunkt stellen. Gestützt auf empirische Untersuchungen wird argumentiert, dass sich Menschen, die von KI-basierten Entscheidungen bzw KI-basierter Aufgabenerfüllung betroffen sind, zumeist wohler fühlen, wenn das zum Einsatz kommende KI-System unter menschlicher Aufsicht steht. Auch in diese Kategorie fallen Argumentationen, die auf die Wahrnehmung von Human-in-the-loop-Konstruktionen als die goldene Mitte zwischen gänzlicher Übertragung einer Tätigkeit auf KI und völligen Verzicht auf KI verweisen.
Auch wenn der dritte, einer „KI-unterstützt-bloß“-Argumentation folgende Ansatz die Grenzziehung zwischen zulässigen und unzulässigen KI-Anwendungen auf Basis einer anderen Grundlogik vornimmt als der erste hier umrissene Ansatz („Mehr Vorteile als Nachteile“), so bestehen doch gewisse Parallelen. Denn auch der dritte Ansatz zielt letztlich auf eine Maximierung der Vorteile, die mit dem Einsatz von KI einhergehen, unter gleichzeitiger Minimierung ihrer Nachteile ab - in diesem Fall jedoch (vermeintlich) durch die Beibehaltung einer menschlichen Aufsicht. Das im Lichte des ersten Ansatzes diskutierte Abwägungs- bzw Vergleichsproblem besteht allerdings auch hier. Die Einbindung eines Menschen in den Entscheidungsprozess und die Überantwortung der Aufsicht bzw Letztkontrolle an diesen ändert nämlich an der strukturellen Andersartigkeit der KI nichts.
Dies manifestiert sich auch und insbesondere beim Einsatz von KI im Rahmen der richterlichen Entscheidungstätigkeit. So erscheint es vielleicht im ersten Moment naheliegend, auf LLMs zurückzugreifen, um den Richter bei der Suche nach fallrelevanter Judikatur und Literatur zu unterstützen, so wie dies aktuell wissenschaftliche Mitarbeiter tun. Im Unterschied zu wissenschaftlichen Mitarbeitern sind LLMs jedoch gerade keine mit den juristischen Methoden und der dem Recht inhärenten Logik ausgestatteten Akteure. Sie sind - auch wenn vielfach ein anderer Eindruck entstehen mag - überhaupt keine Recherchetools, wie sie für die richterliche Judikatur- und Literatursuche erforderlich wären. Es handelt sich bei LLMs vielmehr um reine Textgenerationstools, die - wie oben ausgeführt - ohne ein tiefergreifendes Verständnis für die Sachmaterie jene Wörter bzw Wortfolgen generieren, die statistisch als am wahrscheinlichsten gelten. Vor diesem Hintergrund bestehen nicht nur grundlegende Zweifel an der Übertragung der richterlichen Recherchetätigkeit auf KI als solche, sondern auch an der „bloßen“ S. 104Unterstützung des Richters durch KI im Zuge der Suche nach fallrelevanter Judikatur und Literatur. Eine sinnvolle Überprüfung der Ergebnisse des LLMs durch den menschlichen Richter erscheint ob der strukturellen Andersartigkeit der Arbeitsweise des KI-Systems kaum denkbar. Welche Maßstäbe kämen in Frage? Inwieweit wäre es dem Richter möglich, das Rechercheergebnis des LLMs als richtig einzustufen, zumal diese Kategorie im Recht ohnedies bloß bedingt erfolgversprechend ist? Kann der von einem LLM generierte Output überhaupt je als „vertretbar“ gewertet werden, wenn es zu diesem auf eine gänzlich andere Art gelangt, als es bei von Menschen durchgeführter Literatur- und Judikaturrecherche der Fall ist?
Auch unterscheiden sich KI-basierte Assistenzsysteme, die den Richter im Rahmen seiner Tätigkeit in ähnlicher Weise unterstützen sollen, wie dies aktuell wissenschaftliche Mitarbeiter tun, grundlegend in Hinblick auf das Potenzial, Vertrauen in ihre künftige Leistungsfähigkeit aufzubauen. Gerade weil KI grundlegend anders an rechtliche Problem- bzw Aufgabenstellungen herangeht als Menschen - seien es nun Richter oder auch die rechtliche Grundausbildung absolviert habende wissenschaftliche Mitarbeiter oder Rechtspraktikanten -, bietet der Umstand, dass ein bestimmtes KI-System im Rahmen der Testphase x-fach ein überzeugend erscheinendes Ergebnis geliefert hat, keine stabile Vertrauensbasis, dass KI auch künftig derartige Ergebnisse generieren wird. Das zuvor bereits aufgeworfene Problem, wann dahingehend überhaupt von einem „rechtlich überzeugenden“ Text, der von dem KI-System generiert wird, gesprochen werden kann, stellt sich freilich auch hier.
Damit bleibt letztlich der Rückgriff auf derartige Assistenzsysteme in jenen Bereichen, in denen das Ergebnis eines LLM zwar nicht substanziell vom Richter herangezogen wird, dieser sich jedoch die Kreativität der LLMs zunutze machen könnte. Denkbar wäre dahingehend etwa, LLMs im Rahmen von Brainstorming oder Ideenfindung heranzuziehen, in der Hoffnung, dass der von einem LLM generierte Text beim Richter hilfreiche Assoziationen auslöst, in welche Richtung die richterliche Judikatur- bzw Literaturrecherche erfolgen könnte. Dies ändert jedoch freilich in keiner Weise etwas an den inhärenten Schwächen des KI-Systems. Vielmehr verdeutlicht es, dass die Human-in-the-loop-Konstruktion untauglich ist, die zuvor dargelegten Defizite der KI zu kompensieren.
Betrachtet man Human-in-the-loop-Konstruktionen etwas genauer, so zeigt sich, dass diese nicht bloß ebenso wenig die strukturelle Andersartigkeit der KI zu bewältigen in der Lage sind wie Abwägungserwägungen im Sinne des ersten Ansatzes, sondern vielmehr, dass nicht zu unterschätzende zusätzliche Gefahren mit dem Rückgriff auf „bloße“ digitale Assistenzsysteme für die richterliche Tätigkeit einhergehen. So indizieren empirische Untersuchungen, dass Menschen vielfach nicht in der Lage sind, KI angemessen zu überwachen. Dies liegt insbesondere daran, dass Menschen dazu neigen, ihre eigene Sichtweise der Welt und den Umgang mit dieser auf KI zu projizieren. Dadurch fällt es Menschen schwer zu erkennen, wenn KI-Systeme Fehler machen, insbesondere dann, wenn KI in einem Bereich zum Einsatz gelangt, in dem der Mensch selbst S. 105Schwächen aufweist. Gerade diese Bereiche sind es jedoch, in denen die Versuchung, von KI unterstützt zu werden, besonders groß ist.
Darüber hinausgehend hat sich gezeigt, dass sich die menschliche Fähigkeit, unvorhersehbare Ereignisse auch über einen längeren Zeitraum hinweg zu erkennen, tendenziell verschlechtert, wenn der Mensch durch digitale Assistenzsysteme unterstützt wird. Besonders manifestiert sich dies in Form von automation complacency. Damit ist die Verminderung der Aufmerksamkeit hinsichtlich des Outputs des KI-Systems sowie dessen Überwachung gemeint; dies zumeist deshalb, weil das von einem solchen System Generierte (fälschlicherweise) als verlässlich eingestuft wird.
Außerdem legen empirische Untersuchungen nahe, dass die durch den Rückgriff auf digitale Assistenzsysteme eintretende Verschlechterung der menschlichen Fähigkeiten keine bloße Momentaufnahme ist. Vielmehr handelt es sich dabei um eine bleibende Veränderung im Fähigkeitsprofil des betroffenen Menschen, was zur Folge hat, dass selbst dann, wenn die Unterstützung durch KI-Systeme wegfällt und der Mensch wieder gänzlich auf sich gestellt ist, die Minderung der ursprünglich vorhandenen Fähigkeit weiterbesteht. Dieser Effekt beschränkt sich dabei nicht auf die soeben skizzierte „vigilance“ des Menschen, sondern betrifft auch und insbesondere die spezifische Fähigkeit, die durch den Einsatz von KI supplementiert wird. So haben Untersuchungen gezeigt, dass Piloten, die eine Zeit lang mit Unterstützung von digitalen Systemen geflogen sind, ihre ursprünglich vorhandene Fähigkeit, Flugzeuge ohne Unterstützung derartiger digitaler Assistenzsysteme zu fliegen, mit der Zeit verlernt haben. Vor diesem Hintergrund ist anzunehmen, dass der Rückgriff auf KI-basierte Assistenzsysteme im Rahmen der richterlichen Tätigkeit ähnliche Konsequenzen für die Fähigkeiten der Richter nach sich ziehen wird, und zwar auch jenseits der konkreten richterlichen Entscheidung. So ist anzunehmen, dass sich die juristische Problemerkennungskompetenz der Richter vermindert, wenn sie die Tendenz entwickeln, zunächst ein KI-System zu befragen, welche rechtlichen Problemstellungen ein von ihnen zu entscheidender Fall aufwirft.
S. 106Auch ist zu befürchten, dass sich der Rückgriff auf KI negativ auf den Prozess der Rechtsfortbildung auswirkt. KI agiert, wie bereits deutlich geworden sein sollte, stets rein vergangenheitsorientiert. Rechtsfortbildung richtet demgegenüber notwendigerweise den Blick in die Zukunft, bezieht gesellschaftliche Wertungen sowie deren Wandel mit ein und adaptiert vor diesem Hintergrund, wie das geltende Recht auszulegen ist. Wie oben umrissen, scheitern KI-Systeme nach dem aktuellen Stand der Technik bereits an der Ableitung und methodenkonformen Anwendung bestehender Rechtsnormen. Im Lichte dessen, dass die Regeln der Rechtsfortbildung - so sich diese überhaupt als solche abbilden lassen - um ein Vielfaches komplexer sind als jene der Rechtsanwendung im engeren Sinn, ist davon auszugehen, dass KI-Systeme den Prozess der Rechtsfortbildung untergraben, so sie von menschlichen Richtern in diesen integriert werden.
Schließlich besteht - schon jetzt mit dem Rückgriff auf LLMs wie ChatGPT und Claude durch Juristen im Rahmen ihrer Tätigkeit, sei diese nun eine richterliche, eine rechtsanwaltschaftliche oder aber auch eine rechtswissenschaftliche - die nicht zu unterschätzende Gefahr der schleichenden Integration von KI-generierten „Rechtstexten“, ohne dass diese als solche von den Autoren gekennzeichnet werden. In weiterer Folge können diese vermeintlichen Rechtstexte nicht von anderen Mitgliedern der Rechtsgemeinschaft als zumindest in Teilen KI-generiert identifiziert werden, da - wie oben dargelegt - LLMs vielfach in der Lage sind, Texte zu generieren, die wie Rechtstexte klingen mögen. Da diese „Rechtstexte“ ob ihres Zustandekommens aber eben gerade keine solchen sind, hat ihr schleichendes Integrieren gravierende Implikationen für die Produktion von und das Vertrauen in rechtliches Wissen in einem gegenwärtig kaum abschätzbaren Ausmaß.
Im Ergebnis lässt sich somit hinsichtlich des dritten Ansatzes, der für die Frage, ob ein KI-System zulässigerweise im Rahmen eines Gerichtsverfahrens von einem Richter zum Einsatz gebracht wird, festhalten, dass dieser in gleicher Weise defizitär ist, wie dies für den ersten und den zweiten Ansatz herausgearbeitet wurde. Entgegen der hinter Human-in-the-loop-Vorschlägen häufig stehenden Annahme, dass der bloß punktuelle Einsatz von KI in einer assistierenden bzw unterstützenden Kapazität die mit dem Rückgriff auf KI einhergehenden Risiken minimieren würde, besteht bei einem solchen Einsatz von KI in einem besonderen Maße die Gefahr einer faktischen Delegation richterlicher Aufgaben an KI. KI würde also auch und gerade bei Verfolgung des dritten Ansatzes den menschlichen Richter schrittweise ersetzen; für eine Grenzziehung innerhalb digitaler Assistenzsysteme ist der dritte Ansatz überhaupt ungeeignet.
S. 1076. Abschließende Gedanken: Arbeitsteilung statt Zusammenarbeit mit KI?
Was sind nun die Folgen dieser Analyse? Wie sind vor diesem Hintergrund digitale Assistenzsysteme in der Gerichtsbarkeit insgesamt und der Verwaltungs- und Finanzgerichtsbarkeit im Speziellen zu bewerten? Ist die notwendige Konsequenz insbesondere der Überlegungen des Abschnitts 5., dass für digitale Assistenzsysteme kein zulässiger Anwendungsbereich innerhalb der richterlichen Tätigkeit besteht - jedenfalls, wenn an der Grundkonzeption von Recht, Rechtsanwendung und Richtertätigkeit, wie sie gegenwärtig vorherrschend ist, festgehalten wird?
Dem ist freilich nicht so. Tatsächlich bestehen durchaus Aspekte der richterlichen Tätigkeit, die dem Rückgriff auf KI zugänglich erscheinen. Um diese zu identifizieren, bedarf es zunächst jedoch eines Überdenkens der Konzeption des „Human in the loop“. Es besteht dahingehend, so scheint es jedenfalls, ein konzeptionelles Missverständnis. Human-in-the-loop-Szenarien, wie sie hier problematisiert werden, beschränken sich auf jeweils eine spezifische Aufgabe, die von einem menschlichen Richter und einem KI-System gemeinsam bearbeitet wird. Dies in einer Weise, dass die menschliche Tätigkeit und die Unterstützung des KI-Systems in einem Ausmaß miteinander verwoben sind, dass eine Aufteilung, welcher Anteil von welcher Entität stammt, nicht vorgenommen werden kann. Demgegenüber sind Konstellationen, in denen eine allgemeinere, breitere Aufgabe in mehrere unterschiedliche kleinere Aufgaben unterteilt wird, die dann wiederum in weiterer Folge entweder einem KI-System übertragen werden oder aber einem Menschen vorbehalten bleiben, keine Human-in-the-loop-Szenarien im hier diskutierten Sinn. In diesem Fall handelt es sich nämlich gerade um keine gemeinsame Bearbeitung durch Mensch und KI, sondern um eine Art „Arbeitsteilung“, bei der die Tätigkeit des Menschen neben jener des KI-Systems isoliert besteht und auch als solche beurteilt werden kann.
Die richterliche Entscheidungsfindung in ihrer Gesamtheit lässt sich als eine solche allgemeinere, breitere Aufgabe begreifen, die sich problemlos wiederum in eine Vielzahl kleinerer spezifischerer Tätigkeiten unterteilen lässt. Man denke nur an die unterschiedlichen Schritte, die der Richter in Vorbereitung auf sowie im Rahmen der Durchführung der mündlichen Verhandlung zu setzen hat. Dasselbe gilt für den Prozess der Abfassung der richterlichen Entscheidung sowie der dieser vorgelagerten Recherche nach relevanter Literatur und Judikatur. Vor diesem Hintergrund wäre es denkbar, die unterschiedlichen spezifischen Tätigkeiten, die in ihrer Gesamtheit die richterliche Entscheidungsfindung bilden, unter Berücksichtigung der Fähigkeiten, die konkrete digitale Assistenzsysteme aufweisen, neu zuzuweisen. Im Rahmen dieser Neuzuteilung könnten insbesondere jene Aufgaben an KI delegiert werden, die von vornherein angesichts ihres Anforderungsprofils keine Erledigung durch einen menschlichen Richter erfordern würden. Dies betrifft insbesondere richterliche Aufgaben, die in Abschnitt 3. den Einsatzbereich für die erste Kategorie digitaler Assistenzsysteme bildeten, also die Vor- und Nachbereitung der richterlichen Entscheidungstätigkeit sowie Hilfstätigkeiten begleitend zum Verfahren. Jene Aspekte der richterlichen Tätigkeit, die KI im Sinne des oben Ausgeführten nach dem aktuellen Stand der Technik nicht zu bewältigen in der Lage ist, verbleiben demgegenüber beim menschlichen Richter.
S. 108Durch diese Neuzuweisung spezifischer Einzelaufgaben unter Berücksichtigung der Fähigkeiten, die KI tatsächlich aufweist, lässt sich eine Vielzahl von Einsatzfeldern für digitale Assistenzsysteme im Rahmen der Gerichtsbarkeit jenseits der Human-in-the-loop-Konstruktionen im hier problematisierten Sinne liegend deuten. Freilich bestehen dennoch auch bei Zugrundelegung dieser Kategorisierung weiterhin Konstellationen, in denen der Beitrag des KI-Systems so eng mit jenem des Menschen verknüpft ist, dass Human-in-the-loop-Szenarien im engeren Sinn vorliegen, die mit all den grundlegenden Risiken einhergehen, wie sie oben herausgearbeitet wurden. Wie ist mit diesen Fällen umzugehen? In der Literatur findet sich dahingehend etwa der Vorschlag, eine unabhängige Einrichtung zu schaffen, die das konkret zum Einsatz vorgeschlagene digitale Assistenzsystem auf dessen Tauglichkeit zur Unterstützung des menschlichen Akteurs bei Erledigung einer bestimmten Aufgabenstellung untersucht. Zusätzlich soll derjenige, der das digitale Assistenzsystem verwenden möchte, verpflichtet werden, einen empirischen Nachweis erbringen, dass der Einsatz dieses System tatsächlich eine Verbesserung im Vergleich zum Status quo darstellt und die mit dem digitalen Assistenzsystem einhergehenden Risiken durch den „Human in the loop“ - entgegen den aufgezeigten grundlegenden Zweifeln - kompensiert werden können. Dieser Nachweis sowie die Entscheidung der unabhängigen Einrichtung sollen schließlich öffentlich zugänglich sein.
Die Erschwerung der Realisierung tatsächlicher Human-in-the-loop-Konstruktionen durch die Zwischenschaltung eines derartigen Genehmigungsverfahrens mag durchaus in einigen der verbleibenden Fälle ein gangbarer Weg sein, um allfälligen Risiken, die mit dem Rückgriff auf KI-basierte Assistenzsysteme in diesen Szenarien einhergehen, effektiv entgegenzutreten. Gerade für den Bereich richterlicher Entscheidungsfindung und damit eine auf vielen Ebenen spezifische Kompetenzen erfordernde Tätigkeit erscheint dies jedoch zu riskant. Dies letztlich auch im Lichte dessen, dass all jene Konstellationen, die sich nicht als „Arbeitsteilung zwischen dem menschlichen Richter und einem KI-System“, sondern als Human-in-the-loop-Konstellationen ieS begreifen lassen, Aspekte im hochsensiblen Kern der richterlichen Tätigkeit betreffen. Man denke dabei etwa an eine Zusammenarbeit von KI und Richter bei Würdigung einer Zeugenaussage oder auch bei Vornahme der rechtlichen Beurteilung eines festgestellten Sachverhalts, der Rechtsfragen von grundsätzlicher Bedeutung aufwirft. In diesen Fällen ist es geboten, den - auch und insbesondere „bloß“ unterstützenden - Rückgriff auf KI durch den Richter schlicht zu untersagen.
Mit einem derartigen Verbot von KI-basierten Assistenzsystemen betreffend bestimmte Aspekte des richterlichen Entscheidungsprozesses ist freilich die Rolle, die KI im Rahmen der Gerichtsbarkeit zulässigerweise einnehmen darf, keineswegs besiegelt. Es ist schlicht eine Art Zwischenbilanz im Lichte dessen, wie das geltende Rechtssystem das Recht und den Prozess der richterlichen Rechtsanwendung versteht und welche Fähigkeiten digitale Assistenzsysteme aufweisen (und vielleicht wichtiger: an welchen es mangelt). Ein solches Verbot steht jedoch einer konzeptuellen Reevaluierung der rechtlichen Grundlagen und -wertungen sowie einer allfälligen Umgestaltung ebendieser nicht im Wege.
S. 109Wird eine solche Reevaluierung unseres Verständnisses von Recht, Rechtsanwendung und der Funktion des Richters angestrebt, so muss diese in Anerkennung der grundlegend unterschiedlichen Herangehensweisen von Menschen und KI-Systemen an die richterliche Entscheidungsfindung sowie im Bewusstsein für die Grenzen der Leistungsfähigkeit der KI und auch des Menschen bei deren Nutzung geschehen. Teil dessen können und sollten empirische Untersuchungen, welchen Einfluss der Rückgriff auf spezifische KI-basierte Assistenzsysteme auf die Leistungsfähigkeit des menschlichen Richters haben, sein. Auch setzt eine Reevaluierung des Status quo eine eingehende Auseinandersetzung mit und Systematisierung des richterlichen Anforderungsprofils in Abhängigkeit von der konkreten richterlichen Tätigkeit und dem jeweiligen potenziellen Involvierungsgrad von KI voraus. Die Besonderheiten des Rechts und der richterlichen Rechtsanwendung sowie die tiefgreifenden Implikationen einer Adaption ihrer Grundlagen müssen dabei stets Beachtung finden.
Mag eine so umfassende und folgenreiche Adaption unseres Verständnisses von Recht und richterlicher Entscheidungstätigkeit utopisch - und im Lichte der beachtlichen Defizite der KI insbesondere im Hinblick auf ein mit dem Menschen vergleichbares Verständnis kommunizierter Inhalte fragwürdig - erscheinen, so geht unser Rechtssystem schon heute diesen Weg, wenn auch bis dato bloß in kleinen Schritten. Bereits weit vor dem Aufstieg besonders leistungsfähiger KI-Systeme ließ sich die Tendenz beobachten, dass der Prozess der Recht(sanwendung) an die Funktionsweise digitaler Systeme angepasst wird und nicht umgekehrt. Man denke nur an die vollautomatisierte Bescheiderlassung nach der BAO. In diesen Fällen werden ausgewählte Bereiche der Rechtsanwendung in einem so weitgehenden Ausmaß standardisiert, dass sie einer Bewältigung durch digitale Systeme zugänglich werden. Die Rechtsanwendung in diesen Fällen zeigt also nicht, dass der Prozess der Rechtsanwendung - sei es nun durch einen Richter oder ein Organ der Verwaltung - einem digitalen System überantwortbar ist, weil es technisch in zunehmendem Ausmaß in der Lage ist, ebendiesen Prozess zu bewältigen. Vielmehr verdeutlichen die bestehenden Fälle automatisierter Bescheiderlassung, dass die Rechtsordnung von den für den Prozess der Rechtsanwendung charakteristischen Merkmalen in Einzelfällen abweicht, um sie einer strukturell andersartigen Bewältigung zugänglich zu machen.
Eine solche bewusste Abweichung vom Prozess der Rechtsanwendung, wie sie gegenwärtig von unserer Rechtsordnung verstanden und vorausgesetzt wird, ist auch für die Gerichtsbarkeit denkbar. Freilich bestehen dort zusätzliche rechtliche Hürden; vielfach reichen diese - wie ausgeführt - in die Sphäre des Verfassungsrechts. Die Umgestaltung wäre deutlich komplexer, notwendigerweise umfassender, die Implikationen strukturell tiefgreifend. Der Preis, der dafür zu zahlen ist, mag selbst für jene, die sich diesem Vorhaben mit einem hohen Maß an technischem Verständnis und aufrichtigem Respekt für die Funktion von Recht, seiner Anwendung und für das Richteramt nähern, nicht abS. 110schließend bestimmbar sein. Fest steht jedoch, dass er nicht an jenen heranzureichen vermag, den die Rechtsgemeinschaft letztlich bezahlen müsste, wenn Grenzen zwischen menschlichen Richtern und digitalen Assistenzsystemen systematisch schleichend verwischt werden. Denn wenn diese Grenzen - in der Hoffnung auf kurzfristige vermeintliche Gewinne wie die Verkürzung der Verfahrensdauer oder aber ein Senken des richterlichen Rechercheaufwands - einmal verschwimmen, darf nicht erwartet werden, dass die rote Linie erkennbar bleibt, wenn sie endgültig überschritten wurde. Am allerwenigsten dürfen wir das von einem menschlichen Richter in the loop erwarten, der sich „bloß“ digitaler Assistenzsysteme bedient.