Article

Der Schatten der Wahrheit: Die unsichtbaren Risiken der Wahrscheinlichkeit im Gerichtssaal

Nov 15, 2024 | 19 min | anthropology

Language

DE EN

Über die Wahrscheinlichkeit, dass das, was ein Gericht als Gewissheit akzeptiert, keine ist, warum die Lücke zwischen 99,9 Prozent und hundert Prozent bereits Unschuldige ins Gefängnis gebracht hat, und was es bedeutet, als Sachverständiger in einem für bequeme Schlussfolgerungen gebauten Saal die unbequeme Wahrheit auszusprechen

Das Video dauerte 43 Sekunden. Auf der Leinwand des Verhandlungssaals zeigte es weniger ein Gesicht als die Vorstellung davon: ein Kompressionsartefakt in der Form eines menschlichen Kopfes, durch eine Überwachungskamera um die Jahrtausendwende in etwas umgewandelt, das entfernt an Physiognomie erinnerte, aber für jeden, der sich in der Materie auskennt, eher an einen Impressionisten dachte als an Beweismaterial. Der Saal hielt jene besondere Qualität von Stille, die sich in Verhandlungssälen bildet, wenn ein Sachverständiger gleich sprechen wird, eine Stille aus Erwartung und darunter, wenn man genau hört, aus etwas, das eher nach Angst klingt, weil die anwesenden Menschen wissen, dass das, was ich in den nächsten Minuten sage, bestimmen kann, wie das Leben eines anderen Menschen für das folgende Jahrzehnt aussieht. Zu meiner Rechten saßen 2 Pflichtverteidiger in Anzügen, die schon bessere Jahrzehnte gesehen hatten, und beobachteten mich mit der Geduld von Berufsleuten, die gelernt haben, dem Morgen nicht zu trauen. Auf meinem Schoß lag eine Akte, die ich vor dem Betreten des Saals bewusst nicht geöffnet hatte, nicht als Theater, sondern aus Methode, und die Methode ist das eigentliche Thema dieses Textes, in einer Weise, die das 43-sekündige Video nicht ist.

Ich möchte von Anfang an klar machen, was folgt. Dies ist kein Argument dafür, dass forensische Identifikation unzuverlässige Ergebnisse produziert. Es ist ein Argument dafür, dass die Art, wie Gerichte probabilistische forensische Schlussfolgerungen empfangen, interpretieren und in Urteile übersetzen, so systematisch verfehlt ist, dass die dabei entstehenden Fehler keine Anomalien sind, sondern logische Konsequenzen, vorhersehbare Ergebnisse eines Missverständnisses über die Natur von Wahrscheinlichkeit, das in der wissenschaftlichen Literatur seit 1987 beschrieben wird, in Studie um Studie auf mehreren Kontinenten und in mehreren forensischen Disziplinen reproduziert wurde und das Gerichte in den fast 40 Jahren seither ungefähr so gründlich aufgenommen haben wie polierter Marmor Wasser aufnimmt.

Was eine Zahl bedeutet, wenn ein Mensch an ihr hängt

Ich habe einem Gericht noch nie gesagt, dass die Person in einem Bildmaterial mit 99,9-prozentiger Sicherheit identifiziert ist. Ich habe auch noch nie Formulierungen wie “im Wesentlichen sicher” oder “nahezu zweifelsfrei” oder “mit hoher Wahrscheinlichkeit” verwendet, ohne gleichzeitig anzugeben, welchem Klassifikationssystem diese Worte entstammen und welche Bedingungen des Bildmaterials sie voraussetzen, weil diese Formulierungen, obwohl sie wie kalibrierte wissenschaftliche Aussagen klingen, in einem Gerichtssaal eher wie Urteile im Konjunktiv funktionieren, ausgesprochen als formale Konzession an die Anforderungen des Verfahrens, während der Richter bereits intern zur nächsten Frage übergegangen ist. Die Präzision, die die Sprache impliziert, ist real. Das Verständnis dafür, was diese Präzision tatsächlich bedeutet, fehlt in den meisten Sälen, in denen ich gearbeitet habe, nahezu vollständig.

Die Unterscheidung, die dieses gesamte Feld regiert, ist die von Thompson und Schumann (1987, “Interpretation of Statistical Evidence in Criminal Trials: The Prosecutor’s Fallacy and the Defense Attorney’s Fallacy,” Law and Human Behavior, 11[3], 167–187) identifizierte, in einem Text, der zu einem der am häufigsten zitierten und am konsequentesten ignorierten Papiere der forensischen Jurisprudenz wurde. Ihre Beobachtung, in ihrer einfachsten Form, lautet, dass Gerichte systematisch die Wahrscheinlichkeit des Beweises bei Unschuld mit der Wahrscheinlichkeit der Unschuld bei vorliegendem Beweis verwechseln, und dass diese 2 Größen unter keinen außer sehr engen Bedingungen austauschbar sind, die einen realen Straffall fast nie beschreiben. Der Fehler hat einen Namen. Der Prosecutor’s Fallacy, auf Deutsch der Staatsanwaltsirrtum, bezeichnet das, was geschieht, wenn die Wahrscheinlichkeit, dass ein forensisches Merkmal der Tatsperson mit dem Angeklagten übereinstimmen würde, wenn der Angeklagte unschuldig wäre, im Gericht so präsentiert wird, als sei sie äquivalent zur Wahrscheinlichkeit, dass der Angeklagte unschuldig ist. Diese 2 Größen können sich je nach Basisrate um Größenordnungen unterscheiden, und die Basisrate wird in forensischen Gutachten, die Gerichte erhalten, fast nie thematisiert.

Die experimentellen Belege für diese Verwechslung sind nicht dünn. Thompson und Schumann zeigten, dass die Art der Darstellung von Wahrscheinlichkeit, als Bedingungswahrscheinlichkeit oder als Häufigkeit in einer Population, systematisch verzerrte Schlussfolgerungen in genau der Richtung produzierte, die der Staatsanwaltsirrtum vorhersagt. Folgestudien replizierten diesen Befund mit Juristen, mit simulierten Geschworenen und mit amtierenden Richtern, für DNA-Beweise, Fingerabdrücke und Augenzeugenidentifikationen, in mehreren nationalen Rechtssystemen. Der Fehler ist kein Versagen der Intelligenz. Er ist ein Versagen des menschlichen kognitiven Systems, bedingte Wahrscheinlichkeiten ohne explizites Training korrekt zu berechnen, was bedeutet, er beschreibt nahezu jeden, der keine bayesianische Statistik studiert hat, was nahezu jeden in nahezu jedem Verhandlungssaal bedeutet.

Die Arithmetik der Größenordnung und die Rechnung, die Gerichte nie aufstellen

Der Frankfurter Flughafen verarbeitete 2023 rund 61,6 Millionen Passagiere (Fraport AG, 2024, Geschäftsbericht 2023, Fraport AG), was etwa 168.000 Passagieren pro Tag entspricht. Historische Daten zu schwerwiegenden passagierbezogenen Vorfällen an großen internationalen Flughäfen legen eine Rate von ungefähr 1 Vorfall pro 100.000 Passagierbewegungen nahe. Wendet man diese Rate auf das Frankfurter Tagesvolumen an, ergibt die Rechnung eine erwartete Vorfall-Häufigkeit von 0,168 pro Tag, statistisch also 1 schwerwiegender Vorfall alle 6 Tage, nicht weil der Frankfurter Flughafen nach irgendeinem vernünftigen Maßstab unsicher wäre, sondern weil jede Wahrscheinlichkeit größer als null, multipliziert mit einer ausreichend großen Zahl von Ereignissen, Vorfälle produziert. Der Flughafen ist nicht defekt. Die Mathematik funktioniert genau so, wie sie soll. Die Frage ist, ob die für Betriebsentscheidungen zuständigen Menschen verstanden haben, was diese Mathematik für ihre Vorsorge bedeutet.

Man übertrage diese Logik in einen Verhandlungssaal und wende sie auf ein forensisches Identifikationssystem an, das 99,9 Prozent Genauigkeit erreicht. Das ist ein außerordentliches Niveau, und ich sage das ohne Ironie, weil das Erreichen dieser Genauigkeit unter realen Bedingungen variabler Bildqualität, teilweiser Verdeckung und Kameraverzerrung eine Ausbildung und methodische Disziplin erfordert, über die die meisten Praktiker weltweit nicht verfügen. Und dennoch: 99,9 Prozent Genauigkeit ist eine Fehlerrate von 0,1 Prozent, also 1 falsche Identifikation pro 1.000 Identifikationen. Eine große städtische Rechtsmedizin, die mehrere Tausend Identifikationen pro Jahr bearbeitet, produziert durch die Mathematik mehrere Fehlidentifikationen jährlich, nicht durch Nachlässigkeit, sondern durch die Wirkung jener Wahrscheinlichkeit, die das System so zuverlässig erscheinen lässt.

Die Gerichte, die diese Identifikationen erhalten, stellen diese Rechnung nicht an. Sie empfangen einen Prozentsatz und verstehen ihn als nahezu sichere Aussage, und sie mögen in jedem Einzelfall damit richtig liegen, was genau das Problem ist, weil im Einzelfall entschieden wird und im Aggregat sich Fehler zeigen, langsam, durch die Anhäufung von Fällen, die irgendwann die Aufmerksamkeit von Organisationen wie dem Innocence Project auf sich ziehen. Dieses dokumentierte 375 DNA-Freisprüche in den Vereinigten Staaten bis 2020 (Innocence Project, 2023, DNA Exonerations in the United States, innocenceproject.org), und in rund 45 Prozent jener Fälle trug fehlerhafte Anwendung forensischer Wissenschaft zur irrtümlichen Verurteilung bei, während Augenzeugenfehlidentifikation, eine Form probabilistischen Beweises mit besonders schlechter Kalibrierung, in etwa 71 Prozent eine Rolle spielte. Diese Zahlen beschreiben das System nicht an seinen Tiefpunkten. Sie beschreiben, was es routinemäßig produziert, wenn Fehler durch DNA-Beweise oder durch die Hartnäckigkeit von Anwälten, die an geschlossenen Akten weiterarbeiten, irgendwann sichtbar werden.

Die Akte vor den Bildern lesen ist schon ein Urteil vor der Verhandlung

Die Regel, die ich vor vielen Jahren etabliert habe, ist einfach: Ich analysiere das Bildmaterial und die Vergleichsunterlagen, bevor ich die Akte lese, und das jedes Mal, unabhängig davon, wie dringend der Auftrag dargestellt wird oder wie viel Vorabkontext mir mitgegeben werden soll. Ich bilde mir auf Grundlage des visuellen Materials allein eine Meinung, ohne das Gewicht einer Vorschlussfolgerung zwischen meinen Augen und dem Beweismaterial, und erst nach dieser unabhängigen Erstanalyse öffne ich die Akte und lese, was die Ermittlungsbehörden glauben.

Das ist kein Verfahrenstheater. Es ist die direkte praktische Konsequenz einer Forschungslage, die ohne Mehrdeutigkeit belegt, dass vorherige Kontextinformationen die Schlussfolgerungen forensischer Sachverständiger systematisch verzerren, auch wenn diese Sachverständigen erfahren, zur Genauigkeit motiviert und in vollständig gutem Glauben handeln. Dror, Charlton und Péron (2006, “Contextual information renders experts vulnerable to making erroneous identifications,” Forensic Science International, 156[1], 74–78) konzipierten ein Experiment, in dem 5 erfahrene Fingerabdruckspezialisten gebeten wurden, Fingerabdruckpaare erneut zu untersuchen, die sie selbst zuvor analysiert und als übereinstimmend eingestuft hatten. Bei der Neuuntersuchung erhielten sie Kontextinformationen, die nahelegten, dass der Verdächtige entweder gestanden hatte oder ein verifiziertes Alibi besaß, was die implizierte Richtung des erwarteten Ergebnisses in entgegengesetzte Richtungen lenkte. 17 Prozent der zuvor bestätigten Übereinstimmungen wurden revidiert. Die Spezialisten wussten nicht, dass sie ihre eigene frühere Arbeit erneut prüften. Sie wussten nicht, dass sie beobachtet wurden. Sie taten, was forensische Sachverständige tun: Beweismaterial im Kontext eines Falls untersuchen, und der Fallkontext genügte, um 17 Prozent ihrer Schlussfolgerungen zu ändern.

Kassin, Dror und Kukucka (2013, “The forensic confirmation bias: Problems, perspectives, and proposed solutions,” Journal of Applied Research in Memory and Cognition, 2[1], 42–52) dokumentierten diesen Mechanismus über forensische Disziplinen hinweg und stellten fest, dass der Bestätigungsfehler im forensischen Kontext über dieselben kognitiven Bahnen wirkt wie in anderen Bereichen des Expertenurteils, nämlich durch die Tendenz des menschlichen Wahrnehmungssystems, mehrdeutige Informationen in Richtung jener Schlussfolgerung aufzulösen, die die umgebende Erzählung nahelegt. Dror (2020, “Cognitive and Human Factors in Expert Decision Making: Six Fallacies and the Eight Sources of Bias,” Analytical Chemistry, 92[12], 7998–8004) identifizierte 8 verschiedene Quellen von Verzerrungen in forensischen Expertenentscheidungen, darunter den Ankereffekt durch frühe Fallinformationen, Rollenerwartungen durch das Wissen, welche Partei die Analyse in Auftrag gegeben hat, und den organisatorischen Druck innerhalb forensischer Labors, die strukturell darauf ausgerichtet sind, Ergebnisse zur Unterstützung der Strafverfolgung zu liefern. Der Sachverständige, der die Akte liest, bevor er das Bildmaterial sieht, ist im Sinne der experimentellen Psychologie bereits verankert, und der erste erhaltene Informationsbrocken schlägt einen Bezugsrahmen auf, von dem sich die spätere Analyse weniger weit entfernt, als der Sachverständige glaubt.

Ich analysiere Bilder, bevor ich Akten lese, weil ich das verstanden habe und weil ich eine Verfahrensstruktur aufgebaut habe, um eine kognitive Anfälligkeit auszugleichen, die ich mit jeder anderen Person in diesem Feld teile.

Der Fall, der mich lehrte, dass Richtigliegen nicht ausreicht

Ich war von den Verteidigern in einem Fall beauftragt worden, der Bildmaterial von vergleichbarer Qualität wie das 43-sekündige Video enthielt, mit dem dieser Text begann. Nach einer systematischen Analyse des verfügbaren Materials, bei der ich die physiognomischen Merkmale im Bildmaterial anhand meines Klassifikationsrahmens mit dem Vergleichsmaterial abglich, kam ich zu dem Schluss, dass eine positive Identifikation wissenschaftlich nicht begründbar war. Ich sagte das klar, schriftlich, mit einer Begründung, die in ausreichendem Detail dokumentiert war, um einem anderen Sachverständigen zu ermöglichen, jeden Schritt der Analyse unabhängig nachzuvollziehen.

Er wurde verurteilt.

Die technische Beschreibung des Weiteren: Das Gewicht des übrigen Aktenmaterials, das bereits vor meinem Eintritt in den Fall auf eine Schuldnarrative ausgerichtet war, genügte dem Gericht in Verbindung mit einem Gutachten eines anderen Sachverständigen, der eine andere Schlussfolgerung mit einer Methodik zog, die ich bestenfalls als fragwürdig bezeichnen würde. Die genauere Beschreibung: Eine einzelne abweichende forensische Stimme, so methodisch präzise sie auch sein mag, steht strukturell im Nachteil in einem Verfahrensumfeld, in dem sich der institutionelle Schwung der Ermittlung bereits um eine Schuldnarrative organisiert hat und in dem die adversatorische Struktur des Verfahrens maximalen Druck in Richtung selbstsicherer Schlussfolgerungen erzeugt, genau in dem Moment, in dem intellektuelle Redlichkeit Unsicherheit verlangt. Der President’s Council of Advisors on Science and Technology hielt 2016 fest (PCAST, 2016, Forensic Science in Criminal Courts: Ensuring Scientific Validity of Feature-Comparison Methods, Executive Office of the President), dass Gerichte Sachverständigengutachten in forensischen Vergleichsdisziplinen routinemäßig akzeptieren, ohne die Validierungsstudien zu verlangen, die eine unabhängige Überprüfung der behaupteten Fehlerraten überhaupt erst ermöglichen würden.

Ich denke an diesen Fall. Ich denke daran, weil er mich gelehrt hat, dass Korrektheit und Überzeugungskraft verschiedene Eigenschaften sind, und dass ein adversatorischer Verhandlungssaal dafür gebaut wurde, die zweite zu optimieren.

Tschechien: Was Hartnäckigkeit als forensische Methode bedeutet

Der zweite Fall, den ich beschreiben möchte, dauerte mehrere Jahre, und ich beschreibe ihn genau deshalb, weil sein Ausgang wie ein Erfolg aussieht und der Erfolg nicht verdecken sollte, was er erforderte.

Ein junger Mann in der Tschechischen Republik war auf Grundlage einer Ermittlung verurteilt worden, die, um eine wohlwollende Formulierung zu wählen, mit mehr institutionellem Selbstvertrauen als methodischer Sorgfalt durchgeführt worden war. Die Bildvergleichsarbeit im ursprünglichen Sachverständigengutachten hatte die bekannten geometrischen Verzerrungen nicht berücksichtigt, die durch Kamerawinkel und Brennweite der verwendeten Ausrüstung entstehen und die, bei korrekter Kompensation, die Stärke der behaupteten Übereinstimmung erheblich reduzierten. Die Merkmalsklassifikation im ursprünglichen Gutachten hatte Kriterien über das Vergleichsmaterial hinweg inkonsistent angewandt. Die Wahrscheinlichkeitssprache des Gutachtens verwendete Formulierungen, die kein anerkanntes Klassifikationssystem für Material dieser Qualität autorisieren würde.

Diese Feststellungen anerkannt zu bekommen dauerte Jahre. Die Trägheit eines Systems, das bereits eine Verurteilung produziert hat und die Sache als erledigt betrachtet, ist kein geringes Hindernis, sondern ein strukturelles Merkmal einer Rechtsinstitution, die Finalität höher bewertet als Korrektur, und die Trägheit weicht nicht schnell vor Beweismaterial zurück, das sie in Verlegenheit bringt. Was schließlich den Unterschied machte, war nicht eine einzelne dramatische Wendung, sondern die langsame, dokumentierte, methodisch präzise Häufung konkreter Einwände gegen konkrete Versäumnisse im ursprünglichen Gutachten, jeder einzelne für sich unzureichend, um eine Revision zu erzwingen, alle zusammen unmöglich zu übergehen, ohne sie anzugehen.

Die Lehre, die ich zog, war nicht die von der Hartnäckigkeit als Tugend, obwohl die Jahre sie erforderten. Die Lehre war, dass die Fehler, die Jahre brauchten, um korrigiert zu werden, keine exotischen pathologischen Ausfälle eines sonst gut funktionierenden Systems waren. Sie waren gewöhnliche Konsequenzen einer forensischen Methodik, die ohne die Disziplin angewandt worden war, die die Produktion von Wahrscheinlichkeitsaussagen erfordert.

Sally Clark und der Fall, der alles hätte ändern sollen

Ich möchte einen Fall beschreiben, an dem ich nicht beteiligt war, weil er die vollständigste dokumentierte Instanz ist, die ich kenne, in der ein benannter, publizierter kognitiver Fehler in einem Gerichtssaal 12 Jahre nach der formalen Identifikation in der Wissenschaft begangen wurde, mit dem Ergebnis, dass eine unschuldige Person mehr als 3 Jahre im Gefängnis verbrachte.

Sally Clark war eine britische Anwältin, die im November 1999 wegen der Ermordung ihrer 2 Säuglinge verurteilt wurde, die beide unter Umständen gestorben waren, die die Verteidigung dem plötzlichen Kindstod zuschrieb. Der Sachverständige der Anklage, der Kinderarzt Roy Meadow, präsentierte dem Gericht, was er als die Wahrscheinlichkeit von 2 Fällen plötzlichen Kindstods in derselben Familie beschrieb. Er gelangte zu der Zahl von 1 zu 73 Millionen, indem er seine Schätzung der Geburtshäufigkeit eines einzelnen Kindstods in einer Familie ähnlichen sozioökonomischen Profils, ungefähr 1 zu 8.543, quadrierte und die 2 Ereignisse als statistisch unabhängig behandelte (Nobles & Schiff, 2005, “Misleading statistics within criminal trials: The Sally Clark case,” Significance, 2[1], 6–10). Die Jury verurteilte. Sally Clark wurde inhaftiert.

Die Fehler in Meadows Argumentation waren nicht subtil. Die 2 Todesfälle konnten nicht als statistisch unabhängig behandelt werden, weil die genetischen und umweltbedingten Faktoren, die zu einem plötzlichen Kindstod in einer Familie beitragen, die Wahrscheinlichkeit eines weiteren erheblich erhöhen, eine Tatsache, die die epidemiologische Literatur zum Thema schon vor dem Prozess belegt hatte. Aber der grundlegendere Fehler, den das erste Berufungsgericht nicht erkannte, war jener, den Thompson und Schumann 1987 benannt hatten. Die Wahrscheinlichkeit von 2 Fällen plötzlichen Kindstods in einer Familie ist nicht die Wahrscheinlichkeit, dass eine Mutter unschuldig am Tod von 2 ihrer Kinder ist. Das sind völlig verschiedene Größen, die durch den Satz von Bayes in einer Weise zusammenhängen, die das Gericht nie berechnet hat, und ihre Verwechslung erfordert einen Fehler in der Bedingungswahrscheinlichkeit, den die Royal Statistical Society in ihrer formellen Stellungnahme nach der Verurteilung als Missbrauch statistischer Methoden bezeichnete. Das erste Berufungsgericht sah in dem statistischen Einwand keine Beeinträchtigung der Sicherheit des Urteils. Sally Clark wurde im Januar 2003 in der zweiten Berufung freigesprochen, nachdem sie mehr als 3 Jahre eines Gefängnisurteils für Morde verbüßt hatte, die nicht stattgefunden hatten. Sie starb im März 2007, im Alter von 42 Jahren, 4 Jahre nach ihrer Freilassung.

Ich beschreibe diesen Fall nicht, weil er einzigartig wäre, sondern weil in ihm die Kausalkette von einem benannten kognitiven Fehler zu einem konkreten menschlichen Schicksal am vollständigsten dokumentiert, am präzisesten zurechenbar und am wenigsten als irgendetwas anderes erklärbar ist, als das, was er war.

Das Fingerabdruck-Paradox und die Mythologie des Goldstandards

Fingerabdrücke nehmen im öffentlichen forensischen Imaginären eine nahezu mythologische Stellung ein: Sie gelten als das Ende der Unsicherheit, als der Punkt, an dem Wahrscheinlichkeit der Tatsache weicht. Diese Vorstellung wurde durch mehr als ein Jahrhundert Sachverständigenaussagen und mehrere Jahrzehnte Unterhaltungsmedien kultiviert und hat eine Interpretationsvorlage geschaffen, in der eine Fingerabdruckübereinstimmung als Gewissheit und nicht als Wahrscheinlichkeit funktioniert.

Der President’s Council of Advisors on Science and Technology untersuchte 2016 die empirische Grundlage dieser Vorstellung und befand sie als unzureichend. Der PCAST-Bericht kam zu dem Schluss, dass die latente Fingerabdruckanalyse eine grundsätzlich valide subjektive Methodik ist, aber mit einer Falsch-Positiv-Rate, die als “erheblich und wahrscheinlich höher als von vielen Geschworenen erwartet aufgrund langjähriger Behauptungen zur Unfehlbarkeit der Fingerabdruckanalyse” beschrieben wurde (PCAST, 2016, Forensic Science in Criminal Courts: Ensuring Scientific Validity of Feature-Comparison Methods, Executive Office of the President, S. 101). Der National Research Council hatte dieselbe Frage 7 Jahre früher aufgeworfen und festgestellt, dass für die meisten forensischen Vergleichsdisziplinen die Fehlerraten-Studien, die zur tatsächlichen Quantifizierung der Zuverlässigkeit von Expertenschlussfolgerungen erforderlich wären, entweder nicht durchgeführt oder nicht auf eine Art und Weise durchgeführt worden waren, die eine unabhängige Überprüfung der Ergebnisse erlaubte (NRC, 2009, Strengthening Forensic Science in the United States: A Path Forward, National Academies Press, S. 122).

In meiner Praxis habe ich an Fällen gearbeitet, die Gesichts- und Ohranalyse kombinierten, und in spezifischen Bedingungen erzeugt diese Kombination Identifikationswahrscheinlichkeiten, die sich der Zuverlässigkeit annähern, die Fingerabdrücken in ihrer idealisierten Form zugeschrieben wird. Aber “annähern” ist das operative Wort, und der verbleibende Abstand ist keine technische Kleinigkeit. Er ist der Raum, in dem die Freiheit realer Menschen existiert. Die Mythologisierung des Fingerabdrucks ist für die Bildforensik relevant, weil sie die Interpretationsvorlage vorgibt, durch die Richter und Staatsanwälte alle probabilistischen forensischen Aussagen empfangen, jede Hochwahrscheinlichkeitsaussage als funktional äquivalent zu Sicherheit behandeln und die verbleibende Fehlerwahrscheinlichkeit als philosophische Abstraktion statt als eine real kalkulierbare Größe auffassen, die sich über das Fallvolumen einer Jurisdiktion multipliziert.

Was geschlossene Akten nicht erzählen

Der Fall mit dem maskierten Täter verdient eine konkrete Beschreibung, weil er den Mechanismus, den dieser Text beschreibt, von der Seite des Sachverständigen aus illustriert.

Eine Identifikation war in diesem Fall angeboten worden, die den Täter als “mit hoher Wahrscheinlichkeit” dem Angeklagten zugehörig beschrieb. Das Bildmaterial zeigte eine Person, deren Gesicht erheblich verdeckt war. Die Bildqualität war so gering, dass die sichtbaren Merkmale in ihrer Zahl begrenzt und, was noch wichtiger ist, in der relevanten Population häufig genug waren, um eine schwache Trennschärfe zu bieten. Die Wahrscheinlichkeitssprache im bestehenden Gutachten hatte keine methodische Grundlage in einem mir bekannten Klassifikationssystem, und für die vorliegende Bildqualität und die Anzahl der erkennbaren Unterscheidungsmerkmale war die Schlussfolgerung “mit hoher Wahrscheinlichkeit identisch” keine wissenschaftliche Aussage. Es war eine Schlussfolgerung, gekleidet in wissenschaftliche Sprache, und der Unterschied ist nicht unerheblich, weil Gerichte nicht beurteilen können, was sie nicht sehen.

Ich sagte das. Ich beschrieb die Schlussfolgerung als methodisch nicht belegt, was die zutreffende Beschreibung ist. Der institutionelle Unbehagen, den das auslöste, entsprach ungefähr meiner Erwartung. Aufträge aus diesem Gericht werde ich voraussichtlich nicht mehr erhalten, und ich habe diesen Preis kalkuliert und akzeptiert, weil die Aufgabe eines Sachverständigen nicht darin besteht, die bevorzugte Schlussfolgerung einer Partei zu stützen, sondern darin, dem Gericht eine genaue Analyse des Beweismaterials zu liefern, und wenn das Material die um es herum gebaute Schlussfolgerung nicht trägt, ist die Pflicht des Sachverständigen, das zu sagen, klar und ohne diplomatische Abdämpfung.

Die Datenbank des Innocence Project enthält mehr als 3.300 Freisprüche in den Vereinigten Staaten seit 1989, und in rund 45 Prozent jener Fälle war fehlerhafte Anwendung forensischer Wissenschaft ein Beitragsfaktor (Innocence Project, 2023). Das sind die Fälle, in denen der Fehler sichtbar wurde. Ein Register der Fälle, in denen er nicht sichtbar wurde, existiert nicht, weil die Akten sich schlossen und geschlossen blieben und die Verurteilten ihre Strafen verbüßten und niemand mit den Ressourcen und der Bereitschaft, weiterzuschauen, weitergeschaut hat.

Wahrscheinlichkeit ist das, was die Wissenschaft bietet; Gerechtigkeit ist das, was das Gericht schuldet

Ich habe mit einem 43-sekündigen Video begonnen, und ich möchte dort enden, weil dieses Video die unhintergehbare Situation forensischer Sachverständiger repräsentiert: Etwas geschah, ein Bild wurde aufgenommen, und die Aufnahme ist unvollständig, partiell, verzerrt und mehrdeutig auf Weisen, die keine Bildverarbeitung vollständig beheben kann. Zwischen dieser Aufnahme und einem Urteil steht der Sachverständige, dessen Funktion es ist, das Sichtbare in eine Aussage zu übersetzen, die ein Gericht verwenden kann, und dessen Pflicht es ist, sicherzustellen, dass die Aussage genau und nicht bloß bequem ist.

Wahrscheinlichkeit bietet keine Gewissheit. Wahrscheinlichkeit erlaubt nicht die Gleichsetzung von “sehr wahrscheinlich” mit “sicher”, weil die Lücke zwischen diesen 2 Formulierungen, wie mathematisch eng sie sich manchmal auch schließt, moralisch unendlich ist, wenn das, was in ihr liegt, die Freiheit eines Menschen und die Jahre ist, die diese Freiheit bedeutet. Das System hat sich über Generationen hinweg eine Vorliebe für selbstsichere Schlussfolgerungen gegenüber ehrlicher Unsicherheit aufgebaut, und diese Vorliebe ist nicht irrational im Sinne des Zufälligen: Sie ist die Präferenz einer Institution, die zur Beilegung von Streitigkeiten entworfen wurde, und Unsicherheit beilegt keine Streitigkeiten. Aber Sicherheit, die keine ist, beilegt sie falsch, und der Abstand zwischen diesen Ergebnissen wird in Jahren gemessen, die in einem Raum verbracht werden, in den der Verurteilte nicht gehörte.

Sally Clark verbrachte mehr als 3 Jahre im Gefängnis für Morde, die nicht stattgefunden hatten, auf Grundlage eines statistischen Arguments, das auf eine spezifische, identifizierbare, zuvor dokumentierte Art falsch war, in einem Saal, in dem der Sachverständige, der das Argument vortrug, weder Statistiker noch sich bewusst war, einen der am besten beschriebenen Fehler in der forensischen Wahrscheinlichkeitsrechnung zu begehen, und in einem Rechtssystem, dessen erstes Berufungsgericht befand, dass dies die Sicherheit des Urteils nicht beeinträchtige. Roy Meadows Name wurde schließlich aus dem Ärzteregister gestrichen. Das Urteil wurde schließlich aufgehoben. Keine dieser Konsequenzen gab Sally Clark jene 3 Jahre zurück, und keine änderte die Wahrscheinlichkeit, dass derselbe Fehler morgen in einem Verhandlungssaal irgendwo begangen wird, von einem Sachverständigen, der Thompson und Schumann nicht gelesen hat, in einem Fall, dessen Urteil nicht revisitiert werden wird, weil kein DNA-Material verfügbar ist und keine Organisation die Ressourcen hat, weiterzuschauen.

Der Richter, der eine Wahrscheinlichkeit in eine Gewissheit überführt, weil die Unsicherheit verfahrenstechnisch unbequem ist, übt keine juristische Weisheit. Er begeht einen arithmetischen Fehler und verleiht ihm das Gewicht eines Urteils. Bis Gerichte entweder die statistische Kompetenz entwickeln, diesen Fehler zu vermeiden, oder die Verfahrensarchitektur, um seine Abwesenheit auszugleichen, wird der Schatten, den Wahrscheinlichkeit über die Wahrheit eines jeden forensischen Falls wirft, weiterhin auf jene fallen, die ihn von dort, wo sie sitzen, nicht sehen können.

Quellen

Dror, I. E., Charlton, D., & Péron, A. E. (2006). Contextual information renders experts vulnerable to making erroneous identifications. Forensic Science International, 156(1), 74–78. https://doi.org/10.1016/j.forsciint.2005.10.017
Dror, I. E. (2020). Cognitive and human factors in expert decision making: Six fallacies and the eight sources of bias. Analytical Chemistry, 92(12), 7998–8004. https://doi.org/10.1021/acs.analchem.0c00704
Fraport AG. (2024). Geschäftsbericht 2023. Fraport AG.
Innocence Project. (2023). DNA exonerations in the United States. https://innocenceproject.org/dna-exonerations-in-the-united-states/
Kassin, S. M., Dror, I. E., & Kukucka, J. (2013). The forensic confirmation bias: Problems, perspectives, and proposed solutions. Journal of Applied Research in Memory and Cognition, 2(1), 42–52. https://doi.org/10.1016/j.jarmac.2013.01.001
National Research Council. (2009). Strengthening forensic science in the United States: A path forward. National Academies Press.
Nobles, R., & Schiff, D. (2005). Misleading statistics within criminal trials: The Sally Clark case. Significance, 2(1), 6–10. https://doi.org/10.1111/j.1740-9713.2005.00078.x
President’s Council of Advisors on Science and Technology (PCAST). (2016). Forensic science in criminal courts: Ensuring scientific validity of feature-comparison methods. Executive Office of the President.
Thompson, W. C., & Schumann, E. L. (1987). Interpretation of statistical evidence in criminal trials: The prosecutor’s fallacy and the defense attorney’s fallacy. Law and Human Behavior, 11(3), 167–187. https://doi.org/10.1007/BF01499132