Article

Was 99,72 Prozent in Wahrheit bedeuten: Über die Disziplin der Lebendidentifikation aus Bildern

Mar 12, 2026 | 29 min | anthropology

Language

DE EN

Forensic practitioner identifying a living person from surveillance images

Über die Schwarzfischer-Klassifikation der Identitätswahrscheinlichkeiten, die die deutsche forensische Anthropologie seit über 3 Jahrzehnten prägt, warum die 0,28 Prozent Restunsicherheit im höchsten Prädikat 472 Krankenwageneinsätze pro Tag am Frankfurter Flughafen bedeuten würden, was die ACE-V-Methodik und die AGIB-Standards einem Praktiker tatsächlich abverlangen, und der präzise Grund, weshalb ein erfahrener Sachverständiger eine numerische Prozentangabe vor Gericht verweigert

Das Blitzerfoto kam auf dem üblichen Weg: eingescannt, komprimiert, durch ein Gerichtsverwaltungssystem geschickt, das offensichtlich darauf ausgelegt worden war, maximale Ambiguität aus minimaler Auflösung zu extrahieren. Das Gesicht im Bild nahm auf der Originalaufnahme ungefähr 40 mal 40 Pixel ein, das Ergebnis einer Kamera, die positioniert worden war, um Kennzeichen zu erfassen und nicht um Gesichter zu dokumentieren, was bedeutete, dass die fahrende Person auf eine Anordnung von Lichtwerten reduziert worden war, die mir fast nichts und dem ermittelnden Beamten fast alles sagte, was eine spezifische erkenntnistheoretische Gefahr ist, die ich seit mehr als 2 Jahrzehnten zu korrigieren versuche.

Ich sagte dem Beamten nicht, was er hören wollte. Ich sagte ihm, was das Bild stützen konnte, was erheblich weniger war als seine Arbeitshypothese, und ich dokumentierte präzise warum. Das ist eine Beschreibung von ungefähr 60 Prozent der forensischen Bildidentifikationsuntersuchungen, die ich im Verlauf meiner Karriere durchgeführt habe: Das Beweismaterial reichte für eine Schlussfolgerung nicht aus, die beauftragende Stelle war enttäuscht, und der Befundbericht sagte das schriftlich. Es ist auch eine Beschreibung der Untersuchung, die am häufigsten vermieden wird, wenn Praktiker institutionellen Druck spüren, verwertbare Ergebnisse statt genaue zu produzieren.

Die Disziplin, die dieser Beitrag beschreibt, ist die morphologische Identifikation lebender Personen anhand von Lichtbild- und Videomaterial, ein forensisch-anthropologisches Feld, dessen deutsche Tradition auf Knußmann und Schwarzfischer zurückgeht und dessen internationale Ausprägung durch die Facial Identification Scientific Working Group und das European Network of Forensic Science Institutes kodifiziert wurde. Beide Traditionen überlappen sich in ihrer Methodik substanziell und konvergieren in ihren Schlussfolgerungen, aber die deutsche Tradition hat einen Vorsprung von 3 Jahrzehnten in der Wahrscheinlichkeitsklassifikation, und die internationalen Standards haben einen Vorsprung von 2 Jahrzehnten in der Kontrolle kognitiver Verzerrungen produziert. Ein kompetenter Praktiker arbeitet innerhalb beider Rahmen zugleich.

Was forensischer Bildvergleich ist und was er nicht ist

In der Strafverfolgungspraxis, in der Anklagestrategie und in der Medienberichterstattung besteht eine hartnäckige Verwechslung zwischen 2 substanziell verschiedenen Tätigkeiten, die ein Vokabular, aber keine Methodik teilen.

Die erste ist automatische Gesichtserkennung, bei der ein Algorithmus ein Probe-Bild gegen eine Datenbank von Referenzbildern abgleicht und eine nach Rang geordnete Liste von Kandidatentreffern mit zugehörigen Konfidenzwerten zurückgibt. Die zweite ist forensischer Gesichtsvergleich, bei dem ein geschulter menschlicher Untersucher spezifische morphologische Merkmale von 2 oder mehr Bildern systematisch analysiert und eine Schlussfolgerung darüber formuliert, ob sie ein und dieselbe Person darstellen könnten oder nicht.

Automatische Gesichtserkennung ist nichts weiter als ein Ermittlungswerkzeug. Sie generiert Hinweise. Sie ist in keiner Jurisdiktion mit angemessen entwickelten forensischen Standards die Grundlage einer Identifikationsschlussfolgerung, weil ihr Output eine nach Rang geordnete Liste von Kandidaten ist, die den tatsächlichen Täter enthalten kann oder nicht, und weil ihre dokumentierten Fehlerraten bei Bildern schlechter Qualität, nicht-frontalen Posen und Personen aus demographischen Gruppen, die in den Trainingsdaten unterrepräsentiert sind, von statistisch vernachlässigbar bis operational katastrophal reichen, je nach spezifischem System und Bedingungen (Bergold, A.N., & Kovera, M.B., 2025, Psychological Trauma, 17(Suppl 1), S225-S233). Robert Williams in Michigan, Porcha Woodruff in Detroit, Randal Quran Reid in Georgia: das sind dokumentierte Fälle von Fehlverhaftungen in den Vereinigten Staaten, bei denen automatische Gesichtserkennung falsche Treffer produziert hatte, die untersuchende Beamte dann durch Bestätigungsfehler und unzureichende Prüfung widersprechender Belege als Identifikationen behandelt haben.

Forensischer Bildvergleich ist ein völlig anderes Verfahren. Seine gegenwärtig international anerkannte Methodik ist die morphologische Analyse, der systematische Merkmal-für-Merkmal-Vergleich anatomischer Strukturen, die in 2 oder mehr Bildern sichtbar sind, durchgeführt nach dem ACE-V-Workflow: Analyse, Vergleich, Bewertung und Verifikation (FISWG, 2021; ENFSI, 2018). Die deutsche Variante dieser Methodik, parallel entwickelt und inzwischen gut in die internationalen Standards integriert, operiert unter dem Rahmen, der von der Arbeitsgruppe für anthropologische Identifikation nach Bildern, kurz AGIB, kodifiziert wurde, und folgt der von Schwarzfischer 1992 entwickelten Wahrscheinlichkeitsklassifikation.

Die Schwarzfischer-Klassifikation und was 99,72 Prozent tatsächlich bedeuten

Die Wahrscheinlichkeitsklassifikation, die deutsche Gerichte seit über 3 Jahrzehnten in forensisch-anthropologischen Identifikationsgutachten verwenden, geht auf das Kapitel von Schwarzfischer im Kriminalistik-Handbuch von 1992 zurück (Schwarzfischer, F., 1992, “Identifizierung durch Vergleich von Körpermerkmalen, insbesondere anhand von Lichtbildern”, in: Kube, E., Störzer, O., & Timm, J., Hrsg., Kriminalistik. Handbuch für Praxis und Wissenschaft, Bd. I, S. 735-761, Boorberg Verlag). Die Klassifikation unterscheidet 9 verbale Prädikatskategorien, symmetrisch um eine unbestimmte Mitte angeordnet.

Die Kategorien reichen von “Identität praktisch erwiesen” über “Identität höchst wahrscheinlich”, “Identität sehr wahrscheinlich”, “Identität wahrscheinlich”, “Identität nicht entscheidbar” und setzen sich symmetrisch in den Nichtidentitätsbereich fort mit “Nichtidentität wahrscheinlich”, “Nichtidentität sehr wahrscheinlich”, “Nichtidentität höchst wahrscheinlich” und “Nichtidentität praktisch erwiesen”. Die mittleren Prädikate existieren, um eine ehrliche Äußerung von Unsicherheit zu ermöglichen, und die Klassifikation lehnt explizit die falsche Dichotomie zwischen Identifikation und Ausschluss ab, die weniger reife Vergleichsdisziplinen sich gelegentlich auferlegt haben.

Die numerische Interpretation dieser verbalen Kategorien ist Gegenstand erheblicher methodologischer Debatten. Schwarzfischer ordnete den oberen Kategorien ungefähre Wahrscheinlichkeitsbereiche zu, die seit Anfang der 1990er Jahre in der deutschen forensisch-anthropologischen Gemeinschaft zirkulieren: “Identität höchst wahrscheinlich” entspricht ungefähr 99,00 bis 99,72 Prozent, wobei die höheren Kategorien asymptotisch gegen, aber niemals bis zu 100 Prozent Gewissheit konvergieren. Diese Prozentangaben sind jedoch Referenzwerte für die Verbalfala, nicht numerische Ergebnisse, die dem Gericht anstelle des verbalen Prädikats berichtet werden sollten. Der Grund hierfür ist wichtig und wurde 1991 von Knußmann in seinem Kommentar zu Wahrscheinlichkeitsaussagen in morphologischen Identitätsgutachten formuliert (Knußmann, R., 1991, “Zur Wahrscheinlichkeitsaussage im morphologischen Identitätsgutachten”, Neue Zeitschrift für Strafrecht, 11(4), 175-177): Eine numerische Prozentangabe suggeriert mathematische Präzision, die die zugrundeliegende Methode nicht besitzt, weil die Voraussetzung statistischer Unabhängigkeit und gleicher Gewichtung der Merkmale, die für eine echte probabilistische Quantifizierung erforderlich wäre, in der morphologischen Analyse nicht erfüllt ist.

Die in einem forensischen Bildvergleich beurteilten Merkmale sind nicht statistisch unabhängig. Die Form des Nasenrückens korreliert mit der Form der Nasenspitze; die Orbitalmorphologie korreliert mit dem supraorbitalen Wulst; der Unterkieferkontur korreliert mit dem Gonialwinkel. Die Häufigkeit jeder gegebenen Merkmalskombination in der Allgemeinbevölkerung ist nicht das Produkt der einzelnen Merkmalshäufigkeiten, sondern eine kleinere Zahl, manchmal substanziell kleiner, weil die Korrelationen zwischen Merkmalen die tatsächliche Variationsbreite menschlicher Gesichter unter das komprimieren, was unabhängige Merkmalshäufigkeiten vorhersagen würden. Ein Praktiker, der 127 Merkmale zählt und sie als unabhängige Eingaben in eine Wahrscheinlichkeitsberechnung behandelt, produziert ein Ergebnis, das mathematisch falsch ist, noch bevor die zusätzlichen Probleme variabler Bildqualität, mehrdeutiger Merkmalssichtbarkeit und Populationshäufigkeits-Unsicherheit berücksichtigt werden.

Das ist der Grund, weshalb die deutsche forensisch-anthropologische Tradition die Verbalfala statt einer numerischen Prozentangabe verwendet, und weshalb ein Praktiker, der von einem Gericht nach einer numerischen Entsprechung des höchsten Wahrscheinlichkeitsprädikats gefragt wird, nach meinem Urteil ablehnen sollte, eine solche zu liefern, wobei er klar erklärt warum. Der Bundesgerichtshof hat dieses Charakteristikum der anthropologischen Identifikationsmethodik in seiner Entscheidung von 2005 im Verfahren 1 StR 91/04 (15. Februar 2005, LG Memmingen) ausdrücklich anerkannt: Das Gericht stellte fest, dass es sich, anders als bei Gutachten zur Blutalkoholanalyse oder zur Bestimmung von Blutgruppen, um kein standardisiertes Verfahren handelt, dass die morphologischen Merkmale nicht eindeutig bestimmbar sind, und dass zwischen den Klassifizierungen von Einzelmerkmalen gleitende Übergänge bestehen. Das Gericht verstand 2005, was einige Anklage- und Verteidigungsanwälte noch heute Sachverständige bitten zu übersehen: Forensischer Bildvergleich ist kein standardisiertes Verfahren in dem Sinne, in dem Blutalkoholanalyse standardisiert ist, und ihn als solches zu behandeln produziert falsche Gewissheit statt verbesserter Beweise.

Die Frankfurter Flughafen-Rechnung: Warum 0,28 Prozent keine kleine Zahl ist

Ich habe das folgende Gedankenexperiment seit vielen Jahren in Sachverständigenzeugnissen vor Gericht verwendet, und der Moment des Erkennens in den Gesichtern von Richtern und Anwälten, wenn die Arithmetik sich vollendet, ist konsistent genug, dass ich mich darauf als Lehrmittel verlasse. Das Beispiel nimmt die Obergrenze des Prädikats “Identität höchst wahrscheinlich”, 99,72 Prozent, und fragt, was die verbleibenden 0,28 Prozent in einem Kontext bedeuten, den der Zuhörer intuitiv erfassen kann.

Der Flughafen Frankfurt, Deutschlands größter Luftfahrtdrehkreuz, fertigte 2024 ungefähr 61,6 Millionen Passagiere ab (Fraport AG, 2025, Verkehrszahlen 2024). Gleichmäßig auf 365 Tage verteilt entspricht das ungefähr 168.767 Passagieren pro Tag, die das Terminalkomplex passieren. Würden 99,72 Prozent dieser Passagiere den Tag ohne Zwischenfall durchlaufen, entsprächen die verbleibenden 0,28 Prozent, also genau die Fehlerrate, die im höchsten Wahrscheinlichkeitsprädikat der Schwarzfischer-Skala eingebettet ist, ungefähr 472 Passagieren pro Tag, die medizinische Notfallversorgung benötigen. Das sind etwa 1 Krankenwageneinsatz alle 3 Minuten während des gesamten Betriebstages, jeden Tag, das ganze Jahr über.

Das Gericht, das diese Berechnung hört, hält ausnahmslos inne, weil der Zuhörer gerade eine Zahl, die nach Gewissheit klang, in eine konkrete operationelle Realität übersetzt hat, die offensichtlich nicht dem entspricht, was er unter “höchster Wahrscheinlichkeit” in der Alltagssprache versteht. Eine Anlage mit 472 medizinischen Notfällen pro Tag ist nicht sicher. Ein diagnostischer Test, der 472 falsch-positive Ergebnisse pro Tag in einem Strom von 168.000 Patienten produziert, ist nicht verlässlich. Und eine forensische Identifikationsmethodik, die mit 99,72 Prozent auf einem ausreichend großen Fallvolumen operiert, ist nicht gewiss in dem Sinne, den eine Verurteilung im Strafprozess verlangt.

Der Sinn der Übung ist nicht, das höchste Wahrscheinlichkeitsprädikat zu delegitimieren. Der Sinn ist, explizit zu machen, was das Prädikat tatsächlich enthält: eine Restwahrscheinlichkeit für Fehler, die mathematisch in absoluten Termen klein und operationell substanziell ist, und die der Praktiker die Pflicht hat, ehrlich zu kommunizieren, statt sie durch Sprache überdecken zu lassen, die der Zuhörer als praktische Gewissheit interpretieren wird. Das ist der Unterschied zwischen einem Gutachten, das der Gerechtigkeit dient, und einem Gutachten, das der Anklage oder der Verteidigung dient. Der Sachverständige, der “Identität höchst wahrscheinlich” liefert, ohne zu kontextualisieren, was dieses Prädikat ausschließt und was nicht, hat nicht gelogen; der Sachverständige hat sich lediglich entschieden, die Fehlinterpretation des Konfidenzbereichs durch den Zuhörer die Arbeit machen zu lassen, die das tatsächliche Ergebnis nicht stützt.

Die deutsche methodologische Grundlage: Knußmann, die AGIB-Standards und der Arbeitsprozess

Die Methodik, die der Schwarzfischer-Wahrscheinlichkeitsklassifikation zugrunde liegt, wurde primär in der deutschsprachigen akademischen Tradition von Rainer Knußmann an der Universität Hamburg und seinen Mitarbeitern entwickelt, kodifiziert im Anthropologie-Lehrbuch von 1988 (Knußmann, R., 1988, “Die morphologische Identitätsprüfung”, in: Knußmann, R., Hrsg., Anthropologie. Handbuch der vergleichenden Biologie des Menschen, Band I/1, S. 389-407, Gustav Fischer Verlag). Der Knußmann-Ansatz zerlegt das Gesicht in einen strukturierten Bestand morphologischer Merkmale und bewertet jedes Merkmal unabhängig, bevor die Bewertungen zu einer Schlussfolgerung integriert werden, ein Ansatz, der den internationalen ACE-V-Workflow um mehrere Jahre vorwegnahm und auf derselben erkenntnistheoretischen Logik operiert.

Die deutschen Standards wurden durch die AGIB weiterentwickelt und operationalisiert, eine interdisziplinäre Arbeitsgruppe, deren aktuelles Standards-Dokument “Grundlagen, Kriterien und Verfahrensregeln für Gutachten” in der Fassung vom 16. Dezember 2011 unter bildidentifikation.de verfügbar ist und das operative Referenzrahmenwerk für forensisch-anthropologische Identifikation in deutschen Jurisdiktionen bleibt. Die AGIB-Standards unterscheiden, wichtig, zwischen Wiedererkennen und Identifikation, 2 kognitive Prozesse, die oberflächlich ähnlich aussehen, aber auf grundsätzlich verschiedenen Grundlagen operieren.

Wiedererkennen ist die intuitive Wiedererkennung eines vertrauten Gesichts, ein Prozess, der schnell und weitgehend außerhalb des Bewusstseins abläuft und auf den Gesamteindruck der Gesichtsstruktur zurückgreift, den das Gehirn für vertraute Individuen speichert. Es ist der Prozess, durch den ein Augenzeuge einen Verdächtigen aus einer Gegenüberstellung identifiziert, und er ist allen gut dokumentierten Fehlermodi der Augenzeugen-Identifikation unterworfen, einschließlich der Konfidenz-Genauigkeits-Dissoziation, der Suggestibilität und des Cross-Race-Effekts.

Identifikation, im technischen AGIB-Sinne, ist der systematische Merkmal-für-Merkmal-Vergleich von 2 oder mehr Bildern nach einem dokumentierten Bestand morphologischer Charakteristika, mit expliziter Bewertung der Sichtbarkeit, Konsistenz und Populationshäufigkeit jedes Merkmals. Der Prozess ist langsamer, dokumentierter und reproduzierbarer als das Wiedererkennen, und seine Schlussfolgerungen sind in der verbalen Schwarzfischer-Skala verankert mit der expliziten Anerkennung, dass morphologische Merkmale nicht eindeutig bestimmbar sind und dass zwischen Merkmalskategorien gleitende Übergänge bestehen.

Der Arbeitsprozess in einem typischen Fall folgt einer strukturierten Abfolge. Das Probe-Bild und das Referenzbild werden zunächst unabhängig auf Qualität bewertet, mit besonderer Aufmerksamkeit für Auflösung, Beleuchtung, Pose, Brennweitenverzerrung und etwaige Nachbearbeitung, die Artefakte eingeführt haben könnte. Das Probe-Bild wird dann mit dem Referenzbild ausgerichtet, unter Verwendung der von Reche 1965 entwickelten parallelen-Linien-Methode (Reche, O., 1965, “Eine neue Methode zur Erleichterung der Beweisführung in Identifizierungsprozessen”, Homo, 16, 113-116), bei der horizontale Hilfslinien an korrespondierenden Gesichtslandmarken über beide Bilder gelegt werden, um die relative Orientierung zu standardisieren und posebedingte Verzerrungen freizulegen, die den Vergleich anderenfalls kontaminieren würden.

Der Merkmalsbestand wird dann systematisch durchgearbeitet, beginnend am kranialen Vertex und nach inferior fortschreitend durch die Stirn, die supraorbitale Region, die Orbita, die Nasenstrukturen, die periorale Region, das Kinn und, wo sichtbar, die Ohrmorphologie und die Halsregion. Jedes Merkmal wird in seiner beobachteten Form in jedem Bild beschrieben, und erst dann werden die 2 Beschreibungen verglichen. Diese Abfolge, also in einem Bild beobachten, bevor mit dem anderen verglichen wird, ist keine willkürliche Verfahrenspedanterie; sie ist eine strukturelle Abwehr gegen Bestätigungsfehler, die kognitive Tendenz, Merkmale im zweiten Bild durch den Rahmen der Erwartungen wahrzunehmen, die das erste Bild etabliert hat.

Warum Bestätigungsfehler Identifikationen vergiftet und wie die deutsche Tradition ihn adressiert

Die forensisch-wissenschaftliche Literatur enthält ausreichende Dokumentation des Schadens, den Bestätigungsfehler in Mustervergleichs-Disziplinen verursacht, und der Bildvergleich ist nicht ausgenommen. Stewart und Kukucka (2025) demonstrierten in einer kontrollierten Studie simulierter Gesichtserkennungsaufgaben, dass sowohl kontextuelle Information über Verdächtige als auch automatische Konfidenzwerte die Gesichtsabgleich-Entscheidungen der Teilnehmer signifikant verzerrten, wobei die Teilnehmer ihre Ähnlichkeitsurteile in Richtung der verzerrten Information anpassten, auch wenn diese Information für den tatsächlichen visuellen Vergleich irrelevant war (Stewart, C.K., & Kukucka, J., 2025, Behavioral Sciences, 15(8), 1094).

Die deutsche Tradition adressiert Bestätigungsfehler durch 3 spezifische strukturelle Mechanismen, die seit langem Teil kompetenter forensisch-anthropologischer Praxis sind, lange bevor die kognitiv-psychologische Literatur die zugrundeliegenden Phänomene dokumentierte. Der erste ist die Anforderung, dass der Untersucher blind gegenüber dem Fallkontext arbeitet und das Bildmaterial untersucht und die morphologische Beschreibung produziert, bevor er die Akte, die Polizeihypothese zur Identität oder eine frühere Sachverständigenmeinung überprüft. Der zweite ist die Anforderung, dass jedes Merkmal in jedem Bild unabhängig charakterisiert wird, bevor irgendein Vergleich gemacht wird. Der dritte ist die Anforderung, dass mehrdeutige Merkmale als mehrdeutig dokumentiert werden, statt in Richtung der investigativen Hypothese aufgelöst zu werden.

Meine Praxis bei beauftragten Identifikationsuntersuchungen beginnt mit dem Empfang der Bilder allein, ohne Fallzusammenfassung, ohne biographische Information des Verdächtigen, und ohne die Arbeitshypothese der ermittelnden Behörde zur Identität. Die morphologische Beschreibung wird abgeschlossen und datiert, bevor die Akte geöffnet wird. Das ist keine Verfahrenspedanterie; es ist die Mindestvoraussetzung für die Produktion einer Schlussfolgerung, die nicht durch das Informationsumfeld der Ermittlung kontaminiert ist. Wenn ein Gericht später fragt, ob ein anderer Sachverständiger, der zu einer anderen Schlussfolgerung über dieselben Bilder kommt, etwas falsch macht, hängt meine Antwort vollständig davon ab, ob er dasselbe Blindanalyseprotokoll befolgt hat. Wenn er die Fallzusammenfassung und die Vorstrafen des Verdächtigen vor der Untersuchung der Bilder geprüft hat, ist seine Schlussfolgerung eine Meinung über eine Hypothese, kein Ergebnis einer unabhängigen Analyse.

Der Grundsatz in dubio pro reo ist nicht nur eine rechtliche Konvention, die der forensische Sachverständige auf der Ebene der Endschlussfolgerung ehren muss. Er durchdringt die gesamte Untersuchung bei jeder Merkmalsbewertung, bei jeder Qualitätsbestimmung, bei jedem Urteil darüber, ob ein Unterschied zwischen 2 Bildern einen genuinen morphologischen Widerspruch repräsentiert oder das Produkt von Beleuchtung, Winkel, Ausdruck oder zeitlicher Veränderung ist. Wenn die Belege mehrdeutig sind, muss die Mehrdeutigkeit als Mehrdeutigkeit berichtet werden, nicht in Richtung der Arbeitshypothese der Ermittlung aufgelöst werden. Der Beschuldigte trägt keine Beweislast für Unähnlichkeit, und der forensische Untersucher, der 15 konsistente Merkmale und 3 mehrdeutige findet und eine Identifikation berichtet, ohne die mehrdeutigen Merkmale zu dokumentieren, hat auf der grundlegendsten Ebene ehrlicher Sachverständigenpraxis versagt.

Der Gyrus fusiformis und warum menschliche Gehirne Gesichter anders verarbeiten

Gesichtswahrnehmung ist keine gewöhnliche Allzweck-Sehkognitionsaufgabe wie andere visuelle Verarbeitung. Das menschliche Gehirn hat dedizierte neuronale Infrastruktur für die Gesichtsverarbeitung, zentriert auf den Fusiform Face Area, eine Region des inferotemporalen Kortex im Gyrus fusiformis, die differentielle Antworten auf Gesichter im Vergleich zu anderen komplexen visuellen Reizen von äquivalenter Wahrnehmungsschwierigkeit produziert (Kanwisher, N., McDermott, J., & Chun, M.M., 1997, Journal of Neuroscience, 17(11), 4302-4311). Der inferotemporale Kortex, dessen Teil der Gyrus fusiformis ist, umfasst auch den Sulcus temporalis superior und den anterioren temporalen Lappen und bildet zusammen ein verteiltes Netzwerk, das Identität, Ausdruck und Blickrichtung durch teilweise überlappende, aber unterscheidbare Schaltkreise verarbeitet. Dieses Netzwerk ist innerhalb von Zehntel-Millisekunden nach dem Stimulus-Beginn aktiv und operiert für den Großteil seiner Verarbeitung erheblich unterhalb des Bewusstseins, was erklärt, warum erfahrene Gesichtserkennung sich wie Intuition anfühlt, auch wenn sie das Produkt einer ausgearbeiteten Verarbeitungshierarchie ist.

Was sich mit Expertise entwickelt, ist keine neue neuronale Struktur, sondern eine Verfeinerung dieser bestehenden Infrastruktur. Der Fusiform Face Area nimmt in seiner Selektivität und Präzision seiner Antworten mit der Wahrnehmungsexpertise zu, ein Befund, der nicht nur für Gesichter, sondern für andere Domänen der experten visuellen Mustererkennung einschließlich Radiologie, Schach und Vogelidentifikation dokumentiert ist (Gauthier, I., Tarr, M.J., et al., 1999, Nature Neuroscience, 2, 568-573).

Am extremen Ende dieser Verteilung sitzen Super-Recognizer, Individuen, die ohne formale Ausbildung trainierte forensische Untersucher bei standardisierten Gesichtsabgleichsaufgaben übertrumpfen und unter Bedingungen von Bildverschlechterung, Posevariation und zeitlichem Abstand zwischen Lernen und Testen außergewöhnliche Genauigkeit aufrechterhalten. Der Begriff wurde 2009 von Russell und Kollegen geprägt, und nachfolgende systematische Tests haben etabliert, dass die Fähigkeit in der Population normal verteilt ist, wobei Super-Recognizer ungefähr die obersten 1 bis 2 Prozent der Verteilung repräsentieren (Russell, R., Duchaine, B., & Nakayama, K., 2009, Psychonomic Bulletin and Review, 16(2), 252-257). Eine EEG-Studie von 2024 dekodierte die Gesichtserkennungsfähigkeit von Super-Recognizern aus Gehirnaktivität mit bis zu 80 Prozent Genauigkeit innerhalb von 1 Sekunde nach dem Stimulus-Beginn, das neurophysiologische Substrat dessen, was Praktiker in meinem Fachgebiet manchmal das Lesen eines Gesichts nennen.

Die praktische Implikation für forensischen Bildvergleich ist, dass der Untersucher kein Messinstrument bedient; der Untersucher ist das Instrument, und das Instrument erfordert Kalibrierung. Diese Kalibrierung ist kein theoretisches Wissen. Sie ist die Akkumulation von tausenden Stunden Gesichtsverarbeitung unter Bedingungen deliberater Aufmerksamkeit auf die Merkmale, die unterscheiden und identifizieren, was das neuronale Substrat in einer Weise umstrukturiert, die sowohl die Genauigkeit als auch die Effizienz verbessert, mit der Unsicherheit erkannt wird. Der Untersucher, der über mehr als 2 Jahrzehnte 100.000 Gesichter verarbeitet hat, hat nicht einfach mehr Fakten im Arbeitsgedächtnis; sein Gyrus fusiformis ist durch Gebrauch verfeinert, präzisere Gewichtung relevanter Signale, schnellere Erkennung diagnostischer Merkmalskombinationen, frühere und sauberere Markierung von Fällen, in denen das Beweismaterial keine Schlussfolgerung stützt.

Was der Supermarkt tatsächlich lehrt

Jede Berufsdomäne produziert ihre eigene Form deliberater Praxis, die strukturierte Beschäftigung mit relevanten Stimuli unter Bedingungen, die Leistungs-Feedback geben und den Praktiker über sein aktuelles Kompetenzniveau hinausschieben. In der Musik sind das Tonleitern im Tempo, dann Stücke im Tempo, dann Aufführungen unter Druck. In der Chirurgie ist es das Simulationslabor, dann das beaufsichtigte Verfahren, dann das unabhängige Verfahren mit wachsender Komplexität. Beim forensischen Bildvergleich beinhaltet die relevante Form deliberater Praxis die anhaltende, fokussierte Beschäftigung mit Gesichtern von Personen, die in naturalistischen Umgebungen angetroffen werden, mit systematischer Aufmerksamkeit auf die Merkmalskategorien, die die Methode unter Untersuchungsbedingungen zu beurteilen erfordert.

Ich habe das während der gesamten Dauer meiner Karriere in Form aufmerksamer Beobachtung in Umgebungen praktiziert, in denen große Zahlen unbekannter Gesichter präsent sind: Supermärkte, Bahnhöfe, Einkaufszentren, Wartezimmer. Das Training ist kein gelegentliches Leute-Beobachten. Es ist die disziplinierte Anwendung von Merkmal-für-Merkmal-Aufmerksamkeit auf individuelle strukturelle Elemente des Gesichts, die Gewohnheit, die spezifische Morphologie einer Orbitalregion oder einer Nasenstruktur oder einer Helixmorphologie zu registrieren statt den Gesamteindruck einer Person, und dann, Minuten oder Stunden später, den Versuch, Personen aus verschiedenen Winkeln oder unter verschiedenem Licht wiederzuerkennen. Die Tatsache, dass diese Praxis in einem Supermarkt statt in einem Labor stattfindet, macht sie nicht informal; sie macht sie ökologisch valide in dem Sinne, dass die Betrachtungsbedingungen, partielle Verdeckung, variables Licht, nicht-frontale Winkel, Bewegung, genau die Bedingungen sind, unter denen forensischer Bildvergleich funktionieren muss.

Der neuronale Mechanismus, den diese Praxis engagiert, ist gut charakterisiert. Super-Recognizer-Forschung mit Eye-Tracking hat etabliert, dass Individuen mit überlegener Gesichtserkennungsfähigkeit Gesichtsregionen in einem Muster abtasten, das sich von typischen Beobachtern unterscheidet: systematischere Exploration während der Kodierung, stärkere Gewichtung des oberen Gesichts einschließlich der Augenregion und der Nasenbrücke, und effizientere Extraktion diagnostischer räumlicher Frequenzinformation aus degradierten Stimuli (Dunn, J.D., et al., 2025, Proceedings of the Royal Society B, 292). Der Blick des Experten ist nicht zufällig verschieden vom Blick des Novizen; er ist spezifisch auf die Merkmale trainiert, die die identitätsinformativste Information tragen.

Meine Jahre deliberater Beobachtung haben eine interne Referenzbibliothek von Gesichtern produziert, die nicht bewusst organisiert oder bewusst abgerufen wird, aber das neuronale Substrat darstellt, gegen das neue Gesichts-Stimuli bei der Untersuchung verglichen werden. Wenn ich ein Blitzerfoto betrachte und sofort wahrnehme, dass die Orbitalregion mit dem Vergleichsbild unabhängig von der Bildqualität inkonsistent ist, ist diese Wahrnehmung keine Intuition; sie ist das Produkt einer Trainingsgeschichte, die meinen Gyrus fusiformis dahingehend kalibriert hat, genau diese Art von struktureller Diskrepanz zu erkennen.

Was Bildqualität ändert und was sie nicht ändert

Die technische Verbesserung der Videoüberwachungs-Kameraauflösung in den letzten 20 Jahren ist genuin und operational bedeutsam. Analoge CCTV-Systeme produzierten Bilder, in denen ein Gesicht auf 5 Metern Entfernung ungefähr 5 Pixel Höhe einnahm, was für jede zuverlässige morphologische Analyse unzureichend ist. Zeitgenössische 4K-Überwachungskameras können bei vergleichbaren Entfernungen Gesichtsdetails produzieren, die die Analyse feiner struktureller Merkmale einschließlich der Lage von Muttermalen und Narben-Morphologie stützen, Merkmale, die in der vorherigen Kamerageneration analytisch unsichtbar waren.

Diese Verbesserung ist auch methodologisch relevant speziell für die deutsche Tradition, weil die Schwarzfischer-Prozentbereiche von 1992 gegen die Bildqualität typisch für jene Ära kalibriert wurden. Modernes hochauflösendes Material erlaubt die Beurteilung substanziell mehr morphologischer Merkmale, als der ursprüngliche Schwarzfischer-Rahmen antizipierte, was 2 Implikationen hat. Die erste ist, dass Schlussfolgerungen, die auf einem analogen CCTV-Bild der 1990er Jahre bei “Identität höchst wahrscheinlich” erreichbar waren, auf einem zeitgenössischen 4K-Bild derselben Person bei einem höheren Prädikat erreichbar sein können, weil mehr Merkmale sichtbar sind und mehr individualisierende Charakteristika einschließlich Muttermale, Narben und Hautmikromerkmale zugänglich werden. Die zweite ist, dass der ursprüngliche Referenzbereich von 99,66 bis 99,72 Prozent für das höchste nicht-absolute Prädikat möglicherweise nicht mehr die angemessene numerische Entsprechung für hochauflösende Arbeit ist, weil der Informationsgehalt des modernen Bildes substanziell das übersteigt, was Schwarzfischer charakterisierte.

Das ist der technische Grund, weshalb die Schwarzfischer-Prozentangaben als historische Referenzwerte für die Verbalfala behandelt werden sollten und nicht als operative numerische Umrechnung in einem zeitgenössischen Gutachten. Die Verbalfala trägt sich fort; die Prozentangaben waren eine Momentaufnahme der erreichbaren Gewissheit auf den Geräten der frühen 1990er Jahre. Die Methodik hat sich weiterentwickelt; die verbalen Prädikate haben sich als beständig erwiesen; die numerischen Entsprechungen nicht.

Was die Bildqualitätsverbesserung nicht ändert, ist die erkenntnistheoretische Struktur der Untersuchung. Ein höher aufgelöstes Bild produziert mehr morphologische Merkmale, die beurteilt werden können, was die verfügbare Information erhöht, aber nicht die Anforderung eliminiert, jedes Merkmal ehrlich zu beurteilen und zu dokumentieren, ob es konsistent, inkonsistent oder nicht beurteilbar ist. Die Forschungsliteratur dokumentiert auch, dass suboptimale Bedingungen, schlechte Auflösung, ungünstiger Aufnahmewinkel, nicht-frontale Pose und partielle Verdeckung, die Genauigkeit forensischer Bildvergleiche auch bei geschulten Untersuchern substanziell beeinflussen (PMC8698381, 2021, Biology, 10(12), 1269). Das ENFSI Best Practice Manual spezifiziert einen Bildqualitäts-Triage-Prozess, der jeder forensischen Bildvergleichsuntersuchung vorangehen sollte. Ich wende diese Triage auf jede Untersuchung an, die ich annehme. Ungefähr 20 Prozent der beauftragten Untersuchungen, die ich erhalte, bestehen die Triage nicht und werden mit einer dokumentierten Erklärung zurückgegeben, warum die Bildqualität jede zuverlässige Analyse ausschließt.

Temporale Veränderung, Verkleidung und die Grenzen des Vergleichs über die Zeit

Menschliche Gesichter verändern sich mit der Zeit auf Weisen, für die systematisches Training teilweise kompensieren kann und die ehrliche Untersuchung explizit anerkennen muss. Die knöchernen Superstrukturen des Gesichts, die Orbitalränder, die Jochbögen, der Unterkieferkontur, das Nasenskelett, sind über das Erwachsenenleben hinweg im Wesentlichen stabil, weshalb morphologische Analyse über zeitliche Abstände von Jahren oder Jahrzehnten möglich bleibt, wenn Bilder hoher Qualität sowohl für die Vergleichsperiode als auch für die Probe-Periode verfügbar sind. Die Weichteile des Gesichts, einschließlich der Hautoberflächen-Morphologie, der Fettverteilung und der Muskelmasse, verändern sich kontinuierlich mit Alter, Gewicht, Krankengeschichte und Umweltexposition, und ihr Erscheinen in jedem Bild spiegelt nicht nur die inhärente Struktur, sondern den zeitlichen Zustand dieser Strukturen zum Aufnahmezeitpunkt wider.

Die Untersuchung von Bildern, die durch 10 oder 15 Jahre getrennt sind, erfordert die explizite Anpassung des analytischen Rahmens, um vorhersagbare Alterungsveränderungen in jeder Merkmalskategorie zu berücksichtigen, besonders in der periorbitalen Region, wo Hautelastizitätsverlust progressive Veränderungen in der Oberlidposition und Brauenlage produziert, in der Nasolabialfalten-Region, wo der Weichteilabstieg die scheinbare Form des mittleren Gesichts verändert, und in der zervikalen und mandibulären Region, wo Veränderungen in der Fettverteilung den scheinbaren Winkel und Kontur des Kiefers verändern. Diese Veränderungen sind nicht zufällig; sie folgen Mustern, die auf Populationsebene vorhersagbar sind und die ein erfahrener Untersucher lernt zu modellieren, wenn Bilder über die Zeit verglichen werden.

Verkleidung stellt eine andere Problemkategorie dar. Bewusste Veränderung des Erscheinungsbildes durch Haarfarbwechsel, Gewichtsveränderung, Gesichtsbehaarung, Brillen oder Prothesen kann die morphologische Analyse in spezifischen Merkmalskategorien stören, während sie andere intakt lässt. Eine Person, die einen Vollbart gewachsen hat, hat die unteren Gesichtsstrukturen verdeckt, die substanziell zur morphologischen Analyse beitragen, hat aber die Orbitalregion, die Nasenstruktur und die Ohrmorphologie nicht verändert, die für die Beurteilung verfügbar bleiben. Die Aufgabe des Untersuchers ist es, zu identifizieren, welche Merkmale trotz der Veränderung beurteilbar bleiben, sie zu beurteilen, und explizit zu dokumentieren, was nicht beurteilt werden kann und warum.

Was der Bundesgerichtshof gesagt hat und was es in der Praxis bedeutet

Der Bundesgerichtshof adressierte den methodologischen Status anthropologischer Identifikation in seiner Entscheidung von 2005 im Verfahren 1 StR 91/04 (15. Februar 2005, LG Memmingen). Die Entscheidung erkannte an, dass anthropologische Identitätsgutachten keine standardisierten Verfahren in dem Sinne sind, in dem Blutalkoholanalyse oder Blutgruppenbestimmung standardisiert sind, dass morphologische Merkmale nicht eindeutig bestimmbar sind, und dass zwischen Merkmalskategorien gleitende Übergänge bestehen. Das Gericht hat die Methodik nicht entwertet; es hat die Bedingungen spezifiziert, unter denen ein anthropologisches Gutachten als Beweismittel in Strafverfahren zulässig ist. Der Sachverständige muss die verwendete Methodik, die bewerteten Merkmale, die berücksichtigten Populationshäufigkeiten und die Grundlage für das endgültige Wahrscheinlichkeitsprädikat dokumentieren. Das Urteil des Gerichts muss eine unabhängige Bewertung der Stärke des präsentierten Beweismaterials enthalten, nicht bloß eine ehrerbietige Akzeptanz der Schlussfolgerung des Sachverständigen.

Diese Entscheidung hat 2 Jahrzehnte forensisch-anthropologischer Praxis in Deutschland geprägt. Die Gutachten, die ich produziere, beschreiben jedes bewertete Merkmal, sein Erscheinen in jedem Bild, seine Konsistenz oder Inkonsistenz, die für seine Beweiskraft relevante Populationshäufigkeit und die Argumentationskette, die vom Merkmalsbestand zum endgültigen Prädikat führt. Ein Verteidiger, der eine Identifikation anfechten möchte, hat in einem solchen Gutachten die dokumentarische Grundlage für diese Anfechtung: Jeder Schritt ist benannt und kann geprüft werden. Ein Anwalt, der versucht, ein Identifikationsgutachten anzufechten, dem diese Dokumentation fehlt, hat nach meiner Erfahrung eine leichtere Aufgabe als einer, der versucht, eine vollständig dokumentierte Analyse anzufechten, weil das Fehlen von Dokumentation selbst ein methodischer Mangel ist, den der BGH-Rahmen ausdrücklich nicht zulässt.

Wenn ein Gericht eine Zahl verlangt: Die Antwort des Praktikers

Ich wurde im Februar 2025 vom Verteidiger in einem Verfahren am Landgericht Nürnberg-Fürth gebeten, eine numerische Prozent-Entsprechung von “Identität höchst wahrscheinlich” in einem Identifikationsgutachten anzugeben, das ich dem Gericht eingereicht hatte. Meine Antwort, schriftlich am 27. Februar 2025 übermittelt, lehnte die angefragte numerische Angabe ab und erklärte warum. Der Kern dieser Erklärung lohnt die Wiedergabe hier in der Substanz, weil sie die prinzipielle Position erfasst, die die deutsche forensisch-anthropologische Tradition seit mehr als 3 Jahrzehnten gehalten hat.

Eine numerische Prozentangabe würde eine mathematische Präzision suggerieren, die die zugrundeliegende Methodik nicht besitzt. Die bewerteten Merkmale sind nicht statistisch unabhängig in der Weise, die für eine echte probabilistische Quantifizierung erforderlich wäre. Die Schwarzfischer-Prozentbereiche wurden gegen Bildqualität aus den frühen 1990er Jahren kalibriert und können nicht unverändert auf modernes hochauflösendes Material übertragen werden. Das verbale Prädikat “Identität höchst wahrscheinlich” stützt sich im konkreten Fall auf die kumulative Gewichtung von 127 bewerteten Merkmalen statt auf eine numerische Berechnung. Die Frage nach einem konkreten Prozentsatz verkennt grundlegende Prinzipien probabilistischer Bewertungen innerhalb dieser Disziplin.

Das Gericht fand diese Antwort nicht ausweichend. Es fand sie responsiv, weil sie sowohl erklärte, warum eine numerische Entsprechung in diesem Fall unangemessen war, als auch, worauf das verbale Prädikat den Zeugen verpflichtete und worauf nicht. Der Praktiker, der eine solche Frage durch das Erfinden einer Zahl beantwortet, tut der Disziplin keinen Gefallen und, wichtiger, dem Beschuldigten keinen Gefallen: Die erfundene Zahl erzeugt einen falschen Eindruck von Präzision, den das tatsächliche Beweismaterial nicht stützt.

Polemische Vorwarnung

Ich möchte klar benennen, was forensischer Bildvergleich nicht ist, weil die Verwirrung darüber, was er ist, reale Konsequenzen produziert, die ich in Gerichtssälen und in der Kommunikation mit Ermittlungsbehörden während der gesamten Dauer meiner Karriere beobachtet habe.

Er ist kein Fingerabdruckvergleich und sollte auch nicht als solcher präsentiert werden. Daktyloskopischer Vergleich operiert auf stabilen anatomischen Strukturen mit quantifizierbaren Merkmalszählungen, die internationale Identifikationsstandards erfüllen. Faciale morphologische Vergleiche operieren auf Merkmalen, die mit Beleuchtung, Winkel, Ausdruck, Alter und einem Dutzend anderer Faktoren variieren, die der Praktiker explizit modellieren und dokumentieren muss. Die Anwendung der Fingerabdruck-Identifikationssprache auf Bildvergleiche überzeichnet, was die Methode liefern kann, und schadet der Glaubwürdigkeit beider Disziplinen.

Er ist kein unfehlbares Verfahren und sollte auch nicht so beschrieben werden. Die 0,28 Prozent Restunsicherheit, die im höchsten nicht-absoluten Schwarzfischer-Prädikat eingebettet ist, die 472 hypothetischen Krankenwageneinsätze pro Tag am Flughafen Frankfurt, ist keine rhetorische Übertreibung; sie ist der tatsächliche erkenntnistheoretische Gehalt von “höchst wahrscheinlich”, wenn auf ein ausreichend großes Fallvolumen angewendet. Das Gericht, das ein solches Prädikat hört, sollte sowohl die Stärke des Beweismaterials als auch die Restunsicherheit verstehen, die es nicht eliminiert.

Er ist keine Feststellung der Schuld des Beschuldigten. Eine zuverlässige Identifikation des Beschuldigten als die Person, die das Fahrzeug zum Tatzeitpunkt führte, etabliert nicht, dass die Tat begangen wurde, dass der Beschuldigte der Täter war statt einer Person, die das Fahrzeug für den Täter führte, oder dass die Kette der faktischen Inferenz vom Fahrer zum Beschuldigten anderweitig ungebrochen ist. Die Identifikation ist ein Input unter vielen, und der Sachverständige, der zulässt, dass seine Meinung als mehr präsentiert wird, hat die Grenze seiner Methodik überschritten.

Er ist nichts, was Erfahrung allein für Methode substituieren kann. Ich habe Fälle neben Praktikern untersucht, die auf der Grundlage von Erfahrung überzeugt und auf der Grundlage von Belegen falsch lagen. Überzeugung und Genauigkeit sind nicht dieselbe Variable. Das Fachgebiet hat in den vergangenen 3 Jahrzehnten erhebliche Anstrengungen unternommen, Methoden zu entwickeln, deren Genauigkeit innerhalb der Grenzen der zugrundeliegenden Erkenntnistheorie quantifiziert werden kann, genau weil quantifizierte Genauigkeit das ist, was Gerichte fordern sollten und was der Beschuldigte und die Opfer von Straftaten verdienen.

Das Maß einer Methode ist ihre Ehrlichkeit über ihre Grenzen

Forensischer Bildvergleich wurde über die Jahrzehnte nicht durch die Schwierigkeit der Aufgabe untergraben, sondern durch Praktiker, die diese Schwierigkeit verborgen haben, die Identifikationen angeboten haben, wo die Belege nur Konsistenz stützten, und die versäumt haben, die Merkmale zu dokumentieren und offenzulegen, die nicht zur erwarteten Schlussfolgerung passten. Die Glaubwürdigkeit der Disziplin bei Gerichten und in der Öffentlichkeit ist direkt proportional zur Bereitschaft ihrer Praktiker, präzise und ohne Entschuldigung zu sagen, was das Beweismaterial tut und nicht tut.

Die Schwarzfischer-Skala hat ihren Stand seit mehr als 3 Jahrzehnten behauptet, nicht weil sie die höchstmöglichen Wahrscheinlichkeitsprädikate generiert, sondern weil sie die volle Bandbreite der Beweisstärken aufnimmt, die die zugrundeliegende Methode liefern kann, einschließlich des nicht-schlüssigen mittleren Prädikats, das einige Praktiker zu nutzen vermeiden, weil es beauftragende Parteien enttäuscht. Eine Untersuchungskultur, die die volle Bandbreite der Skala konsistent verwendet, einschließlich der nicht-schlüssigen Prädikate, wenn die Belege nicht-schlüssig sind, produziert eine Sammlung von Sachverständigengutachten, auf die Gerichte sich verlassen können. Eine Untersuchungskultur, die die Skala in Richtung Identifikation oder Ausschluss komprimiert, weil das die Prädikate sind, die beauftragende Parteien wollen, produziert Gutachten, deren Glaubwürdigkeit im Gerichtssaal mit der Zeit erodiert und zur methodologischen Skepsis beiträgt, der einige forensische Disziplinen aktuell ausgesetzt sind.

Das Blitzerfoto, das mit 40 mal 40 Pixeln ankam, war nicht identifizierbar. Der korrekte Befundbericht hat genau das schriftlich festgehalten. Die Ermittlung erhielt nicht die Schlussfolgerung, die sie suchte. Der Beschuldigte wurde nicht aus einem Bild identifiziert, das niemanden identifizieren konnte. Das ist kein Versagen der Untersuchung; es ist die Untersuchung, die so funktioniert, wie sie funktionieren soll, nämlich die Schlussfolgerungen, die das Beweismaterial erlaubt, einzuschränken statt sie auf die Schlussfolgerungen auszudehnen, die die Ermittlung benötigt.

Jedes Gesicht, das ich in mehr als 2 Jahrzehnten sorgfältig betrachtet habe, war ein Kalibrierungsereignis für das neuronale Instrument, das ich zum Betrachten von Gesichtern verwende. Jede Untersuchung, die ich als nicht schlüssig zurückgegeben habe, war ein Beitrag zur Glaubwürdigkeit jeder Untersuchung, die ich bei “Identität höchst wahrscheinlich” zurückgegeben habe, weil das höchste Prädikat nur dann etwas Spezifisches bedeutet, wenn das nicht schlüssig ebenfalls etwas Spezifisches bedeutet. Der Sachverständige, der niemals ein nicht schlüssig zurückgibt, hat keine besseren Belege als der Sachverständige, der 20 Prozent nicht-schlüssige Schlussfolgerungen zurückgibt; er hat eine andere Beziehung zum Wahrheitsgehalt seiner Verbalfala, was ein Euphemismus für eine messbare Menge professioneller Unehrlichkeit ist.

Die 472 Krankenwageneinsätze am Flughafen Frankfurt werden mich auf einer ausreichend langen Zeitachse finden. Die Frage ist nicht, ob das höchste Wahrscheinlichkeitsprädikat gelegentlich falsch liegt; die Frage ist, ob das Gutachten, das es liefert, die Restunsicherheit ehrlich genug anerkennt, dass das Gericht die Information hat, die es braucht, um die Beweise angemessen zu gewichten. Die Arithmetik selbst lügt nicht über ihren eigenen Gehalt. Der Praktiker, der diese Arithmetik liefert, tut es manchmal. Sich dagegen zu entscheiden, ist der gesamte Beruf.

Quellen

AGIB. (2011). Standards für die Identifikation lebender Personen nach Bildern: Grundlagen, Kriterien und Verfahrensregeln für Gutachten, Fassung vom 16. Dezember 2011. Arbeitsgruppe für anthropologische Identifikation nach Bildern. https://bildidentifikation.de
Bate, S., Portch, E., & Mestry, N. (2021). When two fields collide: Identifying “super-recognisers” for neuropsychological and forensic face recognition research. Quarterly Journal of Experimental Psychology, 74(12), 2143-2160.
Bergold, A.N., & Kovera, M.B. (2025). The contribution of facial recognition technology to wrongful arrests and trauma. Psychological Trauma, 17(Suppl 1), S225-S233.
Bundesgerichtshof. (2005). Urteil vom 15. Februar 2005, 1 StR 91/04 (LG Memmingen). Anthropologisches Identitätsgutachten und Anforderungen an die Beweiswürdigung.
Dunn, J.D., Varela, V., Popovic, B., Summersby, S., Miellet, S., & White, D. (2025). Super-recognizers sample visual information of superior computational value for facial recognition. Proceedings of the Royal Society B, 292.
ENFSI. (2018). Best Practice Manual for Facial Image Comparison, ENFSI-BPM-DI-01, Version 01, Januar 2018. European Network of Forensic Science Institutes.
ENFSI. (2018). Best Practice Manual for Forensic Image and Video Enhancement, ENFSI-BPM-DI-02, Version 01, Juni 2018. European Network of Forensic Science Institutes.
FISWG. (2012). Guidelines for Facial Comparison Methods, Version 1.0. Facial Identification Scientific Working Group.
FISWG. (2021). Image Factors to Consider in Facial Image Comparison. Facial Identification Scientific Working Group.
Fraport AG. (2025). Verkehrszahlen 2024: Flughafen Frankfurt am Main. https://www.fraport.com
Gauthier, I., Tarr, M.J., Anderson, A.W., Skudlarski, P., & Gore, J.C. (1999). Activation of the middle fusiform ‘face area’ increases with expertise in recognizing novel objects. Nature Neuroscience, 2, 568-573.
Huckenbeck, W., & Gabriel, P. (2013). Identifikation lebender Personen auf Bildern. Rechtsmedizin, 23, 251-262. Springer Verlag.
Kanwisher, N., McDermott, J., & Chun, M.M. (1997). The fusiform face area: A module in human extrastriate cortex specialized for face perception. Journal of Neuroscience, 17(11), 4302-4311.
Knußmann, R. (1983). Die vergleichende morphologische Analyse als Identitätsnachweis. Strafverteidiger, 3, 127-129.
Knußmann, R. (Hrsg.). (1988). Anthropologie. Handbuch der vergleichenden Biologie des Menschen, Band I/1. Gustav Fischer Verlag, Stuttgart.
Knußmann, R. (1991). Zur Wahrscheinlichkeitsaussage im morphologischen Identitätsgutachten. Neue Zeitschrift für Strafrecht, 11(4), 175-177.
PMC8698381. (2021). Forensic facial comparison: Current status, limitations, and future directions. Biology, 10(12), 1269.
Reche, O. (1965). Eine neue Methode zur Erleichterung der Beweisführung in Identifizierungsprozessen. Homo, 16, 113-116.
Rösing, F.W. (2006). Identifikation von Personen auf Bildern. In: G. Widmaier (Hrsg.), Münchner Anwaltshandbuch Strafverteidigung. C.H. Beck, München.
Rösing, F.W. (2008). Morphologische Identifikation von Personen. In: J. Buck & H. Krumbholz (Hrsg.), Sachverständigenbeweis im Verkehrsrecht. Nomos-Verlag, Baden-Baden.
Russell, R., Duchaine, B., & Nakayama, K. (2009). Super-recognizers: People with extraordinary face recognition ability. Psychonomic Bulletin and Review, 16(2), 252-257.
Schwarzfischer, F. (1992). Identifizierung durch Vergleich von Körpermerkmalen, insbesondere anhand von Lichtbildern. In: E. Kube, O. Störzer, & J. Timm (Hrsg.), Kriminalistik. Handbuch für Praxis und Wissenschaft, Band I, S. 735-761. Boorberg Verlag, Stuttgart.
Stewart, C.K., & Kukucka, J. (2025). Cognitive bias affects perception and decision-making in simulated facial recognition searches. Behavioral Sciences, 15(8), 1094.