Vortrag an der KHM, Köln . 13.11. 1996
Copyright by Stefan Heidenreich
Die Ausgangsfrage ist:
Wie kann man Bilder finden ? Etwas zu finden heißt, aus einer Menge von
Elementen dasjenige auswählen, das gesucht ist. Etwas zu suchen ist immer
ein paradoxes Vorhaben. Schließlich will man etwas haben, das man nicht
hat. Aus diesem Paradoxon helfen gewöhnlich zwei Verschiebungen. Entweder
wird eine Differenz der Zeit eingefährt oder eine Regel der Ersetzung.
Die Differenz der Zeit besagt ganz einfach, daß wir etwas suchen, das wir
schon einmal gehabt haben. Die Differenz der Regel sagt, daß wir sagen
können, was wir nicht haben. Eine solche Aussage heißt Frage. Was
gesucht wird, ist die Antwort. Woher können wir wissen, daß das was
wir gefunden haben, das ist, was wir suchen ? Das Paradoxon des Findens erlischt
nach den Regeln, in denen es sich entfaltet: entweder wir finden etwas, das
wir schon kennen und wiedererkennen, oder wir finden etwas, von dem die Regel
der Frage uns sagt, daß es das gesuchte ist.
Beide Strategien können ineinander überführt werden. Wittgenstein
hat versucht, die Dimension der Zeit durch eine der Regel zu ersetzen.
"Wenn man mich fragt:' Hast du deinen Schreibtisch wiedererkannt, wie Du heute
morgen in dein Zimmer getreten bist?' so würde ich wohl sagen:
'gewiß!' und doch ist es irreführend, das was sich da abgespielt
hat, ein 'Wiedererkennen' zu nennen. Gewiß, der Schreibtisch war mir nicht
fremd, ich war nicht überrascht ihn zu sehen, wie ich es gewesen wäre,
wenn ein anderer dagestanden hätte oder ein fredmartiger Gegenstand.
(Philosophische Grammtik, 165)" Wittgenstein erkennt den Schreibtisch nicht, weil
er ihn schon kennt, sondern weil er einer Regel der Ersetzung folgt,
nämlich nicht ersetz worden zu sein.
Programmierer dagegen machen ihre Regel der Ersetzung, ihren Algorithmus ganz
von einer Differenz der Zeit abhängig. Donald Knuth formuliert das Problem
des Suchens so: "How to find the Data that has been stored with a given
information.(Sorting and Searching 4??)" Die Daten waren also schon einmal da.
Und das eigentliche Problem des Programmierers ist, sie so schnell wie
möglich zu finden - ein weiterer Schritt im Horizont der Zeit.
Ich möchte vorerst, solange es um etwas im Medium geht, beim Computer
bleiben. Was an Oberflächen steht, würde ich eher der
Wittgensteinschen Logik zuordnen, dafür spricht schon der Ausdruck User,
der der etwas gebraucht. Das heißt, vorerst gehe ich mit Knuth davon aus,
daß es die gesuchten Bilder schon einmal gegeben hat, daß sie als
Daten verfügbar sind. Unter dieser Voraussetzung ergibt sich die
nächste Aufgabe unmittelbar. Daten, die vorliegen, können vor der
Suche sortiert werden.
Sortieren heißt, wiederum nach einem Lehrbuch der Informatik, eine Reihe
von Elementen so anzuordnen, das zwischen ihnen eine Relation gilt. Eine solche
Relation wäre etwa : größer als. Angenommen die Menge besteht
aus Zahlen, so heißt das nichts weiter, als daß die höchste
Zahl nach dem Sortieren am Anfang der Menge steht, die niedrigste an ihrem Ende
. Es sei daran erinnert, daß in einem digitalen Speicher alle Daten als
Zahlen gelesen werden können, einerlei ob Töne, Bilder oder Texte.
Eine stilllschweigende Voraussetzung des Sortierens ist zu bedenken. Die zu
sortierenden Elemente stehen in einem Speicher, oder werden zumindest
gespeichert. Der Speicher ist eine Reihe von Stellen. An diesen Speicherstellen
stehen die Elemente. Die Stellen des Speichers tragen Nummern, sie haben
Adressen. Und die Adressen selbst sind von Anfang an sortiert in aufsteigender
Reihenfolge sortiert.
Das Sortierproblem läßt sich ausgehend von dieser Voraussetzung
etwas allgemeiner formulieren. Es geht dann nicht mehr einfach darum, eine
Ordnungsrelation zwischen Elementen einer Menge aufzustellen, sondern um etwas
anderes. Sortieren heißt dann, einen Speicher so einzurichten, daß
zwischen einer Adresse und ihrem Inhalt eine Beziehung besteht. Was
größer ist, steht an einer höheren Adresse, beispielsweise.
Kehren wir von hier zur Anfangsfrage zurück: Wie kann man Bilder finden?
Es gilt weiterhin die Voraussetzung, daß wir von einer Menge gegebener
Bilder ausgehen, in der wir ein bestimmtes finden wollen. Folgen wir dem oben
genannten Schema. Zuerst werden die Bilder sortiert. Sortieren heißt,
etwas so anzuordnen, daß es leicht gesucht werden kann. Insofern ist
das Sortieren immer auf die Art der Suche bezogen. Wie oben angezeigt, ist bei
der Suche eine der beiden Verschiebungen nötig: entweder eine der Zeit
oder eine der Regel. Entweder wir kennen das gesuchte Bild schon, oder wir
können eine Frage formulieren, zu der es als Antwort paßt.
Lassen sich diese beiden Differenzen im Medium der Sprache noch ineinander
umformulieren, so wird das im Medium der Bilder beträchtlich erschwert.
Warum ? Entweder wir stellen eine Frage nach dem Bild, dann bewegen wir uns
im Feld der Sprache. Es gibt keine Grammatik in Bildform, die es erlaubte,
Fragen zu gestellen. Im anderen Fall kennen wir das Bild schon, das wir suchen.
Wie können wir es suchen, wenn nicht nach Regeln ?
Ich spreche zuerst über die Logik der Sprache. Es gibt eine antike
Tradition der Übersetzung von Bildern in Text, Ekphrasis, die Kunst der
Bildbeschreibung, und es gibt eine Reihe von neueren Techniken, die dasselbe
leisten. Als Beschriebenes läßt sich jedes Bild in Textform
adressieren. Im Modus der Beschreibung geht die Dimension der Zeit verloren,
da die Regel der Ersetzung regiert. Beschriebene Bilder haben, anderes gesagt,
keine Zeit. Lessings Laokoon diskutiert diesen Zusammenhang ausführlich.
Wohl aus diesem Defizit zwischen Zeiten und Bildern war die Wissenschaft der
Bilder immer eine Geschichte, nämlich die Kunstgeschichte, und vielleicht
deshalb wurde sie auch von Winckelmann an einer Kunst begründet, die es
damals nicht mehr gab (ich verdanke diesen Hinweis Peter Geimer). Die
größte und titelgebende Sorge dieser Wissenschaft ist es, die Zeit
wieder herbeizuschreiben, in Form von Geschichte.
Liegt eine Übersetzung von Bildern in Text vor, so können alle
konventionellen Operationen der Textverarbeitung zum Ausgang der Operation
Sortieren werden. Ich streife die Verfahren der Kunstgeschichte nur, um dann
zu Verfahren in technischen Medien überzugehen. Bilder können nach
den Jahreszahlen ihrer Entstehung aufgereiht werden, sie können in der
alphabetischen Reihenfolge der Künstler sortiert werden, oder nach ihren
Motiven eingeteilt werden.
Seit mehr als 150 Jahren gibt es eine zweite Methode, Bilder in eine Art von
Text zu verwandeln. Diese Variante der Ekphrasis heißt schlicht und
einfach Scanning oder Digitalisierung. Ein digitales Bild ist ein Feld von
Symbolen.
Es gibt nun sehr viele verschieden Verfahren, die Zahlen, die das Bild sind,
in andere Zahlen oder Wörter zu verwandeln, die sortiert, gesucht und
gefunden werden können. Ich will auch hier nur ein paar nennen. Zuerst
sind das es einfache statistische Methoden. Das Bild wird als Stichprobe in
einer großen Menge von Bildern behandelt und nach Eigenschaften wie
Mittelwert, Varianz, Streuung oder ähnlichem bewertet. Das heißt,
es erhält einen Wert zugewiesen. Ein solcher Wert könnte etwa sein:
dieses Bild enthält die zu Grau zählenden Farben zu 65 %. In einem
solchen Archiv könnte man schon Lösungen auf mein eingangs
erwähnte Suche nach grauen Bildern finden. In diesem Wert verschwinden
die wesentliche Eigenschaft eines Bildes, die Stelle der Bildpunkte.
Ein ungleich komplizierteres Verfahren ist das, sich nicht mit numerischen
Werten zufriedenzugeben, sondern auf eine automatische Bilderkennung
hinzuarbeiten. Das heißt, das Bild automatisch zu beschreiben. Es lohnt
sich, diese Beschreibungsweise ein wenig genauer zu verfolgen. Beschreiben
heißt allgemein, einen Begriff zum Bild zu setzen. Begriffe, die gesehen
werden können, denn selbstverständlich können nur solche in
Bildern gefunden werden, beziehen sich normalerweise auf Gegenstände,
Objekte. Ein Bild als eine Fläche von Pixeln enthält dann ein oder
mehrere Objekte. Mann kann sagen: die Objekte in einem Bild müssen
herausgefunden werden. Von der anderen Seite, nämlich der der Bilddaten,
kehrt sich die Frage ein wenig um: welche Teile des Bildes gehören
zusammen, und machen als zusammengehörige ein Objekt aus. Auf dem Weg zu
den Objekten muß das Bild folglich in Teile unterteilt werden. Ein Bild
zu teilen heißt, die Grenze der Teile zu finden. Grenzen zu finden, das
ist: die Differenz bilden. Genau das Verfahren, wenn auch in der umgekehrten
Reihnfolge, nämlich vom Ziel zum Startpunkt, verfolgt der Klassiker der
Bilderkennung von David Marr: Vision. Ich will die Bildung von Differenzen im
Bild nach dem Marrschen Schema kurz erläutern, weil sie eine einfache
Methode ist. Eine einfache Methode, die zu ganz schwerwiegenden Komplikationen
geführt hat. (mündlich ausgeführt.)
Nachtrag 24.2.97: Das Verfahren beruht auf der Anwendung eines
einfachen Filters der die Differenz zwischen zwei verschiedenen
Gauss-Filtern bildet. (Delta of 2 Gauss oder DoG-Filter genannt.)
Man kann sich diese Methode einfach vor Augen führen, wenn man
sich vorstellt, zwischen einem scharfen Bild und einer unscharfen
Kopie desselben Bildes würde die Differenz gebildet. Der
Unterschied, der bleibt, gibt die Kanten im Bild wieder. Das
Problem liegt ganz allgemein inder Einführung der Differenz,
die auch avant la lettre einen groß Teil der Komplikationen
nach sich zieht, die ihr Derrida zuschreibt.
Mit der Bildung von Differenzen sind wir am Kern jeder Bildbeschreibung
angelangt. Dort liegt der Unterschied zwischen Schreiben oder besser Lesen auf
der einen und Sehen auf der anderen Seite. Sehen macht im Gegensatz zu Lesen
keine Unterschiede. Ich gestehe ein, daß es dieses Sehen so nicht gibt.
Es ist ein idealisierter Begriff vom Sehen. Ich nehme diese Idealisierung
allerdings nicht irgendwoher, sondern genau von der Stelle, an der die
Diskussion um technische Medien spielt: der Schnittstelle zwischen Medien und
menschlichem Auge. Gerade technische Medien stehen mit ihrem Prinzip,
Wahrnehmungsschwellen zu unterlaufen, dafür, alle wahrnehmbaren
Differenzen abzuschaffen. Diesem Prinzip entspricht ein solches idealisiertes,
differenzfreies Sehen.
Bilder nicht zu sehen,sondern zu lesen, heißt immer, etwas zu erkennen,
immer: im Bild ein Zeichen oder einen Begriff zu setzen. Damit kommt eine
Differenz ins Spiel, nicht die zwischen Zeichen und Bezeichnetem, sondern
zwischen zwei unterschiedenen Elementen überhaupt. Es ist also nicht die
Differenz, der Derrida in seiner Logik der Ersetzung nachspürt, sondern eine
schlichte Frage des technischen Standards. Diskrete Kanäle verlangen
Zeichen. Ein Zeichen zu benutzen heißt, ein Element aus mehreren
auszuwählen. Das verlangt eine Entscheidung. Ich sage das, um schon hier
darauf hinzuweisen, daß das Archiv stets auf eine bestimmte Weise,
nämlich der der Entscheidung, an den Gebrauch von Zeichen gebunden zu
sein scheint. Ich komme später darauf zurück, wenn es um die
Oberfläche eines Archivs geht, die differenzfrei sein soll.
Doch zurück zum digitalen Bild. Die Kantenerkennung, Edge Detection, macht
den Anfang im Differenzieren eines Bildes. An ihrem Ende steht immer ein
Zeichen, eine Zahl oder ein Begriff. Symbole haben generell den großen
Vorteil, eine Reihenfolge zu haben, und sei sie bloß konventionell wie
das Alphabet. Zeichen lassen sich ohne weiteres sortieren. Indem ein Zeichen
an ein Bild geheftet wird, kann man durch das Sortieren der Zeichen die Bilder
sortieren. Man darf aber nicht vergessen, daß das, was dann laufende
Adressen hat, nicht Bilder sind, sondern eben Zeichen. Sortieren von Bilder
wird ersetzt durch Sortieren von Begriffen.
In diesem Archiv der Zeichen lassen sich Begriffe, Zahlen oder Wörter
suchen. Es findet eine Art von Textverarbeitung mit angehängten Bildern
statt. So funktionieren die meisten Bildarchive, beispielsweise der
kunsthistorische ICONCLASS Katalog sowie die Variante davon, die am Marburger
Bildarchiv läuft, oder auch fächerspezifische Expertensysteme, die
eben mehre Begriffe sowie das, was deren Inhalt genannt wird, miteinander zu
komplexen Suchvorgaben verbinden. Die Suche bleibt grundsätzlich im
Horizont von Textverarbeitung. Und diese Textverarbeitung mit Bildanhang hat
auch ihren Sinn, solange es sich lohnt, das Feld der Bilder zu verlassen.
Worin liegt der Vorteil, die Bilder zu verlassen und auf den Signifikanten
überzuspringen? Man kann gut mit Lacan antworten: die Blödheit. Es
ist die Blödheit des Signifikanten, die ihn so beliebt macht. Die
Blödheit des Signifikanten, liegt darin, daß er nicht etwas bedeutet.
Wir kommen in den Genuß dieser Blödheit etwa, wenn wir in einem
Text nachschlagen, der der Ordnung des Signifkanten folgt, dem Lexikon. Was
hier aufeinander folgt, hat nichts miteinander zu tun, außer dem
Buchstaben.
Um weiterzukommen, empfiehlt es sich, die Blödheit des Signifkanten ein
wenig technischer zu fassen, und Lacan, so lustig er auch ist, zu verlassen.
Schließlich spielt sie in unserem Fall in technischen Medien. Aber auch
"Computer sind doof." Es wäre paradox, im Computer ein Bildarchiv
installieren zu wollen, das nicht auch selbst irgendwo blöde ist. Aber es
ist möglich, diese Blödheit zu verstecken. Seit Einführung der
Rasterbildschirme als Schnittstelle zum Computer wird das immer besser
praktiziert, mit den grafischen Benutzeroberflächen und mit der Maus. Es
fragt sich, ob man die Aufgabe "Computer klüger zu machen"(F.Kittler)
damit erfüllte, wenn man nur versucht, ihre Blödheit zu verstecken.
Der technische Grund der Blödheit, und damit auch der technische Grund des
Signifikanten im Computer, liegt in zwei Eigenschaften am Signifikanten, die
auch Lacan hervorhebt: der Signifikant läßt sich auf letzte
differentielle Elemente zurückführen und er ist essentiell
lokalisiert, das heißt grundsätzlich an eine Stelle
gebunden.
Von hier ist es nurmehr ein kurzer Schritt zum Archiv. Wenn Sortieren
heißt, mit Hilfe einer Relationen Elemente zu differenzieren und
ihnen dann Stellen zuzuweisen, sind Signifikanten schlicht und einfach
Elemente, die sich sortieren lassen. Nicht mehr und nicht weniger. Bilder zu
lesen anstatt zu sehen bringt also den einfachen Vorteil mit sich, sie in ein
blödes Archiv eintragen zu können.
Was wäre aber ein Bildarchiv, das Bilder nicht liest ? Ich komme jetzt zu
derSuche, die statt einer Regel der Ersetzung eine Differenz der Zeit setzt.
Das hieße, ein Bildarchiv zu machen, das nicht blöde ist, das ohne
Signifikanten läuft. Nun läuft in Archiven, wie vorher angesprochen
gar nichts ohne Entscheidungen, als ohne Differenzen. Für was soll ich
mich entscheiden, wenn nicht für etwas ? Finden heißt immer, sich
auch für das Gefundene zu entscheiden. Erst hatte ich diesen Satz mit dem
Verb "Suchen" formulieren wollen, aber dabei bleibe ich nicht: Suchen
heißt immer, sich auch für das Gesuchte zu entscheiden.
Es ist, wie vorher erwähnt, das Prinzip technischer Medien,
Differenzschwellen der Wahrnehmung zu unterlaufen. Die visuelle Oberfläche
von Digitalmedien wandelt die internen binären Differenzen des Prozessors
in analoge Signale an der Oberfläche um. Dafür ist der D/A-Wandler
der Videokarte zuständig. Bilder führen unter diesen Bedingungen eine
Art von Doppelexistenz: sie sind zugleich differenzielle Daten im Speicher und
analoge Signale an der Oberfläche.
Von dieser Ausgangslage leitet sich die Idee her, daß es möglich
sein müßte, ein Archiv zu konzipieren, das an der Oberfläche
die Dimensionen des Bildes nie verläßt, intern aber zwangsläufig
in der Logik des digitalen Mediums verbleibt. Wie läßt sich eine
Suche vorstellen, die an Bildern, die differenzfrei gesehen werden, Differenzen
markiert?
Suchen heißt, wie anfangs ausgeführt, eine oder eine andere
Verschiebung zu setzen: eine Differenz der Zeit oder eine Regel der Ersetzung.
Wir hatten bis eben davon gehandelt, wie sich Bilder in der Logik der Regel
suchen lassen, nämlich durch eine Transformation der Bilder in ein Medium
mit Regeln, mit Grammatik, in eine Sprache.
Wenn dieser Regel ausgewichen werden soll, muß in der Differenz der Zeit
gesucht werden. Ein Bild ist als Bild demzufolge gefunden, wenn es wiedererkannt
wird. Wir können demnach nur etwas finden, von dem wir sagten: "das habe
ich schon einmal gesehen.", "das sieht so ähnlich aus wie". Mit welchen
Entscheidungen soll ein solches Bild im Archiv angesteuert werden?
Es gibt hier nur einen Weg: das Suchobjekt selbst muß ein Bild sein. Das
hört sich unsinnig an, denn was man hat muß, man nicht suchen. Dazu
läßt sich nur sagen, daß man manchmal durchaus etwas hat, das
man sucht. Zum Beispiel: Man erinnert sich an Bild und will wissen wo es
hängt. Oder: man hat das Photo einer Person und will wissen wie sie
heißt. In diesem Fall gelangt man durch eine Ordnung der Bilder zur einer
symbolischen Adresse.
Ein weiterer Fall ist denkbar: man gibt ein Bild ein, das einem anderen
ähnlich sein soll. Nun ist Žhnlichkeit alles andere als ein präziser
Begriff. Man kann beispielsweise die Distanz zweier Bild voneinader bestimmen.
Hierzu gibt es mehrere metrische Verfahren (
euklidische Metrik, Manhattan -Metrik, Supremum oder Chessboard - Metrik. vgl
z.B. H.Samet 3-D Data Structures, 358)
Diese Maße haben eines gemeinsam. Die Distanz der Bilder ist wieder eine
Zahl. Da heißt, daß wie bei der einfachen Statistik jede
ortsbezogene Information ausgelöscht wird. Anders gesagt: es
läßt sich zwar zwischen beliebigen zwei Bilder diese Distanz
bestimmen, aber ein Sprung von einem Bild um eine bestimmte Distanz führt
nicht zu einem bestimmten anderen Bild, sondern zu sehr vielen verschiedenen
Bildern. Würde man dieser Distanz eine eindeutige Richtung geben wollen,
so müßte die Richtung so viele Dimensionen haben, wie das Bild Pixel
hat. Anders gesagt: die Richtung der Distanz wäre selbst ein Bild - das
Differenzbild. Das wiederum ist unschwer zu berechnen, hilft aber zur
Lösung der Suchaufgabe keinen Schritt weiter. Man muß also, um auf
der einen Seite, Žhnlichkeiten nicht vollständig vom Bild abzukoppeln, und
auf der anderen Seite, statt einer Ähnlichkeit nicht wieder ein Bild zu
haben,
die Auswahl der Ähnlichkeiten einschränken. Ich will hier nicht
weiter ins Detail gehen, obwohl das wohl eins der Felder sein wird, auf dem
sich so etwas wie die Möglichkeit einer kulturellen Praxis vorstelllen
läßt. Kulturelle Praxis verstanden als Auswahl und Verfeinerung
eines Spiels von Differenzen. Zwei technische Wege sind hier schon ein
Stück weit beschritten worden: einmal Verstärkung der
Ähnlichkeiten durch Vorauswahl der Bilder mit anschließender
statistischer Reduktion. (independent component analysis, vector scale space)
Oder eine Auswahl aus der Menge der Ähnlichkeiten durch algorithmische
Reduktion er Bilder. (Vorverarbeitung, Filterung, Transformation, Kompression).
Soviel über eine Suche, in der Bilder selbst Bilder aus dem Archiv
auswählen. Diese Variante verfolgt auch mein kleines Programm.
Ich will zuletzt auf eine dritte, noch nicht erwähnte Möglichkeit der
Suche nach Bildern zu sprechen kommen. Es gibt eine Regel der Ersetzung, die
weder Schrift noch Sprache ist, die aber dennoch einen Sinn hat, also Auswahl
erlaubt. Sinn hier in seiner ursprünglichen Bedeutung genommen, als
Richtung. Das Datenfeld, in dem wir uns anschaulich orientieren können,
ist der dreidimensionale Raum. Höherdimensionierte Felder sind zwar
berechenbar, aber nicht ohne Reduktion abzubilden. Wenn es also gelänge,
die Menge der Bilder in einem solchen dreidimensionalen Archiv zu verorten,
wäre ein Maximum an Anschaulichkeit erreicht. Auf welche Weise sollen in
einem solchen Raum Entscheidungen getroffen werden. Eine Entscheidung im Raum
heißt Ort. Den absluten Ort oder die Adresse des nächsten Punktes,
in unserem Fall also des Bildes anzugeben hieße ja: über ein
absolutes Adressensystem zu verfügen. Das entspräche dem eingangs
erwähnten Weg über eine Sprache und deren Grammatik der Ersetzung.
Wenn wir über diese Methode nicht verfügen, bleibt ein zweiter Weg
übrig, um Räume zu erschließen. Man ist an einem Punkt und will
zu einem anderen. Zwischen beiden Punkten läßt sich ein Vektor
konstruieren. Ein Vektor hat eine Richtung. Der Sinn wäre in einem solchen
Archiv vektoriell. Man bewegt sich nicht zu einem bestimmten Bild, von
irgendeinem Bild ausgehend in eine bestimmte Richtung.
Auch hier wieder stellt sich die obligatorische Frage nach der Suche, nach der
Art der Entscheidung, letztlich nach dem Spiel der Differenz. Wie entscheide
ich mich für eine bestimmte Richtung ? Um eine ebenso kurze wie
überraschende Antwort zu geben: mit Entscheidungen, die keine sind.
Dazu wäre ein Input - Kanal vonnöten, der uns genauso um die
Differenzen betrügt, wie die Output - Oberfläche am Bildschirm.
Ich möchte kurz die Beschreibung einer solchen Schnittstelle zitieren.
Sie datiert aus dem Jahr 1810 - Kleists berühmte Abhandlung über
das Marionettentheater: "Ich fragte ihn, ob er glaubte, daß der
Maschinist, der diese Puppen regierte, selbst ein Tänzer sein, oder
wenigstens einen Begriff vom Schönen im Tanz haben müsse. Er
erwiderte, daß wenn ein Geschäft, von seiner mechanischen Seite,
leicht sei, daraus noch nicht folge, daß es ganz ohne Empfindung
betrieben werden könne. Die Linie, die der Schwerpunkt [der Puppe] zu
beschreiben hat, wäre zwar sehr einfach, und, wie er glaube, in den
meisten Fällen grad. [...]
Dagegen wäre diese Linie wieder, von einer anderen Seite, etwas sehr
geheimnisvolles. Denn sie wäre nichts anders, als der Weg der Seele des
Tänzers; und er zweifle daran, daß sie anders gefunden werden
könne, als dadurch, daß sich der Maschinist in den Schwerpunkt der
Marionette versetzt, d.h. mit anderen tanzt."(K72f.) Diese Stelle sagt nicht
ganz das, weshalb ich sie erst zitieren wollte. Ich wolte anfänglich
darauf verzichten, habe sie dann noch einmal gelesen habe, und zitiere sie
jetzt doch. Zwar kreuzt die Marionette einen Raum und zwar steuert der
Maschinist die Bewegungen nicht mit Berechnung oder Entscheidungen, sondern
deshalb, weil er sich in den Raum der Marionette versetzt. Das heißt,
er nimmt am schließt sich in Rückkopplung nicht mit dem Input,
sondern dem Output oder der Oberfläche des kleinen Mechanismus. Ich denke,
diese Rückkopplung ist differenzfrei, sonst würde sie über das
Bewußtsein und nicht über die Seele geführt. Der Weg der Seele
des Tänzers ist gleichbedeutend mit einem vektoriellen, differenzfreien
Sinn. Der Weg ist ein Vektor, die Seele ist die differenzfreie Kopplung, der
Tanz ist die Bewegung im Raum. Aber Kleist gibt keine Auskunft darüber, ob
Entscheidungen fallen oder nicht. Nun verdanke ich einem glücklichen und
im vorher genannten Sinn blöden Zufall ein Indiz für die Klärung
dieser Frage. In meiner dtv-Ausgabe des Kleistschen Schriften sind die
Aufsätze nach der Reihenfolge ihrer Niederschrift sortiert. Eine Seite vor
der Abhandlung über das Marionettentheater habe ich einen anderen kurzen
Text gefunden mit dem Titel: "Von der Überlegung. Eine Paradoxe."
Verfaßt
eine Woche zuvor. Dort heißt es: "Die Überlegung findet ihren
Zeitpunkt weit schicklicher nach, als vor der Tat. Wenn sie vorher, oder in
dem Augenblick der Entscheidung selbst ins Spiel tritt: so scheint sie nur die
zum Handeln nötige Kraft, die aus dem herrlichen Gefühlt quillt,zu
verwirren, zu hemmen und zu unterdrücken; dagegen sich nachher, wenn die
Handlung abgetan ist, der Gebrauch von ihr machen läßt, zu welchem
sie dem Menschen eigentlich gegeben ist, nämlich sich dessen, was in dem
Verfahren fehlerhaft und gebrechlich war, bewußt zu werden, und das
Gefühl für andere zukünftige Fälle zu regulieren." Es ist
der Vorteil unscharfer Suchverfahren, Zufallsinformationen zu liefern. Ich
weiß nicht, ob Kleist diese Art von Entscheidungen auch auf die
Marionette angewandt hätte. Er gibt als Beispiel die Bewegungen des
Ringers beim Kampf an. Es ist hier auch unwichtig. Was zählt ist die
Tatsache, daß Entscheidungen, die die Schwelle der Überlegung und
damit die Realisierung der Differenz unterschreiten, genauso denkbar sind, wie
Input-Interfaces, die die Wahrnehmungsschwelle der Sinne unterschreiten. Solche
Interfaces sind nötig, um eine Suche zwar auf Regelbasis aber jenseits der
Differenz zu realisieren. Welche Schnittstellen kommen hierfür in Frage?
Die Tastatur ist die differenzierende Schnittstelle schlechthin. Höchstens
Prakitiken wie die ‚criture automatique haben es vermocht, an der Tastatur den
Zwang zur Differenz zu durchkreuzen. Standardmäßig verfügen wir
mit der Maus über eine Schnittstelle, die die Richtung andeutet, in die zu
denken wäre. Die Maus adressiert allerdings noch immer absolute
Koordinaten. Wir zeigen mit dem Zeiger der Maus nicht in eine Richtung, sondern
immer nur auf einen Ort. Das unterscheidet sie noch ganz wesentlich von der
Bedienung der Marionette. Die Maus bindet Hand und Auge an absolute Adressen.
Aber es gibt die gefragte Schnittstelle, und nicht umsonst wurde sie für
eine Praxis eingeführt, die das ganze Vergnügen auskostet, mit den
Entscheidungen der Überlegung, also der Differenz voraus zu sein. Es ist
der Joystick. Die Praxis sind Computerspiele. Ich stelle mir die
Benutzungsoberfläche eines Bildarchivs ähnlich vor wie ein
Computerspiel. Der Joystick steht für genau die Kopllung zwischen
Nutzer und Bildschirm, die das Archiv braucht: nicht die feste Adresse als
Ort auf dem Bildschirm, nicht das zeigen auf umradnete Flächen, die
Fenster heißen, wie bei der Maus - statt dessen der reine Vektor, nur
die Richtung. Erst diese Visualisierung macht es möglich, den eigenen Ort,
der bei der Maus noch immer auf dem mehr oder weniger flachen Bildschirm
situiert ist, tatsächlich in einer dreidimensionale Bildraum zu situieren.
Wenn nur Richtungen eingegeben werden, ist der Ort frei wählbar, Vektoren
sind ortsunabhängig.
Damit genug von dem, was möglich ist, und zurück zu dem, was ich
selbst programmiert habe. Es handelt sich um ein kleines Programm, das noch
nicht annähernd erfüllt, was vorstellbar ist. Es gibt lediglich eine
sehr simple Ahnung davon, daß ein ähnlichkeitsorientiertes Bildarchiv
überhaupt zu realisieren ist und daß man ähnliche Bilder
überhaupt generell sortieren und wieder finden kann.
Das Archiv baut auf zwei miteinander identischen Strukturen auf, die es
ineinander einträgt. Auf der einen Seite steht ein Bild, das als
Bildpyramide repräsentiert wird, also in verschieden Auflösungen.
Auf der anderen Seite entspricht dieser Struktur, und diese Ähnlichkeit
ist
schon seit den späten sechiziger Jahren verwertet worden, ein Baum,
genauer ein Viererbaum, ein sogenannter Quadtree. Lange zeit wurde diese
Verwandtschaft nur dazu eingesetzt, einzelne Bilder als Baum zu
repräsentieren. Dadaurch ließen sich verschiedene Verfahren der
Bildverarbeitung vereinfachen. Erst in jüngere Zeit ist daran gegangen,
mehrere Bilder in Bäume einzutragen. ich weiß noch nicht wer es
zuerst gemacht hat. In einem Buch über "Spatial Data Structures" von
Hanan Samet aus dem Jahr 1995 ist davon noch überhaupt keine Rede. Es
gibt aber schon seit den frühen 90ern am Vision Laboratory der
Universität of Southern California eine Arbeitsgruppe unter der
Leitung von David White und Ramesh Jain, die Baumstrukturen zum
"similarity based image retrieval", einer ähnlichkeitsbasierten Bildsuche,
einsetzt. Generell hat sich das Interesse an einer ähnlichkeitsbasierten
Bildsuche erst inden letzten Jahren ergeben, als Erweiterung früherer
Konzepte, die auf einer Kombination von Bilderkennung und Expertensystem
beruhten.
Der Trick bei der Archivierung einer großen Menge von Bildern ist,
daß in den Baum eine weitere Dimension eingesetzt wird. Er wird von einem
Quadtree zu einem octree, 2 hoch 3 statt 2 hoch 2 Verzweigungen gehen von einem
Knoten aus. Diese Dimension erlaubt es nicht nur verschiedene Orte, sondern
auch viele Farbdifferenzen an Orten zu repräsentieren. Damit kann der Baum
zweidimensionale Farbflächen, und nichts anderes sind Bilder, einsortieren.
Der Baum ist damit räumlich geworden, und bietet sich einer Adressierung
der Archivs über Richtungen an.
Die Eingabeform, die ich programmiert habe, ist noch die der Bilder. Es wird
also mit Bildern nach Bildern gesucht. Eine dreidimensionale Repräsentation
mit entsprechender Schnittstelle kann ich zuhause auf meinem PC nicht ohne
weiteres leisten.
Ich möchte mit einer Bemerkung über den Sinn, den ein solches Archiv
hätte, schließen. Ich binde die Argumentation ein wenig an Michel
Foucaults Diskursanalyse. Das Archiv im Sinn von Foucault hat einen erheblich
größeren Umfang als eine Datenbank. Es ist als das allgemeine Gesetz
dessen, was gesagt werden kann, zu denken. Als die einer Epoche gegebene Menge
von Aussagen, auf deren Basis sich erst die Diksurse ausdifferenzieren. Das
Archiv unserer Epoche kann von daher unschwer mit einer Technologie in
Verbindung gebracht werden. Der Computer als universale diskrete Maschine ist
unser Archiv.
In diesem Archiv spielen, wenigstens teilweise, alle wesentlichen Diskurse, die
unsere Gegenwart ausmachen. Diskurse im ganz foucaultschen Sinn nicht nur in
Form der Rede sondern allgemeine als Praxis von Handlungen begriffen. Programme
gehören insofern ganz wesentlich zu diesen Diskursen, als Programme
Handlungen nicht nur ausführen, sondern auch steuern, vereinfachen,
übernehmen, verstecken usw. Eine Diskursanalyse ohne Praxis der
Programmierung sagt über unsere gegenwärtigen Diskurse schon gar
nichts mehr aus. Im gleichen Zug ist es wesentlich der Entwurf von Programmen,
der die uns umgebenden Diskurse organisiert.
Wenn es im Feld des Sichtbaren einen Diskurs geben soll, dann ist es einer, der
Computerprogramme und Datenstrukturen umfaßt. Einen Diskurs des Sichtbaren
gab es bislang noch nicht im umfassenden Sinn. Es gab lange und gibt noch
Diskurse von Texten mit Bildanhang. Erst technische Medien haben technische
Regeln an Bildern ermöglicht. Besonders ist hier die Praxis des
frühen Hollywood-Films zu erwähnen, die ihren Erfolg wesentlich
daraus begründet, die Differenz eines Schnitts systematisch hinter
Kontinuität von Zeit und Raum verschwinden zu lassen. Das ist eine ganz
wesentliches System von Bildregeln außerhalb des Textfeldes.
Mit der Doppelexistenz der Bilder als Daten und sichtbare Oberfläche wird
das Bild als ganzes diskursiv verfügbar. Es ist vorstellbar, mit Bildern
Aussagen zu machen und mit Bildern Fragen nach Bildern zu stellen. Dazu bedarf
es eines Archivs, das die Elemente der Aussagen sortiert, auf Fragen Antworten
vorschlägt und in seinen Lücken den Platz für neue Aussagen
schafft. Auf dem Weg zu dieser Praxis ist das hier vorgestellte Programm ein
kleiner Schritt.