Vorschlag für ein visuell adressierbares Bildarchiv



Vortrag an der KHM, Köln . 13.11. 1996
Copyright by Stefan Heidenreich


Die Ausgangsfrage ist: Wie kann man Bilder finden ? Etwas zu finden heißt, aus einer Menge von Elementen dasjenige auswählen, das gesucht ist. Etwas zu suchen ist immer ein paradoxes Vorhaben. Schließlich will man etwas haben, das man nicht hat. Aus diesem Paradoxon helfen gewöhnlich zwei Verschiebungen. Entweder wird eine Differenz der Zeit eingefährt oder eine Regel der Ersetzung.
Die Differenz der Zeit besagt ganz einfach, daß wir etwas suchen, das wir schon einmal gehabt haben. Die Differenz der Regel sagt, daß wir sagen können, was wir nicht haben. Eine solche Aussage heißt Frage. Was gesucht wird, ist die Antwort. Woher können wir wissen, daß das was wir gefunden haben, das ist, was wir suchen ? Das Paradoxon des Findens erlischt nach den Regeln, in denen es sich entfaltet: entweder wir finden etwas, das wir schon kennen und wiedererkennen, oder wir finden etwas, von dem die Regel der Frage uns sagt, daß es das gesuchte ist.
Beide Strategien können ineinander überführt werden. Wittgenstein hat versucht, die Dimension der Zeit durch eine der Regel zu ersetzen. "Wenn man mich fragt:' Hast du deinen Schreibtisch wiedererkannt, wie Du heute morgen in dein Zimmer getreten bist?' so würde ich wohl sagen: 'gewiß!' und doch ist es irreführend, das was sich da abgespielt hat, ein 'Wiedererkennen' zu nennen. Gewiß, der Schreibtisch war mir nicht fremd, ich war nicht überrascht ihn zu sehen, wie ich es gewesen wäre, wenn ein anderer dagestanden hätte oder ein fredmartiger Gegenstand. (Philosophische Grammtik, 165)" Wittgenstein erkennt den Schreibtisch nicht, weil er ihn schon kennt, sondern weil er einer Regel der Ersetzung folgt, nämlich nicht ersetz worden zu sein.
Programmierer dagegen machen ihre Regel der Ersetzung, ihren Algorithmus ganz von einer Differenz der Zeit abhängig. Donald Knuth formuliert das Problem des Suchens so: "How to find the Data that has been stored with a given information.(Sorting and Searching 4??)" Die Daten waren also schon einmal da. Und das eigentliche Problem des Programmierers ist, sie so schnell wie möglich zu finden - ein weiterer Schritt im Horizont der Zeit.

Ich möchte vorerst, solange es um etwas im Medium geht, beim Computer bleiben. Was an Oberflächen steht, würde ich eher der Wittgensteinschen Logik zuordnen, dafür spricht schon der Ausdruck User, der der etwas gebraucht. Das heißt, vorerst gehe ich mit Knuth davon aus, daß es die gesuchten Bilder schon einmal gegeben hat, daß sie als Daten verfügbar sind. Unter dieser Voraussetzung ergibt sich die nächste Aufgabe unmittelbar. Daten, die vorliegen, können vor der Suche sortiert werden.
Sortieren heißt, wiederum nach einem Lehrbuch der Informatik, eine Reihe von Elementen so anzuordnen, das zwischen ihnen eine Relation gilt. Eine solche Relation wäre etwa : größer als. Angenommen die Menge besteht aus Zahlen, so heißt das nichts weiter, als daß die höchste Zahl nach dem Sortieren am Anfang der Menge steht, die niedrigste an ihrem Ende . Es sei daran erinnert, daß in einem digitalen Speicher alle Daten als Zahlen gelesen werden können, einerlei ob Töne, Bilder oder Texte.

Eine stilllschweigende Voraussetzung des Sortierens ist zu bedenken. Die zu sortierenden Elemente stehen in einem Speicher, oder werden zumindest gespeichert. Der Speicher ist eine Reihe von Stellen. An diesen Speicherstellen stehen die Elemente. Die Stellen des Speichers tragen Nummern, sie haben Adressen. Und die Adressen selbst sind von Anfang an sortiert in aufsteigender Reihenfolge sortiert.
Das Sortierproblem läßt sich ausgehend von dieser Voraussetzung etwas allgemeiner formulieren. Es geht dann nicht mehr einfach darum, eine Ordnungsrelation zwischen Elementen einer Menge aufzustellen, sondern um etwas anderes. Sortieren heißt dann, einen Speicher so einzurichten, daß zwischen einer Adresse und ihrem Inhalt eine Beziehung besteht. Was größer ist, steht an einer höheren Adresse, beispielsweise.

Kehren wir von hier zur Anfangsfrage zurück: Wie kann man Bilder finden? Es gilt weiterhin die Voraussetzung, daß wir von einer Menge gegebener Bilder ausgehen, in der wir ein bestimmtes finden wollen. Folgen wir dem oben genannten Schema. Zuerst werden die Bilder sortiert. Sortieren heißt, etwas so anzuordnen, daß es leicht gesucht werden kann. Insofern ist das Sortieren immer auf die Art der Suche bezogen. Wie oben angezeigt, ist bei der Suche eine der beiden Verschiebungen nötig: entweder eine der Zeit oder eine der Regel. Entweder wir kennen das gesuchte Bild schon, oder wir können eine Frage formulieren, zu der es als Antwort paßt.
Lassen sich diese beiden Differenzen im Medium der Sprache noch ineinander umformulieren, so wird das im Medium der Bilder beträchtlich erschwert. Warum ? Entweder wir stellen eine Frage nach dem Bild, dann bewegen wir uns im Feld der Sprache. Es gibt keine Grammatik in Bildform, die es erlaubte, Fragen zu gestellen. Im anderen Fall kennen wir das Bild schon, das wir suchen. Wie können wir es suchen, wenn nicht nach Regeln ?

Ich spreche zuerst über die Logik der Sprache. Es gibt eine antike Tradition der Übersetzung von Bildern in Text, Ekphrasis, die Kunst der Bildbeschreibung, und es gibt eine Reihe von neueren Techniken, die dasselbe leisten. Als Beschriebenes läßt sich jedes Bild in Textform adressieren. Im Modus der Beschreibung geht die Dimension der Zeit verloren, da die Regel der Ersetzung regiert. Beschriebene Bilder haben, anderes gesagt, keine Zeit. Lessings Laokoon diskutiert diesen Zusammenhang ausführlich. Wohl aus diesem Defizit zwischen Zeiten und Bildern war die Wissenschaft der Bilder immer eine Geschichte, nämlich die Kunstgeschichte, und vielleicht deshalb wurde sie auch von Winckelmann an einer Kunst begründet, die es damals nicht mehr gab (ich verdanke diesen Hinweis Peter Geimer). Die größte und titelgebende Sorge dieser Wissenschaft ist es, die Zeit wieder herbeizuschreiben, in Form von Geschichte.
Liegt eine Übersetzung von Bildern in Text vor, so können alle konventionellen Operationen der Textverarbeitung zum Ausgang der Operation Sortieren werden. Ich streife die Verfahren der Kunstgeschichte nur, um dann zu Verfahren in technischen Medien überzugehen. Bilder können nach den Jahreszahlen ihrer Entstehung aufgereiht werden, sie können in der alphabetischen Reihenfolge der Künstler sortiert werden, oder nach ihren Motiven eingeteilt werden.
Seit mehr als 150 Jahren gibt es eine zweite Methode, Bilder in eine Art von Text zu verwandeln. Diese Variante der Ekphrasis heißt schlicht und einfach Scanning oder Digitalisierung. Ein digitales Bild ist ein Feld von Symbolen.
Es gibt nun sehr viele verschieden Verfahren, die Zahlen, die das Bild sind, in andere Zahlen oder Wörter zu verwandeln, die sortiert, gesucht und gefunden werden können. Ich will auch hier nur ein paar nennen. Zuerst sind das es einfache statistische Methoden. Das Bild wird als Stichprobe in einer großen Menge von Bildern behandelt und nach Eigenschaften wie Mittelwert, Varianz, Streuung oder ähnlichem bewertet. Das heißt, es erhält einen Wert zugewiesen. Ein solcher Wert könnte etwa sein: dieses Bild enthält die zu Grau zählenden Farben zu 65 %. In einem solchen Archiv könnte man schon Lösungen auf mein eingangs erwähnte Suche nach grauen Bildern finden. In diesem Wert verschwinden die wesentliche Eigenschaft eines Bildes, die Stelle der Bildpunkte.
Ein ungleich komplizierteres Verfahren ist das, sich nicht mit numerischen Werten zufriedenzugeben, sondern auf eine automatische Bilderkennung hinzuarbeiten. Das heißt, das Bild automatisch zu beschreiben. Es lohnt sich, diese Beschreibungsweise ein wenig genauer zu verfolgen. Beschreiben heißt allgemein, einen Begriff zum Bild zu setzen. Begriffe, die gesehen werden können, denn selbstverständlich können nur solche in Bildern gefunden werden, beziehen sich normalerweise auf Gegenstände, Objekte. Ein Bild als eine Fläche von Pixeln enthält dann ein oder mehrere Objekte. Mann kann sagen: die Objekte in einem Bild müssen herausgefunden werden. Von der anderen Seite, nämlich der der Bilddaten, kehrt sich die Frage ein wenig um: welche Teile des Bildes gehören zusammen, und machen als zusammengehörige ein Objekt aus. Auf dem Weg zu den Objekten muß das Bild folglich in Teile unterteilt werden. Ein Bild zu teilen heißt, die Grenze der Teile zu finden. Grenzen zu finden, das ist: die Differenz bilden. Genau das Verfahren, wenn auch in der umgekehrten Reihnfolge, nämlich vom Ziel zum Startpunkt, verfolgt der Klassiker der Bilderkennung von David Marr: Vision. Ich will die Bildung von Differenzen im Bild nach dem Marrschen Schema kurz erläutern, weil sie eine einfache Methode ist. Eine einfache Methode, die zu ganz schwerwiegenden Komplikationen geführt hat. (mündlich ausgeführt.) Nachtrag 24.2.97: Das Verfahren beruht auf der Anwendung eines einfachen Filters der die Differenz zwischen zwei verschiedenen Gauss-Filtern bildet. (Delta of 2 Gauss oder DoG-Filter genannt.) Man kann sich diese Methode einfach vor Augen führen, wenn man sich vorstellt, zwischen einem scharfen Bild und einer unscharfen Kopie desselben Bildes würde die Differenz gebildet. Der Unterschied, der bleibt, gibt die Kanten im Bild wieder. Das Problem liegt ganz allgemein inder Einführung der Differenz, die auch avant la lettre einen groß Teil der Komplikationen nach sich zieht, die ihr Derrida zuschreibt.

Mit der Bildung von Differenzen sind wir am Kern jeder Bildbeschreibung angelangt. Dort liegt der Unterschied zwischen Schreiben oder besser Lesen auf der einen und Sehen auf der anderen Seite. Sehen macht im Gegensatz zu Lesen keine Unterschiede. Ich gestehe ein, daß es dieses Sehen so nicht gibt. Es ist ein idealisierter Begriff vom Sehen. Ich nehme diese Idealisierung allerdings nicht irgendwoher, sondern genau von der Stelle, an der die Diskussion um technische Medien spielt: der Schnittstelle zwischen Medien und menschlichem Auge. Gerade technische Medien stehen mit ihrem Prinzip, Wahrnehmungsschwellen zu unterlaufen, dafür, alle wahrnehmbaren Differenzen abzuschaffen. Diesem Prinzip entspricht ein solches idealisiertes, differenzfreies Sehen.
Bilder nicht zu sehen,sondern zu lesen, heißt immer, etwas zu erkennen, immer: im Bild ein Zeichen oder einen Begriff zu setzen. Damit kommt eine Differenz ins Spiel, nicht die zwischen Zeichen und Bezeichnetem, sondern zwischen zwei unterschiedenen Elementen überhaupt. Es ist also nicht die Differenz, der Derrida in seiner Logik der Ersetzung nachspürt, sondern eine schlichte Frage des technischen Standards. Diskrete Kanäle verlangen Zeichen. Ein Zeichen zu benutzen heißt, ein Element aus mehreren auszuwählen. Das verlangt eine Entscheidung. Ich sage das, um schon hier darauf hinzuweisen, daß das Archiv stets auf eine bestimmte Weise, nämlich der der Entscheidung, an den Gebrauch von Zeichen gebunden zu sein scheint. Ich komme später darauf zurück, wenn es um die Oberfläche eines Archivs geht, die differenzfrei sein soll.
Doch zurück zum digitalen Bild. Die Kantenerkennung, Edge Detection, macht den Anfang im Differenzieren eines Bildes. An ihrem Ende steht immer ein Zeichen, eine Zahl oder ein Begriff. Symbole haben generell den großen Vorteil, eine Reihenfolge zu haben, und sei sie bloß konventionell wie das Alphabet. Zeichen lassen sich ohne weiteres sortieren. Indem ein Zeichen an ein Bild geheftet wird, kann man durch das Sortieren der Zeichen die Bilder sortieren. Man darf aber nicht vergessen, daß das, was dann laufende Adressen hat, nicht Bilder sind, sondern eben Zeichen. Sortieren von Bilder wird ersetzt durch Sortieren von Begriffen.
In diesem Archiv der Zeichen lassen sich Begriffe, Zahlen oder Wörter suchen. Es findet eine Art von Textverarbeitung mit angehängten Bildern statt. So funktionieren die meisten Bildarchive, beispielsweise der kunsthistorische ICONCLASS Katalog sowie die Variante davon, die am Marburger Bildarchiv läuft, oder auch fächerspezifische Expertensysteme, die eben mehre Begriffe sowie das, was deren Inhalt genannt wird, miteinander zu komplexen Suchvorgaben verbinden. Die Suche bleibt grundsätzlich im Horizont von Textverarbeitung. Und diese Textverarbeitung mit Bildanhang hat auch ihren Sinn, solange es sich lohnt, das Feld der Bilder zu verlassen.

Worin liegt der Vorteil, die Bilder zu verlassen und auf den Signifikanten überzuspringen? Man kann gut mit Lacan antworten: die Blödheit. Es ist die Blödheit des Signifikanten, die ihn so beliebt macht. Die Blödheit des Signifikanten, liegt darin, daß er nicht etwas bedeutet. Wir kommen in den Genuß dieser Blödheit etwa, wenn wir in einem Text nachschlagen, der der Ordnung des Signifkanten folgt, dem Lexikon. Was hier aufeinander folgt, hat nichts miteinander zu tun, außer dem Buchstaben.
Um weiterzukommen, empfiehlt es sich, die Blödheit des Signifkanten ein wenig technischer zu fassen, und Lacan, so lustig er auch ist, zu verlassen. Schließlich spielt sie in unserem Fall in technischen Medien. Aber auch "Computer sind doof." Es wäre paradox, im Computer ein Bildarchiv installieren zu wollen, das nicht auch selbst irgendwo blöde ist. Aber es ist möglich, diese Blödheit zu verstecken. Seit Einführung der Rasterbildschirme als Schnittstelle zum Computer wird das immer besser praktiziert, mit den grafischen Benutzeroberflächen und mit der Maus. Es fragt sich, ob man die Aufgabe "Computer klüger zu machen"(F.Kittler) damit erfüllte, wenn man nur versucht, ihre Blödheit zu verstecken.
Der technische Grund der Blödheit, und damit auch der technische Grund des Signifikanten im Computer, liegt in zwei Eigenschaften am Signifikanten, die auch Lacan hervorhebt: der Signifikant läßt sich auf letzte differentielle Elemente zurückführen und er ist essentiell lokalisiert, das heißt grundsätzlich an eine Stelle gebunden.
Von hier ist es nurmehr ein kurzer Schritt zum Archiv. Wenn Sortieren heißt, mit Hilfe einer Relationen Elemente zu differenzieren und ihnen dann Stellen zuzuweisen, sind Signifikanten schlicht und einfach Elemente, die sich sortieren lassen. Nicht mehr und nicht weniger. Bilder zu lesen anstatt zu sehen bringt also den einfachen Vorteil mit sich, sie in ein blödes Archiv eintragen zu können.

Was wäre aber ein Bildarchiv, das Bilder nicht liest ? Ich komme jetzt zu derSuche, die statt einer Regel der Ersetzung eine Differenz der Zeit setzt. Das hieße, ein Bildarchiv zu machen, das nicht blöde ist, das ohne Signifikanten läuft. Nun läuft in Archiven, wie vorher angesprochen gar nichts ohne Entscheidungen, als ohne Differenzen. Für was soll ich mich entscheiden, wenn nicht für etwas ? Finden heißt immer, sich auch für das Gefundene zu entscheiden. Erst hatte ich diesen Satz mit dem Verb "Suchen" formulieren wollen, aber dabei bleibe ich nicht: Suchen heißt immer, sich auch für das Gesuchte zu entscheiden.
Es ist, wie vorher erwähnt, das Prinzip technischer Medien, Differenzschwellen der Wahrnehmung zu unterlaufen. Die visuelle Oberfläche von Digitalmedien wandelt die internen binären Differenzen des Prozessors in analoge Signale an der Oberfläche um. Dafür ist der D/A-Wandler der Videokarte zuständig. Bilder führen unter diesen Bedingungen eine Art von Doppelexistenz: sie sind zugleich differenzielle Daten im Speicher und analoge Signale an der Oberfläche.
Von dieser Ausgangslage leitet sich die Idee her, daß es möglich sein müßte, ein Archiv zu konzipieren, das an der Oberfläche die Dimensionen des Bildes nie verläßt, intern aber zwangsläufig in der Logik des digitalen Mediums verbleibt. Wie läßt sich eine Suche vorstellen, die an Bildern, die differenzfrei gesehen werden, Differenzen markiert?
Suchen heißt, wie anfangs ausgeführt, eine oder eine andere Verschiebung zu setzen: eine Differenz der Zeit oder eine Regel der Ersetzung. Wir hatten bis eben davon gehandelt, wie sich Bilder in der Logik der Regel suchen lassen, nämlich durch eine Transformation der Bilder in ein Medium mit Regeln, mit Grammatik, in eine Sprache.
Wenn dieser Regel ausgewichen werden soll, muß in der Differenz der Zeit gesucht werden. Ein Bild ist als Bild demzufolge gefunden, wenn es wiedererkannt wird. Wir können demnach nur etwas finden, von dem wir sagten: "das habe ich schon einmal gesehen.", "das sieht so ähnlich aus wie". Mit welchen Entscheidungen soll ein solches Bild im Archiv angesteuert werden?
Es gibt hier nur einen Weg: das Suchobjekt selbst muß ein Bild sein. Das hört sich unsinnig an, denn was man hat muß, man nicht suchen. Dazu läßt sich nur sagen, daß man manchmal durchaus etwas hat, das man sucht. Zum Beispiel: Man erinnert sich an Bild und will wissen wo es hängt. Oder: man hat das Photo einer Person und will wissen wie sie heißt. In diesem Fall gelangt man durch eine Ordnung der Bilder zur einer symbolischen Adresse.
Ein weiterer Fall ist denkbar: man gibt ein Bild ein, das einem anderen ähnlich sein soll. Nun ist Žhnlichkeit alles andere als ein präziser Begriff. Man kann beispielsweise die Distanz zweier Bild voneinader bestimmen. Hierzu gibt es mehrere metrische Verfahren ( euklidische Metrik, Manhattan -Metrik, Supremum oder Chessboard - Metrik. vgl z.B. H.Samet 3-D Data Structures, 358) Diese Maße haben eines gemeinsam. Die Distanz der Bilder ist wieder eine Zahl. Da heißt, daß wie bei der einfachen Statistik jede ortsbezogene Information ausgelöscht wird. Anders gesagt: es läßt sich zwar zwischen beliebigen zwei Bilder diese Distanz bestimmen, aber ein Sprung von einem Bild um eine bestimmte Distanz führt nicht zu einem bestimmten anderen Bild, sondern zu sehr vielen verschiedenen Bildern. Würde man dieser Distanz eine eindeutige Richtung geben wollen, so müßte die Richtung so viele Dimensionen haben, wie das Bild Pixel hat. Anders gesagt: die Richtung der Distanz wäre selbst ein Bild - das Differenzbild. Das wiederum ist unschwer zu berechnen, hilft aber zur Lösung der Suchaufgabe keinen Schritt weiter. Man muß also, um auf der einen Seite, Žhnlichkeiten nicht vollständig vom Bild abzukoppeln, und auf der anderen Seite, statt einer Ähnlichkeit nicht wieder ein Bild zu haben, die Auswahl der Ähnlichkeiten einschränken. Ich will hier nicht weiter ins Detail gehen, obwohl das wohl eins der Felder sein wird, auf dem sich so etwas wie die Möglichkeit einer kulturellen Praxis vorstelllen läßt. Kulturelle Praxis verstanden als Auswahl und Verfeinerung eines Spiels von Differenzen. Zwei technische Wege sind hier schon ein Stück weit beschritten worden: einmal Verstärkung der Ähnlichkeiten durch Vorauswahl der Bilder mit anschließender statistischer Reduktion. (independent component analysis, vector scale space) Oder eine Auswahl aus der Menge der Ähnlichkeiten durch algorithmische Reduktion er Bilder. (Vorverarbeitung, Filterung, Transformation, Kompression). Soviel über eine Suche, in der Bilder selbst Bilder aus dem Archiv auswählen. Diese Variante verfolgt auch mein kleines Programm.

Ich will zuletzt auf eine dritte, noch nicht erwähnte Möglichkeit der Suche nach Bildern zu sprechen kommen. Es gibt eine Regel der Ersetzung, die weder Schrift noch Sprache ist, die aber dennoch einen Sinn hat, also Auswahl erlaubt. Sinn hier in seiner ursprünglichen Bedeutung genommen, als Richtung. Das Datenfeld, in dem wir uns anschaulich orientieren können, ist der dreidimensionale Raum. Höherdimensionierte Felder sind zwar berechenbar, aber nicht ohne Reduktion abzubilden. Wenn es also gelänge, die Menge der Bilder in einem solchen dreidimensionalen Archiv zu verorten, wäre ein Maximum an Anschaulichkeit erreicht. Auf welche Weise sollen in einem solchen Raum Entscheidungen getroffen werden. Eine Entscheidung im Raum heißt Ort. Den absluten Ort oder die Adresse des nächsten Punktes, in unserem Fall also des Bildes anzugeben hieße ja: über ein absolutes Adressensystem zu verfügen. Das entspräche dem eingangs erwähnten Weg über eine Sprache und deren Grammatik der Ersetzung.
Wenn wir über diese Methode nicht verfügen, bleibt ein zweiter Weg übrig, um Räume zu erschließen. Man ist an einem Punkt und will zu einem anderen. Zwischen beiden Punkten läßt sich ein Vektor konstruieren. Ein Vektor hat eine Richtung. Der Sinn wäre in einem solchen Archiv vektoriell. Man bewegt sich nicht zu einem bestimmten Bild, von irgendeinem Bild ausgehend in eine bestimmte Richtung.
Auch hier wieder stellt sich die obligatorische Frage nach der Suche, nach der Art der Entscheidung, letztlich nach dem Spiel der Differenz. Wie entscheide ich mich für eine bestimmte Richtung ? Um eine ebenso kurze wie überraschende Antwort zu geben: mit Entscheidungen, die keine sind. Dazu wäre ein Input - Kanal vonnöten, der uns genauso um die Differenzen betrügt, wie die Output - Oberfläche am Bildschirm. Ich möchte kurz die Beschreibung einer solchen Schnittstelle zitieren. Sie datiert aus dem Jahr 1810 - Kleists berühmte Abhandlung über das Marionettentheater: "Ich fragte ihn, ob er glaubte, daß der Maschinist, der diese Puppen regierte, selbst ein Tänzer sein, oder wenigstens einen Begriff vom Schönen im Tanz haben müsse. Er erwiderte, daß wenn ein Geschäft, von seiner mechanischen Seite, leicht sei, daraus noch nicht folge, daß es ganz ohne Empfindung betrieben werden könne. Die Linie, die der Schwerpunkt [der Puppe] zu beschreiben hat, wäre zwar sehr einfach, und, wie er glaube, in den meisten Fällen grad. [...] Dagegen wäre diese Linie wieder, von einer anderen Seite, etwas sehr geheimnisvolles. Denn sie wäre nichts anders, als der Weg der Seele des Tänzers; und er zweifle daran, daß sie anders gefunden werden könne, als dadurch, daß sich der Maschinist in den Schwerpunkt der Marionette versetzt, d.h. mit anderen tanzt."(K72f.) Diese Stelle sagt nicht ganz das, weshalb ich sie erst zitieren wollte. Ich wolte anfänglich darauf verzichten, habe sie dann noch einmal gelesen habe, und zitiere sie jetzt doch. Zwar kreuzt die Marionette einen Raum und zwar steuert der Maschinist die Bewegungen nicht mit Berechnung oder Entscheidungen, sondern deshalb, weil er sich in den Raum der Marionette versetzt. Das heißt, er nimmt am schließt sich in Rückkopplung nicht mit dem Input, sondern dem Output oder der Oberfläche des kleinen Mechanismus. Ich denke, diese Rückkopplung ist differenzfrei, sonst würde sie über das Bewußtsein und nicht über die Seele geführt. Der Weg der Seele des Tänzers ist gleichbedeutend mit einem vektoriellen, differenzfreien Sinn. Der Weg ist ein Vektor, die Seele ist die differenzfreie Kopplung, der Tanz ist die Bewegung im Raum. Aber Kleist gibt keine Auskunft darüber, ob Entscheidungen fallen oder nicht. Nun verdanke ich einem glücklichen und im vorher genannten Sinn blöden Zufall ein Indiz für die Klärung dieser Frage. In meiner dtv-Ausgabe des Kleistschen Schriften sind die Aufsätze nach der Reihenfolge ihrer Niederschrift sortiert. Eine Seite vor der Abhandlung über das Marionettentheater habe ich einen anderen kurzen Text gefunden mit dem Titel: "Von der Überlegung. Eine Paradoxe." Verfaßt eine Woche zuvor. Dort heißt es: "Die Überlegung findet ihren Zeitpunkt weit schicklicher nach, als vor der Tat. Wenn sie vorher, oder in dem Augenblick der Entscheidung selbst ins Spiel tritt: so scheint sie nur die zum Handeln nötige Kraft, die aus dem herrlichen Gefühlt quillt,zu verwirren, zu hemmen und zu unterdrücken; dagegen sich nachher, wenn die Handlung abgetan ist, der Gebrauch von ihr machen läßt, zu welchem sie dem Menschen eigentlich gegeben ist, nämlich sich dessen, was in dem Verfahren fehlerhaft und gebrechlich war, bewußt zu werden, und das Gefühl für andere zukünftige Fälle zu regulieren." Es ist der Vorteil unscharfer Suchverfahren, Zufallsinformationen zu liefern. Ich weiß nicht, ob Kleist diese Art von Entscheidungen auch auf die Marionette angewandt hätte. Er gibt als Beispiel die Bewegungen des Ringers beim Kampf an. Es ist hier auch unwichtig. Was zählt ist die Tatsache, daß Entscheidungen, die die Schwelle der Überlegung und damit die Realisierung der Differenz unterschreiten, genauso denkbar sind, wie Input-Interfaces, die die Wahrnehmungsschwelle der Sinne unterschreiten. Solche Interfaces sind nötig, um eine Suche zwar auf Regelbasis aber jenseits der Differenz zu realisieren. Welche Schnittstellen kommen hierfür in Frage?

Die Tastatur ist die differenzierende Schnittstelle schlechthin. Höchstens Prakitiken wie die ‚criture automatique haben es vermocht, an der Tastatur den Zwang zur Differenz zu durchkreuzen. Standardmäßig verfügen wir mit der Maus über eine Schnittstelle, die die Richtung andeutet, in die zu denken wäre. Die Maus adressiert allerdings noch immer absolute Koordinaten. Wir zeigen mit dem Zeiger der Maus nicht in eine Richtung, sondern immer nur auf einen Ort. Das unterscheidet sie noch ganz wesentlich von der Bedienung der Marionette. Die Maus bindet Hand und Auge an absolute Adressen.
Aber es gibt die gefragte Schnittstelle, und nicht umsonst wurde sie für eine Praxis eingeführt, die das ganze Vergnügen auskostet, mit den Entscheidungen der Überlegung, also der Differenz voraus zu sein. Es ist der Joystick. Die Praxis sind Computerspiele. Ich stelle mir die Benutzungsoberfläche eines Bildarchivs ähnlich vor wie ein Computerspiel. Der Joystick steht für genau die Kopllung zwischen Nutzer und Bildschirm, die das Archiv braucht: nicht die feste Adresse als Ort auf dem Bildschirm, nicht das zeigen auf umradnete Flächen, die Fenster heißen, wie bei der Maus - statt dessen der reine Vektor, nur die Richtung. Erst diese Visualisierung macht es möglich, den eigenen Ort, der bei der Maus noch immer auf dem mehr oder weniger flachen Bildschirm situiert ist, tatsächlich in einer dreidimensionale Bildraum zu situieren. Wenn nur Richtungen eingegeben werden, ist der Ort frei wählbar, Vektoren sind ortsunabhängig.

Damit genug von dem, was möglich ist, und zurück zu dem, was ich selbst programmiert habe. Es handelt sich um ein kleines Programm, das noch nicht annähernd erfüllt, was vorstellbar ist. Es gibt lediglich eine sehr simple Ahnung davon, daß ein ähnlichkeitsorientiertes Bildarchiv überhaupt zu realisieren ist und daß man ähnliche Bilder überhaupt generell sortieren und wieder finden kann.

Das Archiv baut auf zwei miteinander identischen Strukturen auf, die es ineinander einträgt. Auf der einen Seite steht ein Bild, das als Bildpyramide repräsentiert wird, also in verschieden Auflösungen. Auf der anderen Seite entspricht dieser Struktur, und diese Ähnlichkeit ist schon seit den späten sechiziger Jahren verwertet worden, ein Baum, genauer ein Viererbaum, ein sogenannter Quadtree. Lange zeit wurde diese Verwandtschaft nur dazu eingesetzt, einzelne Bilder als Baum zu repräsentieren. Dadaurch ließen sich verschiedene Verfahren der Bildverarbeitung vereinfachen. Erst in jüngere Zeit ist daran gegangen, mehrere Bilder in Bäume einzutragen. ich weiß noch nicht wer es zuerst gemacht hat. In einem Buch über "Spatial Data Structures" von Hanan Samet aus dem Jahr 1995 ist davon noch überhaupt keine Rede. Es gibt aber schon seit den frühen 90ern am Vision Laboratory der Universität of Southern California eine Arbeitsgruppe unter der Leitung von David White und Ramesh Jain, die Baumstrukturen zum "similarity based image retrieval", einer ähnlichkeitsbasierten Bildsuche, einsetzt. Generell hat sich das Interesse an einer ähnlichkeitsbasierten Bildsuche erst inden letzten Jahren ergeben, als Erweiterung früherer Konzepte, die auf einer Kombination von Bilderkennung und Expertensystem beruhten.
Der Trick bei der Archivierung einer großen Menge von Bildern ist, daß in den Baum eine weitere Dimension eingesetzt wird. Er wird von einem Quadtree zu einem octree, 2 hoch 3 statt 2 hoch 2 Verzweigungen gehen von einem Knoten aus. Diese Dimension erlaubt es nicht nur verschiedene Orte, sondern auch viele Farbdifferenzen an Orten zu repräsentieren. Damit kann der Baum zweidimensionale Farbflächen, und nichts anderes sind Bilder, einsortieren. Der Baum ist damit räumlich geworden, und bietet sich einer Adressierung der Archivs über Richtungen an.

Die Eingabeform, die ich programmiert habe, ist noch die der Bilder. Es wird also mit Bildern nach Bildern gesucht. Eine dreidimensionale Repräsentation mit entsprechender Schnittstelle kann ich zuhause auf meinem PC nicht ohne weiteres leisten.
Ich möchte mit einer Bemerkung über den Sinn, den ein solches Archiv hätte, schließen. Ich binde die Argumentation ein wenig an Michel Foucaults Diskursanalyse. Das Archiv im Sinn von Foucault hat einen erheblich größeren Umfang als eine Datenbank. Es ist als das allgemeine Gesetz dessen, was gesagt werden kann, zu denken. Als die einer Epoche gegebene Menge von Aussagen, auf deren Basis sich erst die Diksurse ausdifferenzieren. Das Archiv unserer Epoche kann von daher unschwer mit einer Technologie in Verbindung gebracht werden. Der Computer als universale diskrete Maschine ist unser Archiv.
In diesem Archiv spielen, wenigstens teilweise, alle wesentlichen Diskurse, die unsere Gegenwart ausmachen. Diskurse im ganz foucaultschen Sinn nicht nur in Form der Rede sondern allgemeine als Praxis von Handlungen begriffen. Programme gehören insofern ganz wesentlich zu diesen Diskursen, als Programme Handlungen nicht nur ausführen, sondern auch steuern, vereinfachen, übernehmen, verstecken usw. Eine Diskursanalyse ohne Praxis der Programmierung sagt über unsere gegenwärtigen Diskurse schon gar nichts mehr aus. Im gleichen Zug ist es wesentlich der Entwurf von Programmen, der die uns umgebenden Diskurse organisiert.
Wenn es im Feld des Sichtbaren einen Diskurs geben soll, dann ist es einer, der Computerprogramme und Datenstrukturen umfaßt. Einen Diskurs des Sichtbaren gab es bislang noch nicht im umfassenden Sinn. Es gab lange und gibt noch Diskurse von Texten mit Bildanhang. Erst technische Medien haben technische Regeln an Bildern ermöglicht. Besonders ist hier die Praxis des frühen Hollywood-Films zu erwähnen, die ihren Erfolg wesentlich daraus begründet, die Differenz eines Schnitts systematisch hinter Kontinuität von Zeit und Raum verschwinden zu lassen. Das ist eine ganz wesentliches System von Bildregeln außerhalb des Textfeldes.
Mit der Doppelexistenz der Bilder als Daten und sichtbare Oberfläche wird das Bild als ganzes diskursiv verfügbar. Es ist vorstellbar, mit Bildern Aussagen zu machen und mit Bildern Fragen nach Bildern zu stellen. Dazu bedarf es eines Archivs, das die Elemente der Aussagen sortiert, auf Fragen Antworten vorschlägt und in seinen Lücken den Platz für neue Aussagen schafft. Auf dem Weg zu dieser Praxis ist das hier vorgestellte Programm ein kleiner Schritt.



zurück zum index