Seite - 387 - in Dinge – Nutzer – Netze - Von der Virtualisierung des Musealen zur Musealisierung des Virtuellen
Bild der Seite - 387 -
Text der Seite - 387 -
Fallstudien | 387
Neal Krawetz 2011 in einem Artikel auf dem Hacker Factor Blog an. Nach seinem
Dafürhalten bedient sich TinEye aller Wahrscheinlichkeit nach sogenannter Hash-
(oder Streuwert-)Funktionen. Hashes spielen unter anderem in der Datenverschlüs-
selung eine bedeutende Rolle: Stark verkürzt erklärt bilden sie eine große Menge an
Eingangs- auf eine sehr viel kleinere Menge von Ausgangswerten ab. Hashfunktio-
nen kommen z.B. bei einer Vielzahl digitaler Übertragungstechnologien wie dem
USB-Standard zum Einsatz, bei denen die störungsfreie Übertragung von Daten
dadurch gesichert ist, dass zu jedem übertragenen Daten-›Paket‹ automatisch eine
jeweils individuelle Prüfsumme generiert und am Ziel mit den eingetroffenen Daten
abgeglichen wird. Hash-Algorithmen wären dementsprechend eine naheliegende
Möglichkeit zur Komplexitätsreduktion in großen Datenmengen, welche eine Bilder-
suchmaschine mit Milliarden indexierter Dateien unvermeidlich betreiben müsste.
Krawetz beschreibt einen Hash-Vorgang, wie er auf TinEye möglicherweise zum
Einsatz kommen könnte, folgendermaßen: Von Usern hochgeladene oder von Craw-
lern erfasste Bilddateien würden zunächst höchstwahrscheinlich verkleinert. Krawetz
schlägt hier der Einfachheit halber eine Reduktion auf 8x8, insgesamt also 64 Pixel
vor. Das ursprüngliche Seitenverhältnis müsse nicht erhalten bleiben. In einem zwei-
ten Schritt gelte es dann, die Farbkomplexität zu reduzieren. Bei einem Farbbild müs-
sen für jeden Pixel grundsätzlich drei Farbwerte – rot, grün und blau – erhoben wer-
den. Für ein Bild mit 64 Pixeln sind dies also insgesamt 192 Farben. Rechnet man
das Bild hingegen auf Graustufen herunter, muss für jeden Pixel nur noch ein Hellig-
keitswert gespeichert werden, womit sich seine Komplexität auf 64 Farbwerte redu-
ziert, deren Durchschnitt in einem dritten Schritt berechnet wird. In einem weiteren
Schritt wird dieses Graustufenbild abermals vereinfacht – durch die Übersetzung der
64 Pixel in Bits, welche je nachdem, ob sie über oder unter dem durchschnittlichen
Helligkeitswert liegen, den Wert 0 oder 1 annehmen. Diese Bits schließlich lassen
sich mittels einer Hashfunktion in eine kurze Zeichenfolge übersetzen, die dann mit
denen anderer Bilder verglichen werden kann. Der Vorzug eines solchen Verfahrens
ist laut Krawetz ein doppelter: Erstens ist es sehr schnell abzuwickeln, und zweitens
ist es resistent gegen Änderungen am Bildmaterial. Eine Veränderung am Seitenver-
hältnis oder an den Farben eines Bildes wird sich meist nicht auf die Hashsumme
auswirken – und durch die dem Hash vorgeschaltete Größen- und Komplexitätsre-
duktion werden kleine Änderungen am Bild automatisch vernachlässigt, weil sie
schlicht verschwinden. Die ›Zusammengehörigkeit‹ zweier Bilder lässt sich dann
mittels der sog. Hamming-Distanz (benannt nach dem Mathematiker Richard Ham-
ming) beziffern, die beschreibt, wie viele Bitpositionen in der Hash-Summe unter-
schiedlich sind. Ist die Distanz 0, handelt es sich sehr wahrscheinlich um dasselbe
Bild – und je größer sie wird, desto verschiedener sind die den Hashes zugrundelie-
genden Bilddateien (vgl. Krawetz 2011).
Bildersuchmaschinen folgen also letztlich der Logik der Textsuche vor Google:
Sie suchen nach Ähnlichkeiten und führen Gleiches zu Gleichem. Insofern haben sie
Dinge – Nutzer – Netze
Von der Virtualisierung des Musealen zur Musealisierung des Virtuellen
- Titel
- Dinge – Nutzer – Netze
- Untertitel
- Von der Virtualisierung des Musealen zur Musealisierung des Virtuellen
- Autor
- Dennis Niewerth
- Verlag
- transcript Verlag
- Datum
- 2018
- Sprache
- deutsch
- Lizenz
- CC BY-NC-ND 4.0
- ISBN
- 978-3-8394-4232-6
- Abmessungen
- 14.8 x 22.5 cm
- Seiten
- 428
- Schlagwörter
- Virtualität, Kulturerbe, Digitalisierung, Neue Medien, Kulturmanagement, Museumswissenschaft, Digitale Medien, Mediengeschichte
- Kategorie
- Medien