Bahnbrechendes Clustering

In vielerlei Hinsicht ist das menschliche Gehirn dem Computer weit überlegen. Das Bilden von Gruppen aus vorgegebenen Objekten (sog. Clustering) ist eine der Stärken biologischer “Rechenmaschinen” und lässt sich mit Computern kaum automatisieren. Ein neuartiges Clusteringkonzept, entwickelt von der Stoop Group an der ETH/UNI Zürich, verspricht Abhilfe zu leisten.

Clustering und die Schwierigkeiten

Seit den 60er Jahren ist die Entwicklung von computergestützter Objektklassifizierung Gegenstand der AI Forschung (AI: artificial intelligence) und Neuroinformatik. Die Aufgabenstellung ist nicht trivial: Gegeben eine Menge von Datenpunkten, wie lassen sich diese sinnvoll in Gruppen unterteilen? Die Frage stellt sich uns täglich, ohne bewusst Notiz davon zu nehmen: Bei der Erkennung von Gegenständen beispielsweise gruppieren wir visuelle Reize der Netzhaut in Windeseile und praktisch immer fehlerfrei.

Für die Wirtschaft ist die Existenz guter Clusteringalgorithmen von nicht unterschätzbarem Wert: Umfrageauswertung, Marktsegmentierung, Wissensmanagement und viele der üblichen Optimierungskonzepte setzen Clustering voraus. Aufgrund Limitationen bestehender Algorithmen blieb dies aber meist Aufgabe des Menschen. In solchen abstrakten Clusteringaufgaben spielt uns der Verstand jedoch oft einen entscheidenden Streich. Wir tendieren dazu, unbekannte Daten nach vordefinierten Kriterien (Erfahrungswerte, “Gespür”) zu gruppieren, anstatt unvoreingenommen zu sein.

Limitationen bestehender Techniken

Die Entwicklung unvoreingenommener Clustering-Algorithmen geniesst also grosses Interesse. Bisherige Versuche krankten hauptsächlich an zwei Punkten:

  1. Um Gruppen aus Objekten bilden zu können, ist ein Mass für Zusammengehörigkeit oder Ähnlichkeit zweier Objekte erforderlich. Sobald mehr als eine Eigenschaft pro Objekt verglichen wird, stellt sich die Frage nach der Gewichtung. Ist es z.B. wichtiger, geometrische Figuren anhand ihrer Farbe oder ihrer Form zu gruppieren? Die Angabe solcher Ähnlichkeitspräferenzen bestimmt aber bereits das erwartete Aussehen der Gruppen und wird dadurch dem Anspruch, unvoreingenommen zu sein, nicht gerecht.
  2. Anderer Natur ist die Frage nach der Natürlichkeit von Clustern. Es ist leicht verständlich, dass fürs Clustering ein Parameter existiert, der die Feinkörnigkeit der Gruppenbildung steuert. Beim Essen interessieren uns weniger einzelne Moleküle als deren Zusammenschluss zum Steak, während wir andrerseits -zum Glück- nicht Steak und Teller als dieselbe Gruppe auffassen. Bestehende Algorithmen schoben in Ermangelung eines natürlichen Masses für Cluster dem Menschen die Aufgabe der richtigen Wahl der Grobkörnigkeit zu. Beim Steak-Teller-Problem ist diese bewältigbar, aber nur, weil wir die Lösung bereits kennen. Bei allgemeinen Daten, wo keine Idee einer idealen Grobkörnigkeit existiert, wird dieselbe Aufgabe kaum lösbar. Tragischer ist jedoch, dass aufgrund eines fehlenden “Gespürs” für die Natürlichkeit von Clustern die Resultate der Algorithmen oft so falsch sind, dass auch bei optimaler Wahl der Grobkörnigkeit die Ergebnisse nicht zufriedenstellend sind.

Das bahnbrechende Verfahren, die natürliche Objektklassifizierung durch sequentielles superparamagnetisches Clustering, eröffnet ungeahnte Lösungsansätze für anspruchsvolle Problemstellungen, z.B. die Wahl einer optimalen Organisationsstruktur.

Leave a Comment