DEMO-05: Exploring Big Data Landscapes with a Glyph-based Zoomable User Interface

Aussteller: Dietrich Kammer, Mandy Keck, Thomas Gründer
Technische Universität Dresden

Wie können hochdimensionale Datensätze bei der Erstellung von Clustern und Klassifikationen effektiv durchsucht werden? Wie können Datenanalysten ihre Hypothesen überprüfen und verschiedene Parameter ihrer Algorithmen untersuchen und vergleichen? Diesen Fragestellungen widmet sich die gezeigte zoombare Benutzungsschnittstelle, wobei Glyphen zur Visualisierung der Dateneigenschaften verwendet werden. Der Ansatz wird erläutert und anhand verschiedener Datensätze aus den Bereichen E-Commerce, Content Observation und Medizin vorgeführt. Besucher können dann selbst mit dem System interagieren. Obwohl es sich um ein Expertensystem handelt, ist diese Anwendung auch durch IT-Laien besonders leicht nachvollziehbar und bedienbar. Das System basiert auf einer Landschaftsmetapher (Big Data Landscape), wobei die Daten zunächst durch Punkte in zwei Dimensionen dargestellt werden. Zu diesem Zweck werden verschiedene Verfahren der Dimensionsreduktion verwendet, die durch das Interface auch für einen Datensatz in einem Splitscreen verglichen werden können. Durch Zoomen in interessante Cluster verändert sich die Darstellung der Punkte hin zu Glyphen. Glyphen sind kleine, unabhängige visuelle Objekte, die Dateneigenschaften auf grafische Elemente abbilden. Dadurch entstehen beispielsweise Stern- oder Blumenglyphen, welche die menschlichen Fähigkeiten zur Mustererkennung ansprechen. Dadurch können Ähnlichkeiten oder Abweichungen zwischen Datenpunkten schnell erkannt werden. Durch verschiedene weitere Interaktionsmöglichkeiten, wie das Filtern nach bestimmten Eigenschaften, können die typischen Aufgaben eines Datenanalysten durch den Prototyp unterstützt werden. Dazu zählt die Untersuchung unterschiedlicher Dimensionsreduzierungsverfahren sowie von Clustern und Dateneigenschaften. Darüber hinaus dienen Tooltips für die detaillierte Analyse einzelner Datenpunkte in einem Cluster. Ein erweiterbares JSON-Austauschformat erlaubt darüber hinaus die Festlegung geeigneter Parameter für verschiedene Berechnungsvorschriften. Darüber ist auch ein Vergleich unterschiedlicher Verarbeitungsprozesse der Daten möglich.

YouTube Video: https://youtu.be/_i09AIlncKQ