Was sind Dark Data und wie können sie genutzt werden?
Nach Jahren des Big Data Booms kommen viele Analysten zu einem ernüchternden Ergebnis: Nur ein Bruchteil der weltweit angehäuften Datenmenge kann und wird tatsächlich genutzt.
Überschattet wird dieser Bruchteil von einem größeren Haufen sogenannter “ROT”-Daten: Daten, die redundant, obsolet und/oder trivial sind – alles Indikatoren dafür, dass sie eigentlich gelöscht werden sollten.
Was den Analysten jedoch wirklich Sorgen bereitet, ist der dritte und relativ größte Bereich: “Dark Data”, ein Wildwuchs an ungenutzten, verwaisten und unstrukturierten Daten, denen noch kein Wert zugewiesen wurde – die aber dennoch Speicherkosten verursachen und Arbeitszeit rauben.
Dark Data definiert
Wie sich herausstellt, scheint Deutschland in dieser Disziplin weltweit führend zu sein: Nach Branchenschätzungen sind mehr als 55 Prozent aller in Deutschland gespeicherten Informationen schlichtweg “dunkel”, das heißt, sie erfüllen eines oder mehrere der folgenden losen Kriterien, die zur Definition von Dark Data herangezogen werden:
- Sie existieren in eigenen Datensilos, was dem Ideal des Data Lake widerspricht (und eher einen “Datensumpf” erzeugt).
- Sie sind weder strukturiert noch durchsuchbar.
- Das Unternehmen ist sich nicht im Klaren darüber, dass es die Informationen überhaupt besitzt.
- Ihre Auswertung wird auf unbestimmte Zeit verschoben.
- Sie befinden sich auf Speichermedien, die nicht mehr genutzt werden (Backups, USB-Sticks, Mailboxen).
- Die Informationen sind auf Spreadsheets verteilt, die nicht mehr eingesehen werden.
- Ihre Speicherung verursacht mehr Kosten als Nutzen.
- Die Daten sind manchmal verschlüsselt und niemand hat mehr Zugang zu ihnen.
- Die (nicht bekannte) Existenz der Daten kann eine Bedrohung für das Unternehmen darstellen, z. B. im Zusammenhang mit der Einhaltung der DSGVO.
- Es ist oft teurer, die Daten später zu sortieren, als wenn man sie sofort klassifiziert hätte.
Unternehmen und Verwaltungen, die nicht rechtzeitig die Weichen stellen, laufen daher Gefahr, unter der von ihnen selbst gesammelten Informationslawine begraben zu werden. Und die weltweite Datenmenge nimmt rasant zu: Das IDC-Institut schätzt, dass alleine im Jahr 2020 rund 59 Milliarden Terabyte (oder 59 Zettabyte) an digitalen Informationen entstanden sind – und dass in den folgenden drei Jahren mehr Daten erhoben und gespeichert werden als in den vergangenen 30.
In der Zwischenzeit wird für deutsche Unternehmen eine jährliche Zunahme des Datenvolumens zwischen 31 und 60 Prozent pro Jahr erwartet.
CEOs wissen nicht, was sie nicht wissen
Der Begriff Dark Data stammt aus der Wissenschaft und verdeutlicht eine Vielzahl von Problemen bei der Analyse von Statistiken. Ein berühmtes Beispiel aus dem Zweiten Weltkrieg: Britische Ingenieure dokumentierten die Lage der Einschusslöcher von zurückkehrenden Fliegern und Bombern, um Rückschlüsse darauf zu ziehen, wo die Panzerung verbessert werden sollte. Nur ein Ingenieur erkannte, dass die Panzerung überall dort angebracht werden müsste, wo die zurückgekehrten Flugzeuge keine Einschusslöcher aufwiesen – da diese Flugzeuge trotz eines Treffers zurückkehren konnten, war eine Panzerung an diesen beschädigten Stellen nicht erforderlich. Alle Flugzeuge, die nicht zurückkehrten, wurden jedoch höchstwahrscheinlich an genau diesen Stellen getroffen. Bei der Betrachtung der Statistiken fehlten die Daten über diese Flugzeuge einfach: ein frühes Beispiel für Dark Data.
In der Geschäftswelt stellen Dark Data zwar ein geringeres Risiko für Leib und Leben dar, aber die fehlenden Erkenntnisse können zu fehlerhaften langfristigen Entscheidungen führen, die auf unvollständigen Datensätzen beruhen. Schließlich wissen auch Unternehmer nicht, was sie nicht wissen.
Die Kehrseite von Big Data
Die Ursache für viele dieser “Datenmüllberge” ist im Goldrausch des letzten Jahrzehnts zu suchen. In vielen Branchen wurden Daten gesammelt und gespeichert, weil es einfach möglich war – zum Beispiel von App-Anbietern. In anderen Fällen wurden Daten nicht vernichtet, weil man fälschlicherweise glaubte, sie aufgrund gesetzlicher Vorgaben aufbewahren zu müssen. Oder Maschinen und Produktionsanlagen wurden mit Sensoren und Protokollschreibern ausgestattet, deren Ergebnisse anschließend nicht beachtet wurden.
In all dem steckt aber ein großes Entwicklungspotenzial. Ob die digitale Transformation die Welt in dem Maße beeinflussen wird wie einst die industrielle Revolution, wird auch davon abhängen, wie das Problem der Dark Data gelöst wird.
Bis dahin lassen sich in vielen Fällen nicht nur Speicherkosten vermeiden, sondern auch gewisse bestehende Risiken:
- Ungenutzte Datenbestände stellen ein rechtliches Risiko dar, da sie Compliance- und Gesetzesverstöße enthalten können.
- Wenn rohe, ungenutzte Daten aufgrund unzureichender Sicherheitsvorkehrungen an die Öffentlichkeit gelangen, besteht die ernste Gefahr, dass der Ruf geschädigt oder Geschäftsgeheimnisse ungewollt preisgegeben werden.
- Hat sich erst einmal eine “Business as usual”-Mentalität etabliert, zieht sich die Lösung des Problems nur noch weiter in die Zukunft. Speicherkosten mögen zwar sinken, aber Dark Data wächst oft exponentiell.
- Da der globale Speicherplatzbedarf und der Energieverbrauch von Dark Data so massiv sind, setzen sich Umweltschützer zunehmend mit dem Thema auseinander. In dieser Hinsicht können kluge Unternehmen potenziellen Regulierungen (und schlechter Publicity) einen Schritt voraus sein.
Nutzung von Dark Data: Wie man die Kontrolle zurückgewinnt
Die Einsicht, dass “Daten das neue Öl” sind, ist also in zweierlei Hinsicht wahr: Auch Öl muss erst raffiniert werden, bevor es seinen Wert entfalten kann. Die Bereinigung von Altdaten mag einen einmaligen Aufwand darstellen, aber er wird sich auszahlen. Nicht nur werden Entscheidungen auf einer solideren Grundlage getroffen, sondern auch das Risiko ungewollter Rechtsverstöße wird verringert – unabhängig davon, ob es sich bei dem betreffenden Unternehmen um einen kleinen lokalen Betrieb oder einen Global Player handelt.
Darüber hinaus können durch eine koordinierte Bereinigung und Strukturierung neue Geschäftsmodelle und Zweitnutzungen entstehen, die vorher gar nicht absehbar waren. Es entsteht eine eigene Industrie kleiner und mittlerer Unternehmen, die sich vor allem auf die Sekundärnutzung der Datenschätze großer Unternehmen konzentrieren.
Neben der Disziplin der Mitarbeiter sind die richtigen Werkzeuge zur Bewältigung des Problems unerlässlich. Dokumentenmanagementsysteme und intern entwickelte Content-Anwendungen dienen als Grundlage. Der Einsatz von optischer Zeichenerkennung (OCR), künstlicher Intelligenz (KI) und maschinellen Lernalgorithmen kann helfen, den Zeitaufwand zu reduzieren. Und gut definierte Workflows sorgen dafür, dass Berge von Dark Data nicht einfach nachwachsen können.
Und, als angenehmer Nebeneffekt, verhindern solche Tools auch die eingangs erwähnten ROT-Daten, also Daten, die als redundant, obsolet und/oder trivial eingestuft werden.