Hintergrundinfos zu hackerei.com

Dieses Projekt entstand aus meiner Bachelor-Thesis mit dem Titel "Relevanzbezogene Visualisierung von Informationen - Am Beispiel IT-Security" an der HWZ Zürich. Zurzeit wird durch mich ein Papier verfasst, welches bald an dieser Stelle veröffentlicht wird. Grundlage für die Relevanz-Bewertung der verschiedenen Begriffe bildet eine empirische Umfrage, deren wichtigste Resultate an dieser Stelle zusammengefasst werden. Aus dieser Berechnung resultiert ein sog. Relevanzschlüssel, welcher den verschiedenen Quellen, also Erzeugern von Informationen, zugewiesen wird. Quellen sind für hackerei.com im Prinzip Online-Anbieter von Informationen zum Thema IT-Security.

Teilnehmerkreis

Die Umfrage wurde vom 15. September 2009 bis zum 11. Januar 2010 durchgeführt. Gesamthaft haben 177 Probanden den Fragebogen zumindest teilweise ausgefüllt. Von diesen wurden 119 komplett, d.h. bis zum Schluss ausgefüllt. Es sind aber unter den 58 nicht komplett ausgefüllten Fragebögen viele vorhanden, welche die relevanten Teile für die Bewertung von verschiedenen Quellen dennoch zumindest teilweise ausgefüllt haben. Zudem wurde eine Unterteilung in vier sogenannte Schlüsselgruppen vorgenommen: IT-Professionals, IT-Security Professionals, Geschäftliche IT-Anwender und Privatanwender.

Bedarf für ein solches System

Die Umfrage hat ergeben, dass für knapp 90% der Probanden IT-Security entweder nur geschäftlich oder sowohl privat als auch geschäftlich ein relevantes Thema ist. IT-Professionals ohne eigentlichen Fokus IT-Security widmen etwas mehr als 8% ihrer Arbeitszeit dem Thema IT-Security. Informationen zum Thema werden am häufigsten von Online-Quellen bezogen, an zweiter Stelle steht der direkte Austausch mit persönlichen Kontakten. Von der Gruppe der befragten Security-Professionals informieren sich 77% mindestens wöchentlich über allgemeine IT-Securityrelevante Themen, aber auch knapp 50% der IT-Professionals befriedigen ihr IT-Security Informationsbedürfnis wöchentlich. Diese Zahlen drücken aus, dass ein Bedarf für das modellierte System besteht.

Abb. 1 - Vergleich Schlüsselgruppen Informationsbeschaffung

Abb. 2 - Beschaffungshäufigkeit allgemeiner IT-Sec. Informationen

Bekanntheitsgrad der Quellen und Datenqualität

Für die Bewertung der Quellen wird nicht einzig auf die Teilmenge der 119 komplett ausgefüllten Fragebögen abgestützt, sondern auch Bewertungen von ansonsten nicht komplett ausgefüllten Fragebögen mit einbezogen. Die Quellen wurden von den Probanden jeweils einmal hinsichtlich deren Qualität und einmal hinsichtlich deren Aktualität bewertet. Gesamthaft wurden 1539 Stichproben geliefert, davon 898 zur Bewertung der Qualität der Quellen. Einige Probanden haben zusätzliche Quellen angegeben. Es gab darunter aber keine Mehrfachnennungen, weshalb diese Zusatz-Quellen im weiteren Verlauf nicht weiter berücksichtigt werden. Für die Vergleiche werden die Schlüsselgruppen herangezogen.

Die Anzahl der erhaltenen Stichproben, d.h. die Anzahl der Antworten, lässt Rückschlüsse auf den Bekanntheitsgrad der Quellen zu. Die drei Hauptgruppen haben unterschiedliche Kenntnisse im IT-Security Bereich. Bei der Berechnung des Relevanzschlüssels fliesst der Bekanntheitsgrad nicht direkt in die Generierung mit ein, es wäre aber durchaus ein Kriterium, welches berücksichtigt werden könnte. Allerdings ist damit auch eine Fokussierung auf die grössten Medien verbunden. Die Qualität als Bewertungskriterium würde damit zweitrangig.

Abb. 3 - Popularität der Quellen

Wie aus obiger Abbildung ersichtlich ist, sind die Quellen Heise Security, PC-Tipp und ZDNet News am bekanntesten. Interessant ist, dass die beiden Quellen Melani Newsletter und BSI Newsletter gleich viele Stichproben enthalten. Bei beiden Quellen handelt es sich um Informationsmails von Behörden. Quellen wie bspw. Networkworld Security sind eher bei IT-Professionals als Security-Professionals bekannt. Wiederum andere Quellen wie bspw. Darknet sind praktisch ausschliesslich bei Security-Professionals bekannt.

Qualität und Aktualität der Quellen

Neben dem einfach ermittelten Bekanntheitsgrad der Quellen interessiert nun aber vor allem die Benotung der Quellen durch die Probanden. In nachfolgender Abbildung sind die Werte als Mittelwert über sämtliche Teilnehmer zu interpretieren, d.h. jeder Proband erhält eine einzige ungewichtete Stimme, unabhängig von einer Zugehörigkeit zu einer Schlüsselgruppe.

Abb. 3 - Delta zw. Qualität und Aktualität über alle Teilnehmer und alle Quellen

Bei dem Grossteil der Quellen werden Aktualität und Qualität ähnlich bewertet. Einzig bei der Full Disclosure Mailing List ist ein wirklich deutlicher Unterschied zu sehen. In einer etwas anderen Form dargestellt, einem Scatter Plot, sind die beiden Achsen Qualität und Aktualität einander in Abbildung 4 gegenübergestellt.

Abb. 4 - Qualität und Aktualität der Quellen

Qualität

Es herrscht bei allen Quellen eine grosse Bandbreite der Antworten. Bis auf vier wurde allen 25 Quellen mindestens einmal die Maximal-Note Sechs vergeben. Bei der Vergabe der Minimal-Note Eins waren die Probanden zurückhaltender, diese haben nur neun Quellen mindestens einmal erhalten. Die Durschnitts-Noten sind zwischen 3,35 (PC Tipp) und 4,96 (IBM ISS Threat List) verteilt.

Aktualität

Bei der Bewertung der Aktualität zeigt sich ein ähnliches Bild wie bei der Qualität, d.h. vor allem eine hohe Bandbreite an Wertungen. Die tiefste Durschnitts-Note hat auch hier der PC Tipp mit 3,7 erhalten, den höchsten Wert hat die Full Disclosure Mailing List mit 5,267 erreicht.

Bewertung

Alle Quellen werden von den Probanden im Mittel zwischen den Noten 3,32 und 5.26 platziert. Es sind deutliche Unterschiede im Bekanntheitsgrad der einzelnen Quellen zu erkennen. Die Quellen werden auch innerhalb der Gruppen nicht homogen beurteilt. Insgesamt ergibt sich über die Bewertung der Quellen ein recht heterogenes Bild. Die Unterschiede bzgl. Qualität und Aktualität sind allerdings, bis auf einzelne Ausnahmen, nicht signifikant.

Relevanzschlüssel

Anschliessend kann mit den erhaltenen empirischen Werten gearbeitet werden. Aus den für jede Quelle vorhandenen empirischen Werten wird ein Relevanzschlüssel sowohl für Qualität als auch für Aktualität hergeleitet. Dieser Relevanzschlüssel bildet die Grundlage für die Bewertung der einzelnen Begriffe, welche von den Quellen genannt werden. Dieser Teil der Thesis wurde als vertraulich klassifiziert da es sich um den eigentlichen Algorithmus der Bewertung der Relevanz handelt. Im Prinzip basiert die Berechnung aber auf den oben vorgestellten empirischen Werten, d.h. jegliche Änderung dieser Parameter wirkt sich auch stark auf die Bewertung der Begriffe aus.

Falls Sie an weiteren Informationen interessiert sind, oder in einem ähnlichen Forschungsgebiet tätig sind, freue ich mich auf Ihre Kontaktaufnahme.

© 2010 Marco Schnüriger