Schattenblick →INFOPOOL →NATURWISSENSCHAFTEN → TECHNIK

FORSCHUNG/122: Das Blubbern der Bombe (RUBIN)


RUBIN - Wissenschaftsmagazin, Sonderheft 10/2010 - Junge Forschung Ruhr-Universität Bochum

Computer lernen, Spuren von Atomtests in Unterwassersignalen zu finden
Das Blubbern der Bombe

Von Matthias Tuma


Der Kernwaffenteststopp-Vertrag soll zukünftig alle Atomwaffentests verbieten. Schon jetzt sind auf dem ganzen Erdball hunderte geophysikalischer Sensoren installiert, um seine Einhaltung zu überwachen. Allein aus den Ozeanen liefern sie Tag für Tag gigabyteweise Daten, die es nach Hinweisen auf heimliche Tests zu untersuchen gilt. Zunehmend sollen Computerprogramme als digitale Spürhunde wirken. Welche Anhaltspunkte sie dabei auf welche Weise berücksichtigen, bleibt ihnen weitestgehend selbst überlassen. Denn zum Einsatz kommen sog. maschinelle Lernverfahren.


In der "traditionellen" Datenverarbeitung wertet ein Computer einen Datensatz nach den Kriterien aus, die ihm ein Programmierer vorher aufgeschrieben hat. Es gibt aber Aufgaben, für die kein Experte die Lösung Schritt für Schritt vorgeben kann. Wir Menschen meistern sie manchmal trotzdem intuitiv, zum Beispiel beim Auseinanderhalten von Gesichtern oder Stimmen. Wo wir den Maschinen kein Patentrezept zu formulieren wissen, können wir ihnen nur dabei helfen, die Lösung selbst zu erlernen. Natürlich ist es (noch) nicht möglich, in Bauteile aus Silizium ein Bewusstsein hinein zu programmieren. Machbar ist es aber, ein Programm zu schreiben, das sich anhand eines Beispieldatensatzes samt zugehöriger Lösung selbst eine Regel konstruiert, wie es mit nachfolgenden Daten derselben Art umgehen soll. Das nennen wir ein maschinelles Lernverfahren. Auf diesem Themenfeld arbeitet unsere Forschungsgruppe "Optimierung adaptiver Systeme" vorwiegend theoretisch (s. Info 2, Abb. 2). Wir entwickeln Lernalgorithmen aber nicht zum Selbstzweck, sondern wenden sie auch auf echte Problemstellungen an. Eine davon ist die Klassifikation hydroakustischer Signale, wie sie vom Verifikationsnetz der Kernwaffenteststopp-Vertragsorganisation CTBTO (Comprehensive Nuclear-Test-Ban Treaty Organization) aufgenommen werden.

Hydroakustik meint, dass es um Schallsignale geht, die unter Wasser aufgenommen werden. Im Überwachungsnetz der CTBTO schweben dafür sog. Hydrophone in etwa 750 m Meerestiefe (s. Abb. 5). Ihre kontinuierlichen Messkurven schicken sie über bis zu 100 km lange Unterwasserkabel zur nächsten Insel und von dort per Satellit zum Internationalen Datenzentrum der CTBTO. Mit Fertigstellung des Überwachungssystems werden hier täglich mehr als zehn Gigabyte Daten von 337 Messstationen erwartet. Der Löwenanteil der Sensoren entfällt allerdings auf die neben der Hydroakustik weiteren drei Messtechnologien der CTBTO (s. Info 1). Hingegen reichen elf Unterwasserstationen aus, um die drei Ozeane zu überwachen (s. Abb. 3). Denn in bestimmten Meerestiefen werden Schallwellen auf ähnliche Weise transportiert wie Licht in einer Glasfaser. Hier im "Deep Sound Channel" ist also der beste Ort, um auf verdächtige Signale aus potentiellen Atomwaffentests zu horchen. Beruhigenderweise empfängt man aber vor allem Walgesänge, Stürme an der Meeresoberfläche, See- und Erdbeben, abbrechende Eisberge, Schiffsmotoren und vieles mehr. Diese Geräusche sollen von allem unterschieden werden, was sich wie eine Explosion anhört: Dynamitfischer, ausbrechende Unterwasservulkane, chemische und nukleare Waffentests oder Unfälle. Eine entsprechende Regel zu finden, ist die Hauptaufgabe eines unserer Lernalgorithmen. Erschwert wird sie dadurch, dass Unterwassersignale auf der Reise um den Globus reflektiert und gebrochen werden sowie einen Sensor auf verschiedenen Wegen zum Teil gleichzeitig erreichen können.

Wegen der hohen Anforderungen an die Korrektheit ihres Überwachungsnetzes rief die CTBTO im Jahre 2008 Forscher aus aller Welt zur Kooperation auf. Externe Spezialisten sind in acht wissenschaftlichen Disziplinen gefragt, darunter maschinelle Lernverfahren. Unserer Gruppe wurde die Zusammenarbeit durch ein Promotionsstipendium der Studienstiftung des deutschen Volkes ermöglicht; insgesamt beteiligten sich über 200 Arbeitsgruppen. Zuerst definierten die CTBTO und wir feste Schnittstellen für die Arbeitsabläufe. So erhielten wir die interessanten Geräusche bereits aus den Abschnitten ereignislosen Rauschens herausgefiltert. Auch verwenden wir für alle Signale eine einheitliche Repräsentation: Jedes Ereignis wird durch eine Reihe von 128 reellen Zahlen beschrieben, die man als Koordinaten begreifen kann. Ein Unterwassersignal wird so zu einem Punkt in einem 128-dimensionalen Raum (s. Abb. 4). Damit unser Lernverfahren aus diesen Punkten etwas lernen kann, gaben uns Experten der CTBTO für jedes Beispielsignal die Einstufung "verdächtig" oder "unverdächtig". Mit dieser Information könnten wir, wären es nur zwei statt 128 Dimensionen, auf Papier alle Signale in ein Koordinatenkreuz einzeichnen und von Hand eine möglichst adäquate Trennlinie zwischen verdächtigen und unverdächtigen Geräuschen ziehen. Nun haben Computer uns Menschen gegenüber Vor- und Nachteile: Es ist ihnen einerseits nicht so wichtig, in wie vielen Dimensionen sie arbeiten, weshalb sie mehr Informationen einbeziehen können. Auch behandeln sie in Sekundenschnelle tausende von Punkten. Aber wie ein Algorithmus in einer Anordnung von Punkten eine Trennung zwischen zwei Punktklassen findet, das müssen wir als Programmierer vorgeben.

Wir nutzten in unserer Studie als Klassifikatoren, also Verfahren zum Auseinanderhalten der Signalklassen, sog. Support-Vektor-Maschinen (SVMs). Sie beschränken sich darauf, gerade Trennlinien zwischen zwei Klassen zu ziehen. Das kann aber unzureichend sein, zum Beispiel, wenn alle verdächtigen Signale auf einem Fleck sitzen und alle unverdächtigen ringförmig darum herum. SVMs vollführen deshalb einen besonderen Trick: Sie können den Raum, in dem sie die Daten präsentiert bekommen, austauschen, ehe sie eine Trennlinie ziehen. Was dann im neuen, von der SVM tatsächlich benutzten Raum eine Gerade ist, kann im ursprünglichen Raum einer Kurve entsprechen. Am besten klappt der Klassifikationsvorgang natürlich in einem Raum, in dem alle unverdächtigen Signale des Beispieldatensatzes nahe beieinander liegen und - separiert davon - alle verdächtigen auch. Denn dann lässt sich eine Trennung zwischen den beiden Signalklassen besonders leicht lernen. Ein unbekanntes Signal "transportiert" die SVM später einfach in denselben Raum wie vorher die Beispieldaten. Abhängig davon, auf welcher Seite der gelernten Trennlinie es landet, gibt die SVM schließlich ihre Prognose "verdächtiges Signal" oder "unverdächtiges Signal" ab.

Das Bauteil einer SVM, das bestimmt, in welchem Raum sie nach einer geraden Trennung zwischen den Klassen sucht, ist die Kernfunktion. Bevor wir eine SVM für ein Lernproblem einsetzen, müssen wir unter allen erlaubten mathematischen Funktionen eine Untermenge als Kandidaten für die Kernfunktion aussuchen. Hier ist bei aller Automatisierung immer noch Intuition und Expertenwissen gefragt. Allerdings legen wir nur die Struktur der Kernfunktion fest. Wenn sie noch reelle Zahlen als Fragezeichen - wir sagen als freie Parameter - enthält, überlassen wir deren Auswahl sog. Modellselektionsalgorithmen für SVMs. Diese bilden ein besonderes Spezialgebiet unserer Gruppe. Ein gängiges Verfahren ist, den Computer einfach eine große Menge an Parametern für die Kernfunktion ausprobieren zu lassen. Wir hingegen arbeiten gerne an und mit sog. gradientenbasierten Verfahren. Diese starten bei beliebigen Parameterwerten und verbessern sie stetig und schrittweise. Dafür nutzen sie Informationen, in welche Richtung eine Änderung der Parameter jeweils sinnvoll ist. Zusätzlich müssen die Modellselektionsalgorithmen auch einen günstigen Wert für den sog. Regularisierungsparameter der SVM finden. Er soll verhindern, dass sich die Klassifikation unbekannter Signale zu sehr an einzelnen Ausreißern in den Beispieldaten orientiert. Denn der Klassifikator soll ja nicht nur die Beispieldaten auswendig lernen, sondern auch für bisher ungesehene Signale gut funktionieren.

Weil zur hydroakustischen Signalklassifikation erst wenige zivile Studien durchgeführt wurden, begannen wir unsere Untersuchungen bei etablierten Allround-Kernfunktionen, sog. radialen Gauß-Kernen. Diesen Ansatz verfeinerten wir anschließend schrittweise, indem wir die Kernfunktion der SVM strukturell an charakteristische Eigenarten der Unterwasserdaten anpassten. Zum Beispiel wurden die Signale in acht Frequenzabschnitten vorverarbeitet, so dass es sich anbot, eine Kernfunktion zu wählen, die sich aus acht Unterfunktionen zusammensetzt. "Außerdem musste Matthias festlegen, wie die Lernprogramme damit umgehen sollten, dass manchmal Daten fehlen", resümiert sein Betreuer Privatdozent Dr. Christian Igel. Damit war die Arbeit am mathematischen Reißbrett getan und wir konnten den letzten Schritt an unsere Modellselektionsalgorithmen übergeben.

Und die Ergebnisse des Ganzen? Explosive und Hintergrundsignale können wir bei Fehlerraten von drei bis vier Prozent unterscheiden. Etwas schwieriger war die Zusatzaufgabe, auch noch Erdbeben als dritte Signalklasse von den ersten beiden auseinander zu halten. Aus diesem Grund liegt unser Schwerpunkt momentan auf konzeptionellen Verbesserungen für Mehrklassen-SVMs - es bleibt also spannend.


info 1
Naturwissenschaft und Kernwaffenteststopp-Verifikation

Die Geschichte des Kernwaffenteststopp-Vertrags ist eng mit selbstständigem Engagement der naturwissenschaftlichen Forschergemeinschaft verbunden. So leistete die "Ad-hoc Group of Scientific Experts" ab 1976 wichtige Vorarbeiten zum späteren Verifikationssystem. Kontinuierlich im Einsatz sind nun atmosphärische Messungen von Radionuklidkonzentrationen sowie neben der Hydroakustik zwei weitere sog. Wellenform-Technologien: Seismische Sensoren zeichnen Erdbewegungen auf, Infraschall-Stationen messen niederfrequente Schallwellen in der Atmosphäre. Lassen diese vier Technologien einen unerlaubten Test vermuten, können Vor-Ort-Inspektionen mit weiteren wissenschaftlichen Methoden folgen. Voraussetzung für das Inkrafttreten des Vertrags ist aber, dass ihn auch die noch fehlenden neun Staaten, die über Nukleartechnologie verfügen, ratifizieren.
www.ctbto.org


info 2
Institut für Neuroinformatik - Wo Maschinen lernen

Das Institut für Neuroinformatik (INI) ist eine zentrale wissenschaftliche Einrichtung der Ruhr-Universität Bochum. Rund 60 Wissenschaftler und Studenten erforschen hier exemplarische Probleme und Anwendungen der neuronalen Informationsverarbeitung. Ziel ist einerseits, ein grundlegendes Verständnis über die Arbeitsweise des Nervensystems zu gewinnen. Umgekehrt soll dieses Verständnis in innovativen Methoden der technischen Informationsverarbeitung münden. Die Arbeitsgruppe "Optimierung adaptiver Systeme" von Privatdozent Dr. Christian Igel beschäftigt sich schwerpunktmäßig mit der Analyse von Lernprozessen und der Entwicklung biologisch und mathematisch inspirierter maschineller Lernverfahren. Die geophysikalische Fernerkundung gehört zu einem der vielen praktischen Anwendungsgebiete der entwickelten Methoden.
http://www.neuroinformatik.rub.de


Den gesamten Artikel inkl. aller Bilder finden Sie im Internet im PDF-Format unter:
www.ruhr-uni-bochum.de/rubin/


Im Schattenblick nicht veröffentlichte Abbildungen:

Abb. 2: Vor dem Programmieren eines Lernverfahrens diskutieren Matthias Tuma und sein Betreuer Dr. Christian Igel dessen theoretische Eigenschaften.

Abb. 3: Geographische Standorte der hydroakustischen Sensoren.

Abb. 4: Jedes Unterwassersignal wird als Reihe von 128 reellen Zahlen repräsentiert.

Abb. 5: Vom Schiff aus werden die Hydrophone weit unter dem Meeresspiegel installiert.


*


Quelle:
RUBIN - Wissenschaftsmagazin, Sonderheft 10/2010 - Junge Forschung,
S. 40 - 44
Herausgeber: Ruhr-University Research School (RURS)
in Verbindung mit der Pressesstelle der Ruhr-Universität Bochum
Anschrift: Pressestelle der Ruhr-Universität Bochum, 44780 Bochum
Telefon: 0234/32-22 133, -22 830, Fax 0234/32-14 136
E-Mail: rubin@presse.ruhr-uni-bochum.de
Internet: www.ruhr-uni-bochum.de/rubin/

RUBIN erscheint zweimal im Jahr
(sowie ein Themenheft pro Jahr).
Das Einzelheft kostet 2,50 Euro.
Jahreabonnement: 5,00 Euro (zzgl. Versandkosten)


veröffentlicht im Schattenblick zum 3. November 2010