Aufrufe
vor 4 Jahren

RISIKO MANAGER 03.2019

  • Text
  • Risiikomanager
  • Rabbi
  • Teilen
  • Talmud
  • Konzept
  • Diversifizierung
  • Ventures
  • Antoratur
  • Diversifizierte
  • Barreserven
  • Klassischen
RISIKO MANAGER ist das führende Medium für alle Experten des Financial Risk Managements in Banken, Sparkassen und Versicherungen. Mit Themen aus den Bereichen Kreditrisiko, Marktrisiko, OpRisk, ERM und Regulierung vermittelt RISIKO MANAGER seinen Lesern hochkarätige Einschätzungen und umfassendes Wissen für fortschrittliches Risikomanagement.

30

30 RISIKO MANAGER 03|2019 Abb. 10 Inputsignale Abb. 11 x1 Eingabe x2 Aufbau einer Nervenzelle Dendriten Künstliches neuronales Netz w1 w2 Eingabefunktion den. Nach dem Modelltraining können die Leistungen der einzelnen Modelle verglichen werden. Die Modelle werden nun mit den Trainingsdaten trainiert. Diese Phase wird als das eigentliche maschinelle Lernen bezeichnet. Anschließend werden die Modelle mit ihrer Performance bewertet. Eine Performancemessung erfolgt in der Regel durch eine k-fache Kreuzvalidierung. Dabei wird der Trainingsdatensatz in k gleichgroße Tranchen unterteilt. ( Abb. 05) Bei der zehnfachen Kreuzvalidierung werden beim ersten Trainingsdurchlauf die ersten neun Tranchen zum Modelltraining verwendet, während die letzte Tranche zur Validierung zurückgehalten wird. Anschließend wird die Validierungstranche bei den nächsten neun Modelltrainingsdurchläufen durchrotiert. Anschließend kann beispielsweise der mittlere Fehler als Performancemaß verwendet werden, um die Modelle vergleichbar zu machen. Dieses Maß reicht aber noch nicht aus, um als alleiniges Gütekriterium verwendet werden zu können. Deswegen werden nun die Testdaten zur Modellbewertung herangezogen. (Abb. 06) Fehlerupdate Axon Aktivierungsfunktion Axonenden Schwellwertfunktion Outputsignale Ausgabe Tab. 01 Eingabedaten Nachdem die Modelle mit den Trainingsdaten trainiert (fitting) wurden, werden die Testdaten verwendet, um zu prüfen, inwieweit die Modelle auf neue Datensätze verallgemeinert werden können. Um dies messen zu können, wird für jedes Modell eine Konfusionsmatrix erstellt. ( Abb. 07) Dabei werden die realen Daten mit den Modellvorhersagen verglichen. Das Ergebnis ist die obige 4-Felder-Matrix. Dabei werden klassische Metriken, wie die Korrektklassifizierungsrate, die die Genauigkeit und die Sensitivität betrachtet (Abb. 08). Diese Maße liefern nun im Fall des überwachten Lernens ein direktes Feedback über die Modellgüte. Weiterhin kann durch den Vergleich der angewandten Trainings- und Testdaten eruiert werden, ob die Modelle auf Basis der Trainingsdaten verallgemeinert werden können. Sind die Performancewerte im Modelltraining gut, hingegen bei der Anwendung der Testdaten erheblich schlechter, so spricht man vom Overfitting. Die Verallgemeinerungsfähigkeit des Modells auf Basis der Trainingsdaten ist somit nicht gegeben, und das Modell wäre somit nur bedingt geeignet. Eine Visualisierung der Performancewerte in einem Dashboard ist gerade beim Vergleich von mehreren Modellen sinnvoll. In Abb. 09 ist die Visualisierung mit Python und Dash dargestellt. Die Erstellung von Dashboards ist mit den beiden „state of the art“-Data- Science-Tools Python und R möglich. Da beide Softwaretools umfangreiche Machine-Learning-Bibliotheken zur Verfügung stellen, muss hier kein Medienbruch erfolgen. Vielmehr kann der ganze Prozess aus einer Hand abgedeckt werden. Bei unzureichenden Ergebnissen sollte der Prozess ab dem Schritt der Vorverarbeitung wiederholt werden, um anschließend eine bessere Modellperformance zu erreichen. Liefert das Modell hingegen zufriedenstellende Ergebnisse, kann das Modell produktiv verwendet werden. Hat man anschließend das beste Modell gewählt, kann dies für die Bewertung von weiteren Daten verwendet werden. Falls keines der Modelle den Ansprüchen genügt, sollte man einen Schritt zurückgehen und die Datenqualität, die Aufteilung zwischen Trainings- und Testdaten, sowie die strukturelle Abhängigkeit zwischen den Features prüfen. Darüber hinaus bieten die Merkmal 1 (x 1 ) Merkmal 2 (x 2 ) Label (y) 1,3 2,1 0 (z. B. Ja) 6,6 7,5 1 (z. B. Nein) ... ... ...

ERM 31 meisten Frameworks (beispielsweise Python) Möglichkeiten zur Verbesserung der Ergebnisqualität durch Variation von Hyperparametern an. Grundsätzlich lassen sich die meisten Modelle hinsichtlich gewisser Parameterstellschrauben optimieren. Das kann in vielen Situationen sehr hilfreich sein. Abb. 12 1.0 0.8 0.6 Sigmoid-Aktivierungsfunktion Blick hinter die Kulissen : Funktionsweise künstlicher neuronaler Netze (Deep Learning) In diesem Abschnitt wird die Funktionsweise von künstlichen neuronalen Netzen anhand eines sehr einfachen neuronalen Netzes skizziert. Die Idee neuronaler Netze basiert auf dem menschlichen Nervensystem. ( Abb. 10) So werden Eingangssignale (Reize) durch Rezeptoren (Dendriten) erfasst, verarbeitet und weitergeleitet (Axon). Auf Basis dieser Bauart werden künstliche neuronale Netze entwickelt. 0.4 0.2 0.0 -10.0 -7.5 -5.0 -2.5 0.0 2.5 5.0 7.5 10.0 Das in Abb. 11 skizzierte neuronale Netz wird an folgendem Beispiel erläutert. Hinweis: In der Praxis werden natürlich sehr viel mehr Zwischenschichten verwendet, da gerade bei komplexeren Datensätzen diese einfache Bauart nicht für sinnvolle Ergebnisse ausreichen würde. Des Weiteren werden aus Gründen der Einfachheit nicht alle Teilkomponenten eines neuronalen Netzes verwendet. Eingabedaten: Die Tabelle besteht aus drei Spalten. ( Tab. 01) Gewichte: Die Gewichte w 1 , w 2 werden zu Beginn mit kleinen Zufallszahlen initi- Abb. 13 Anwendung eines neuronalen Netzes Merkmal x2 8 6 4 2 0 -2 Gelabelte Trainingsdaten Merkmal x2 3 2 1 0 -1 -2 -3 Klassifizierer: Neuronales Netz -2 0 2 4 6 8 Merkmal x 1 -3 -2 -1 0 1 2 3 Merkmal x 1 Neudaten Klassifizierung der Neudaten Merkmal x2 5 4 3 2 1 0 -1 -2 -2 -1 0 1 2 3 4 5 Merkmal x2 2 1 0 -1 -2 -2 -1 0 1 2 Merkmal x 1 Merkmal x 1

RISIKO MANAGER

 

Copyright Risiko Manager © 2004-2017. All Rights Reserved.