Aufrufe
vor 4 Jahren

RISIKO MANAGER 03.2019

  • Text
  • Risiikomanager
  • Rabbi
  • Teilen
  • Talmud
  • Konzept
  • Diversifizierung
  • Ventures
  • Antoratur
  • Diversifizierte
  • Barreserven
  • Klassischen
RISIKO MANAGER ist das führende Medium für alle Experten des Financial Risk Managements in Banken, Sparkassen und Versicherungen. Mit Themen aus den Bereichen Kreditrisiko, Marktrisiko, OpRisk, ERM und Regulierung vermittelt RISIKO MANAGER seinen Lesern hochkarätige Einschätzungen und umfassendes Wissen für fortschrittliches Risikomanagement.

28

28 RISIKO MANAGER 03|2019 Abb. 06 Performancemessung von 5 KI-Modellen auf Basis der k-fachen Kreuzvalidierung 0.8 0.6 0.4 0.2 rater nur auf einen Bruchteil der Bestandskunden zu fokussieren. Die Frage nach genau diesen Potenzialkunden kann man mittels KI, genauer gesagt mit Predictive Analytics, lösen. Diese betriebswirtschaftliche Fragestellung muss somit nur in eine datengetriebene Fragestellung transformiert werden. Übersicht möglicher Anwendungsfälle Da sich maschinelles Lernen in sehr vielen Bereichen anwenden lässt, werden nachfolgend einige mögliche Anwendungsfälle gelistet: » Betrugserkennung (Fraud Detection): Erkennung von auffälligem Verhalten; » Bonitätsbewertung durch Verfahren des maschinellen Lernens; » Chatbots: Abwicklung von einfachen standardisierten Prozessen; » Muster im Kundenverhalten: Abwanderungswillige Kunden identifizieren; » Servicecenter: Klassifikation und Beantwortung von Kundenanfragen; » Kundensegmentierung: Segmente und Segmentgrenzen durch Einsatz von KI ermitteln; » Controlling: Einsatz von KI zur Modellierung von unsicheren Zahlungsströmen; » Vertriebskampagnen: Identifikation von Potenzialkunden nach bestimmten Produktgruppen (Next Best Offer). Beschreibung eines Data-Science- Prozessablaufs Als erstes muss die Datenbasis gelegt werden. Dabei wird entweder auf das interne Data Warehouse des Finanzinstituts zugegriffen und/oder auf weitere externe Daten. Beispielsweise können Daten zugekauft oder von freizugänglichen Quellen (beispielsweise Statistisches Bundesamt) genutzt werden. Im obigen Beispiel sind das in erster Linie Daten aus dem bestandsführenden System einer Bank. Im Bestand sind nun alle Kunden gelistet, die entweder bereits mindestens einen Fonds besitzen und diejenigen, die noch keinen Fonds besitzen (Abb. 03). Hierbei handelt es sich um gelabelte Daten (1 = besitzt bereits mindestens einen Fonds, Abb. 07 Reale Werte 0 1 Konfusionsmatrix 1 TP True positiv FP False positiv 0 = besitzt keinen Fonds), und somit befinden wir uns im überwachten Lernen. Des Weiteren wird jeder Kunde noch durch weitere Merkmale (Features) charakterisiert. Beispielsweise dem Aktiv- und Passivvolumen, Alter, Geschlecht, Familienstand usw.. Mathematisch gesehen, wird jeder Kundendatensatz als Vektor dargestellt. Nach dem Aufbau / der Abfrage der Datenbasis muss diese analysiert werden. Vor allem in punkto Sicherstellung der Datenqualität sollte hier ein entsprechender Invest getätigt werden. Dieser Punkt nimmt bei Data-Science-Projekten oft ein großes Volumen ein und sollte daher nicht unterschätzt werden. Neben dem Aussortieren unplausibler Datensätze (beispielsweise Alter > 120 Jahren) kann der Umgang mit unvollständigen Datensätzen Vorhersagen 0 FN False negativ TN True negativ

ERM 29 Abb. 08 Accuracy Recall Precision Performancemaße der Testdaten TP + TN ACC = = 1 - ERR FP + FN + TP + TN TP REC = TPR = = P PRE = TP TP + FP eine erste Herausforderung darstellen. Hierzu gibt es einige Möglichkeiten (Interpolationsverfahren), um der Datenqualität Herr zu werden. Im nächsten Schritt sollten statistische Kennzahlen untersucht werden. Dabei sollten vor allem Korrelationen zwischen den einzelnen Features identifiziert werden. Auch eine Visualisierung der Daten kann oftmals bereits erste Erkenntnisse liefern. Da es von der Anzahl und Größe der Daten für den Menschen allein schon sehr schwierig sein kann, Muster innerhalb der Daten zu erkennen, bietet sich hier nun der Einsatz von Algorithmen an. Dieses Verfahren wird als maschinelles Lernen (Machine Learning) bezeichnet. TP FN + TP Korrektklassifizierungsrate Sensitivität / Trefferquote Genauigkeit Vor dem eigentlichen maschinellen Lernen müssen die Daten noch entsprechend vorbereitet werden. Dieser Schritt wird als Preprocessing bezeichnet ( Abb. 04). Dabei geht es im Wesentlichen um drei Schritte: » Kodierung nicht-numerischer Daten; » Datenskalierung; » Datensplitting. Da beim maschinellen Lernen „gerechnet“ wird, müssen alle Eingabewerte numerisch sein. Beispielsweise ist das beim Merkmal „Alter“ kein Problem. Beim Merkmal „Geschlecht“ müssen die Merkmalsausprägungen nun kodiert werden. Zum Beispiel: Weiblich = 0, männlich =1. Anschließend müssen die Daten noch skaliert werden. Dies hat folgenden Hintergrund: Angenommen die Merkmalsausprägungen eines Merkmals (beispielsweise Aktivvolumen) sind um ein Vielfaches größer als ein weiteres Merkmal (beispielsweise Alter), dann würde es zu einer Verzerrung kommen. Bei einigen Modellen ist eine Skalierung zwingend erforderlich. Dies kann zu erheblichen Verbesserungen der Modellperformance führen. Der letzte Schritt, das Datasplitting, besteht nun darin, die Grunddaten in Trainings- und Testdaten zu unterteilen. Je nach Umfang und Größe der Daten wird in der Regel folgende Aufteilung angesetzt: Trainingsdaten: 60 Prozent, Testdaten: 40 Prozent. Weiterhin kann noch nachgelagert eine Dimensionsreduktion eingebunden werden. Dies kann vor allem bei korrelierten Daten sinnvoll sein. Zudem können große Datensätze auf eine geringere Anzahl an Merkmalen komprimiert werden, ohne dass ein allzu großer Informationsverlust stattfindet. Ein bekanntes Verfahren zur Dimensionsreduktion ist die Hauptkomponentenanalyse, das PCA-Verfahren (Principal Component Analysis). Im nächsten Schritt der Modellauswahl werden nun geeignete Lernmodelle ausgewählt. Grundsätzlich empfiehlt es sich, mehrere anwendbare Modelle zu verwen- Abb. 09 Visuelle Darstellung der Metriken diverser Machine-Learning-Verfahren 0.8 0.6 0.5652174 LR 0.4 0.2 0 Accuracy Precison Precision Recall Accuracy Precison Recall Accuracy Precison Recall Accuracy Precison Recall Accuracy Precison Recall LR KNN CD RF NNET

RISIKO MANAGER

 

Copyright Risiko Manager © 2004-2017. All Rights Reserved.