Aufrufe
vor 5 Jahren

RISIKO MANAGER 01.2019

  • Text
  • Unternehmen
  • Risiken
  • Risikomanagement
  • Bewertung
  • Risiko
  • Banken
  • Basel
  • Risikoanalyse
  • Heft
  • Unternehmens
  • Risikomanager
RISIKO MANAGER ist das führende Medium für alle Experten des Financial Risk Managements in Banken, Sparkassen und Versicherungen. Mit Themen aus den Bereichen Kreditrisiko, Marktrisiko, OpRisk, ERM und Regulierung vermittelt RISIKO MANAGER seinen Lesern hochkarätige Einschätzungen und umfassendes Wissen für fortschrittliches Risikomanagement.

4

4 RISIKO MANAGER 01|2019 Machine Learning Nachrichtenbasierte Frühwarnung im Kontext Kreditrisiko Für die automatisierte und systematische Analyse von Texten unter Verwendung von Methoden des Machine Learnings bieten sich in Kreditinstituten vielfältige Einsatzmöglichkeiten, wie beispielsweise die automatisierte Verarbeitung und Interpretation von Vertragsdokumenten, die Vertriebsunterstützung durch Auswertung der Verwendungszwecke im Rahmen des Zahlungsverkehrs der Kunden. Hinzu kommen die Unterstützung des Eigenhandels durch die systematische Auswertung der Textteile von Jahresabschlüssen oder Quartalsberichten und Investorenpräsentationen. Im Kontext Kreditrisiko bieten sich als Anwendungsbereiche konkret die Ergänzung bestehender Ratingverfahren und Frühwarnsysteme auf Basis der Analyse von Nachrichtentexten an. Vorstudie Nachrichtenbasierte Frühwarnung Vor diesem Hintergrund hat die RSU (Rating Service Unit) in einer Vorstudie überprüft, ob sich im Rahmen Risikofrüherkennung durch eine systematische und automatisierte Analyse von Zeitungs- und Wirtschaftsnachrichten Ausfälle von Unternehmen mit einem zeitlichen Vorlauf von bis zu einem Jahr prognostizieren lassen, und dabei vielversprechende Ergebnisse erzielt. Datenbasis Für die Vorstudie wurde zunächst eine repräsentative Stichprobe für deutsche Unternehmen ermittelt, die durch das RSU Ratingverfahren Corporates abgedeckt werden. Die Stichprobe setzte sich insgesamt aus 100 nicht ausgefallenen Unternehmen und 50 ausgefallenen Unternehmen zusammen und umfasste dabei Unternehmen ab 20 Mio. EUR Umsatz. Rund 77 Prozent der Unternehmen waren nicht börsennotiert. Für die Unternehmen der Stichprobe wurden Nachrichten ab dem Jahr 2002 über einen Anbieter beschafft. Nach Datenqualitätssicherungsmaßnahmen, die u. a. die Zuordnung der Nachrichten zu den Unternehmen und die Herausnahme identischer Texte umfass-

Kreditrisiko 5 ten, konnten letztendlich 68.752 Nachrichten aus 174 verschiedenen Zeitungen, Fachzeitschriften etc. für die weiteren Analysen verwendet werden. Vorverarbeitung der Texte Die Nachrichten wurden unter Anwendung der in der Textanalyse gängigen Vorverarbeitungsschritte vorverarbeitet [vgl. Miner et al. 2012, S. 46-50]. Zunächst wurden die Texte im Hinblick auf Kleinschreibung normalisiert und durch Herausnahme von Satzzeichen, Sonderzeichen, URLs etc. bereinigt. Dann wurden sogenannte Stoppwörter, das heißt besonders häufig vorkommende Wörter, wie beispielsweise Artikel und Präpositionen, die im Hinblick auf die Interpretation des Texts keine Rolle spielen, entfernt. Das Entfernen von Stoppwörtern reduziert die Datenmenge Abb. 01 350 300 250 Häufigkeit 200 150 100 50 0 Instrument Nachrichtenbasierte Risikofrüherkennung | Validierung Modelle 25 %-Quantil Mean 75 %-Quantil In-Sample Out-of-Sample 0 20 40 60 80 100 Trennschärfe [ % ] und damit auch die Komplexität bei den weiteren Verarbeitungsschritten. Anschließend wurden die Wörter durch das Entfernen von Präfix, Suffix, Beugung usw. auf ihre Stammform gebracht. Damit wird vermieden, dass Flexionen eines Worts in den weiteren Analysen als verschiedene Wörter interpretiert werden. Für die Ermittlung einer Stammform der Wörter wurde ein gängiger Porter-Stemmer-Algorithmus gewählt. Die auf ihre Stammform gebrachten Wörter werden nachfolgend als n-grams bezeichnet. Analysiert wurden 1-grams (einzelne gestemmte Wörter) und 2-grams (resultierend aus der Kombination zweier gestemmter Wörter). Da auf Basis der gestemmten Wörter jedoch noch eine sehr große Anzahl von n-grams resultierten, mussten diese für die nachfolgenden Verarbeitungsschritte noch weiter gefiltert werden. Hierfür wurden sehr häufig und sehr selten vorkommende n-grams ausgeschlossen. Trotz dieser Vorfilterung blieben noch 510.000 n-grams übrig. Erstellung der Term-Document Matrix Für die weiteren Analyseschritte mussten die verarbeiteten Dokumente in eine sogenannte Term-Document Matrix (TDM) überführt werden [vgl. Miner et al. 2012, S. 82-84]. In einer TDM stellt jedes Dokument eine Zeile dar, in den Spalten der TDM sind die aus der Weiterverarbeitung resultierenden n-grams abgebildet. Pro Dokument wird somit dargestellt, wie häufig das jeweilige n-gram im jeweiligen Dokument aufgetreten ist. Zudem wurden die Nachrichten jeweils kategorisiert. Nachrichten, die im Zeitraum eines Jahres vor Ausfall datiert waren, wurden hier als Ausfallnachrichten gekennzeichnet (Ausfallflag = 1). Dokumente außerhalb dieses Zeitraums wurden hingegen als Nichtausfall eingestuft (Ausfallflag = 0). Mittels Einzelfaktoranalysen wurde dann ein Lexikon erstellt. Mit dem Begriff Lexikon wird in der Textanalyse eine Liste von Wörtern bezeichnet, die relevant für den jeweiligen Analysezweck sind bzw. sein könnten. Die Erstellung des Lexikons erfolgte hier anhand vorklassifizierter Dokumente [vgl. Das 2014, S. 29]. Als Kriterien für die Auswahl der Wörter des Lexikons wurden dabei jeweils die Korrelation der Wörter der Nachrichten mit der zu erklärenden Variable Ausfall/Nichtausfall sowie die Anzahl der Wortvorkommen in den Dokumenten und bei den jeweiligen Unternehmen der repräsentativen Stichprobe verwendet. Das erstellte Lexikon umfasste letztendlich 676 n-grams. Dieses Lexikon wurde dann für die Erstellung der Term-Document Matrix verwendet, auf die dann im Rahmen der

RISIKO MANAGER

 

Copyright Risiko Manager © 2004-2017. All Rights Reserved.