Machine-Learning basierte Bewertung des Kreditausfallrisikos von Unternehmen auf Basis öffentlich verfügbarer Information

02.20.2018

by

Effizienzsteigerungen und Kostenreduktion

Das Ziel unseres Kunden ist es, bisherige Prozesse zur Erstellung von Rankings für Großunternehmen und Finanzdienstleister zu automatisieren. Bisher werden Rankings manuell auf Basis von qualitativen Informationen erstellt.

Der neue Ansatz soll auf Basis von weitgehen öffentlich verfügbaren Informationen quantitativer und qualitativer Natur arbeiten, idealerweise voll-automatisch und unter Zuhilfenahme von Machine-Learning Methoden.

Der Kunde verspricht sich davon:
– Konsistenz in Ratings
– Der personelle Aufwand zur Erstellung von Rankings wird erheblich reduziert
– Der Prozeß ist skalierbar und kann für die Modellierung von Zukunftsszenarien entsprechend parametrisiert werden
– Das Gesamtrisiko des Gesamtportfolios kann (nahezu) in Echtzeit ermittelt werden – dies hat Auswirkungen auf die verbundenen Risikorückstellungen

In Summe bedeutet dies: Effizienzsteigerungen und Möglichkeiten zur Kostenreduzierung.

Machine-Learning Verfahren und Ergebnisausgabe

Micro Focus ist weltweit das siebtgrößte reine Software-Unternehmen, in Europa sogar das drittgrößte. Das bedeutet aber noch nicht, daß wir auf dem Gebiet der Kreditrisikobewertung Kompetenzen hätten, die weitreichend genug sind, so ein Projekt komplett umzusetzen. Um die Fragestellung des Kunden zu bearbeiten, haben wir einen unserer strategischen Partner ins Projektteam geholt.Bei der Bearbeitung dieser Fragestellung und der Implementierung auf Basis unserer Micro Focus-Technologie läßt sich in zwei Themengebiete zerlegen.

1) Der Lernalgorithmus: Verfahrenswahl und Implementierung

Das System erstellt Ratings automatisiert auf Basis von quantitativen Informationen, um Rankings für Großkonzerne und große Finanzinstitutionen zu erstellen. Steht das System einmal bereit, können Unternehmen und Institutionen gleich welcher Größe beurteilt werden. Die Klassifizierung erfolgt hier zunächst ausschließlich auf Basis des Kreditrisikos; genau genommen geht es dem Kunden darum vorherzusagen, ob das ursprüngliche Bewertungsrisiko sich verändern wird – etwa weil das beobachtete Unternehmen seinen Zahlungsverpflichtungen nicht nachkommen kann oder der Markt unvorhergesehene Entwicklungen nimmt.

Den Lernalgorithmus befüllen wir mit qualitativen Informationen, die öffentlich zugänglich sind. Weiterhin haben wir die Möglichkeit, auch qualitative Informationen (z.B. aus Nachrichten) einfließen zu lassen, indem wir sie in real-time und automatisch mithilfe des Micro Focus IDOL Servers in eine quantitative Dimension überführen. Ziel ist es, am Ende des Prozesses eine Ratingklasse als die am besten passendste zu identifizieren.

Grundlegende Überlegungen bzgl. der Modellgestaltung sind hierbei:
– Welche grundsätzliche Methode verwenden wir? Wir favorisieren entweder Deep Learning oder Random Forest (der wird es schlussendlich)
– Wie teilen wir die Daten auf? Hierarchisch, modular, anhand von sog. „Features“/Merkmalen oder auf Basis von vom System gebildeten Clustern

Weitere Fragestellungen ergeben sich im Gespräch mit dem Kunden:
– Wie implementieren wir ein System, das nicht nur all das tut, sondern dies auch noch so transparent tut, daß die Regulierungsbehörden (Bafin) den gesamten Prozeß nachvollziehen und genehmigen können
– Wie können wir die Logik so kapseln, daß der Kunde sie am Ende des Projektes in Eigenregie modifizieren kann? – Schließlich (bei aller Ehre) sind wir ein IT Unternehmen, unser Schwerpunkt liegt auf IT – der Kunde hingegen bewegt sich im Bereich der Finanzanalyse und –Bewertung wie ein Fisch im Wasser und bringt die entsprechende Fachkompetenz mit.

2) Natural Language Generation: Die Maschine lernt schreiben

Ein Schritt, der zunächst wie reines Mail-Merge und das intelligente Befüllen von Templates erscheint. Weit gefehlt. Die Anforderungen sind, automatisiert Reports zu erstellen, die bestimmte, definierte quantitative und qualitative Informationen enthalten und visualisieren; weiterhin aber auch konsistent eine Begründung für das gegebene Ranking liefern – und das auch noch in verständlicher Sprache.

Das Thema hier lautet „Natural Language Generation“. Konkret wird gefordert, daß das System eine schlüssige und verständliche Begründung für Ranking liefert, sowie auch Hinweise auf potentielle Upside und Downside Events gibt, sprich auf Ereignisse, die das Ranking verbessern oder verschlechtern könnten.

Im Projekt steht die Definition einer übergeordneten Systemarchitektur an erster Stelle. Hauptbaustein ist der Micro Focus IDOL Server, mit dessen Hilfe wir große Mengen von Daten in Informationen verwandeln und miteinander in Kontext stellen können, d.h. ihnen eine Bedeutung geben können. Weiterhin der – handwerkliche – Schritt der Datenintegration, in dem sichergestellt wird, daß alle Daten in einem verwertbaren Format vorliegen.

Ab diesem Punkt ist dann das System bereit für die kundenspezifischen Erweiterungen und Anpassungen: Generieren von Features/Merkmalen und die Modellentwicklung selbst. Wie schon oben erwähnt implementieren wir ein Random-Forest Modell mit anfangs 200 Trees. Dieses Modell wird später vom Kunden anzupassen sein – nach den Technik-Profis kommen die Finanzprofis zum Zuge. Als letzten Schritt entwickeln wir das Modul für Natural Language Generation und die Erstellung von les- und verstehbaren Reports.

Geschafft!

Das Ergebnis erstaunt sowohl unseren Kunden, als auch uns. Wir erreichen schon mit unserem relativ einfachen Modell eine Übereinstimmung von 85% mit den bisherigen (manuellen) Rankings. Das ist ja mal ein Wort. Eine Weiterentwicklung des Modells, eine Vergrößerung des Forests sowie die Einbeziehung zusätzlicher Features/Merkmale ist kein großer Schritt mehr von hier. Wir haben gezeigt, daß eine Integration von Machine Learning, unstrukturierten Daten sowie die Ausgabe der Ergebnisse in einem für Menschen verständlichen Format möglich und sinnvoll ist. Dies erlaubt dem Kunden, ganz anders mit verfügbaren Informationen umzugehen, sie zu nutzen und sie zu interpretieren – einschließlich der zahlreichen Abhängigkeiten und Zusammenhänge, die oft im Verborgenen liegen.

Der Ausblick

usätzlich zu dieser Optimierung dessen, was nach diesem Projekt bereits existiert ergeben sich neue Möglichkeiten der Nutzung von System und Information:
– Erweiterung des Bestandes von Unternehmen, die im Focus sind: von der Testgruppen der Unternehmen in unserem Projekt (unter 1000 Unternehmen) bis hin zu allen Unternehmen, die eine Relevanz für die Finanzmärkte haben.
– Erweiterung der Funktionalität für Simulationen und What-If Analysen bei Veränderung eines oder mehrerer Parameter – sowohl für ein Ranking, als auch für die Rankings von Unternehmen, die direkt oder indirekt miteinander in Zusammenhang stehen.
– Bewertung des Gesamtportfolios des Kunden und Analyse des Gesamtrisikos und damit verbunden die notwendigen Rückstellungen und Reserven.
– Erweiterte Einbeziehung unstrukturierter, qualitativer Information und somit Abschätzung von Folgen bestimmter politischer oder ökonomischer Verhalten auf die analysierte Grundgesamtheit.
– Analyse der Sensitivität des Rankings.
– Skalierbarkeit des Gesamtsystems, das in der Lage ist, in großem Stil Rankings nahezu in real Time zu erstellen – automatisiert und ohne menschliches Zutun.

Weitere Informationen zu diesem Projekt und unserer Technologie finden Sie hier oder Contact Us

Share this post:
Tweet about this on TwitterShare on FacebookShare on LinkedInGoogle+

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.