Betrugserkennung: Wie Sie mit Machine Learning Versicherungsbetrug effizienter aufdecken

Künstliche Intelligenz in Form von Machine Learning unterstützt Versicherer dabei, Versicherungsbetrug effizient aufzudecken. Lesen Sie hier, auf welche 4 Erfolgsfaktoren es beim Einsatz von Machine Learning in der Betrugserkennung ankommt und wo die Vorteile von Machine Learning liegen.

Veröffentlicht: 03.03.2022 Zuletzt aktualisiert: 03.01.2023

Fachartikel, Künstliche Intelligenz, Versicherungswirtschaft

1 Min. Lesezeit

Händisch mit der Lupe werden Bestandsdaten analysiert - Symbolbild wie aufwendig Betrugserkennung ohne Machine Learning ist

Schätzungsweise jeder zehnte in Deutschland eingereichte Schadenfall ist Versicherungsbetrug. So entsteht den Versicherungen jährlich ein Schaden von 5 Milliarden Euro, welcher in der Tarifierung berücksichtigt wird. Es ist daher kaum überraschend, dass tagtäglich ganze Abteilungen an Spezialisten in Versicherungsunternehmen auffällige Versicherungsfälle prüfen, Hergang oder Höhe eines Schadenfalls als realistisch oder unrealistisch einstufen und damit konsequent gegen Betrug vorgehen.

Unterstützt werden die Sachbearbeiter:innen häufig durch Systeme, welche die Betrugserkennung erleichtern sollen. Das Ziel: So viele verdächtige Versicherungsfälle wie möglich zu identifizieren und dabei die Anzahl der falschen Betrugsmeldungen minimal zu halten. Ansätze, die auf künstliche Intelligenz in Form von Machine Learning setzen, eignen sich besonders.

Vorteile von Machine Learning in der Betrugserkennung:

Machine Learning Algorithmen bilden Betrugsmuster auch in unstrukturiert vorliegenden Daten effizient ab und können so neue Schadenfälle beim Eintreffen automatisiert in Kategorien einteilen.
Machine Learning erkennt Vorgehen von Betrügern, indem es subtile Abweichungen von der Norm in den Daten identifiziert.

Das ermöglicht Versicherern ungleich effizienter zu arbeiten, da sie sich auf Fälle konzentrieren können, welche die Algorithmen herausgefiltert hat. So können sie schnellere und präzisere Entscheidungen treffen, Kosten einsparen sowie die Fehlerquote senken.

Wie immer beim Einsatz neuer Technologien gilt: Es ist kein Allheilmittel. Damit Machine Learning in der Betrugserkennung den gewünschten Mehrwert bringen kann, gibt es einiges zu beachten.

Machine Learning richtig in der Betrugserkennung einsetzen: 4 Erfolgsfaktoren

1. Auswahl des Modellierungsvorgehens

Der Begriff Versicherungsbetrug umfasst rechtlich mehr als das, was intuitiv angenommen wird. Im juristischen Sinne handelt es sich um Betrug nach §263 des Strafgesetzbuches, wenn sich der Versicherte auf rechtswidrige Weise einen Vermögensvorteil verschaffen will. Dies kann auf verschiedene Arten geschehen, z. B. durch die Meldung eines nicht existierenden Schadens oder einer erhöhten Rechnungssumme, welche die Schadenabdeckung übersteigt. Wie lassen sich diese verschiedenen Betrugsarten aufdecken? In der Praxis haben sich 3 Modellierungsvorgehen etabliert: Das binäre Modell, die Anomalieerkennung und das Semi-Supervised-Modell, eine Kombination aus beidem.

Binäres Modell

Eine Möglichkeit ist, basierend auf einer Datenbasis ein binäres Modell zu entwickeln, welches als Output >>auffällig<< oder >>nicht auffällig<< liefert. Ein solches Vorgehen ist jedoch mit einigen Einschränkungen verknüpft. Denn: Das Modell gibt lediglich eine Wahrscheinlichkeit aus, mit der die erfassten Daten auffällig sind, trifft aber keine Aussage darüber, in welche Betrugskategorie diese fallen. Hier liegt der Ball weiter beim Sachbearbeiter. Dieser muss sich nach Prüfung der Daten die Kategorie selbst erschließen.

Eine mögliche Erweiterung der binären Klassifikation auf eine Vielzahl von Klassen oder voneinander unabhängige Modelle, welche die unterschiedlichen Betrugskategorien abbilden könnten, ist dadurch erschwert, dass die Anzahl an erkannten Betrugsfällen im Datenbestand gering ist.

Allgemein gilt: Ein Modellierungsvorgehen, welches ausschließlich aus Ereignissen der Vergangenheit lernt, wird trotz Generalisierbarkeit der Modellierung neue ausgeklügelte Konzepte von Betrügern nicht abbilden können. Möchte man jedoch bekannte Versicherungsbetrugsmaschen auf Basis historischer Fälle identifizieren, so eignet sich ein Klassifikationsmodell durchaus.

Anomalieerkennung

Ein weiterer häufig verwendeter Ansatz in der Betrugserkennung ist die Anomalieerkennung. Hierbei generiert das Modell eine Plausibilität für jeden betrachteten Fall und informiert den Bearbeiter bei unwahrscheinlichen Ereignissen. So stellt jeder Betrugsfall eine Anomalie im Datenbestand dar. Für diese Art der Modellierung werden keine historisch bestätigten Betrugsfälle benötigt. Ein Nachteil ist, dass diese Klasse von Algorithmen erst spät im Verarbeitungsprozess angewendet werden kann. Ein weiterer wichtiger Erfolgsfaktor ist damit:

2. Der Zeitpunkt der Vorhersage

Der Zeitpunkt der Vorhersage ist deshalb so entscheidend, weil die vorliegende Informationslage sich im Verlauf der Fallbearbeitung ändert. Besonders interessant für den Versicherer ist es, bereits bei der Schadenaufnahme eine Vorhersage treffen zu können. Zu diesem Zeitpunkt ist die Hauptinformationsquelle die zuerst zur Verfügung stehenden Daten: die Vertragsdaten. Erst wenn der Kunde weitere Unterlagen einreicht, können die Vertragsdaten um Informationen über den Schaden selbst ergänzt werden.

Es ist daher sinnvoll, verschiedene Prüfpunkte im Schadenmanagement-Prozess zu integrieren, an denen Schadenmeldungen in Echtzeit überwacht werden. Das System schlägt Alarm, sobald sie einen Fall als Betrug einschätzen. Achten Sie darauf, dass bei der Auswahl der Prüfpunkte die für das Modell entscheidungsrelevanten Informationen auch bereits im Datenbestand verfügbar sind.

3. Auswahl von Informationen aus dem Datenbestand

Die richtige Auswahl der Informationen, die der Algorithmus für seine Entscheidungsfindung verwendet, ist essenziell. Hierbei kommen z. B. Daten über den Schadenfall, Partnerdaten und Vertragsdaten in Frage. Für diese drei Kategorien gibt es eine Vielzahl von Merkmalen, welche unterschiedliche Datentypen und Ausprägungen haben: Text, Faktorausprägungen, Bilder oder einfache Zahlenwerte. Die Konsequenz: Es sind unterschiedliche Datenverarbeitungsschritte notwendig.

Der klassische Versicherungsbestand erstreckt sich über mehrere Millionen Datenpunkte und mehrere tausend verschiedener Merkmale. Deshalb sollte in Abhängigkeit vom gewählten Algorithmus für die Auswahl und Verarbeitung relevanter Merkmale fachliche Expertise hinzugezogen werden. Im Fall korrelierender Daten ist es für die Modellierung ratsam, diese zu einem Merkmal zusammenzufassen. Weiterhin gibt es Daten, welche prinzipiell die Modellentscheidung verfälschen können, da sie dem Modell zur Trainingszeit Informationen über die Betrugsentscheidungsfindung zur Verfügung stellen, die aber nicht zur Testzeit verfügbar sind. Eine Assoziationsanalyse kann sich hierbei als hilfreiches Werkzeug erweisen, um gemeinsam mit den Fachexperten eine Auswahl an tatsächlich für das Modell geeigneten Merkmalen zu treffen.

Häufig haben Versicherungen für bereits bestehende Systeme eine Auswahl von Risikomerkmalen getroffen. Diese und die Ergebnisse aus den Systemen können unter Berücksichtigung der bereits genannten Kriterien in die Modellierung mit eingehen.

4. Interpretierbarkeit von Vorhersagen maschineller Lernalgorithmen

Schlussendlich ist die Interpretierbarkeit der Modelle ausschlaggebend für die produktive Verwendung. Ein Betrugsvorwurf basierend auf der Entscheidung maschineller Lernalgorithmen hat keine rechtliche Grundlage. Es bedarf einer Interpretation durch einen Sachbearbeiter, um den Betrugsvorwurf auch verwerten zu können. Hierzu muss der Sachbearbeiter Nachforschungen anstellen, um den Betrug plausibel nachweisen zu können. Es ist deshalb wichtig, dass der Algorithmus nicht nur den Betrugsvorwurf mitteilt. Er sollte auch:

nachvollziehbar machen, warum er zu dieser Entscheidung gekommen ist
ausfindig machen, in welche Abteilung oder zu welchem Experten die Überprüfung geleitet werden muss
übermitteln, welche Informationen überprüft werden müssen.

Oder anders formuliert: Es muss ersichtlich werden, welche Konstellation in den Daten zur Einstufung als Betrug geführt hat.

Die Interpretierbarkeit von Modellen ist abhängig von der Komplexität der ausgewählten Algorithmen. Für die meisten Algorithmen gibt es entsprechende Lösungen: Zum Beispiel den Ansatz, komplexe Modelle lokal durch einfach interpretierbare Modelle zu approximieren. Die Ergebnisse der Interpretation sind jedoch für Versicherungen nicht immer zufriedenstellend.

In diesem Zusammenhang kommen wir zu einem weiteren Faktor, der bei der Interpretierbarkeit eine wesentliche Rolle spielt: Nur, wenn die Mitarbeitenden das neue Verfahrens akzeptieren und für sinnvoll erachten, kann das Versicherungsunternehmen den Mehrwehrt von Machine Learning auch tatsächlich ausschöpfen.

Welche Problemstellungen können auf den Modellierer zukommen?

Um gute Ergebnisse zu erzielen, gibt es beim Trainieren der Modelle und Algorithmen Die Modellierung von Betrugswahrscheinlichkeiten stellt Versicherungen vor eine Vielzahl von Problemstellungen, die beim Trainieren der Modelle und berücksichtig werden müssen, . Hier werden einige exemplarisch dargestellt:

Nicht entdeckte Betrugsfälle

Bereits angeklungen ist, dass Modellierer ihre Algorithmen mit historischen Fällen trainieren müssen, die als Betrug erkannt worden sind. Das Problem dabei: In einem solchen Datenbestand verstecken sich zumeist auch unerkannte Betrugsfälle, die als reguläre Fälle durchgingen. Das Modell lernt also auf einer fehlerhaften Datenbasis.

Ungleichgewicht zwischen Betrugs- und Nichtbetrugsfällen

Ebenfalls zu berücksichtigen ist die Unausgeglichenheit zwischen der Anzahl von verfügbaren Daten und die der erkannten Betrugsfälle. Daher ist die Auswahl der Metrik zur Erfolgsmessung des verwendeten Algorithmus ebenfalls mit Bedacht zu wählen. Beispielsweise beschreibt die Genauigkeit eines Modells die globale Vorhersagekraft. Um es einfach auszudrücken: Wie häufig liegt der Algorithmus mit der Vorhersage richtig? Wenn der Algorithmus nun in einer Datenmenge mit 99% nicht Betrugsfällen alle Fälle als nicht Betrug einstuft, so ist ihm bereits eine 99%ige Genauigkeit zuzusprechen. Zudem gibt es eine Vielzahl von Algorithmen, welche eine Ausgeglichenheit fiktiv erzeugen.

Saisonale Daten

Ein weiterer wichtiger Aspekt sind saisonale Effekte in den Daten. Nach einem großflächigen Hagelsturm melden Kunden vermehrt Schadenfälle. Beschränkt sich der ausgewählte Datensatz auf diese kurze Zeitspanne, beeinflusst ein einzelnes Naturereignis das Modell stark.

Insbesondere für die Anomalieerkennung sind die beiden folgenden Punkte zu beachten:

Je größer die Anzahl an Merkmalen, umso schwieriger ist es für den Algorithmus, typische Fälle abzubilden. Scheuen Sie hier nicht den Aufwand, die Anzahl der verfügbaren Datenpunkte als die Anzahl der Merkmale zu erweitern.
Verrauschte Daten verzerren die Informationsbasis. Eine Unterscheidung zur eigentlichen Anomalie wird unkenntlich. Bereinigen Sie daher den Datensatz.

Ausblick: Wie geht es mit der Betrugserkennung weiter?

Mit der voranschreitenden Digitalisierung wächst die Datenmenge, die Versicherungsunternehmen zur Fraud Detection nutzen können. Gleichzeitig nimmt die Dauer bis zum Informationseingang ab: Beispielsweise werden Kunden zukünftig über Apps ihren Versicherungsfall vollständig, schnell und unkompliziert beschreiben. Diese textuellen Eingaben helfen Versicherern, den Schadenhergang auf Plausibilität zu überprüfen. Basierend auf Bildmaterial können sie die Schadensumme automatisiert berechnen und damit erhöhte Auszahlungen vermeiden.

Dies sind nur einige wenige Beispiele, wie Versicherer die digitalisierte Zukunft für sich nutzen können, um noch effizienter gegen Betrug vorzugehen. Es bleibt spannend.

Sie wollen mehr über Machine Learning oder den Einsatz von künstlicher Intelligenz in Ihrem Unternehmen erfahren? Melden Sie sich gerne für einen Austausch.

Künstliche Intelligenz

Autor

Mehyar Mousa – Consultant

Mehyar Mousa unterstützt Versicherungsunternehmen im Aktuariat, hauptsächlich in Entwicklertätigkeiten mit Schwerpunkt im Lebensversicherungsbereich. Weiterhin gehört zu seinen Qualifikationen der Bereich Data Science, insbesondere das Themenfeld Natural Language Processing. Außerdem beschäftigt er sich mit der Betrugserkennung im Kompositbereich.