Modelo de Prevención de Fraude en Tarjeta de Crédito con SPSS Modeler

Diseño e Implementación

El desarrollo de reglas que definen el comportamiento del fraude a través de SPSS Modeler permiten describir la forma de operar de los defraudadores al utilizar tarjetas de crédito clonadas, adulteradas o falsificadas. El presente artículo describe cómo desarrollar dichas reglas y su implementación con el objetivo de minimizar el impacto del fraude en el sector bancario.

José Mondragón, SPSS Senior IT Specialist, IBM México

José Mondragón estudió Actuaría en la Universidad Nacional Autónoma de México. Tiene 10 años de experiencia en estadística aplicada y 7 años como consultor en minería de datos en proyectos para el sector bancario, entre ellos, el área de Prevención de Fraudes.



14-10-2011

Definición del Problema

Encontrar patrones de comportamiento de fraude a través de información histórica de las transacciones con tarjeta de crédito resulta una tarea bastante fuerte debido a que los bancos en promedio realiza 30 millones de operaciones de este tipo de manera mensual.

Existen varios pasos en el proceso de autorización o bloqueo de una tarjeta de crédito al momento de ser utilizada en un punto de venta (POS). El primero es verificar que la información de la banda magnética sea correcta, en caso de no serlo, la transacción es declinada o no autorizada; el segundo paso es el procesamiento de la transacción donde el registro es almacenado en un datawarehouse; el tercero y más importante es el sistema autorizador qué califica a la transacción mediante un score como sospechosa de fraude o no sospechosa, el sistema emite una alerta cuando esta calificación es alta (el rango es de cero a 999 según el sistema) y es revisada por un analista de casos para determinar si autoriza o declina la compra con la tarjeta.

Figura 1.

Figura 1.Proceso de la transacción

En el mercado existen varios calificadores en línea como Falcon, k-monitor, Sentinel, PMML etc. que funcionan con una red neuronal con sus parámetros definidos previamente y que no pueden ser modificados, debido a esta programación, las redes no suelen ser tan certeras al calificar las transacciones.

El objetivo es encontrar reglas de comportamiento con SPSS Modeler y minería de datos es ayudar a estos sistemas a mejorar la detección de casos sospechosos de fraude al programarlas en módulos que contienen los calificadores. El impacto económico al reducir el efecto del fraude puede llegar hasta un 30% en relación costo del fraude versus la venta. Otro indicador importante es la cantidad de casos revisados por el analista antes de encontrar un caso de fraude confirmado (Account False Positive Rate), el estándar internacional de Visa es de 25:1 (un fraude encontrado por cada 25 casos revisados) para determinar que una regla es buena para la detección.


Desarrollo del Modelo de Predicción de Fraude con SPSS Modeler

El modelo de predicción de minería de datos debe contar con información sobre las transacciones realizadas con las tarjetas de crédito, cada una ligada a un número de cuenta. Existen variables relevantes como la hora del día, el negocio o comercio donde se realiza la compra, el monto y su acumulado, etc.

La tabla de datos a analizar contiene información acerca de transacciones realizadas para la compra de boletos en diversas aerolíneas. El propósito del modelo es determinar una regla que nos permita identificar el perfil del fraude en estos comercios. Dentro del modelo el primer paso es determinar las variables relevantes en el análisis como se muestra en la siguiente figura:

Figura 2.

Visualização maior da Figura 2.

Figura 2. Preparación de datos

La variable más importante para realizar el modelo de predicción de fraude es el comercio donde se realiza.


Desarrollo de Modelo: Árboles de Decisión

SPSS Modeler cuenta con 4 algoritmos diferentes para desarrollar árboles de decisión que son C5.0, CHAID, QUEST y C&R(clasificación y regresión) cada uno con sus diferentes características. Cada árbol realiza una segmentación de la tabla en subgrupos definidos por las variables relevantes en el análisis lo que los hace muy sencillos para su interpretación y definición de la regla que se busca.

La variable target como se conoce en minería de datos contiene los niveles Fraude/No Fraude; mediante la técnica C&R determinaremos cuáles transacciones son clasificadas en cada uno para determinar el patrón de comportamiento del fraude.

Figura 3.

Visualização maior da Figura 3.

Figura3. Árbol C&R


Desarrollo de la Regla

La regla encontrada por la técnica indica que las líneas áreas con mayor propensión a ser defraudas son Avianca y Mexicana cuando su monto de compra acumulado es mayor a 1331 dólares y el modo o manera de comprar el boleto es "Manual" que significa que la transacción es realizada vía Internet.

Figura 4.

Visualização maior da Figura 4.

Figura 4. Regla de Fraude

Lo anterior se corrobora al analizar el árbol de decisión de manera gráfica donde se aprecia que el 78% de las transacciones son clasificadas como fraude, de ellas 90% mayores al monto de 1331 dólares y 94% de los boletos fueron comprados vía Internet; como se muestra en la siguiente figura:

Figura 5.

Visualização maior da Figura 5.

Figura 5. Árbol de Decisión


Validación del Modelo

Para determinar que el modelo tiene un buen nivel de precision en el desarrollo de la regla de decisión algunos métodos como la matriz de confusión y la curva ROC (Receiver Operating Characteristic).

La curva ROC mide la la capacidad de clasificación de casos de Fraude/No fraude realizada con el árbol de decisión desde un punto de vista gráfico. El área bajo la curva representa la probabilidad de discriminación. En nuestro modelo se aprecia que el punto más alto de la curva se encuentra en 83%; valores arriba de 70% indican un buen modelo de clasificación.

Figura 6.

Visualização maior da Figura 6.

Figura 6. Curva ROC

La matriz de confusión permite analizar la cantidad de registros correctamente clasificados por el modelo. En este ejemplo se aprecia que el 92% de los casos para Fraude y No fraude han sido bien segmentados, lo que indica que el árbol de decisión tiene un buen nivel de precisión para la creación de reglas.

Figura 7.

Figura 7. Matriz de Confusión


Account False Positive Rate (AFPR)

En español es el falso positivo que se calcula con la siguiente fórmula:

AFRP= # Cuentas sin fraude / # cuentas con fraude

En el casos de las aerolíneas el falso positivo resultante es de 6:1 considerado bastante bueno y dentro del estándar internacional. En términos monetarios, al considerar por día un promedio de 50 casos revisados por un analista, se detectarían 8 casos de fraude por un monto acumulado cada uno de $1,331 dólares, esto en total representa $10,648. Si esto se extrapola a un mes, se concluye que con la definición de esta regla el banco detendría $319,440 dólares en fraudes.


Conclusiones

El fraude en tarjetas de crédito es uno de los riesgos más importantes que sufre el área de créditos en las instituciones bancarias. Las técnicas de minería de datos, en particular los árboles de decisión, ayudan a desarrollar reglas de negocio que permiten disminuir el impacto ocasionado por los defraudadores de manera significativa al mejorar la detección y la prevención cuando son bloqueadas las compras ilícitas.

SPSS Modeler permite la aplicación de las técnicas de minería de datos de manera rápida y sencilla lo que permite al área de Prevención de Fraudes actuar de manera proactiva para el desarrollo de reglas de negocio sencillas de interpretar y de aplicar en los diversos sistemas calificadores de transacciones.

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=
ArticleID=765514
ArticleTitle=Modelo de Prevención de Fraude en Tarjeta de Crédito con SPSS Modeler
publish-date=10142011