Nº 25 - Diciembre 2006

Minería de Datos (Data Mining)

ANÁLISIS AVANZADOS DE GRANDES VOLÚMENES DE DATOS EN EL SECTOR SEGUROS (2ª PARTE)

 

Con esta segunda parte se finaliza el artículo de Data Mining cuya primera entrega fue publicada en el número 24 de ACTUARIOS, correspondiente a abril-mayo de 2006.

El contenido de «Minería de Datos en el Sector Seguros» ha sido proporcionado por Carmen López, Presales Consultant de Inteligencia Analítica y por Isidoro Cortés, Insurance Industry Manager. SAS España.

 

CAPITULO 2:

1. Introducción

2. Gestión de campañas sofisticadas

3. Estimación de provisión de siniestros pendientes l

4. Coordinación de los departamentos de marketing y actuarial

5. Implementación de proyectos de minería de datos

A) Acceso a los datos.

B) Data warehousing

C) Análisis de los datos mediante la metodología SEMMA

D) Generación de informes de resultados.

E) Explotación de resultados.

6. Resumen

 

1. Introduccion

A lo largo de este segundo capítulo analizaremos la importancia de conocer a nuestro cliente, de tratarle de forma personalizada y mantener con él una relación duradera en el tiempo. Una gestión individualizada y automatizada de las comunicaciones es clave para conseguir este tratamiento individualizado. En este sentido las soluciones de gestión de campañas permiten gestionar de una forma completa y prácticamente automática, todas las comunicaciones y campañas dirigidas a nuestros clientes, recogiendo su reacción ante las mismas e incluyendo su feedback en la definición de la siguiente actuación comercial o de marketing.

De cara a la consecución de beneficios por parte de las compañías aseguradoras, un cálculo preciso de provisión por siniestros es estratégico. A lo largo del capítulo se detalla como las técnicas de minería de datos pueden modelizar el riesgo asumido facilitando el cálculo de esta provisión.

Para acabar introducimos el modelo SEMMA de implantación de proyectos de minería de datos, que a través de  técnicas estadísticas y visuales guiará a los analistas en el muestreo, exploración, modificación, modelización y estimación de modelos de minería.

2. Gestión de campañas sofisticadas

Establecer una relación con el cliente es básico para el negocio en todo tipo de actividad empresarial. Las organizaciones pequeñas pueden establecer una relación individual con cada uno de sus clientes pero cuando la compañía crece los departamentos de marketing a menudo empiezan a pensar en términos de «desarrollo de productos» en lugar de en términos de «mantenimiento de la relación con el cliente». Es habitual que los departamentos de ventas y marketing se centren en las ventas que se consiguen con un producto en lugar de en lo bien que ese producto satisface las necesidades del cliente individual.

En un entorno como el actual, en el que los mercados están saturados y las campañas de marketing masivas son cada vez son menos eficaces, la minería de datos facilita a las compañías aseguradoras la personalización de sus campañas, orientándolas hacia el cliente individual. Las estrategias de marketing basadas en el análisis de los datos de cliente están ayudando a reorientar la gestión de las relaciones con los mismos, volviendo a colocar al cliente en el centro de la estrategia de la compaña.

Orientación al cliente

Las principales compañías aseguradoras están transformando sus antiguas estructuras orientadas a productos en  estructuras centradas cliente. La minería de datos ayuda a conocer mejor al cliente identificando cuales son sus necesidades actuales y futuras y pudiendo predecir cuales serán sus reacciones ante ciertos cambios del mercado. El análisis del resultado de las campañas de marketing, proporciona una valiosa información que se utilizará como base para el desarrollo de futuras campañas.

Marketing: Otra frontera para la automatización

Conocer a los clientes en profundidad (sus necesidades, deseos y respuestas), es posible gracias al conocimiento que proporcionan metodologías tales como la minería de datos.

Una vez que hemos seleccionado los clientes a los que nos queremos dirigir, sabemos el producto que ofertaremos y el canal por el que nos comunicaremos con ellos, existen soluciones de gestión de campañas que permiten automatizar la gestión de nuestras actuaciones comerciales. La clave de las soluciones de gestión de campañas es que permiten controlar las respuestas de los clientes y la eficiencia de las acciones comerciales emprendidas.

La solución de marketing automation muestra cómo nuestro cliente reacciona ante las diferentes propuestas que le hacemos, a la vez que facilita la gestión de estas campañas o comunicaciones. Además se podrán tomar decisiones casi «sobre la marcha», bien para modificar la oferta o para modificar los canales de comunicación o ambos a la vez. Estas soluciones de automatización del marketing nos ayudan a maximizar el resultado de nuestros esfuerzos, ya que nos permiten concentrarnos en las actuaciones verdaderamente rentables.

Una solución global

Las soluciones de marketing automation dan soporte al «ciclo de vida» completo de toda actividad de marketing directo: análisis, planificación, ejecución y evaluación, no sólo a una o dos fases del mismo.

Desafortunadamente, en muchas ocasiones las soluciones de gestión de campañas contienen soluciones separadas no integradas en el conjunto de la solución. Hablamos de soluciones individuales para la consulta, actualización, análisis y extracción de los datos. A menudo, estos sistemas individuales requieren considerables adaptaciones para que puedan trabajar de forma conjunta. Pare evitar estos problemas, es necesario disponer de una solución de marketing automation que integre el acceso a la información, la minería de datos y la gestión de campañas proporcionando una solución única, eficaz y coherente. Si las distintas soluciones no se diseñan de forma explícita para funcionar juntas, pueden surgir problemas de portabilidad y movilidad.

Administración eficaz de campañas

Las soluciones de integración de acceso a los datos, el Data Warehousing, la minería de datos y las soluciones de gestión de campañas permiten a los profesionales del marketing utilizar modelos de minería de datos preestablecidos dentro de ese sistema de gestión de campañas. Los responsables de marketing podrán seleccionar dichos modelos de una lista y aplicarlos a los subconjuntos de público objetivo identificados por el sistema de gestión de campañas.

Normalmente, el «código de scoring» se ejecuta sobre el subconjunto seleccionado dentro de la solución de minería de datos y el archivo final se devuelve entonces al usuario de marketing, quien, de esta manera, refina sus campañas de marketing «dirigido». A menudo se hace referencia a esta forma de integración como «scoring dinámico», porque refleja la ejecución en tiempo real del «scoring de puntuación».

3. Estimación de la provisión de siniestros pendientes

Las liquidaciones de siniestros a menudo se retrasan en el tiempo. Por ejemplo, en los seguros de responsabilidad civil, el coste de un siniestro puede no conocerse hasta años después de que se haya informado del mismo. En casos de responsabilidad del empleado, hay incluso retrasos en el informe del siniestro. Dichos retrasos implican una distribución no normal de los siniestros, especialmente distribuciones distorsionadas y sesgadas según el tiempo y el tipo de negocio.

A menudo lo que se hace es utilizar una estimación de la coste del siniestro hasta que el valor real esté disponible. La estimación puede depender de lo siguiente:

• Coste del siniestro.

• Periodo medio de terminación de siniestros.

• Efecto que tendrán variables financieras como la inflación y los tipos de interés.

• Efecto que tendrán los hábitos sociales. Por ejemplo, el cambio en la percepción del  hábito de fumar ha tenido un fuerte impacto en la industria del tabaco

Predicción coste final de los siniestros

La provisión de siniestros, necesaria para continuar con la operativa de la empresa, se fija mediante la estimación de los siniestros asegurados. La precisión de la provisión de siniestros es importante, porque normalmente los fondos destinados al pago de siniestros no pueden invertirse a largo plazo con el fin de obtener rentabilidad Si la provisión de siniestros pendientes es demasiado baja, la empresa puede experimentar problemas financieros. Al contrario, si la provisión es demasiado elevada, la empresa puede dejar de ser rentable. Por lo tanto, la estimación de la provisión influye en los beneficios de la compañía. El análisis de la distribución de siniestros según los clientes, la geografía y el tiempo, puede ayudar a alcanzar mejores estimaciones de esta provisión.

La minería de datos puede utilizarse para definir la distribución de los siniestros y el patrón de pagos de las prestaciones pendientes.

Primero se analizan y modelan los datos, tras lo cual se desarrolla un modelo predictivo. Después se puntuarán los siniestros pendientes en la actualidad. Concretamente, los parámetros del modelo y los datos de los siniestros se utilizan para predecir el coste final de los siniestros que todavía están pendientes. Esta estimación del coste final puede utilizarse para fijar la provisión de siniestros.

Actualización del modelo predictivo

El cálculo de la provisión para siniestros generado mediante un modelo predictivo, se basa en la hipótesis de que el futuro se asemejará al pasado. Si el modelo no está actualizado, con el tiempo dicha hipótesis derivará en que el futuro  se parecerá al pasado lejano.

A medida que se disponga de datos actuales, el modelo predictivo de minería de datos podrá actualizarse y la hipótesis pasará a ser que el futuro se asemeja a un pasado reciente.

Las técnicas de minería de datos permiten a los analistas de seguros comparar modelos y evaluarlos basándose en su rendimiento. Cuando el modelo recién actualizado supera al modelo anterior, es el momento de cambiar al nuevo modelo. Gracias a las nuevas tecnologías, los analistas pueden controlar los modelos predictivos y actualizarlos como sea necesario.

4. Coordinación de los departamentos de marketing y actuarial

Los departamentos de marketing y actuarial son áreas de la compañía interdependientes, las acciones de uno afectan al otro. La coordinación de esfuerzos de ambos departamentos es estratégica y tiene incluso repercusión en los ingresos y beneficios de la compañía. Aunque esta interdependencia siempre ha estado ahí no siempre se ha sido reconocida ya que por ejemplo,  tradicionalmente, el área actuarial había calculado las primas a los clientes sin contar con el apoyo del área de marketing.

La coordinación de esfuerzos se puede conseguir a través del uso de técnicas de minería de datos. El departamento de marketing puede utilizar el conocimiento generado por el departamento actuarial y los resultados de las campañas de marketing pueden convertirse a su vez en datos para investigaciones actuariales adicionales.

5. Implementación de proyectos de minería de datos

Se ha escrito mucho acerca del mejor modo de implementar proyectos de minería de datos. Muchos libros y trabajos escritos por expertos en IT tratan el tema en detalle. Una idea común en la mayoría de autores es que en un proyecto de minería de datos es imprescindible no perder de vista la situación real del mercado; los modelos generados deben ser flexibles y deben poder ser actualizados con el tiempo. Además debe tenerse en cuenta el «desafío práctico» que implica  implementar un proyecto de este tipo. Un enfoque centrado en los datos es especialmente eficaz. Podemos hablar de las siguientes fases:

A) Acceso a los datos.

B) Data Warehousing

C) Análisis de los datos.

D) Generación de informes donde se incluya el resultado de los análisis.

E) Explotación de resultados para obtener ventajas competitivas.

A) Acceso a los datos

Partir de una información fiable y precisa es imprescindible en todo proyecto de minería de datos. Una solución completa de acceso a los datos debería incluir los siguientes elementos:

• Acceso a todos los tipos de fuentes de datos.

• Acceso a todas las fuentes de datos independientemente de la plataforma en la que residan.

• Preservación de la fuente de datos mediante el uso de rutinas de seguridad.

• Una GUI coherente y fácil de usar que, sin requerir un conocimiento extensivo de cada tipo de datos, proporcione la flexibilidad necesaria para satisfacer necesidades específicas.

•Integración con la tecnología existente en lugar de rutinas de acceso que requieren cambiar las soluciones de hardware y software o un aprendizaje adicional por parte de los usuarios.

Un almacén de datos adecuadamente diseñado e implementado puede ayudar a satisfacer estas premisas básicas de toda estrategia de acceso a los datos.

B) Data Warehousing  

Disponer de un Data Warehouse permite a los investigadores acceder fácilmente a los datos, que podrán estar almacenados en diferentes tablas alojadas en distintas plataformas. El Data Warehouse permite a los analistas combinar y agregar datos a distintas áreas temáticas. No obstante, antes del análisis, hay que depurar (o en caso extremo eliminar) aquellos que contienen errores, valores ausentes…Sin embargo, los resultados pueden ser tendenciosos puesto que los datos eliminados podrían haber formado parte de relaciones importantes.

Las principales tareas de depuración, como hacer que haya coherencia entre los nombres de las variables, atribuir valores ausentes, identificar errores, corregirlos y detectar valores extremos, pueden realizarse con relativa facilidad utilizando la minería de datos.

Una adecuada solución de Data Warehousing puede mejorar considerablemente, el resultado de todo el proyecto de minería de datos ya que se podrán obtener mejores resultados con mayor rapidez y a menudo, a un coste más bajo.

La Solución de Data Warehouse de SAS proporciona un entorno visual para la gestión de almacenes de datos. Mediante el uso de esta solución, los analistas especifican los metadatos que definen fuentes y almacenes de datos, bibliotecas de código y otros recursos de Data Warehouse. A continuación, la Solución ETL de SAS utiliza estos metadatos para generar o recuperar código, que extrae, transforma y carga los datos en el Data WareHouse y en los «data marts».

C) Análisis de datos mediante la metodología SEMMA

Incluso después de que se hayan combinado los datos y se hayan agregado a áreas temáticas, ver las relaciones muy complejas sigue siendo dificil. No basta con inspeccionarlos visualmente ni con aplicar análisis estadísticos simples. Patrones reales pueden parecer aleatorios y no detectarse. Además, los modelos lineales difícilmente pueden describir relaciones no lineales. Las técnicas de minería de datos pueden superar estas limitaciones empleando los siguientes métodos:

• Herramientas de trazado y exploración de datos de sofisticadas GUI (interfaz gráfica de usuario) para mostrar mejor las relaciones entre variables.

• Metodologías de selección de variables con las que identificar las variables más importantes que  deben ser incluidas en los modelos.

• Técnicas de modelización avanzada tales como modelos lineales con interacciones.

• Redes neuronales no lineales y modelos de árboles.

• Técnicas de evaluación que ayudarán a los analistas a seleccionar el modelo más rentable basándose en criterios de pérdidas y beneficios.

Imagen 1: El ciclo de análisis SEMMA

Una vez que se ha accedido a los datos, éstos pueden explorarse utilizando GUIs que emplean sofisticados algoritmos de minería de datos. Por ejemplo, los subconjuntos de datos pueden revelar importantes relaciones que podrán ser utilizadas en la definición de las campañas de marketing. Al desagruparlos por región y por empresa se pueden descubrir anomalías en las operaciones que implican incremento en los costes. Además profundizar en los datos puede ayudar a descubrir  oportunidades de obtención de beneficios desconocidas hasta el momento.

Dentro de un proyecto de minería se incluye además del análisis de datos, la selección, exploración y modelización de los mismos. A través de este análisis se puede descubrir información oculta que podrá se utilizada para obtener ventajas competitivas.

Con el fin de establecer un camino predecible y sencillo que ayude a los responsables de la minería de datos, SAS ha desarrollado un ciclo de análisis de minería de datos conocido por el acrónimo SEMMA. Este acrónimo procede de los cinco pasos de la fase de análisis dentro de un  proyecto de minería de datos. Estos cinco pasos son:

• Muestreo.

• Exploración.

• Modificación.

• Modelización.

• Estimación.

La imagen 1 ilustra las tareas que se incluyen en un proyecto de minería de datos y asigna dichas cinco tareas a los cinco pasos de la metodología SEMMA.

El ciclo de análisis SEMMA utiliza técnicas estadísticas y visuales para guíar a los analistas a través del proceso de exploración de los datos. El ciclo incluye la transformación, para descubrir las variables con mayor capacidad predictiva, modelando estas variables para predecir resultados y generando el modelos finales. Además la metodología de análisis SEMMA también incluye la comprobación del modelo utilizando nuevos datos. El ciclo de análisis SEMMA es una ampliación moderna del método científico.

Muestreo

El primer paso en la metodología, es crear una o más tablas utilizando muestras de los datos contenidos en el Data WareHouse. Las muestras  deberían ser lo suficientemente grandes como para contener información significativa, aunque lo suficientemente pequeñas como para poder procesarse con rapidez. Este enfoque permite obtener resultados «coste-eficientes». Al explorar una muestra representativa en lugar del volumen completo de información se reduce de forma drástica el tiempo de procesamiento requerido.

Si existen  patrones generales en el conjunto de la muestra, éstos también estarán presentes en una muestra representativa. Si un nicho es tan pequeño como para no estar representado en la muestra y pese a ello tan importante como para influir en la imagen completa, podrá descubrirse utilizando métodos de sumarización.

Exploración

Después de obtener una muestra de los datos, el siguiente paso es explorarlos visual o numéricamente con el fin de observar tendencias inherentes o agrupaciones. La exploración ayuda a descubrir estas agrupaciones. Si la exploración visual no revela tendencias claras, los analistas pueden explorar los datos mediante técnicas estadísticas que incluyen análisis de factores, análisis de correspondencia y clustering. Por ejemplo, los padres primerizos son a menudo más conscientes de la necesidad de un seguro de vida pero puede que busquen invertir la mínima cantidad de dinero posible. Es más probable que este grupo responda a los mailings directos para un seguro de vida.

Modificación

Por modificación de los datos entendemos la creación, selección y transformación de una o más variables para centrar el proceso de selección de modelos en una dirección particular o para aumentar los datos para obtener claridad o coherencia.

Basándose en los descubrimientos de la fase de exploración, los analistas pueden necesitar tratar los datos para incluir información tal como la agrupación de los clientes y subgrupos significativos o introducir nuevas variables tales como un ratio obtenido comparando dos variables anteriormente definidas. Puede que los analistas también necesiten buscar valores extremos y reducir el número de variables para limitarlas a las más significativas. Además, dado que la minería de datos es un proceso dinámico e iterativo, a menudo es necesario modificar los datos cuando los datos anteriormente extraídos sufran algún cambio.

Modelo

Crear un modelo de datos implica la utilización de una solución de minería que busque automáticamente una combinación de datos que prevean de forma fiable un resultado deseado.

Después de que se haya accedido a los datos y éstos se hayan modificado, los analistas pueden utilizar técnicas de modelización para construir modelos que expliquen patrones. Las técnicas de modelización en la minería de datos incluyen redes neuronales, modelos basados en árboles, modelos logísticos y otros modelos estadísticos tales como análisis de series temporales y análisis de supervivencia.

Estimación

El siguiente paso en todo proyecto de minería de datos consiste en estimar el modelo para su posterior evaluación. Un método común para evaluar un modelo es aplicarlo a la porción de los datos que se dejaron de lado durante la etapa de muestreo. Si el modelo es válido debería funcionar para esta muestra reservada, de igual modo que funciona para la muestra utilizada para construir el modelo.

De forma similar, los analistas pueden probar el modelo utilizando datos conocidos. Por ejemplo, si se sabe qué clientes  tuvieron altos índices de retención y el modelo se ha definido para predecir la retención, los analistas pueden comprobar si el modelo señala a esos clientes. Además, la aplicación práctica del modelo, por ejemplo hacer mailings parciales en una campaña marketing directo, ayudan a probar su validez.

Iteración

Aunque estimar los modelos de datos es el último paso en la metodología SEMMA, estimar la eficacia de modelos de datos a menudo no es el paso final en una implementación real de SEMMA.

Como SEMMA es un ciclo, los pasos internos se suelen realizar iterativamente dentro del conjunto del proyecto de minería de datos.

D) Generación de informes de resultados

La capacidad de generación de informes de una compañía es esencial para  dar utilidad a los datos, permitiendo a los usuarios crear y publicar informes directamente desde los almacenes de datos y otras fuentes de información.

Las características clave de un sistema de generación de informes deberían incluir:

• Completa integración con el sistema.

•Facilidad de uso mediante interfaces gráficas de usuario.

• Distribución rápida de informes.

• Compatibilidad con la Web.

Una solución de generación de informes completa, como la incluida en SAS® Enterprise Miner™ permite a los usuarios de negocio crear, publicar e imprimir informes en un formato enriquecido partiendo de la información guardada en sus Data WareHouses. Mediante interfaces fáciles de usar, los usuarios tienen la habilidad de crear gráficos, tablas, diagramas y texto dentro de un único informe y desde sus propios PC´s.

E) Explotación de resultados para obtener ventajas de negocio

La información obtenida a partir de la minería de datos puede incorporarse en un informe ejecutivo o procesamiento analítico en línea y, a continuación, difundirse por toda la organización. La dirección de la compañía puede utilizar la minería de datos para realizar los análisis clave para la planificación y acción estratégica, ¿Cómo podemos aumentar el retorno del capital invertido en nuestras campañas de marketing?. La minería de datos ayudará a las aseguradoras a estar más preparadas para su crecimiento futuro.

6. Resumen

La clave para obtener una ventaja competitiva en el sector seguros reside en asumir que las bases de datos de cliente si se gestionan, analizan y explotan de la forma adecuada, son bienes únicos y valiosos.

La minería de datos puede ayudar a las compañías de seguros a acceder a la inteligencia contenida en sus bases de datos de cliente

La minería segmenta la base de datos, genera modelos predictivos, analiza el mercado y proporciona a la compañía el conocimiento necesario para responder con rapidez y eficacia preguntas estratégicas de negocio. A partir de la información generada se pueden desarrollar nuevos productos e implementar las estrategias de marketing más adecuadas permitiendo transformar «riqueza de información» en «riqueza de predicción, estabilidad y beneficios».