Draft talk:Inteligencia de negocio

Comentario de Fernando Pérez García

Buenos días Rodrigo,

El artículo me ha parecido muy interesante, da una visión de lo que es el BI que podría entender cualquier persona.

Mi propuesta de mejora sería incluir más información sobre cómo se relacionan los distintos elementos en el BI, a lo mejor con un gráfico como el que se puede ver en la siguiente url: https://es.slideshare.net/slideshow/componentes-de-business-intelligence/39725160

También podría incorporarse información sobre el ciclo de vida del KDD:

Integración y recopilación
Selección, limpieza y transformación
Minería de Datos
Evaluación e Interpretación
Difusión y uso

Y por terminar, incluir herramientas que pueden ayudar a un usuario con prácticas de BI, como puede ser Orange Data Mining.

En general creo que es un artículo muy completo, pero añadiendo lo comentado iríamos a un siguiente nivel de conocimiento.

Sobre KDD incluyo un documento que realicé en la asignatura de Business Intelligence por si fuera de ayuda:

Un saludo y Felices Fiestas,

Fernando Pérez García [FerPerGar]

Anexo: Descubrimiento de conocimiento en bases de datos (por Fernando Pérez García)

Introducción

Para empezar con este survey, debemos explicar qué es KDD. Sus siglas significan Knowledge Discovery in Databases, que en español se traduce como “descubrimiento de conocimiento en bases de datos”.

La adquisición de conocimiento es la habilidad que gana una empresa para ayudar al negocio a solucionar problemas, tomar decisiones y/o mejorar sus procesos a partir de los datos que almacena cada día con su ejercicio habitual.

KDD es un proceso que ayuda a extraer este conocimiento. Es un proceso con un orden lógico, pero iterativo, ya que de una fase superior se puede volver a una anterior para mejorar el resultado obtenido.

El conocimiento descubierto por este proceso debe aportar valor al negocio. Para ello, debe ser algo que no se pueda extraer directamente de los datos almacenados, que sea novedoso, no algo que ya se conociera previamente; y útil, ya que, si no resuelve ninguna necesidad o no aporta información nueva, este conocimiento no vale para nada.

Fases de KDD

KDD es un proceso de 5 pasos, Integración y recopilación de información; selección, limpieza y transformación del dato extraído; minería del dato; Evaluación e Interpretación del modelo; y difusión y uso del conocimiento adquirido:

1. Integración y recopilación

En esta primera fase, se integran todas las fuentes de datos de la empresa en un único repositorio de datos, llamado Data Warehouse.

Para llevar a cabo esto, se utiliza un proceso denominado “ETL”, Extracción, Transformación y Carga (Load) de la información. Toda la información se organizará en torno a acciones propias de la empresa, como puede ser la adquisición de un seguro, que tiene asociadas un número de dimensiones o propiedades (rango de edad del asegurado, años de carné, rango salarial…).

Técnicas y particularidades: Esta información integrada en el Data Warehouse ya es posible utilizarla para extraer métricas y reportes para negocio. Para ello se pueden aprovechar, entre otras, las herramientas OLAP (On-Line Analytical Processing), que permiten explotar este modelo tridimensional para la generación de informes y el estudio de tendencias a partir de tablas dinámicas de Microsoft Excel.

2. Selección, limpieza y transformación

Estos datos, que hemos visto que se pueden explotar ya, aún no están configurados para poder extraer conocimiento, siguen estando “en bruto” y hay que realizar varios pasos antes de poder estudiar la información.

En este paso, se debe eliminar todo dato redundante o que no aporta valor, ya sea por tratarse de información errónea o de valores no encontrados en el modelo (selección y limpieza), para después transformarlo en un contenido apto para aplicar técnicas de minería de datos.

Técnicas y particularidades: Existen varias herramientas, para el limpiado de los datos y su correcta transformación, como OpenRefine, que es una herramienta Open-Source (de código abierto, todo el mundo puede descargar el código fuente y modificarlo para adaptarlo a sus necesidades). Esta permite trabajar con bases de datos locales y remotas, y tiene una interfaz gráfica muy amigable, parecida a un Excel.

3. Minería de Datos:

La minería de datos consiste en la aplicación de una o varias técnicas que nos permiten extraer, a través de los datos transformados, patrones o modelos con los que obtener el conocimiento buscado.

Dentro de la minería, se encuentran cinco tareas:

Clasificación de los datos, obteniendo datos cualitativos con los que aportar información “clasificable” de cada persona que contrata un seguro (por seguir con el ejemplo ya utilizado), como puede ser rango_de_edad, donde diferenciar entre joven, mediana edad o anciano.
Regresión: muy parecido a la clasificación, pero por esta técnica se obtienen valores cuantitativos, como podría ser numero_accidentes, para indicar cuantos accidentes ha tenido un cliente a lo largo de su contrato.
Clustering: Agrupación de datos a partir de factores comunes, como puede ser rango_de_edad, con lo que agrupas a los clientes en función de su edad.
Asociación: Búsqueda de conexiones entre diferentes dimensiones. Por ejemplo, puede tener relación el color del coche con el número de accidentes en los que se ha visto involucrado un cliente.
Detección de atípicos: en esta tarea, se busca encontrar todo comportamiento diferente al previsto por el modelo, todo lo que se sale de la norma.

Técnicas y particularidades: Para realizar las tareas definidas arriba, existen numerosas herramientas, como puede ser KNIME, muy utilizada por tener una versión gratuita y no necesitar conocimientos de programación para el minado de datos. Esta usa técnicas de minado como puede ser K-medias, utilizado para clusterizar la información.

4. Evaluación e Interpretación

Una vez se dispone de un modelo, hay que dar paso a la interpretación y evaluación del dato.

Se debe revisar que el dato obtenido es, como ya comentábamos más arriba, útil, de calidad. Si el dato no nos proporciona información concreta e interesante, se deberá volver a las fases anteriores para refinar el modelo.

Cuando se determina que un modelo es de calidad, se tiene que expresar la información de manera que lo vaya a entender el negocio, con términos comprensibles.

Técnicas y particularidades: Para validar la calidad del dato existen varias técnicas, unas más complejas que otras.

La más simple es la revisión del modelo a partir de datos conocidos, ya que si negocio reconoce un comportamiento en el modelo que no se corresponde con su experiencia, el modelo no es válido. Otra técnica muy usada es la validación cruzada, que consiste en dividir el modelo en dos y hacer pruebas con los dos nuevos modelos. El que menos fallos reporte, será el modelo que utilizar.

5. Difusión y uso

Todo conocimiento, como ya hemos indicado, debe ser útil, y para ello se debe “usar”.

Nos es interesante saber que todos los jóvenes con coche amarillo son más propensos a tener accidentes, pero si les seguimos cobrando igual que a una persona de mediana edad (menos propenso a tener accidentes), la aseguradora está perdiendo dinero. Por ello, es muy importante difundir el conocimiento dentro de la empresa para poder actuar correctamente y mejorar el rendimiento de la empresa.

Técnicas y particularidades: Para la difusión de este conocimiento, se pueden realizar informes a partir de los modelos obtenidos. Estos informes pueden ser en Excel, a través de extracciones de los modelos, como ya hemos hablado, o con herramientas más intuitivas y atractivas para el negocio, como pueden ser PowerBI o SAP, que son herramientas de modelado más adaptadas a esta necesidad.

Conclusiones

A partir de este ejercicio, hemos sido capaces de conocer el funcionamiento del proceso de KDD, por el cual el negocio de cualquier empresa puede obtener conocimiento para mejorar su forma de tomar decisiones y optimizar el funcionamiento de su empresa, a partir de los datos que tienen disponibles.

Se han repasado las distintas fases de KDD, integración; selección, limpieza y transformación; minería de datos; evaluación del modelo; y difusión y uso; aportando técnicas de uso para cada una de ellas.

Bibliografía:

KDD Process in data mining: https://www.geeksforgeeks.org/kdd-process-in-data-mining/
KDD platform: https://mnrva.io/kdd-platform.html
OLAP: https://docs.microsoft.com/es-es/system-center/scsm/olap-cubes-overview?view=sc-sm-2019
Unidades 1 y 2 del curso
Video explicativo de KDD: https://www.youtube.com/watch?v=UPNhLvzN6UQ
Data cleaning tolos: https://careerfoundry.com/en/blog/data-analytics/best-data-cleaning-tools/
OpenRefine: https://openrefine.org/
El proceso de descubrimiento de conocimiento en bases de datos: https://ediciones.ucc.edu.co/index.php/ucc/catalog/download/36/40/230-1?inline=1
KNIME: https://www.knime.com/
https://cepobia.com/knime-una-ventana-de-oportunidades-en-data-science/
https://hub.knime.com/knime/extensions/org.knime.features.base/latest/org.knime.base.node.mine.cluster.kmeans.ClusterNodeFactory2
KDD: https://ri.uaemex.mx/bitstream/handle/20.500.11799/64109/secme-12408.pdf?sequence=1&isAllowed=y

Comentario de Francisco Manuel Gómez García

Hola Rodrigo,

Como mejora al buen trabajo realizado con el concepto, lo completaría con la definición de Inteligencia de negocio y fases que el profesor de UDIMA Lara Torralbo expone en su libro "Business Intelligence" del cual se aporta una imagen del proceso KDD.

Francisco Manuel Gómez García [Fysherry]

Propuesta de Francisco Manuel Gómez García

Definición

La Inteligencia de Negocios o empresarial (Business Inteligence -BI) es una disciplina que se encarga de la obtención de conocimiento relativo a una determinada empresa u organización que persigue un determinado fin lucrativo, extrayendo el mismo a partir del análisis de los datos de que dispone dicha empresa u organización. ^[1]

La disciplina de BI contempla una serie de técnicas y herramientas para extraer conocimiento útil para la empresa a partir de sus datos. Se caracteriza porque la información es protagonista, dado que el conocimiento se va a extraer a partir del sistema de información de la empresa, y esta debe estar disponible y ser accesible. Se orienta a la toma de decisiones y el objetivo final es extraer conocimiento útil que aporte mejoras a la empresa. Se enfoca al usuario final, la alta dirección de las empresas, que utilizará las herramientas de BI sin disponer de excesivos conocimientos técnicos para extraer el conocimiento.

Proceso de KDD (Knowledge Discovery in Databases)

El proceso de KDD (Knowledge Discovery in Databases), se utiliza para referirse al proceso de extracción automatizada de conocimiento a partir de grandes volúmenes de datos. El conocimiento extraído ha de poseer las cuatro características: - Ha de ser no trivial, pues de nada sirve extraer conocimiento conocido por todos o que carezca de importancia. - Implícito oculto en los datos. - Previamente desconocido, pues nada nuevo se aporta si el conocimiento extraído ya había sido descubierto anteriormente. - Y por último útil para que sirva para algo , de lo contrario no tiene ningún sentido invertir esfuerzos en extraerlo.

El proceso de KDD se compone de diferentes fases que, tal y como muestra la imagen "Proceso de KDD",son las siguientes:

1. Recopilación de datos. En esta fase, los datos, procedentes de diferentes fuentes, se integran en un mismo y único repositorio de datos, denominado almacén de datos, más conocido como data warehouse. El resultado final de esta fase es, precisamente, ese data warehouse.

2. Selección, limpieza y transformación de datos. Sobre los datos recopilados en el almacén de datos no es posible realizar aún data mining, debido a que dichos datos pueden no estar limpios, pueden contener atributos irrelevantes, etc. Precisamente, en la segunda fase del proceso de KDD se realiza una selección de los datos integrados en el data warehouse. Dichos datos, además, se limpian y transforman de cara a fases posteriores. El resultado de esta fase es la denominada «vista minable», que es un subconjunto limpio y transformado de los datos sobre el que ya se pueden aplicar las técnicas de data mining en la siguiente fase.

3. Data mining. Una vez que se cuenta con una vista minable, el siguiente paso consiste en aplicar técnicas concretas de minería de datos para obtener modelos. El resultado de la fase de minería de datos son, precisamente, esos modelos.

4. Interpretación y evaluación de modelos. Los modelos obtenidos en la fase de data mining han de ser evaluados. Una vez comprobada la calidad de los mismos, estos son interpretados y, a partir de ellos, se obtiene el conocimiento. El resultado de esta última fase es, precisamente, dicho conocimiento.

Referencias

↑ Lara Torralbo, J.A., 2014 Business Inteligence CEF UDIMA MADRID
↑ Lara Torralbo, J.A., 2014 Business Inteligence CEF UDIMA MADRID

[1] Lara Torralbo, J.A., 2014 Business Inteligence CEF UDIMA MADRID

[2] Lara Torralbo, J.A., 2014 Business Inteligence CEF UDIMA MADRID

[1]

[2]