Jump to content

Draft talk:Inteligencia de negocio

From glossaLAB

Buenos días Rodrigo,

El artículo me ha parecido muy interesante, da una visión de lo que es el BI que podría entender cualquier persona.

Mi propuesta de mejora sería incluir más información sobre cómo se relacionan los distintos elementos en el BI, a lo mejor con un gráfico como el que se puede ver en la siguiente url: https://es.slideshare.net/slideshow/componentes-de-business-intelligence/39725160

También podría incorporarse información sobre el ciclo de vida del KDD:

  • Integración y recopilación
  • Selección, limpieza y transformación
  • Minería de Datos
  • Evaluación e Interpretación
  • Difusión y uso

Y por terminar, incluir herramientas que pueden ayudar a un usuario con prácticas de BI, como puede ser Orange Data Mining.

En general creo que es un artículo muy completo, pero añadiendo lo comentado iríamos a un siguiente nivel de conocimiento.

Sobre KDD incluyo un documento que realicé en la asignatura de Business Intelligence por si fuera de ayuda:

Introducción:

Para empezar con este survey, debemos explicar qué es KDD.

Sus siglas significan Knowledge Discovery in Databases, que en español se traduce como “descubrimiento de conocimiento en bases de datos”.

La adquisición de conocimiento es la habilidad que gana una empresa para ayudar al negocio a solucionar problemas, tomar decisiones y/o mejorar sus procesos a partir de los datos que almacena cada día con su ejercicio habitual.

KDD es un proceso que ayuda a extraer este conocimiento. Es un proceso con un orden lógico, pero iterativo, ya que de una fase superior se puede volver a una anterior para mejorar el resultado obtenido.

El conocimiento descubierto por este proceso debe aportar valor al negocio. Para ello, debe ser algo que no se pueda extraer directamente de los datos almacenados, que sea novedoso, no algo que ya se conociera previamente; y útil, ya que, si no resuelve ninguna necesidad o no aporta información nueva, este conocimiento no vale para nada.

Fases de KDD:

KDD es un proceso de 5 pasos, Integración y recopilación de información; selección, limpieza y transformación del dato extraído; minería del dato; Evaluación e Interpretación del modelo; y difusión y uso del conocimiento adquirido:

1.     Integración y recopilación:

En esta primera fase, se integran todas las fuentes de datos de la empresa en un único repositorio de datos, llamado Data Warehouse.

Para llevar a cabo esto, se utiliza un proceso denominado “ETL”, Extracción, Transformación y Carga (Load) de la información. Toda la información se organizará en torno a acciones propias de la empresa, como puede ser la adquisición de un seguro, que tiene asociadas un número de dimensiones o propiedades (rango de edad del asegurado, años de carné, rango salarial…).

Técnicas y particularidades:

Esta información integrada en el Data Warehouse ya es posible utilizarla para extraer métricas y reportes para negocio. Para ello se pueden aprovechar, entre otras, las herramientas OLAP (On-Line Analytical Processing), que permiten explotar este modelo tridimensional para la generación de informes y el estudio de tendencias a partir de tablas dinámicas de Microsoft Excel.

2.     Selección, limpieza y transformación:

Estos datos, que hemos visto que se pueden explotar ya, aún no están configurados para poder extraer conocimiento, siguen estando “en bruto” y hay que realizar varios pasos antes de poder estudiar la información.

En este paso, se debe eliminar todo dato redundante o que no aporta valor, ya sea por tratarse de información errónea o de valores no encontrados en el modelo (selección y limpieza), para después transformarlo en un contenido apto para aplicar técnicas de minería de datos.

Técnicas y particularidades:

Existen varias herramientas, para el limpiado de los datos y su correcta transformación, como OpenRefine, que es una herramienta Open-Source (de código abierto, todo el mundo puede descargar el código fuente y modificarlo para adaptarlo a sus necesidades). Esta permite trabajar con bases de datos locales y remotas, y tiene una interfaz gráfica muy amigable, parecida a un Excel.

3.     Minería de Datos:

La minería de datos consiste en la aplicación de una o varias técnicas que nos permiten extraer, a través de los datos transformados, patrones o modelos con los que obtener el conocimiento buscado.

Dentro de la minería, se encuentran cinco tareas:

·        Clasificación de los datos, obteniendo datos cualitativos con los que aportar información “clasificable” de cada persona que contrata un seguro (por seguir con el ejemplo ya utilizado), como puede ser rango_de_edad, donde diferenciar entre joven, mediana edad o anciano.

·        Regresión: muy parecido a la clasificación, pero por esta técnica se obtienen valores cuantitativos, como podría ser numero_accidentes, para indicar cuantos accidentes ha tenido un cliente a lo largo de su contrato.

·        Clustering: Agrupación de datos a partir de factores comunes, como puede ser rango_de_edad, con lo que agrupas a los clientes en función de su edad.

·        Asociación: Búsqueda de conexiones entre diferentes dimensiones. Por ejemplo, puede tener relación el color del coche con el número de accidentes en los que se ha visto involucrado un cliente.

·        Detección de atípicos: en esta tarea, se busca encontrar todo comportamiento diferente al previsto por el modelo, todo lo que se sale de la norma.

Técnicas y particularidades:

Para realizar las tareas definidas arriba, existen numerosas herramientas, como puede ser KNIME, muy utilizada por tener una versión gratuita y no necesitar conocimientos de programación para el minado de datos. Esta usa técnicas de minado como puede ser K-medias, utilizado para clusterizar la información.

4.     Evaluación e Interpretación:

Una vez se dispone de un modelo, hay que dar paso a la interpretación y evaluación del dato.

Se debe revisar que el dato obtenido es, como ya comentábamos más arriba, útil, de calidad. Si el dato no nos proporciona información concreta e interesante, se deberá volver a las fases anteriores para refinar el modelo.

Cuando se determina que un modelo es de calidad, se tiene que expresar la información de manera que lo vaya a entender el negocio, con términos comprensibles.

Técnicas y particularidades:

Para validar la calidad del dato existen varias técnicas, unas más complejas que otras.

La más simple es la revisión del modelo a partir de datos conocidos, ya que si negocio reconoce un comportamiento en el modelo que no se corresponde con su experiencia, el modelo no es válido. Otra técnica muy usada es la validación cruzada, que consiste en dividir el modelo en dos y hacer pruebas con los dos nuevos modelos. El que menos fallos reporte, será el modelo que utilizar.

5.     Difusión y uso:

Todo conocimiento, como ya hemos indicado, debe ser útil, y para ello se debe “usar”.

Nos es interesante saber que todos los jóvenes con coche amarillo son más propensos a tener accidentes, pero si les seguimos cobrando igual que a una persona de mediana edad (menos propenso a tener accidentes), la aseguradora está perdiendo dinero. Por ello, es muy importante difundir el conocimiento dentro de la empresa para poder actuar correctamente y mejorar el rendimiento de la empresa.

Técnicas y particularidades:

Para la difusión de este conocimiento, se pueden realizar informes a partir de los modelos obtenidos. Estos informes pueden ser en Excel, a través de extracciones de los modelos, como ya hemos hablado, o con herramientas más intuitivas y atractivas para el negocio, como pueden ser PowerBI o SAP, que son herramientas de modelado más adaptadas a esta necesidad.


Conclusiones:

A partir de este ejercicio, hemos sido capaces de conocer el funcionamiento del proceso de KDD, por el cual el negocio de cualquier empresa puede obtener conocimiento para mejorar su forma de tomar decisiones y optimizar el funcionamiento de su empresa, a partir de los datos que tienen disponibles.

Se han repasado las distintas fases de KDD, integración; selección, limpieza y transformación; minería de datos; evaluación del modelo; y difusión y uso; aportando técnicas de uso para cada una de ellas.

Bibliografía:

·        KDD Process in data mining: https://www.geeksforgeeks.org/kdd-process-in-data-mining/

·        KDD platform: https://mnrva.io/kdd-platform.html

·        OLAP: https://docs.microsoft.com/es-es/system-center/scsm/olap-cubes-overview?view=sc-sm-2019

·        Unidades 1 y 2 del curso

·        Video explicativo de KDD: https://www.youtube.com/watch?v=UPNhLvzN6UQ

·        Data cleaning tolos: https://careerfoundry.com/en/blog/data-analytics/best-data-cleaning-tools/

·        OpenRefine: https://openrefine.org/

·        El proceso de descubrimiento de conocimiento en bases de datos: https://ediciones.ucc.edu.co/index.php/ucc/catalog/download/36/40/230-1?inline=1

·        KNIME: https://www.knime.com/

·        https://cepobia.com/knime-una-ventana-de-oportunidades-en-data-science/

·        https://hub.knime.com/knime/extensions/org.knime.features.base/latest/org.knime.base.node.mine.cluster.kmeans.ClusterNodeFactory2

·        KDD: https://ri.uaemex.mx/bitstream/handle/20.500.11799/64109/secme-12408.pdf?sequence=1&isAllowed=y


Un saludo y Felices Fiestas.

This website only uses its own cookies for technical purposes; it does not collect or transfer users' personal data without their knowledge. However, it contains links to third-party websites with third-party privacy policies, which you can accept or reject when you access them.