Qué es la minería de datos y sus técnicas: todo el mundo debe ser consciente de que la minería de datos en estos días es una innovación también conocida como proceso de descubrimiento de conocimiento utilizado para analizar las diferentes perspectivas de los datos y encapsularlos en información competente.
La minería es el proceso utilizado para la extracción de datos predictivos ocultos de grandes bases de datos.Este proceso también ofrece varios tipos de herramientas que se utilizan para predecir los comportamientos de las empresas y les permite tomar decisiones pro-activas y basadas en el conocimiento.
La minería de datos implementada en estaciones de trabajo de procesamiento paralelo, las herramientas asociadas con ella pueden examinar las bases de datos masivas para entregar las respuestas sofisticadas. Además, la innovación continua en el poder de las estaciones de trabajo para el procesamiento, el espacio de almacenamiento y el software estadístico aumentan la precisión del análisis y reducen el costo.
A través del procesamiento de alta velocidad, los usuarios pueden experimentar con más modelos para extraer la información compleja de bases de datos masivas.
Qué es la minería de datos y sus técnicas, arquitectura
No existe una definición particular de minería de datos, así que consideremos algunas de sus definiciones importantes. Definición 1: El proceso de extracción y descubrimiento de nueva información en forma de patrones y reglas a partir de una gran cantidad de datos se llama Minería de datos. Definición 2: La extracción automatizada de datos ocultos de una gran cantidad de base de datos es Data Mining. Definición 3: La minería de datos se refiere al proceso de extracción de información válida y previamente desconocida de una gran base de datos para tomar decisiones comerciales cruciales. A través de la extracción de datos de las tarjetas de garantía de los registros de venta, el minorista podría desarrollar promociones para otorgar a un cliente específico del producto.
Espacio de trabajo de minería de datos
El software de minería examina los patrones y las relaciones en función de las consultas abiertas de los usuarios almacenadas en los datos de la transacción. El espacio de trabajo consta de cuatro tipos de relaciones de trabajo. Agrupaciones: la agrupación es una agrupación conocida de elementos de datos según las relaciones lógicas y la prioridad de los usuarios.
Por ejemplo, los datos se pueden extraer para identificar las afinidades de los usuarios, así como las secciones del mercado. Clases: a los datos se utiliza para localizar los grupos predeterminados. Por ejemplo, una tienda podría localizar los datos del cliente para examinar la visita del cliente y sus compras.
Esta información ayuda a aumentar el tráfico de clientes en la tienda. Patrones secuenciales: la minería de datos se utiliza para pronosticar las tendencias de comportamiento y los patrones del mercado. Asociaciones: la minería asociativa se utiliza para ubicar asociaciones como la instancia beer-diaper (uno de los ejemplos más usados basado en el seguimiento del comportamiento de las compradores en un supermercado).
Arquitectura de minería de datos
Data Warehouse es la fuente inicial que contiene datos internos utilizados para rastrear toda la información del usuario junto con datos externos.
Las diversas bases de datos relacionales utilizadas para la implementación del almacén, así como para el acceso flexible a los datos, son Oracle, Sybase, etc.
El servidor de procesamiento analítico en línea (OLAP) define el modelo de usuario final para los datos que se aplicarán mientras se navega por el almacén.
La vista multidimensional analiza los datos, presenta la vista del negocio, resume la región y la línea del producto y otras perspectivas del negocio.
El servidor de minería de datos debe estar integrado con el almacén de datos y el servidor OLAP para analizar los negocios.
Incluye metadatos centrados en el proceso que definen los objetivos para cuestiones comerciales como la prospección, la promoción y la gestión de campañas. A medida que aumenta el tamaño del almacén de datos con nuevos resultados, la empresa puede practicar continuamente las mejores decisiones y aplicarlas en el futuro.
El servidor de análisis avanzado lleva las referencias de los modelos de negocio de los usuarios directamente al almacén y los resultados en un análisis proactivo de la información. Estos nuevos resultados mejoran el almacenamiento de metadatos en el servidor OLAP y representan una vista destilada de los datos. Se pueden aplicar otras herramientas de análisis, como informes y visualización, para planificar acciones futuras.
Técnicas de minería de datos
Árboles de decisión: es la técnica más común utilizada para la minería de datos debido a su estructura más simple. La raíz del árbol de decisión actúa como una condición o pregunta con múltiples respuestas.
Cada respuesta conduce a datos específicos que nos ayudan a determinar la decisión final basada en ella. Patrones secuenciales: el análisis de patrones utilizado para descubrir eventos regulares, patrones similares en datos de transacciones. Me gusta, en ventas; Los datos históricos de los clientes nos ayudan a identificar las transacciones pasadas en un año.
En función de la frecuencia histórica de compra del cliente, las mejores ofertas u ofertas han sido introducidas por empresas comerciales. Agrupación: mediante el método automático, se forma una agrupación de objetos con características similares. Al usar la agrupación, se definen las clases y luego se colocan los objetos adecuados en cada clase. Predicción: este método descubre la relación entre instancias independientes y dependientes. Por ejemplo, en el área de ventas;
Para predecir el beneficio futuro, la venta actúa como una instancia independiente y el beneficio podría depender. Luego, según los datos históricos de ventas y ganancias, se pronostica la ganancia asociada. Asociación: también llamada técnica de relación, en este caso se reconoce un patrón basado en la relación de artículos en una sola transacción. Se sugiere una técnica para el análisis de la canasta de mercado para explorar los productos que el cliente demanda con frecuencia. Clasificación: según el aprendizaje automático, se utiliza para clasificar cada elemento de un conjunto particular en grupos predefinidos. Este método adopta técnicas matemáticas como redes neuronales, programación lineal y árboles de decisión, etc.
Impulsores tecnológicos requeridos
Las aplicaciones de minería de datos son para máquinas de todos los tamaños, como mainframe, estaciones de trabajo, nubes, cliente y servidor. El tamaño de las aplicaciones empresariales varía de 10 Gb a 100 Tb.
Para entregar las aplicaciones que exceden los 100 Tb, se prefieren los sistemas NCR. Los impulsores tecnológicos son los siguientes: Tamaño de la base de datos: para mantener y procesar la gran cantidad de datos, se presenta la necesidad de sistemas potentes. Complejidad de consultas: para analizar la gran cantidad de consultas complejas, se requiere una configuración de sistema más potente.