Galería de mapas mentales Análisis y minería de Big Data plan de lección de prueba árbol de decisión y análisis de regresión
Este es un artículo sobre análisis y minería de big data: plan de lección de prueba: mapa mental del árbol de decisión y análisis de regresión. Los contenidos principales incluyen: 4. Resumen (aproximadamente 1 minuto), 3. Análisis de regresión (aproximadamente 6 minutos), 2. Árbol de decisión (aproximadamente 6 minutos), 1. Introducción al escenario (aproximadamente 2 minutos).
Editado a las 2024-11-23 00:43:18,La segunda unidad del Curso Obligatorio de Biología ha resumido y organizado los puntos de conocimiento, cubriendo todos los contenidos básicos, lo cual es muy conveniente para que todos aprendan. Adecuado para revisión y vista previa de exámenes para mejorar la eficiencia del aprendizaje. ¡Date prisa y recógelo para aprender juntos!
Este es un mapa mental sobre Extracción y corrosión del mí. El contenido principal incluye: Corrosión de metales, Extracción de metales y series de reactividad.
Este es un mapa mental sobre la reactividad de los metales. El contenido principal incluye: Reacciones de desplazamiento de metales, La serie de reactividad de los metales.
La segunda unidad del Curso Obligatorio de Biología ha resumido y organizado los puntos de conocimiento, cubriendo todos los contenidos básicos, lo cual es muy conveniente para que todos aprendan. Adecuado para revisión y vista previa de exámenes para mejorar la eficiencia del aprendizaje. ¡Date prisa y recógelo para aprender juntos!
Este es un mapa mental sobre Extracción y corrosión del mí. El contenido principal incluye: Corrosión de metales, Extracción de metales y series de reactividad.
Este es un mapa mental sobre la reactividad de los metales. El contenido principal incluye: Reacciones de desplazamiento de metales, La serie de reactividad de los metales.
Análisis y minería de Big Data: plan de lección de prueba: árbol de decisión y análisis de regresión
1. Introducción al escenario (aproximadamente 2 minutos)
Introducción al escenario: haga una pregunta práctica, como por ejemplo: ¿Cómo predice un banco el riesgo de incumplimiento de un préstamo basándose en la información del cliente? ¿Cómo recomiendan las plataformas de comercio electrónico productos en función del comportamiento del usuario? Resalte la importancia de los métodos comunes de extracción de datos.
Presentamos el tema: Hoy estudiamos principalmente dos métodos comunes en la minería de datos: árbol de decisión y análisis de regresión.
2. Árbol de decisiones (unos 6 minutos)
El significado del árbol de decisión (aproximadamente 1 minuto):
Definición: Un árbol de decisiones es una estructura de árbol que guía el proceso de toma de decisiones a través de una serie de preguntas o condiciones.
Explicación visual: se puede comparar con el proceso de toma de decisiones en nuestra vida diaria, donde finalmente se toma una decisión a través de capas de selección.
El árbol de decisiones es como un "árbol guía" sabio que se encuentra en el bosque de datos y nos ayuda a orientarnos y encontrar las respuestas que queremos. Imagínese que se encuentra en una encrucijada desconocida y desea ir a un destino específico pero no sabe adónde ir. En este momento, si aparece un "árbol guía" frente a usted, ¿qué hará?
Componentes de un árbol de decisión (aproximadamente 1,5 minutos):
(1) Nodo de decisión: el nodo que determina la siguiente rama.
(2) Rama del plan: la rama del nodo de decisión representa diferentes planes de decisión.
(3) Nodo de estado: un nodo que representa el resultado o estado de la decisión, que puede ser un resultado intermedio o un resultado final.
(4) Rama de probabilidad: conecta nodos de estado y representa la probabilidad de que ocurran diferentes estados.
Pasos para la construcción del árbol de decisiones (aproximadamente 1 minuto):
El primer paso es dibujar un diagrama de árbol y organizar cada esquema y los distintos estados naturales de cada esquema según las condiciones conocidas.
En el segundo paso, marque la probabilidad y el valor de pérdidas y ganancias de cada estado en la rama de probabilidad.
El tercer paso es calcular el valor esperado de cada plan y marcarlo en el nodo de estado correspondiente al plan.
El cuarto paso es realizar la poda (la poda es una de las formas de detener la ramificación en un árbol de decisión. Para evitar el sobreajuste, el árbol generado debe podarse para eliminar algunos nodos innecesarios), comparar los valores esperados de cada uno. solución y márquelo en la rama del plan, y el último plan restante con un valor esperado pequeño (es decir, eliminando el plan inferior) es el mejor plan.
Ventajas y desventajas de los árboles de decisión (aproximadamente 0,5 minutos):
Ventajas: Intuitivo, fácil de entender, altamente interpretable y puede manejar datos numéricos y categóricos.
Desventajas: propenso al sobreajuste, sensible a valores atípicos, falta de suavidad y sesgo hacia la selección de características con más valores propios.
En aplicaciones prácticas, es necesario elegir si utilizar árboles de decisión y cómo optimizarlos en función de escenarios y necesidades específicos.
Ámbito de aplicación y métodos comunes de los árboles de decisión (aproximadamente 2 minutos):
Ámbito de aplicación: Adecuado para problemas de clasificación y predicción, especialmente cuando la selección de características es clara y el tamaño de los datos es moderado.
Métodos comúnmente utilizados:
1. Árbol C&R (árbol de clasificación y regresión): el proceso de razonamiento se basa completamente en las características de valor de las variables de atributos. Es fácil de entender y se puede utilizar tanto para clasificación como para regresión.
2.Árbol de decisión QUEST: un árbol estadístico rápido, imparcial y eficaz que utiliza una tecnología llamada "segmentación rápida" para acelerar el proceso de construcción del árbol de decisión y es especialmente adecuado para procesar grandes conjuntos de datos.
3. Árbol de decisión CHAID: el algoritmo del árbol de decisión basado en la prueba de chi-cuadrado es adecuado para problemas de clasificación, especialmente cuando la variable objetivo es una variable categórica. Se utiliza ampliamente en marketing, segmentación de clientes y otros campos.
4.C5.0 Árbol de decisión: una versión mejorada de C4.5, con eficiencia de ejecución optimizada y uso de memoria, mayor eficiencia y mayor capacidad para procesar grandes conjuntos de datos. Se usa ampliamente en evaluación crediticia, diagnóstico de enfermedades y otros campos.
Expandir
En la gestión de proyectos y el análisis de riesgos, los árboles de decisión y EMV suelen utilizarse juntos.
Los árboles de decisión ayudan a los tomadores de decisiones a comprender los problemas más claramente al mostrar gráficamente el proceso de toma de decisiones y los resultados, mientras que EMV utiliza el análisis cuantitativo para ayudar a los tomadores de decisiones a evaluar los riesgos de manera más completa, objetiva y específica y a tomar decisiones óptimas.
3. Análisis de regresión (aproximadamente 6 minutos)
El significado del análisis de regresión (aproximadamente 1 minuto):
El análisis de regresión es un método de análisis estadístico de datos que estudia principalmente cómo una o más variables independientes (también llamadas variables predictoras, variables explicativas o variables independientes) afectan a la variable dependiente (también llamada variable de respuesta, variable explicada o cambios en la variable dependiente). ).
En pocas palabras, el análisis de regresión intenta encontrar una relación o modelo matemático entre la variable independiente y la variable dependiente de modo que el valor de la variable dependiente pueda predecirse en función del valor de la variable independiente.
El análisis de regresión se utiliza ampliamente en diversos campos, como la economía, la sociología, la medicina, la ingeniería, etc. Por ejemplo:
En economía, el análisis de regresión se puede utilizar para estudiar la relación entre variables económicas como el ingreso, el consumo y la inversión;
En medicina, se puede utilizar para estudiar el impacto de la dosis del fármaco, el peso del paciente, el estado y otros factores sobre el efecto terapéutico;
En ingeniería, se puede utilizar para estudiar el impacto de las propiedades de los materiales, los parámetros del proceso y otros factores en la calidad del producto.
Clasificación del análisis de regresión (aproximadamente 2 minutos):
(1) Regresión lineal: existe una relación lineal entre la variable independiente y la variable dependiente, que es el tipo más simple y más utilizado.
(2) Regresión logística: se utiliza principalmente para problemas de clasificación, predecir la probabilidad de un evento y mapear los resultados de la regresión lineal entre 0 y 1 para expresar la probabilidad.
(3) Regresión polinómica: la relación de datos entre la variable independiente y la variable dependiente no es lineal, pero tiene una relación polinómica y los datos se pueden ajustar mediante polinomios.
(4) Regresión escalonada: al introducir o eliminar gradualmente variables independientes, se seleccionan automáticamente variables independientes importantes para evitar la multicolinealidad y seleccionar el modelo de regresión óptimo.
(5) Regresión de cresta: un método de regresión lineal mejorado que procesa datos de alta dimensión, reduce la complejidad del modelo, evita el sobreajuste y se utiliza para resolver problemas de multicolinealidad.
Modelos de regresión más utilizados (aproximadamente 1,5 minutos):
(1) Modelo de regresión lineal: y = ax b, donde a es la pendiente y b es la intersección.
(2) Modelo de regresión no lineal: existe una relación no lineal entre variables independientes y variables dependientes, como funciones exponenciales, funciones logarítmicas, etc.
(3) Modelo de regresión logística: se utiliza para predecir la probabilidad de que ocurra un evento, como predecir si un usuario hará clic en un anuncio.
(4) Modelo de regresión de cresta: agregue términos de regularización a la función de pérdida para evitar el sobreajuste.
(5) Regresión del componente principal: reduzca la cantidad de variables independientes y mejore la eficiencia del modelo mediante la reducción de la dimensionalidad. Primero realice un análisis de componentes principales de las variables independientes y luego utilice los componentes principales para realizar la regresión.
Pasos básicos del análisis de regresión (aproximadamente 1,5 minutos):
(1) Determinar las variables independientes y variables dependientes: Clarificar las cuestiones y objetivos a estudiar.
(2) Recopilar datos: recopilar datos relevantes de variables independientes y variables dependientes.
(3) Seleccionar modelo de regresión: seleccione un modelo apropiado según las características de los datos y los objetivos de la investigación.
(4) Ajuste del modelo: utilice datos para estimar los parámetros del modelo.
(5) Evaluación del modelo: evalúe el efecto de ajuste y la capacidad de predicción del modelo.
(6) Aplicación del modelo: utilice modelos para predicción y análisis.
4. Resumen (aproximadamente 1 minuto)
Revise brevemente los elementos clave de los árboles de decisión y el análisis de regresión. Enfatice el importante papel y los escenarios de aplicación de estos dos métodos en la minería de datos. Se anima a los estudiantes a estudiar y explorar más después de clase.