Acceso
Iniciar sesión

Psicometría

Academia China de Ciencias: Consejero Psicológico - Psicometría, incluidos conceptos básicos, teorías de pruebas clásicas, indicadores de calidad de pruebas psicológicas, etc.

Editado a las 2024-01-31 16:23:53,

e7qw4qya@bccto.cc

Trabajos recientes Ver más trabajos>>

Breve historia del tiempo
Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.

Psicometría

e7qw4qya@bccto.cc

Trabajos recientes Ver más trabajos>>

Recomendados
Resumen

Psicologia como Ciencia
- 19
- 1
WSZHzREV
RAMAS DE LA BIOSICOLOGIA
- 33
- 2
Melissa Cedillo
Otros Trastornos del Neuro-Desarrollo
- 95
- 3
Sebastián Pesantes
Unidad 1- Psicología como disciplina científica
- 40
- 2
Gladys Brigitte Mendoza Abanto
Syllabus del curso iteligencia y creatividad 2
- 87
- 1
Caroline Inca castillo
LLUVIA DE IDEAS
- 27
- 1
Steven Santiago Silva
Principales trastornos psicológicos conductuales
- 9
katerinebautistad10@gmail.com
Línea del Tiempo
- 59
Allison Olivares Chavarria
Explorando la Evolución de los Talleres de Psicología: Una Línea del Tiempo
- 18
Allison Olivares Chavarria
La Psicologìa
- 5
Jaz Arevalo

Psicometría

concepto basico

Medición psicológica y sus propiedades básicas.

Definición: El proceso de utilizar pruebas para describir cuantitativamente los rasgos psicológicos de las personas basándose en ciertas teorías psicológicas.

Las pruebas (herramientas) psicológicas son esencialmente pruebas de muestras de comportamiento. Objetividad y medición estandarizada, incluidos 4 elementos.

Muestra de comportamiento: dominio de comportamiento, es decir, la población de comportamientos que se pueden extraer.

Estandarización: contenido de la prueba, condiciones de administración de la prueba (instrucciones situacionales, duración, etc.), reglas de puntuación, normas de la prueba (que proporcionan un punto de referencia para la comparación)

dificultad o tasa de respuesta

Credibilidad (confiabilidad, coherencia) Validez (efectividad, precisión)

varias personas importantes

Galton-Investigación cuantitativa; fue pionero en el estudio de las diferencias individuales, etc. La primera persona en realizar pruebas psicológicas.

Cattell-Tesis "Pruebas y Mediciones Psicológicas" Propuso por primera vez el término pruebas psicológicas.

Thorndike - "Introducción a la medición psicológica y social" El primer libro sobre teoría de pruebas.

Caracteristicas basicas

Universalidad de aplicación (posibilidad: mensurable, mensurable)

Indirectividad (desempeño conductual externo, como responder preguntas)

Impacto psicológico - objetividad (preguntas estandarizadas, resultados objetivos)

Los errores son universales (todas las mediciones se basan en errores)

Relatividad (resultado, la posición es relativa, por ejemplo: IQ)

Elementos basicos

punto de referencia

Punto de referencia absoluto: punto cero absoluto, por ejemplo: peso, altura, tiempo de reacción

Punto de referencia relativo: punto cero determinado artificialmente, por ejemplo: altitud, temperatura

unidad

Valor igual, por ejemplo: valor equivalente de 1 a 2 m y de 2 a 3 m

Isométrico: el valor numérico es el mismo y el significado real también es el mismo.

Intervalos desiguales: los valores son los mismos, pero los significados reales son diferentes. por ejemplo: Profesor-Profesor Asociado-Profesor Titular

Significado determinado, por ejemplo: unidad m, kg

Tipo de escala

Cuantificar cosas según una determinada regla, es decir, expresar los atributos de las cosas en un continuo de determinadas unidades y puntos de referencia, se denomina escala.

escala de nombres

Definición: usar números para representar los componentes de las cosas o clasificar números

Ninguna unidad equivalente

Sin punto cero

no se puede calcular

por ejemplo: clasificación de género, denominación del número de estudiante

Métodos estadísticos: frecuencia, moda, porcentaje, prueba X2.

escala ordinal (escala de calificación)

Definición: los números no solo representan categorías sino que también indican Diferentes tamaños y niveles de categorías, clasificación y clasificación.

Ninguna unidad equivalente

Sin punto cero

no se puede calcular

ej.: Clasificación y ordenamiento de calificaciones, evaluación de títulos profesionales

Métodos estadísticos: mediana, percentil, Correlación de rango, coeficiente de armonía de Kendall

escala isometrica

Definición - capaz de representar no sólo categorías y grados de cosas, sino también distancias iguales y unidades de medida, clasificación, -

tener unidades iguales

cero relativo

Puede - aritmética

por ejemplo: termómetro, medición de altitud, medición de fracciones

Métodos estadísticos: media, desviación estándar, coeficiente de correlación de diferencia de productos, Correlación de rango, prueba t, prueba f

Escala de razón (escala de razón igual)

Definición: la escala más completa, excepto que tiene niveles nombrados, etc. distancia y punto cero absoluto; clasificación, clasificación, - x ÷

tener unidades iguales

cero absoluto

Can - x ÷ operación

por ejemplo: medición de altura, báscula de peso, tiempo de reacción secundaria

Métodos estadísticos: coeficiente de variación medio geométrico isométrico.

Tipo de prueba

Clasificación según rasgos psicológicos medidos.

prueba de aptitud

prueba de mejor comportamiento

prueba de inteligencia

Binet-Simon, la primera escala de inteligencia del mundo, 1905; Dong Zhongshu dibuja un cuadrado con una mano y un círculo con la otra (preste atención a la prueba) Confucio: diferencias en el número de grados de inteligencia de los estudiantes individuales;

Prueba de aptitud incluye: habilidad general y habilidad especial;

Atrapa la semana, canta, baila, dibuja SAT, DAT

Examen de logros

por ejemplo: varios exámenes

Suplemento: Prueba de creatividad

Tangram y Nueve Eslabones de la Dinastía Qing (laberinto de estilo chino)

Suplemento: Pruebas educativas

La esclavitud en la dinastía Zhou occidental-Estudios chinos-Prueba educativa más temprana

Sistema de examen anual de la dinastía Han: el primer examen escrito

El emperador Yang de la dinastía Sui -el sistema de exámenes imperial- duró más de 1.300 años

test de personalidad

prueba de comportamiento típico

prueba de personalidad de autoinforme

Preguntas de opción múltiple: prueba de personalidad MMPI, 16PF, EPQ, EPPS, YG

prueba proyectiva de personalidad

Prueba de mancha de tinta de Rorschach (la primera prueba proyectiva), Prueba de apercepción temática (TAT), Prueba del hombre árbol de la casa, Sandbox

Varias figuras importantes y adiciones.

Kraepelin: el primero en utilizar la prueba de asociación libre para diagnosticar pacientes mentales Pionero de las pruebas de personalidad

Woodworth - Cuestionario de perfil de Woodworth El primer cuestionario de personalidad moderno.

La personalidad de Confucio se divide en 3 categorías y la personalidad de Liu Shao se divide en 12 categorías. Pertenece a la prueba de personalidad.

Clasificados según el estándar de referencia utilizado por los sujetos al evaluar

Pruebas basadas en normas (en comparación con un grupo de personas)

Una prueba que utiliza el grupo como fondo de referencia y utiliza la posición relativa del individuo en el grupo para evaluar el nivel de desarrollo del individuo; representa la posición relativa de una persona en el continuo de capacidad o conocimiento en el grupo, como las pruebas de inteligencia; pruebas de capacidad y reexámenes de exámenes de ingreso a posgrados;

Pruebas basadas en criterios (en comparación con un estándar)

Es una prueba que evalúa a los individuos en función del contenido de la prueba o de niveles estándar de comportamiento específicos. Es una prueba que evalúa los niveles de desarrollo individual en función de si el nivel individual alcanza un cierto estándar fijo en el campo; solo juzga si la puntuación de la prueba alcanza un determinado nivel; cierto estándar y no se compara con los puntajes de otras personas. No tiene nada que ver con eso, como el examen preliminar para el examen de ingreso a posgrado, la licencia de conducir, el examen de asesoramiento psicológico para evaluar el nivel absoluto;

Clasificados por grado de estandarización

Pruebas estandarizadas: requisitos de 4 puntos

Estandarización del proceso de preparación de pruebas.

Estandarización de la implementación de pruebas.

Estandarización de la puntuación de las pruebas

estandarización de la interpretación de la puntuación de la prueba

pruebas no estandarizadas

Clasificación según métodos de medición reales.

Pruebas basadas en computadora (CBT)

Pruebas adaptativas computarizadas (CAT)

Pruebas basadas en Internet (IBI)

Otras categorias

Según el método de medición

Pruebas individuales, por ejemplo: escala de Stanford-Binet, escala de inteligencia de Wechsler y otras escalas de inteligencia, mancha de tinta de Rorschach, prueba de apercepción temática, pruebas individuales selectas para grupos especiales;

Pruebas grupales, por ejemplo: prueba de razonamiento de Raven, prueba del Ejército A y B; prueba de personalidad de autoinforme en busca de alta eficiencia y economía;

Según el contenido de la expresión y la forma de la reacción.

Prueba verbal (papel y lápiz)-Escala Stanford-Binet/16PF

Prueba no verbal (operacional) Prueba de razonamiento de Raven/Prueba de la mancha de tinta de Rorschach

Según la función de prueba

Pruebas de logros y predicción

Pruebas de dificultad y velocidad.

Prueba de dificultad - Nivel de dificultad - Buceo

Prueba de velocidad: puntuaciones altas y estables; Gran cantidad de preguntas: prueba de tiempo de reacción/carrera de 100 metros

Pruebas Descriptivas y Diagnósticas

Según tipo de pregunta

Prueba subjetiva-respuesta corta/ensayo/composición

Prueba de pregunta objetiva: opción única/juicio

Puntuación según sea necesario

Prueba de mejor comportamiento: responda lo mejor posible y obtenga la respuesta correcta como prueba de habilidad

Prueba de comportamiento típica: basada en hábitos de respuesta, sin respuesta correcta como test de personalidad

teoría clásica de las pruebas

error psicométrico

significado

Un efecto de medición inexacto e inconsistente causado por factores cambiantes que no tienen nada que ver con el propósito de la medición durante el proceso de medición.

tipo

Error aleatorio: un error que no es fácil de controlar causado por factores accidentales que no tienen nada que ver con el propósito de la medición; los resultados de múltiples mediciones son inconsistentes, la dirección y el cambio son completamente aleatorios si se repite una prueba/prueba paralela; varias veces, solo el valor medio es 0 Distribución normal rendimiento inconsistente e inexacto en los resultados de la medición.

Error sistemático: un efecto constante y regular causado por variables que no tienen nada que ver con el propósito de la medición; estable y consistente en cada medición, los resultados de múltiples mediciones parecen ser consistentes e inexactos;

fuente

Herramienta de medición (error sistemático): un sistema de estímulo-respuesta (a menudo llamado escala) centrado en un conjunto de pruebas (cuestionarios).

Muestreo de preguntas inadecuado

El formato de la pregunta no es apropiado.

La dificultad es demasiado alta o demasiado baja.

Redacción inadecuada en las instrucciones.

Objeto de medición (error aleatorio-diferencias individuales): si el nivel real del sujeto se ejerce normalmente

Emociones, motivaciones, tendencias de reacción, etc.

Proceso de prueba (el más fácil de controlar y probar): factores accidentales: entorno físico, tiempo, interferencias inesperadas, etc.

control

Estandarización

Objeto de medición

Del lado del sujeto: el estado físico y mental del sujeto se mantuvo estable durante la medición.

En cuanto a la prueba principal, el probador principal presta atención al funcionamiento estandarizado del sistema.

Herramientas de medición

Mejorar la naturaleza científica de la preparación de exámenes.

Preste atención a la riqueza y universalidad de la información recopilada.

Preste atención a la representatividad del muestreo del proyecto.

La dificultad del proyecto tiene un cierto rango de distribución.

Los términos de la prueba son simples y claros.

Proceso de prueba

Misma situación de prueba

mismas instrucciones

Mismo límite de tiempo de prueba

La puntuación debe ser objetiva y la interpretación de los resultados de las pruebas debe estar estandarizada.

Modelo clásico de teoría de pruebas.

CTT

modelo matemático X (puntuación observada) = T (puntuación real) E (error aleatorio)

inferencia de hipótesis

Si el rasgo psicológico de una persona puede medirse repetidamente con pruebas paralelas, el promedio de sus puntuaciones observadas se aproximará a la puntuación real. Es decir: E(X)=T o E(E)=0

Supongamos que E es una variable aleatoria que sigue una distribución normal.

La correlación entre las puntuaciones de verdadero y error es cero. Es decir: ρ (T, E) = 0

La hipótesis es que E es un error aleatorio y no está incluido en el error sistemático.

La correlación entre las puntuaciones de error en las pruebas paralelas es cero. Es decir: ρ (E1, E2) = 0

La hipótesis es que E es un error aleatorio y no está incluido en el error sistemático.

relación de varianza

Sx²=St² Se²

St²=Sv² Si²

Variación relacionada con la prueba V-tratamiento experimental. Pruebo variación irrelevante - error sistemático El error sistemático se incluye en la fracción verdadera.

Sx²= Sv² Si² Se²

Indicadores de calidad de las pruebas psicológicas

fiabilidad

definición

definición literal

La confiabilidad se refiere al grado de consistencia y estabilidad de los resultados de las mediciones, es decir, el grado de confiabilidad de los resultados de las pruebas a medida que las puntuaciones de las pruebas cambian con el tiempo, la ubicación y otros factores.

Ordene sus notas: la confiabilidad se refiere a la consistencia de los resultados obtenidos al usar repetidamente la misma herramienta de medición o herramienta equivalente para medir un determinado rasgo psicológico por parte del mismo sujeto en diferentes momentos y en diferentes ocasiones.

Tres definiciones de fórmulas equivalentes

Coeficiente de confiabilidad: la relación entre la variación de la puntuación real y la variación de la puntuación real de un conjunto de puntuaciones medidas (un grupo de sujetos) (definición teórica)

rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx²

La confiabilidad es el cuadrado del coeficiente de correlación entre la puntuación real y la puntuación real de un grupo de sujetos (definición teórica)

rxx=p² (xt)

La confiabilidad es el coeficiente de correlación entre una prueba x y su prueba paralela x’ (definición operacional)

rxx=p(x,x’)

efecto

La confiabilidad es un reflejo del tamaño del error aleatorio en el proceso de medición.

rxx= St²/Sx² = (Sx²-Se²)/Sx²= 1-Se²/Sx²

Cuanto menor es Se, mayor es la confiabilidad; cuanto mayor es Se, menor es la confiabilidad.

La confiabilidad no refleja el tamaño del error sistemático en el proceso de medición.

La confiabilidad se puede utilizar para explicar el significado de las puntuaciones de las pruebas individuales.

La diferencia entre las puntuaciones de las dos pruebas puede formar una nueva distribución. La desviación estándar de esta distribución es el error estándar SE de la medición. Es un indicador objetivo del tamaño del error en la medición. persona del grupo mediante el error estándar. Dar explicaciones adecuadas de los resultados. Es decir, la estimación de intervalo de la puntuación real.

SE=Sx√（1－rxx）

El examen suele dar rxx y Sx. Pregunte primero por SE y luego por T.

X-Z*SE ≤T ≤X Z*SE

La confiabilidad ayuda a comparar puntuaciones en diferentes pruebas

Las puntuaciones brutas de diferentes pruebas no se pueden comparar directamente. Deben convertirse en puntuaciones estándar y luego compararse. El método específico consiste en utilizar el "error estándar de la diferencia" para realizar una prueba de significancia. Prueba de diferencia de puntuaciones observadas x

SEd=S√（2－rxx-ryy）

t=(x1-x2)/SEd

Clasificación de métodos de estimación.

confiabilidad prueba-reprueba

Medida de reconfianza/coeficiente de estabilidad Se refiere al grado de consistencia de los resultados obtenidos cuando se administra dos veces la misma escala al mismo grupo de sujetos.

1 prueba, 1 grupo de sujetos, 2 pruebas Por ejemplo: test de personalidad, test de velocidad.

Fuente de error: tiempo; por ejemplo: crecimiento, madurez, Aprendizaje, entrenamiento, factores accidentales, como la felicidad)

Método de cálculo: Correlación de diferencia de productos de Pearson

Condiciones de Uso

Los rasgos psicológicos individuales medidos por la herramienta de medición deberían ser relativamente estables en el tiempo.

No debería haber ningún efecto obvio de práctica ni de olvido en los rasgos psicológicos de los individuos medidos por la herramienta de medición.

No se debe realizar ningún entrenamiento o entrenamiento especial entre las dos administraciones de la prueba.

La duración del intervalo debe informarse al informar sobre la confiabilidad de la prueba y la repetición de la prueba.

Confiabilidad replicada

Dos pruebas paralelas (pruebas réplica) miden la consistencia de los resultados obtenidos por el mismo grupo de sujetos

Las dos réplicas de las pruebas se administran de forma continua y simultánea, lo que se denomina coeficiente de equivalencia.

2 pruebas, 1 grupo de sujetos, 1 prueba

Fuente de error: contenido de la pregunta

Se administran dos pruebas duplicadas por separado durante un período de tiempo, lo que se denomina coeficiente de estabilidad y equivalencia (una prueba estricta de confiabilidad).

2 pruebas, 1 grupo de sujetos, 2 pruebas

Fuente del error: contenido y hora de la pregunta

Aplicable: Generalmente utilizado en la etapa de investigación y desarrollo de escalas. Las pruebas de rendimiento/rendimiento no se pueden realizar porque los sujetos solo pueden tomar un conjunto de pruebas y no pueden tomar dos conjuntos al mismo tiempo.

Método de cálculo: correlación de diferencia de productos de Pearson

Condiciones de Uso

Ser capaz de construir dos o más pruebas verdaderamente paralelas, es decir, garantizar que sean iguales o similares en cuanto a contenido de las preguntas, cantidad, forma, dificultad, diferenciación, instrucciones, límite de tiempo, y todos los ejemplos, fórmulas, etc.

Realizar dos pruebas paralelas en el mismo grupo de sujetos requiere arreglos de tiempo razonables para evitar verse afectado por el efecto de práctica, el efecto de fatiga y el efecto de transferencia.

En el informe de la prueba, explique en detalle el intervalo de tiempo entre las dos pruebas, el orden de las pruebas y la experiencia de los sujetos de la prueba durante la prueba (estandarización).

confiabilidad de consistencia interna

Definición: evaluar si los componentes aleatorios de la prueba miden los mismos rasgos psicológicos, reflejando la coherencia del contenido de la muestra de las preguntas.

confiabilidad dividida a la mitad

Divida aleatoriamente todas las preguntas de una prueba en dos mitades y luego calcule la coherencia de las puntuaciones de los sujetos en las dos partes (después de que los sujetos completen el conjunto completo, los datos se dividirán por la mitad)

1 prueba, 1 grupo de sujetos, 1 prueba Examen de logros

Método de cálculo: primero utilice el cálculo de correlación de diferencia de producto de Pearson y luego utilice la fórmula de Spearman-Brown para verificar: rxx=2*rhh/(1 rhh), el examen generalmente arroja una diferencia de producto ab rhh; por ejemplo, rhh=0,5, encuentre rxx; =2*0,5/(1 0,5)=2/3

Condiciones de Uso

Por lo general, la prueba solo se puede administrar una vez o usarse sin una copia, y se requiere que la media y la varianza de las puntuaciones de los sujetos en las dos medias pruebas sean iguales. Sa2 = Sb2; de lo contrario, use la fórmula de Flanagan o la fórmula de Lullen;

La prueba no se puede dividir en mitades y no se puede utilizar.

Cuanto mayor sea la duración de la evaluación, más estables serán los resultados y mayor será la fiabilidad de la prueba.

Fuente del error: el contenido. Las preguntas relacionadas deben colocarse en la misma mitad. Si la correlación es alta, ¿es razonable dividir el contenido en mitades?

Fiabilidad de homogeneidad

Coeficiente de coherencia interna, el grado de coherencia entre todas las preguntas de la prueba.

1 prueba, 1 grupo de sujetos, 1 prueba Examen de logros

Fiabilidad de Kuder-Richardson

K-R20

Solo aplicable a (0, 1) producto = puntuación, preguntas de opción múltiple, preguntas de criterio

Fuente de error: Homogeneidad del contenido de la pregunta y características psicológicas y de comportamiento.

K-R21

Solo se aplica (0, 1) producto = puntuación, y se requiere que la dificultad de todas las preguntas sea cercana, porque el cálculo utiliza la tasa de aprobación promedio, preguntas de opción única y preguntas de juicio.

Fuente de error: Homogeneidad del contenido de la pregunta y características psicológicas y de comportamiento.

Coeficiente alfa de Cronbach

Aplicable (0, 1, preguntas subjetivas-preguntas de respuesta corta, preguntas de desarrollo, etc.)

Fuente de error: Homogeneidad del contenido de la pregunta y características psicológicas y de comportamiento.

Condiciones de uso: requiere que la prueba se pruebe una vez en un grupo de sujetos, que es un método más general para estimar la confiabilidad de la consistencia interna de la prueba.

Condiciones de confiabilidad de consistencia interna para su uso.

Todas las preguntas miden el mismo rasgo

Existe una alta correlación positiva entre las puntuaciones de todas las preguntas.

No aplicable a la prueba de velocidad.

Al calificar la confiabilidad de la prueba, no puede confiar únicamente en el coeficiente de consistencia interna, sino utilizar una combinación de confiabilidades múltiples.

fiabilidad entre

Varios evaluadores dieron respuestas al mismo grupo de temas. Nivel de consistencia en la puntuación.

Fuente de error: los propios evaluadores

Método de cálculo

2 evaluadores: correlación de diferencia de productos de Pearson/correlación de rango de Spearman

3 evaluadores - Coeficiente de armonía de Kendall

Más de 7 evaluadores: prueba de chi-cuadrado x2=k(N-1), df=N-1

Aplicable: puntuación subjetiva de preguntas, por ejemplo, composición Pruebas que no se pueden calificar de manera completamente objetiva, Como pruebas de creatividad, pruebas proyectivas.

Influir en la confiabilidad de las pruebas y en los métodos de control (métodos de mejora)

Factores que afectan la confiabilidad

factores sujetos

Sujetos individuales: salud física, motivación para realizar exámenes, atención, paciencia, ansiedad, deseo de ganar, actitud para responder, etc. afectarán la estabilidad de los rasgos psicológicos del sujeto.

Grupo de sujetos: la heterogeneidad del grupo y el nivel promedio afectarán la confiabilidad, que se estima principalmente calculando el coeficiente de correlación si el número de niveles del grupo es muy diferente (heterogéneo), el valor de confiabilidad se sobreestimará y la homogeneidad subestimará el valor de confiabilidad; .

Heterogéneo, ancho de rango completo, distribución discreta, altura rxx

Homogéneo, tramo estrecho, distribución concentrada, bajo rxx

Mejora de la estandarización: seleccione grupos de prueba apropiados para mejorar la confiabilidad de la prueba en grupos con gran homogeneidad

Principales factores de prueba

Tomado de la prueba: La impresión/presión/pista dada al sujeto de la prueba por edad, género, apariencia, habla y comportamiento, expresiones faciales, etc., incluido no seguir estrictamente las instrucciones de la prueba, controlar el proceso de la prueba, etc., afectará la puntuación. Distribución de los sujetos de prueba bajo diferentes escenarios de prueba.

Evaluador: La puntuación no es objetiva y se produjo un error al calcular la puntuación.

Mejora de la estandarización: el examinador principal implementa estrictamente los procedimientos de administración de la prueba y los evaluadores deben seguir estrictamente los estándares para estandarizar las instrucciones, controlar el tiempo de la prueba y ordenar las preguntas de la prueba, brindar la capacitación necesaria a los evaluadores y controlar estrictamente el proceso. errores de puntuación y garantizar que los estándares de evaluación y la coherencia de los resultados de puntuación

Herramientas de medición: si las herramientas de medición son estables es la clave para el éxito o el fracaso de la medición.

Muestreo de preguntas de prueba, cuanto mayor sea el número de preguntas, mayor será la confiabilidad

La dificultad de las preguntas del examen. La dificultad baja o alta no puede medir las diferencias entre los individuos. La dificultad moderada es la más adecuada y puede mejorar la confiabilidad del examen.

Homogeneidad entre las preguntas del examen. Cuanto mayor sea la homogeneidad, mayor será la confiabilidad.

Mejora de la estandarización: compilar cuidadosamente escalas de prueba, Evite grandes errores sistemáticos

Aumente adecuadamente la duración de la prueba, aumente el número de manera adecuada y evite que sea demasiado larga (demasiado) para evitar el efecto de práctica y el efecto de fatiga en los sujetos.

La dificultad de las nuevas preguntas es moderada y controlada en el nivel medio, de modo que la dificultad de todas las preguntas se acerca a la distribución normal y la distribución de puntuaciones tiene un amplio rango.

Mejorar la discriminación de preguntas para que la distribución de puntuación de las materias tenga un rango más amplio

Las nuevas preguntas tienen el mismo contenido que el test original.

Proceso de prueba

Entorno de prueba

La temperatura, la luz, el sonido y el tamaño del espacio afectarán el estado psicológico de los sujetos al responder, haciendo que las puntuaciones de la prueba sean inestables y afectando la confiabilidad.

Interrupciones inesperadas: corte de energía, enfermedad, error de impresión

Mejora de la estandarización: el sitio de prueba está organizado de acuerdo con los requisitos del manual de prueba para reducir la interferencia de factores irrelevantes, como el control del ruido, la temperatura y otros factores que pueden afectar la psicología de los sujetos.

intervalo de prueba

Si el intervalo de prueba es corto, puede haber efectos de práctica y efectos de fatiga; si es demasiado largo, las características de comportamiento del grupo de sujetos pueden cambiar significativamente en lo que respecta a la confiabilidad, la estabilidad y los coeficientes de equivalencia del test-retest; Cuanto mayor sea el intervalo, mayor será el grado de confiabilidad.

Controlar las fuentes de error, estandarizar

Métodos para controlar errores aleatorios y mejorar la confiabilidad: un breve resumen

Estandarizar todos los factores de influencia anteriores. Consulte "Mejoras de estandarización" más arriba para obtener más detalles.

Aumentar adecuadamente el número de elementos de prueba.

Análisis factorial (homogeneidad) y análisis discriminante (discriminabilidad) ampliar el espacio completo

Dificultad del ítem de la prueba de control: apropiada

Seleccione grupos de materias apropiados: representativos

Corrección de debilidad: error de control

validez

definición

definición literal

El efecto y el grado en que una prueba o escala (herramienta de prueba) puede realmente medir los rasgos psicológicos o de comportamiento que pretende medir: validez, precisión, utilidad.

Definición de fórmula

En un conjunto de puntuaciones de pruebas, la relación entre la variación verdadera Sv² relacionada con la puntuación verdadera y la variación total Sx², r²xy o V representa la validez, rxy es el coeficiente de validez, r²xy= Sv²/Sx²

efecto

La validez es un reflejo integral del error aleatorio E y del error sistemático I de la medición.

La validez es un concepto relativo. Para un determinado propósito de medición, la medición solo puede lograr un cierto grado de precisión.

Cuando la puntuación de la prueba tiene una relación lineal con la puntuación del criterio, el conocimiento de la regresión lineal se puede utilizar para predecir la puntuación del criterio a través de la puntuación de la prueba.

La relación entre validez y confiabilidad.

Una alta confiabilidad de la medición es una condición necesaria pero no suficiente para una alta validez

Explicar usando fórmulas. X puntuación observada = T (puntuación real) E (error aleatorio) =V (procesamiento experimental) I (error del sistema) E Sx²= Sv² Si² Se²

rxx= St²/Sx²= (Sv² SI²)/Sx²

V=r²xy= Sv²/Sx²

rxx>r²xy(V)

rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx² La confiabilidad es causada por un error aleatorio E

La validez es causada por el error aleatorio E y el error sistemático I.

Una alta validez significa una alta confiabilidad; una alta confiabilidad no necesariamente significa una alta validez.

Tipo de validez

validez de contenido

definición

Se refiere al grado de concordancia entre el contenido realmente medido por una prueba y el contenido a medir (por ejemplo, 347 examen de ingreso a posgrado vs. programa de examen)

Características

El contenido del comportamiento de medición es claro y el muestreo es representativo.

Peso razonable

Condiciones de Uso

El rango debe establecerse de manera que todos los elementos de prueba estén dentro de este rango.

Los artículos de seguros generales son ejemplos representativos del alcance del contenido determinado externamente.

Ser aplicable

pruebas sobre atributos específicos, Como pruebas de rendimiento, pruebas profesionales (selección y clasificación)

No apto para pruebas de aptitud y pruebas de personalidad (resumen)

Método de determinación

Método de análisis lógico (método de evaluación de expertos)

Alcance claro

Prepare una hoja de desglose bidireccional

por ejemplo: OK: Requisitos para los candidatos Columna: Contenido del examen de candidatos.

Desarrollar una escala de calificación

Métodos comunes

Método de Bach-Cron (método del coeficiente alfa)

Encuentre la correlación entre dos conjuntos paralelos de puntajes de pruebas que miden el mismo contenido (confiabilidad replicada)

método de prueba-reprueba

También llamado método test-retest, se refiere a realizar la misma prueba antes y después de aprender un determinado conocimiento. Si la prueba posterior es mejor que la prueba previa, tiene mayor validez de contenido.

método empírico

Diferentes grupos de sujetos diferían en sus puntuaciones en la prueba y en sus respuestas a cada pregunta.

Por ejemplo: generalmente se cree que las calificaciones más altas tienen mayor competencia que las calificaciones más bajas. Si la puntuación total aumenta a medida que aumenta la calificación, significa que hay validez de contenido.

La relación entre validez de contenido y validez aparente

Definición de validez aparente

A primera vista, la prueba realizada por un profano a una determinada persona parece ser un fenómeno que consiste en medir ciertos rasgos psicológicos.

La validez aparente afectará la motivación de los sujetos e indirectamente afectará la validez de la prueba. Se debe prestar la debida atención.

Las pruebas de rendimiento requieren una validez superficial alta, de modo que los sujetos tengan una fuerte motivación; de lo contrario, los sujetos desconfiarán; las pruebas de personalidad requieren una validez superficial baja, de lo contrario, los sujetos harán trampa.

validez de constructo validez de constructo

definición

Se refiere al grado en que una prueba realmente mide las estructuras y características teóricas que se van a medir o se refiere al grado en que las puntuaciones de la prueba pueden explicar una determinada estructura o características de la teoría psicológica; experimento y la teoría. Se basa en la teoría sustentada.

Características

El tamaño de la validez de constructo depende de la teoría presupuesta de los rasgos psicológicos.

Cuando los datos empíricos no pueden confirmar la teoría, no significa necesariamente que la validez de constructo no sea alta, pero puede ser que los supuestos teóricos no sean válidos.

La validez estructural se determina acumulando la selección del contenido de la medición, es decir, para un constructo pueden existir múltiples hipótesis, por lo que es imposible tener un único índice cuantitativo de validez de constructo.

Ser aplicable

cuestionario de conceptos abstractos Como pruebas de inteligencia, pruebas de personalidad, pruebas de autoeficacia.

Pasos generales

Proponer hipótesis teóricas.

Derivar hipótesis sobre los puntajes de las pruebas, basándose en un marco teórico

Utilizar métodos lógicos y empíricos para probar hipótesis.

método específico

Encuentra evidencia dentro del cuestionario

validez de contenido

Fiabilidad de homogeneidad

Examinar la validez de contenido y analizar la El proceso de responder preguntas y calcular la confiabilidad de la homogeneidad.

Buscando evidencia entre pruebas

método de validez compatible

Encuentre la correlación entre la prueba recién compilada y una prueba anterior que se sabe que es eficaz para medir rasgos compatibles. Si la correlación es alta, la validez de contenido es alta: la correlación entre las pruebas antiguas y nuevas.

validez discriminante

Encuentre la correlación entre la prueba recién compilada y una prueba antigua que se sabe que es eficaz para medir diferentes rasgos. Si la correlación es alta, la validez del contenido no es alta.

El grado de correlación entre varias pruebas.

método de validez empírica

Divida a las personas en dos categorías según los criterios de eficacia y examine la diferencia en las puntuaciones. Divida a las personas en grupos altos y bajos según las puntuaciones y examine las diferencias en los criterios de eficacia. Si la diferencia es significativa, la validez de constructo es alta. - examinar el estado de comportamiento.

Método de matriz de múltiples rasgos y múltiples métodos

Aplicación integral de validez compatible y validez discriminante-MTMM

Método de validez convergente-diferencia homogénea

Diferentes pruebas que miden el mismo rasgo Cuanto mayor sea el coeficiente de correlación, mayor será la validez compatible.

Por ejemplo: uso del autoinforme y la proyección para medir la introversión de la personalidad

Validez discriminante: mismo método pero no homogéneo

Las pruebas de similitud miden diferentes rasgos Si el coeficiente de correlación es bajo, la validez discriminante es alta.

Por ejemplo: utilice una escala de autoinforme para medir la extraversión y la responsabilidad del sujeto.

Suplemento: la prueba de similitud mide rasgos similares Cuanto mayor sea el coeficiente de correlación, mayor será la confiabilidad.

análisis factorial

Resumir grandes cantidades de datos de observación con una pequeña cantidad de factores; trabajo de reducción de dimensionalidad;

Análisis factorial confirmatorio CFA análisis factorial confirmatorio

Conozca varias dimensiones, pruébelas y obtenga los resultados. Verifique si estas dimensiones son correctas

Análisis factorial exploratorio EFA análisis factorial exploratorio

No conozco algunas dimensiones de antemano, explorémoslas

Validez empírica (validez relacionada con el criterio) efecto de vinculación de criterios

definición

Un par de prueba se encuentra en una situación específica. La eficacia de estimar el comportamiento individual.

Tomar los resultados prácticos como estándar de prueba

Por ejemplo: selección de examen de posgrado, la prueba es un examen y el criterio es la capacidad de investigación científica. Si la capacidad de investigación científica es alta, significa que el criterio de eficiencia es alto.

Estándar de eficacia

El criterio de validez se refiere al comportamiento que se estima, que es el estándar para probar la validez y el estándar externo para medir si una prueba es válida.

Contaminación estándar de eficacia

Afectado por conocer la puntuación del examen del sujeto para evaluar su puntuación efectiva

Criteria de selección

Correlación

El estándar de efectividad está relacionado con lo que se está evaluando actualmente.

eficacia

Existe un alto grado de coherencia entre el criterio y el rasgo que representa.

Sin contaminacion

La medida criterio no se basa en la medida que se evalúa

objetividad

Dado que el estándar de eficacia se evalúa en función de la experiencia subjetiva, Así que evite el sesgo subjetivo

Sentido práctico

Bajo la premisa de garantizar la eficacia, Hágalo lo más simple, que ahorre tiempo y sea operable como sea posible

Características

Características de comportamiento independientes y objetivamente relacionadas.

Estándares comúnmente utilizados

Rendimiento académico, calificaciones, diagnóstico clínico, resultados de formación especializada, desempeño en trabajos prácticos, capacidad para diferenciar entre grupos y otras pruebas válidas y fácilmente disponibles.

Ser aplicable

Predecir resultados, como la selección de personal.

Categorías de validez empírica

validez concurrente

Los datos de los criterios y las puntuaciones de las pruebas se recopilan simultáneamente

Estado del diagnóstico

Validez predictiva

Primero realice la prueba y luego determine los criterios de efectividad según los puntajes de la prueba.

Especular el futuro

Método de determinación

Estándares conceptuales claros

Determinar la medida estándar de eficacia

Examinar la relación entre las puntuaciones de medición y las medidas de criterio.

método específico

Ley relevante

Coeficiente de correlación entre puntuaciones de pruebas y medidas de criterio Relacionado con la diferencia de acumulación, relacionado con el grado

distinción

Retroceder prueba t

Los sujetos primero tomaron la prueba y se les permitió trabajar durante un período de tiempo, luego se dividieron en grupos de acuerdo con su desempeño laboral y luego se analizaron y compararon con los puntajes de las pruebas anteriores. Si la diferencia es significativa, tiene una alta validez. .

método de tasa de servicios públicos

Medición de costos y beneficios empresariales

Método de la tabla de expectativas

Haga un gráfico bidimensional utilizando la puntuación de predicción y la puntuación de criterio, divida cada variable en varios niveles según el nivel y luego dé un ejemplo del porcentaje de personas en cada nivel y vea el nivel de validez de criterio en la tabla.

método de tasa de aciertos

Interpretación de los puntajes y estándares de las pruebas

resultado de la prueba

Puntuación alta (éxito)

Puntuación baja (fracaso)

Estándar de eficacia

Alta energía (exitoso)

imbécil (fracaso)

resultado Queremos puntuaciones altas, pero no queremos puntuaciones bajas. Después de seleccionar una puntuación más alta, compruebe si el rendimiento coincide.

Puntajes altos y mucha energía = aceptación correcta (A)

Puntajes altos y habilidades bajas = aceptación incorrecta (B)

Explicación: Se contrató a una persona con puntajes altos, pero su capacidad de investigación científica era baja, por lo que hizo un informe falso.

Puntuación baja y habilidad alta = falso rechazo (C)

Explicación: Aquellos con puntuaciones altas tienen sólidas capacidades de investigación científica. Pero nos negamos, perdimos un talento, perdimos un informe.

Puntuación baja y poca energía = rechazo correcto (D)

Tasa de aciertos positivos

Lo que quieres = puntuación alta

A/（A B）

tasa de aciertos negativos

No quiero lo que no debería = obtener una puntuación baja

D/（C D）

tasa total de aciertos

Seleccionados correctamente/número total de personas

(A D)/(A B C D)

tasa básica

Mucha energía/número total de personas

(A C)/(A B C D)

Sensibilidad

Proporción de puntuaciones altas en alta energía

A/(aire acondicionado)

Confirmación

Proporción de puntuaciones bajas entre estudiantes con poca energía

D/（BD）

factores que afectan la validez

Características del propio rasgo psicológico que se mide

La investigación relevante no es lo suficientemente profunda

El concepto no está claramente definido.

La estructura de la herramienta de medición es inestable.

El proceso de construcción de herramientas de medición.

Definición de rasgos psicológicos.

Colección de preguntas de medición, prueba previa, análisis y selección de preguntas, análisis de calidad de la prueba, ajuste de preguntas, prueba formal

Estandarización para evitar sesgos sistemáticos

La fiabilidad de la propia herramienta de medición.

La confiabilidad es una condición necesaria para la validez. Las herramientas de medición son inestables y si la confiabilidad se ve afectada, no se puede garantizar la validez.

Grupo de materias para la verificación de validez

La misma herramienta de medición puede medir diferentes estructuras de rasgos psicológicos debido a diferentes características del objeto de medición.

Cuanto más heterogéneo sea el grupo de sujetos, más amplio será el rango de distribución de puntuaciones, mayor será la confiabilidad y mayor la validez.

Selección de objetivos efectivos.

Al verificar la capacidad predictiva de las herramientas de medición, la confiabilidad y validez del criterio en sí son muy críticas.

otros factores

Aspecto principal del examen

El incumplimiento de las instrucciones y los errores en la puntuación reducirán la validez.

Asignaturas

Estado físico y mental individual; homogeneidad del grupo, homogeneidad necesaria

Herramientas de medición

La muestra carece de representatividad del contenido y la estructura previstos.

Las instrucciones poco claras, la semántica de las preguntas poco clara, la dificultad demasiado alta o demasiado baja reducirán la validez y la duración de la prueba es adecuada.

Proceso de prueba

Interferencias inesperadas, factores ambientales y físicos.

formas de mejorar

Estandarización

Aspecto principal del examen

Implementar estrictamente el proceso de prueba y los evaluadores otorgarán puntuaciones estrictamente de acuerdo con los estándares.

Asignaturas

El muestreo es representativo y homogéneo, y se crea una situación de realización de pruebas estándar para permitir que los sujetos se desempeñen a su nivel normal.

Herramientas de medición

Prepare cuidadosamente las escalas de prueba para evitar grandes errores sistemáticos.

Proceso de prueba

Organice las pruebas adecuadamente y controle los errores aleatorios.

otros aspectos

Garantizar la fiabilidad de las pruebas

Elija el punto de referencia adecuado

Establecer medidas estándar de eficacia adecuadas

Uso correcto de fórmulas relevantes.

dificultad

definición

La dificultad se refiere al grado de dificultad del proyecto, generalmente expresado por la tasa de aprobación P

El análisis de dificultad se utiliza principalmente para las pruebas de comportamiento superiores, que se refieren a la proporción de personas de la población que pueden responder correctamente a un determinado ítem.

Prueba de comportamiento típico de tasa de respuesta

Métodos de cálculo y fórmulas.

método de tasa de puntuación

El promedio de todas las materias sobre este tema. La puntuación es el porcentaje de la puntuación total de la pregunta, la fórmula es:

El valor de Pi (0, 1) es adecuado para preguntas con puntuación 0, 1

Puntuación del método de agrupación extrema (0,1) Se pueden realizar tanto puntuación como no (0,1)

Los sujetos se dividieron en grupos altos y bajos según sus puntuaciones totales en las pruebas. La puntuación promedio de los dos grupos se utiliza como dificultad de la pregunta.

Cuando hay una gran cantidad de sujetos, se pueden dividir en tres grupos. El 27% más alto y el 27% más bajo se utilizan como grupo alto y grupo bajo. Finalmente, la tasa de puntuación promedio de los dos grupos se calcula como. la dificultad del artículo.

fórmula

P= (PH PL)/2= (RH/NH RL/NL)/2

PH y PL representan respectivamente la tasa de aprobación del grupo alto y del grupo bajo. RH y RL representan el número de respuestas correctas en los grupos alto y bajo respectivamente. NH y NL representan el número total de personas en los grupos alto y bajo respectivamente.

Hay pocas personas: P = R/N, R es el número de respuestas correctas y N es el número de todas las materias.

(0,1) puntuación

Fórmulas en proyectos de puntuación no dicotómicos.

Cuanto menor sea el valor P, mayor será la dificultad

Distribución razonable de la dificultad y su control.

El impacto de la distribución de la dificultad en las pruebas.

El impacto de la dificultad en la forma de distribución de las puntuaciones de las pruebas

La prueba es demasiado difícil y la distribución de la puntuación está sesgada positivamente.

Adecuado para pruebas de detección, como competiciones de inglés.

La prueba fue demasiado fácil y la distribución de la puntuación estaba sesgada negativamente.

Adecuado para pruebas estándar, como los exámenes de acceso a la escuela secundaria.

Dificultad moderada, la distribución de la puntuación es normal. (La muestra de sujetos es representativa)

Dificultad versus dispersión y confiabilidad de la puntuación de la prueba

La dificultad es demasiado difícil, las puntuaciones se concentran en el extremo inferior, el rango general es pequeño y la confiabilidad es baja.

La dificultad es demasiado fácil, las puntuaciones se concentran en el extremo superior, el rango general es pequeño y la confiabilidad es baja.

La dificultad se concentra mejor alrededor de 0,5. El rango de distribución de puntuaciones es amplio, todo el rango es grande y la confiabilidad es alta

El impacto de la dificultad en la discriminación de pruebas

El nivel de dificultad medio es 0,5, por lo que se pueden distinguir personas de todos los niveles.

La dificultad está en la cima de la cadena alimentaria.

P=0, difícil, discriminación D=0, rango completo estrecho, Sesgo positivo, rxx es pequeño, r²xy es pequeño

efecto suelo

P=1, fácil, discriminación D=0, rango completo estrecho, Sesgo negativo, rxx es pequeño, r²xy es pequeño

Efecto techo

P=0,5, media, discriminación D=1, rango completo, Distribución normal, rxx es grande, r²xy es grande

La determinación del nivel de dificultad depende de Propósito de la prueba/formato del ítem/naturaleza de la prueba Evite la máxima puntuación porque el significado de la máxima puntuación no está claro.

Para las pruebas basadas en normas, la dificultad razonable del ítem es aproximadamente 0,5 y el rango de distribución debe controlarse entre (0,3-0,7 es adecuado para estudiantes de alto nivel y 0,7 es adecuado para estudiantes de alto nivel (teóricamente, el). la dificultad de las preguntas del test debe controlarse en 0,5/-0,2 Mejor)

Pruebas basadas en criterios: no se requieren pruebas de dificultad, Porque se utiliza para comprobar si los sujetos han dominado

Para las pruebas selectivas, la dificultad se controla según la tasa de admisión, como los exámenes de ingreso de posgrado y los exámenes de ingreso públicos.

Dificultad de las preguntas de opción múltiple, dificultad > tasa de aciertos

La dificultad de la prueba de velocidad no debe ser demasiado alta y la dificultad de cada ítem debe ser básicamente igual.

Control de la distribución de dificultad razonable.

Controlar la dificultad de las preguntas.

Controlar la capacidad de memorizar puntos de conocimiento en evaluaciones de preguntas. Nivel para controlar la dificultad de las preguntas.

Controlar la distribución de dificultades de los exámenes

Bajo la premisa de controlar la dificultad de las preguntas, controlar la proporción de preguntas de diferente dificultad para lograr la distribución de dificultad requerida.

Corrección de conjeturas para preguntas de opción múltiple

El propósito de la corrección de conjeturas es eliminar la posibilidad de responder correctamente ciertas preguntas debido a las conjeturas, lo que aumentará la tasa de aprobación.

Corrección de la tasa de aprobación de todas las materias en un cierto número de ítems.

CP=KP-1/K-1

Tasa de aprobación después de la corrección CP, número de opciones K, tasa de aprobación P

Un sujeto realiza una prueba que consta de varios elementos. corrección de puntaje de prueba

S=R-(W/K-1)

S es la puntuación corregida, R son los ítems respondidos correctamente, W es el ítem con respuesta incorrecta

distinción

definición

La capacidad de la pregunta para distinguir diferencias en las características de los sujetos, representada por D

Clasificación

D>0, distinción positiva, la puntuación alta es energía alta, la puntuación baja es energía baja

D <0, distinción negativa, la puntuación alta es de baja energía, la puntuación baja es de alta energía

D=0, sin distinción, sin distinción

Método de cálculo

método del coeficiente de correlación

Idea básica

Si la pregunta tiene buena discriminación, la capacidad alta siempre obtendrá una puntuación alta y la capacidad baja siempre obtendrá una puntuación baja.

Supuestos básicos (relevantes para todas las preguntas)

La correlación entre la puntuación del ítem y la puntuación del criterio se utiliza como indicador de discriminación del ítem. Cuanto mayor es la correlación, mayor es la discriminación.

Dos métodos de cálculo

Correlación del punto dos columnas

(0,1) puntuación, adecuada para variables dicotómicas verdaderas, Preguntas de opción múltiple, preguntas de verdadero o falso

Correlación de dos columnas

(0,1) puntuación, aplicable a dos columnas de variables continuas, una columna se divide artificialmente en dos categorías

correlación de diferencia de producto

Aplicable a investigaciones relacionadas sobre puntuación donde la puntuación total de las preguntas no es dicotómica

Preguntas subjetivas

Método del índice de discriminación de artículos

D=PH-PL

método de varianza

Cuanto más dispersas sean las puntuaciones de los sujetos en un determinado ítem y cuanto mayor sea la varianza, mayor será el poder de discriminación de la pregunta de la prueba.

Indicador Ebel-Ibel

D>0,4

excelente

D=0,3-0,39

Bueno, será mejor después de la modificación.

D=0,2-0,29

Bien, necesita modificación.

D<0,19

Pobres, hay que eliminarlos.

Factores que afectan la discriminación

dificultad de la pregunta

Una pregunta demasiado difícil o demasiado difícil dará como resultado poca o incluso ninguna diferencia en las puntuaciones de los sujetos en la pregunta, es decir, el grado de discriminación es pequeño.

Homogeneidad del grupo de sujetos.

Cuanto más homogéneas sean las materias, más cercanos serán sus niveles y puntuaciones. Cuanto menor es la diferencia, menor es la discriminación

La consistencia de los rasgos psicológicos medidos por cada pregunta de la prueba.

Si son inconsistentes, la puntuación total de la prueba se utilizará como proxy para personas con capacidades altas o bajas. El supuesto no es válido y el grado de discriminación es bajo.

La redacción y la calidad del contenido de la pregunta en sí.

Las diferencias en la descripción de la pregunta, el significado poco claro de la pregunta y las respuestas incorrectas reducirán la distinción de la pregunta.

Mejorar la discriminación y estandarizar la evaluación de la discriminación

Controla la dificultad de las preguntas.

Asegurar que las características psicológicas medidas por las preguntas sean consistentes con Coherencia de los rasgos psicológicos en todas las pruebas = homogeneidad

El lenguaje de la pregunta es preciso y estandarizado, y no hay ambigüedad entre el planteamiento de la pregunta y la respuesta.

Modificar opciones deficientes utilizando la información proporcionada por el análisis de opciones.

Dificultad = (0,3-0,7)

Discriminación = índice de Ebel