Mindmap-Galerie Psychometrie
Chinesische Akademie der Wissenschaften: Psychologischer Berater – Psychometrie, einschließlich grundlegender Konzepte, klassischer Testtheorien, Qualitätsindikatoren für psychologische Tests usw.
Bearbeitet um 2024-01-31 16:23:53Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Psychometrie
Basiskonzept
Psychologische Messung und ihre grundlegenden Eigenschaften
Definition: Der Prozess der Verwendung von Tests zur quantitativen Beschreibung der psychologischen Merkmale von Menschen auf der Grundlage bestimmter psychologischer Theorien.
Psychologische Tests (Tools) sind im Wesentlichen Tests von Verhaltensmustern Objektivität und standardisierte Messung, einschließlich 4 Elemente
Verhaltensstichprobe: Verhaltensbereich, d. h. die Population der Verhaltensweisen, die extrahiert werden können
Standardisierung: Testinhalte, Testdurchführungsbedingungen (situative Anweisungen, Dauer usw.), Bewertungsregeln, Testnormen (Bereitstellung eines Referenzpunkts für den Vergleich)
Schwierigkeit oder Antwortrate
Glaubwürdigkeit (Zuverlässigkeit, Konsistenz) Gültigkeit (Wirksamkeit, Genauigkeit)
mehrere wichtige Personen
Galton-Quantitative Forschung; Pionierarbeit bei der Untersuchung individueller Unterschiede usw. Die erste Person bei psychologischen Tests
Cattell-Thesis „Psychologisches Testen und Messen“ Der Begriff „psychologische Tests“ wurde erstmals vorgeschlagen
Thorndike – „Einführung in die psychologische und soziale Messung“ Das erste Buch zur Testtheorie
Grundfunktionen
Universalität der Anwendung (Möglichkeit: messbar, messbar)
Indirektheit (externe Verhaltensleistung, etwa das Beantworten von Fragen)
Psychologische Wirkung – Objektivität (standardisierte Fragen, objektive Ergebnisse)
Fehler sind universell (alle Messungen basieren auf Fehlern)
Relativität (Ergebnis, Position ist relativ, z. B.: IQ)
Grundelemente
Anhaltspunkt
Absoluter Bezugspunkt: Absoluter Nullpunkt, z. B.: Gewicht, Größe, Reaktionszeit
Relativer Bezugspunkt: künstlich ermittelter Nullpunkt, zB: Höhe, Temperatur
Einheit
Gleicher Wert, z. B.: 1~2m&2~3m äquivalenter Wert
Isometrisch: Der numerische Wert ist derselbe und die tatsächliche Bedeutung ist ebenfalls dieselbe.
Ungleiche Intervalle: Die Werte sind gleich, aber die tatsächliche Bedeutung ist unterschiedlich. zB: Dozent-außerordentlicher Professor-ordentlicher Professor
Festgelegte Bedeutung, zB: Einheit m, kg
Skalentyp
Die Quantifizierung von Dingen nach einer bestimmten Regel, also das Ausdrücken der Eigenschaften von Dingen auf einem Kontinuum bestimmter Einheiten und Bezugspunkte, wird als Skala bezeichnet.
Namensskala
Definition – Verwendung von Zahlen zur Darstellung der Bestandteile von Dingen oder zur Klassifizierung von Zahlen
Keine entsprechende Einheit
Kein Nullpunkt
kann nicht berechnet werden
zB: Geschlechtseinstufung, Nennung der Matrikelnummer
Statistische Methoden: Häufigkeit, Modus, Prozentsatz, X2-Test
Ordinalskala (Bewertungsskala)
Definition – Zahlen repräsentieren nicht nur Kategorien, sondern weisen auch darauf hin Verschiedene Kategoriengrößen und -ebenen, Sortierung und Sortierung
Keine entsprechende Einheit
Kein Nullpunkt
kann nicht berechnet werden
zB: Klassifizierung und Sortierung von Noten, Bewertung von Berufsbezeichnungen
Statistische Methoden: Median, Perzentil, Rangkorrelation, Kendall-Harmoniekoeffizient
isometrische Skala
Definition – kann nicht nur Kategorien und Grade von Dingen darstellen, sondern auch gleiche Entfernungen und Maßeinheiten, Klassifizierung und Ordnung;
haben gleiche Einheiten
relativer Nullpunkt
Kann - Arithmetik
zB: Thermometer, Höhenmessung, Bruchmessung
Statistische Methoden: Mittelwert, Standardabweichung, Produktdifferenz-Korrelationskoeffizient, Rangkorrelation, t-Test, f-Test
Verhältnisskala (gleiche Verhältnisskala)
Definition – Die vollständigste Skala mit Ausnahme benannter Ebenen usw. Abstand und der absolute Nullpunkt; Klassifizierung, Sortierung, - x ÷
haben gleiche Einheiten
Absoluter Nullpunkt
Can - x ÷ Betrieb
zB: Höhenmessung, Gewichtsskala, Nebenreaktionszeit
Statistische Methoden: Isometrischer geometrischer mittlerer Variationskoeffizient
Quiztyp
Einteilung nach gemessenen psychologischen Merkmalen
Eignungsprüfung
Bester Verhaltenstest
Intelligenztest
Binet-Simon, die weltweit erste Intelligenzskala, 1905; Dong Zhongshu zeichnet mit einer Hand ein Quadrat und mit der anderen einen Kreis (achten Sie auf den Test) Konfuzius: Unterschiede in der Anzahl der einzelnen Schüler;
Der Eignungstest umfasst: allgemeine Fähigkeiten und besondere Fähigkeiten
Fangen Sie die Woche an, singen Sie, tanzen Sie, zeichnen Sie SAT, DAT
Leistungstest
zB: Diverse Prüfungen
Ergänzung: Kreativitätsquiz
Tangram und Neun Glieder aus der Qing-Dynastie (Labyrinth im chinesischen Stil)
Ergänzung: Bildungstests
Sklaverei in der westlichen Zhou-Dynastie – Chinesische Studien – Frühester Bildungstest
Han-Dynastie – Jährliches Prüfungssystem – die erste schriftliche Prüfung
Kaiser Yang der Sui-Dynastie – das kaiserliche Prüfungssystem – bestand mehr als 1.300 Jahre
Persönlichkeitstest
typischer Verhaltenstest
Persönlichkeitstest zur Selbsteinschätzung
Multiple-Choice-Fragen – MMPI, 16PF, EPQ, EPPS, YG-Persönlichkeitstest
Persönlichkeitsprojektiver Test
Rorschach Inkblot Test (der erste projektive Test), Thematic Apperception Test (TAT), House Tree Man Test, Sandbox
Mehrere wichtige Zahlen und Ergänzungen
Kraepelin – der erste, der den freien Assoziationstest zur Diagnose von Geisteskranken einsetzte Pionier des Persönlichkeitstests
Woodworth – Woodworth-Profilfragebogen Der erste moderne Persönlichkeitsfragebogen
Die Konfuzius-Persönlichkeit ist in 3 Kategorien unterteilt und die Persönlichkeit von Liu Shao ist in 12 Kategorien unterteilt. Gehört zum Persönlichkeitstest
Klassifiziert nach dem Referenzstandard, den die Probanden bei der Bewertung verwendeten
Normbezogenes Testen (im Vergleich zu einer Personengruppe)
Ein Test, der die Gruppe als Referenzhintergrund verwendet und die relative Position des Individuums in der Gruppe verwendet, um den Entwicklungsstand des Individuums zu bewerten. Er stellt die relative Position einer Person auf dem Kontinuum der Fähigkeiten oder des Wissens in der Gruppe dar, wie z. B. Intelligenztests. Fähigkeitstests und Wiederholungsprüfungen für postgraduale Aufnahmeprüfungen;
Kriterienbezogenes Testen (im Vergleich zu einem Standard)
Es handelt sich um einen Test, der Einzelpersonen anhand von Testinhalten oder bestimmten Verhaltensstandards bewertet. Es handelt sich um einen Test, der individuelle Entwicklungsniveaus danach bewertet, ob das individuelle Niveau einen bestimmten festgelegten Standard auf dem Gebiet erreicht bestimmter Standard und wird nicht mit den Ergebnissen anderer Leute verglichen, wie z. B. der Vorprüfung für die postgraduale Aufnahmeprüfung, der Prüfung des Führerscheins oder der psychologischen Beratungsprüfung;
Eingeteilt nach Standardisierungsgrad
Standardisierte Tests – 4-Punkte-Anforderungen
Standardisierung des Testvorbereitungsprozesses
Standardisierung der Testimplementierung
Standardisierung der Testbewertung
Standardisierung der Interpretation von Testergebnissen
nicht standardisierte Tests
Klassifizierung nach tatsächlichen Messmethoden
Computergestütztes Testen (CBT)
Computergestütztes adaptives Testen (CAT)
Internetbasiertes Testen (IBI)
Andere Kategorien
Je nach Messmethode
Einzeltests, zB: Stanford-Binet-Skala, Wechsler-Intelligenzskala und andere Intelligenzskalen, Rorschach-Tintenklecks, thematischer Apperzeptionstest; ausgewählte Einzeltests für spezielle Gruppen
Gruppentests, z. B. Raven-Test zum logischen Denken, Selbstberichts-Persönlichkeitstest; selektiver Gruppentest im Hinblick auf hohe Effizienz und Wirtschaftlichkeit
Nach Ausdrucksinhalt und Reaktionsform
Verbaler (Papier und Bleistift) Test – Stanford-Binet-Skala/16PF
Nonverbaler (operativer) Test Raven's Reasoning Test/Rorschach Inkblot Test
Laut Testfunktion
Leistungs- und Vorhersagetests
Schwierigkeits- und Geschwindigkeitstests
Schwierigkeitstest – Schwierigkeitsgrad – Tauchen
Geschwindigkeitstest – hohe und stabile Ergebnisse; Viele Fragen – Reaktionszeittest/100-Meter-Lauf
Beschreibende und diagnostische Tests
Je nach Fragetyp
Subjektiver Test – kurze Antwort/Aufsatz/Aufsatz
Objektiver Fragetest – Single-Choice/Urteil
Bewerten Sie nach Bedarf
Bester Verhaltenstest – Antworten Sie so gut wie möglich und haben Sie die richtige Antwort wie z.B. Fähigkeitstest
Typischer Verhaltenstest – basierend auf Antwortgewohnheiten, keine richtige Antwort z.B. Persönlichkeitstest
klassische Testtheorie
psychometrischer Fehler
Bedeutung
Ein ungenauer und inkonsistenter Messeffekt, der durch sich ändernde Faktoren verursacht wird, die während des Messvorgangs nichts mit dem Zweck der Messung zu tun haben
Typ
Zufälliger Fehler – ein Fehler, der durch zufällige Faktoren verursacht wird, die nichts mit dem Zweck der Messung zu tun haben; die Ergebnisse mehrerer Messungen sind inkonsistent, wenn ein Test/Paralleltest wiederholt wird; mehrfach ist nur der Mittelwert 0 Normalverteilung; inkonsistente und ungenaue Leistung bei den Messergebnissen.
Systematischer Fehler – ein konstanter und regelmäßiger Effekt, der durch Variablen verursacht wird, die nichts mit dem Zweck der Messung zu tun haben; bei jeder Messung sind die Messergebnisse konsistent und ungenau;
Quelle
Messinstrument (systematischer Fehler) – ein Reiz-Reaktionssystem (oft als Skala bezeichnet), das auf einer Reihe von Tests (Fragebögen) basiert.
Unsachgemäße Auswahl von Fragen
Das Fragenformat ist unangemessen
Der Schwierigkeitsgrad ist zu hoch oder zu niedrig
Falsche Formulierung in der Anleitung
Messobjekt (zufälliger Fehler – individuelle Unterschiede) – ob das wahre Niveau des Subjekts normal ausgeübt wird
Emotionen, Motivationen, Reaktionstendenzen usw.
Testprozess (am einfachsten zu kontrollieren und zu testen) – zufällige Faktoren: physische Umgebung, Zeit, unerwartete Störungen usw.
Kontrolle
Standardisierung
Messobjekt
Auf der Seite des Probanden war der physiologische und psychologische Zustand des Probanden während der Messung stabil
Beim Haupttest achtet der Haupttester auf den standardisierten Betrieb des Systems
Messgeräte
Verbessern Sie den wissenschaftlichen Charakter der Prüfungsvorbereitung
Achten Sie auf den Reichtum und die Universalität der gesammelten Informationen
Achten Sie auf die Repräsentativität der Projektbemusterung
Die Projektschwierigkeit hat einen bestimmten Verteilungsbereich
Die Testbegriffe sind einfach und klar
Testprozess
Gleiche Testsituation
gleiche Anleitung
Gleiches Testzeitlimit
Die Bewertung muss objektiv sein und die Interpretation der Testergebnisse sollte standardisiert sein
Klassisches testtheoretisches Modell
CTT
mathematisches Modell X (beobachteter Wert) = T (wahrer Wert) E (zufälliger Fehler)
Hypothesenschluss
Wenn das psychologische Merkmal einer Person mit parallelen Tests wiederholt und oft genug gemessen werden kann, wird der Durchschnitt der beobachteten Werte nahe am wahren Wert liegen. Das heißt: E(X)=T oder E(E)=0
Angenommen, E ist eine Zufallsvariable, die einer Normalverteilung folgt
Die Korrelation zwischen True- und Error-Scores ist Null. Das heißt: ρ (T, E) = 0
Die Hypothese ist, dass E ein zufälliger Fehler ist und nicht im systematischen Fehler enthalten ist.
Die Korrelation zwischen den Fehlerwerten der Paralleltests ist Null. Das heißt: ρ (E1, E2) = 0
Die Hypothese ist, dass E ein zufälliger Fehler ist und nicht im systematischen Fehler enthalten ist.
Varianzbeziehung
Sx²=St² Se²
St²=Sv² Si²
Variation im Zusammenhang mit der experimentellen V-Test-Behandlung Ich teste irrelevante Variationen – systematische Fehler Der systematische Fehler ist im wahren Bruch enthalten
Sx²= Sv² Si² Se²
Qualitätsindikatoren für psychologische Tests
Zuverlässigkeit
Definition
wörtliche Definition
Unter Zuverlässigkeit versteht man den Grad der Konsistenz und Stabilität der Messergebnisse, d. h. den Grad der Zuverlässigkeit der Testergebnisse, wenn sich die Testergebnisse mit der Zeit, dem Ort und anderen Faktoren ändern.
Ordnen Sie Ihre Notizen: Zuverlässigkeit bezieht sich auf die Konsistenz der Ergebnisse, die durch wiederholte Verwendung desselben Messinstruments oder eines gleichwertigen Instruments zur Messung eines bestimmten psychologischen Merkmals bei derselben Person zu unterschiedlichen Zeiten und bei unterschiedlichen Gelegenheiten erzielt werden.
Drei äquivalente Formeldefinitionen
Zuverlässigkeitskoeffizient: das Verhältnis der wahren Score-Variation zur tatsächlichen Score-Variation einer Reihe gemessener Scores (einer Probandengruppe) (theoretische Definition)
rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx²
Die Zuverlässigkeit ist das Quadrat des Korrelationskoeffizienten zwischen der wahren Punktzahl und der tatsächlichen Punktzahl einer Gruppe von Probanden (theoretische Definition).
rxx=p² (xt)
Zuverlässigkeit ist der Korrelationskoeffizient zwischen einem Test x und seinem parallelen Test x‘ (Arbeitsdefinition)
rxx=p(x,x’)
Wirkung
Die Zuverlässigkeit spiegelt die Größe des Zufallsfehlers im Messprozess wider
rxx= St²/Sx² = (Sx²-Se²)/Sx²= 1-Se²/Sx²
Je kleiner Se ist, desto größer ist die Zuverlässigkeit; je größer Se ist, desto geringer ist die Zuverlässigkeit.
Die Zuverlässigkeit spiegelt nicht die Größe des systematischen Fehlers im Messprozess wider
Mithilfe der Zuverlässigkeit lässt sich die Bedeutung einzelner Testergebnisse erklären
Die Differenz zwischen den Ergebnissen der beiden Tests kann eine neue Verteilung bilden. Die Standardabweichung dieser Verteilung ist ein objektiver Indikator für die Fehlergröße in der Messung Geben Sie der Person in der Gruppe durch den Standardfehler entsprechende Erklärungen Das heißt, die Intervallschätzung der wahren Punktzahl
SE=Sx√(1-rxx)
Die Prüfung gibt normalerweise zuerst rxx und Sx an. Fragen Sie nach SE und dann nach T.
X-Z*SE ≤T ≤X Z*SE
Zuverlässigkeit hilft beim Vergleich der Ergebnisse verschiedener Tests
Rohwerte aus verschiedenen Tests können nicht direkt verglichen werden. Sie müssen in Standardwerte umgewandelt und dann verglichen werden. Die spezifische Methode besteht darin, den „Standardfehler der Differenz“ zur Durchführung eines Signifikanztests zu verwenden. Differenztest der beobachteten Ergebnisse x
SEd=S√(2-rxx-ryy)
t=(x1-x2)/SEd
Klassifizierung von Schätzmethoden
Test-Retest-Zuverlässigkeit
Re-Vertrauensmaß/Stabilitätskoeffizient Bezieht sich auf den Grad der Konsistenz der Ergebnisse, die erzielt werden, wenn dieselbe Skala zweimal an derselben Probandengruppe angewendet wird.
1 Test, 1 Probandengruppe, 2 Tests Zum Beispiel: Persönlichkeitstest, Geschwindigkeitstest
Fehlerquelle: Zeit zB: Wachstum, Reife, Lernen, Training, zufällige Faktoren wie Glück)
Rechenmethode: Pearson-Produktdifferenzkorrelation
Nutzungsbedingungen
Die mit dem Messinstrument gemessenen individuellen psychologischen Merkmale sollten über die Zeit relativ stabil sein.
Es sollte keinen offensichtlichen Übungseffekt oder Vergessenseffekt auf die psychologischen Merkmale von Personen geben, die mit dem Messinstrument gemessen werden.
Zwischen den beiden Durchführungen des Tests sollten keine besonderen Schulungen oder Schulungen durchgeführt werden
Bei der Meldung der Test-Retest-Zuverlässigkeit sollte die Länge des Intervalls angegeben werden
Replizieren Sie die Zuverlässigkeit
Zwei parallele Tests (Replikattests) messen die Konsistenz der Ergebnisse, die von derselben Probandengruppe erzielt wurden
Die beiden Replikattests werden kontinuierlich und gleichzeitig durchgeführt, was als Äquivalenzkoeffizient bezeichnet wird.
2 Tests, 1 Probandengruppe, 1 Test
Fehlerquelle: Inhalt der Frage
Zwei doppelte Tests werden für einen Zeitraum getrennt durchgeführt, der Stabilitäts- und Äquivalenzkoeffizient genannt wird (ein strenger Zuverlässigkeitstest).
2 Tests, 1 Probandengruppe, 2 Tests
Fehlerquelle: Inhalt und Zeitpunkt der Frage
Anwendbar: Wird im Allgemeinen in der Forschungs- und Entwicklungsphase von Waagen verwendet Leistungs-/Leistungstests können nicht durchgeführt werden, da die Probanden nur einen Satz Testpapiere und nicht zwei Sätze gleichzeitig absolvieren können.
Berechnungsmethode: Pearson-Produktdifferenzkorrelation
Nutzungsbedingungen
Sie müssen in der Lage sein, zwei oder mehr wirklich parallele Tests zu konstruieren, d.
Die Durchführung von zwei parallelen Tests an derselben Gruppe von Probanden erfordert angemessene Zeitvorkehrungen, um eine Beeinträchtigung durch den Übungseffekt, den Ermüdungseffekt und den Transfereffekt zu vermeiden.
Erläutern Sie im Testbericht ausführlich den zeitlichen Abstand zwischen den beiden Tests, die Reihenfolge der Tests und das Testerlebnis der Probanden während des Tests (Standardisierung).
interne Konsistenzzuverlässigkeit
Definition – Bewerten Sie, ob die zufälligen Komponenten des Tests dieselben psychologischen Merkmale messen und die Konsistenz des Stichprobeninhalts der Fragen widerspiegeln
Split-Half-Zuverlässigkeit
Teilen Sie alle Fragen in einem Test nach dem Zufallsprinzip in zwei Hälften auf und schätzen Sie dann die Konsistenz der Ergebnisse der Probanden in den beiden Teilen ein (nachdem die Probanden den vollständigen Satz abgeschlossen haben, werden die Daten in zwei Hälften geteilt).
1 Test, 1 Probandengruppe, 1 Test Leistungstest
Berechnungsmethode: Verwenden Sie zuerst die Pearson-Produktdifferenzkorrelationsberechnung und verwenden Sie dann die Spearman-Brown-Formel, um Folgendes zu überprüfen: rxx=2*rhh/(1 rhh); =2*0,5/(1 0,5)=2/3
Nutzungsbedingungen
Normalerweise kann der Test nur einmal durchgeführt oder ohne Kopie verwendet werden, und der Mittelwert und die Varianz der Ergebnisse der Probanden bei den beiden Halbtests müssen gleich sein. Andernfalls verwenden Sie die Flanagan-Formel oder die Lullen-Formel
Der Test kann nicht in Halbzeiten geteilt und nicht verwendet werden.
Je länger die Bewertungsdauer ist, desto stabiler sind die Ergebnisse und desto höher ist die Zuverlässigkeit des Tests.
Fehlerquelle: Inhaltliche Fragen müssen in derselben Hälfte platziert werden. Wenn die Korrelation hoch ist, ist die Aufteilung des Inhalts in zwei Hälften sinnvoll?
Homogenitätszuverlässigkeit
Interner Konsistenzkoeffizient, der Grad der Konsistenz zwischen allen Fragen im Test
1 Test, 1 Probandengruppe, 1 Test Leistungstest
Kuder-Richardson-Zuverlässigkeit
K-R20
Gilt nur für (0, 1) Produkt = Bewertung, Multiple-Choice-Fragen, Beurteilungsfragen
Fehlerquelle: Homogenität des Frageinhalts sowie der psychologischen und verhaltensbezogenen Merkmale
K-R21
Nur (0, 1) Produkt = Bewertung ist anwendbar, und die Schwierigkeit aller Fragen muss nahe beieinander liegen, da für die Berechnung die durchschnittliche Erfolgsquote, Single-Choice-Fragen und Beurteilungsfragen verwendet werden
Fehlerquelle: Homogenität des Frageinhalts sowie der psychologischen und verhaltensbezogenen Merkmale
Cronbachs Alpha-Koeffizient
Anwendbar (0, 1, subjektive Fragen – Fragen mit kurzen Antworten, Aufsatzfragen usw.)
Fehlerquelle: Homogenität des Frageinhalts sowie der psychologischen und verhaltensbezogenen Merkmale
Nutzungsbedingungen – erfordert, dass der Test einmal an einer Gruppe von Probanden getestet wird. Dies ist eine allgemeinere Methode zur Schätzung der internen Konsistenzzuverlässigkeit des Tests
Interne Konsistenzzuverlässigkeitsbedingungen für die Verwendung
Alle Fragen messen das gleiche Merkmal
Es besteht eine hohe positive Korrelation zwischen den Bewertungen aller Fragen
Gilt nicht für Geschwindigkeitstests
Bei der Bewertung der Testzuverlässigkeit können Sie sich nicht ausschließlich auf den internen Konsistenzkoeffizienten verlassen, sondern eine Kombination mehrerer Zuverlässigkeiten verwenden.
Zuverlässigkeit zwischen Bewertern
Mehrere Bewerter gaben Antworten auf dieselbe Gruppe von Probanden Grad der Konstanz bei der Bewertung
Fehlerquelle: Bewerter selbst
Rechenmethode
2 Bewerter – Pearson-Produktdifferenzkorrelation/Spearman-Rangkorrelation
3 Bewerter – Kendall-Harmoniekoeffizient
Mehr als 7 Bewerter – Chi-Quadrat-Test x2=k(N-1), df=N-1
Anwendbar: subjektive Fragenbewertung, z. B. Komposition Tests, die nicht vollständig objektiv bewertet werden können, Zum Beispiel Kreativitätstests, projektive Tests
Einfluss auf Testzuverlässigkeit und Kontrollmethoden (Verbesserungsmethoden)
Faktoren, die die Zuverlässigkeit beeinflussen
Subjektfaktoren
Einzelne Probanden: körperliche Gesundheit, Testmotivation, Aufmerksamkeit, Geduld, Angst, Siegeswille, Antworteinstellung usw. wirken sich auf die Stabilität der psychologischen Eigenschaften des Probanden aus.
Themengruppe: Gruppenheterogenität und Durchschnittsniveau wirken sich auf die Zuverlässigkeit aus, die hauptsächlich durch Berechnung des Korrelationskoeffizienten geschätzt wird. Wenn die Anzahl der Gruppenniveaus sehr unterschiedlich (heterogen) ist, wird der Zuverlässigkeitswert überschätzt und die Homogenität wird den Zuverlässigkeitswert unterschätzen .
Heterogen, volle Bereichsbreite, diskrete Verteilung, Rxx-Höhe
Homogen, schmale Spannweite, konzentrierte Verteilung, niedriger Rxx
Verbesserung der Standardisierung: Wählen Sie geeignete Probandengruppen aus, um die Zuverlässigkeit des Tests in Gruppen mit starker Homogenität zu verbessern
Haupttestfaktoren
Testteilnehmer: Der Eindruck/Druck/Hinweis, der auf die Testperson durch Alter, Geschlecht, Aussehen, Sprache und Verhalten, Mimik usw. ausgeübt wird, einschließlich der Nichtbefolgung der Testanweisungen, der Kontrolle des Testprozesses usw., wirkt sich auf die Punktzahl aus Verteilung der Probanden auf verschiedene Testszenarien.
Bewerter: Die Bewertung ist nicht objektiv und bei der Berechnung der Bewertung ist ein Fehler aufgetreten.
Verbesserung der Standardisierung: Der Hauptprüfer setzt die Testdurchführungsverfahren strikt um, und die Bewerter müssen die Standards strikt befolgen, um die Anweisungen zu standardisieren, die Testzeit zu kontrollieren und die Testfragen zu ordnen, die erforderlichen Schulungen für die Bewerter bereitzustellen und die Punkte streng zu kontrollieren Bewertungsfehler und stellen sicher, dass die Bewertungsstandards und die Konsistenz der Bewertungsergebnisse eingehalten werden
Messwerkzeuge – Ob die Messwerkzeuge stabil sind, ist der Schlüssel zum Erfolg oder Misserfolg der Messung
Testfragenstichprobe: Je größer die Anzahl der Fragen, desto höher die Zuverlässigkeit
Der Schwierigkeitsgrad der Testfragen kann die Unterschiede zwischen einzelnen Personen nicht messen. Der mittlere Schwierigkeitsgrad ist am besten geeignet und kann die Zuverlässigkeit des Tests verbessern.
Homogenität zwischen den Testfragen. Je höher die Homogenität, desto höher die Zuverlässigkeit.
Verbesserung der Standardisierung: Testskalen sorgfältig zusammenstellen, Vermeiden Sie große systematische Fehler
Erhöhen Sie die Länge des Tests angemessen, erhöhen Sie die Anzahl entsprechend und vermeiden Sie, dass er zu lang (zu lang) wird, um Übungseffekte und Ermüdungseffekte bei den Probanden zu vermeiden.
Der Schwierigkeitsgrad der neuen Fragen ist moderat und wird auf mittlerem Niveau kontrolliert, sodass der Schwierigkeitsgrad aller Fragen nahe an der Normalverteilung liegt und die Punkteverteilung eine große Bandbreite aufweist.
Verbessern Sie die Unterscheidung von Fragen, damit die Punkteverteilung der Fächer einen größeren Bereich aufweist
Die neuen Fragen haben denselben Inhalt wie der ursprüngliche Test
Testprozess
Test Umgebung
Temperatur, Licht, Schall und Raumgröße beeinflussen den psychologischen Zustand der Probanden bei der Beantwortung, wodurch die Testergebnisse instabil werden und die Zuverlässigkeit beeinträchtigt wird.
Unerwartete Unterbrechungen: Stromausfall, Krankheit, Papierfehler
Verbesserung der Standardisierung: Der Teststandort ist gemäß den Anforderungen des Testhandbuchs angeordnet, um Störungen durch irrelevante Faktoren wie die Kontrolle von Lärm, Temperatur und anderen Faktoren, die die Psychologie der Probanden beeinflussen können, zu reduzieren.
Testintervall
Wenn das Testintervall kurz ist, kann es zu Übungseffekten und Ermüdungseffekten kommen. Wenn es zu lang ist, können sich die Verhaltensmerkmale der Probandengruppe hinsichtlich der Testwiederholungszuverlässigkeit, der Stabilität und der Äquivalenzkoeffizienten erheblich ändern Je größer das Intervall, desto höher ist der Grad der Zuverlässigkeit.
Fehlerquellen kontrollieren, standardisieren
Methoden zur Kontrolle zufälliger Fehler und zur Verbesserung der Zuverlässigkeit – eine kurze Zusammenfassung
Standardisieren Sie alle oben genannten Einflussfaktoren Weitere Informationen finden Sie oben unter „Verbesserungen der Standardisierung“.
Erhöhen Sie die Anzahl der Testelemente entsprechend
Faktorenanalyse (Homogenität) und Diskriminanzanalyse (Diskriminierbarkeit) Erweitern Sie den gesamten Abstand
Schwierigkeitsgrad des Kontrolltestgegenstands – angemessen
Wählen Sie eine geeignete Themengruppe aus – repräsentativ
Schwächenkorrektur – Kontrollfehler
Gültigkeit
Definition
wörtliche Definition
Die Wirkung und der Grad, in dem ein Test oder eine Skala (Testinstrument) tatsächlich die psychologischen Merkmale oder Verhaltensmerkmale messen kann, die er messen soll – Gültigkeit, Genauigkeit, Nützlichkeit
Formeldefinition
In einer Reihe von Testergebnissen stellt das Verhältnis der wahren Variation Sv² bezogen auf die wahre Bewertung zur Gesamtvariation Sx², r²xy oder V die Gültigkeit dar, rxy ist der Gültigkeitskoeffizient, r²xy= Sv²/Sx²
Wirkung
Die Gültigkeit ist eine umfassende Widerspiegelung des Zufallsfehlers E und des systematischen Fehlers I der Messung.
Gültigkeit ist ein relatives Konzept. Für einen bestimmten Messzweck kann die Messung nur einen bestimmten Grad an Genauigkeit erreichen.
Wenn das Testergebnis eine lineare Beziehung zum Kriteriumsergebnis hat, kann das Wissen der linearen Regression verwendet werden, um das Kriteriumsergebnis anhand des Testergebnisses vorherzusagen.
Die Beziehung zwischen Gültigkeit und Zuverlässigkeit
Eine hohe Messzuverlässigkeit ist eine notwendige, aber keine hinreichende Bedingung für eine hohe Validität
Erklären Sie mit Formeln X beobachteter Wert = T (wahrer Wert) E (zufälliger Fehler) =V (experimentelle Verarbeitung) I (Systemfehler) E Sx²= Sv² Si² Se²
rxx= St²/Sx²= (Sv² SI²)/Sx²
V=r²xy= Sv²/Sx²
rxx> r²xy(V)
rxx= St²/Sx²= (Sx²-Se²)/Sx²=1-Se²/Sx² Zuverlässigkeit wird durch den Zufallsfehler E verursacht
Die Gültigkeit wird durch den Zufallsfehler E und den systematischen Fehler I verursacht
Hohe Validität bedeutet hohe Zuverlässigkeit; hohe Zuverlässigkeit bedeutet nicht unbedingt hohe Validität
Gültigkeitstyp
Inhaltsgültigkeit
Definition
Bezieht sich auf den Grad der Übereinstimmung zwischen den tatsächlich durch einen Test gemessenen Inhalten und den zu messenden Inhalten (z. B. 347 Postgraduierten-Aufnahmeprüfung vs. Prüfungslehrplan)
Merkmale
Der Inhalt des Messverhaltens ist klar und die Probenahme repräsentativ
Angemessenes Gewicht
Nutzungsbedingungen
Der Bereich muss so eingestellt werden, dass alle Testobjekte in diesen Bereich fallen
Die Sachversicherungsposten sind repräsentative Auszüge des fremdbestimmten Inhaltsumfangs.
Anwendbar
Tests zu bestimmten Attributen, Wie Leistungstests, Karrieretests (Auswahl & Einstufung)
Nicht geeignet für Eignungstests und Persönlichkeitstests (Zusammenfassung)
Bestimmungsmethode
Logische Analysemethode (Expertenbewertungsmethode)
Klarer Spielraum
Bereiten Sie ein Zwei-Wege-Aufschlüsselungsblatt vor
zB: OK: Anforderungen an Kandidaten Spalte: Prüfungsinhalte der Kandidaten
Entwickeln Sie eine Bewertungsskala
Gängige Methoden
Bach-Cron-Methode (Alpha-Koeffizienten-Methode)
Finden Sie die Korrelation zwischen zwei parallelen Sätzen von Testergebnissen, die denselben Inhalt messen (Replikationszuverlässigkeit).
Test-Retest-Methode
Sie wird auch als Test-Retest-Methode bezeichnet und bezieht sich auf die Durchführung desselben Tests vor und nach dem Erlernen bestimmter Kenntnisse. Wenn der Nachtest besser ist als der Vortest, weist er eine höhere inhaltliche Gültigkeit auf.
empirische Methode
Verschiedene Probandengruppen unterschieden sich in ihren Testergebnissen und in ihren Antworten auf die einzelnen Fragen
Beispiel: Es wird allgemein angenommen, dass höhere Noten eine höhere Kompetenz aufweisen als niedrigere Noten. Wenn die Gesamtpunktzahl mit steigender Note steigt, bedeutet dies, dass eine inhaltliche Gültigkeit vorliegt.
Die Beziehung zwischen Inhaltsvalidität und Gesichtsvalidität
Definition der Gesichtsvalidität
Oberflächlich betrachtet scheint der Laientest einer bestimmten Person ein Phänomen zur Messung bestimmter psychologischer Merkmale zu sein.
Der Gesichtsgültigkeit wirkt sich auf die Motivation der Probanden aus und sie sollte indirekt auch auf die Gültigkeit des Tests achten
Leistungstests erfordern eine hohe Oberflächenvalidität, damit die Probanden eine starke Motivation haben, andernfalls werden die Probanden misstrauisch sein; Persönlichkeitstests erfordern eine niedrige Oberflächenvalidität, andernfalls werden die Probanden betrügen.
Konstruktvalidität Konstruktvalidität
Definition
Es bezieht sich auf das Ausmaß, in dem ein Test tatsächlich die zu messenden theoretischen Strukturen und Merkmale misst. Es bezieht sich auf den Grad, in dem die Testergebnisse eine bestimmte Struktur oder Merkmale der psychologischen Theorie erklären können Experiment und Theorie. Es basiert auf der Theorie
Merkmale
Die Größe der Konstruktvalidität hängt von der vorausgesetzten Theorie psychologischer Merkmale ab.
Wenn die empirischen Daten die Theorie nicht bestätigen können, bedeutet das nicht unbedingt, dass die Konstruktvalidität nicht hoch ist, sondern es kann sein, dass die theoretischen Annahmen nicht gültig sind.
Die strukturelle Gültigkeit wird durch die Anhäufung der Auswahl von Messinhalten bestimmt, d. h. für ein Konstrukt können mehrere Hypothesen vorhanden sein, sodass es unmöglich ist, einen einzigen quantitativen Index für die Konstruktgültigkeit zu haben.
Anwendbar
Abstraktes Konzept-Quiz Wie Intelligenztests, Persönlichkeitstests, Selbstwirksamkeitstests
Allgemeine Schritte
Stellen Sie theoretische Hypothesen auf
Ableitung von Hypothesen über Testergebnisse – basierend auf einem theoretischen Rahmen
Verwenden Sie logische und empirische Methoden, um Hypothesen zu testen
spezifische Methode
Finden Sie Beweise im Quiz
Inhaltsgültigkeit
Homogenitätszuverlässigkeit
Untersuchen Sie die Gültigkeit des Inhalts und analysieren Sie die Der Prozess der Beantwortung von Fragen und der Berechnung der Homogenitätszuverlässigkeit
Suche nach Beweisen zwischen den Tests
kompatible Validitätsmethode
Finden Sie die Korrelation zwischen dem neu zusammengestellten Test und einem alten Test, der bekanntermaßen bei der Messung kompatibler Merkmale wirksam ist. Wenn die Korrelation hoch ist, ist die Inhaltsvalidität hoch – die Korrelation zwischen dem alten und dem neuen Test
Diskriminanzvalidität
Finden Sie die Korrelation zwischen dem neu zusammengestellten Test und einem alten Test, der bekanntermaßen bei der Messung verschiedener Merkmale wirksam ist. Wenn die Korrelation hoch ist, ist die Inhaltsvalidität nicht hoch.
Der Grad der Korrelation zwischen mehreren Tests
empirische Validitätsmethode
Teilen Sie die Personen entsprechend den Wirksamkeitskriterien in zwei Kategorien ein und untersuchen Sie den Unterschied in den Werten. Teilen Sie die Personen entsprechend den Werten in hohe und niedrige Gruppen ein und untersuchen Sie die Unterschiede in den Wirksamkeitskriterien. Wenn der Unterschied signifikant ist, ist die Konstruktvalidität hoch - Untersuchen Sie den Verhaltensstatus.
Matrixmethode mit mehreren Merkmalen und mehreren Methoden
Umfassende Anwendung von kompatibler Validität und Diskriminanzvalidität – MTMM
Methode der konvergenten Gültigkeit und der homogenen Differenz
Verschiedene Tests messen dasselbe Merkmal Je höher der Korrelationskoeffizient, desto höher ist die kompatible Validität.
Zum Beispiel: Verwendung von Selbstberichten und Projektionen zur Messung der Introversion der Persönlichkeit
Diskriminanzvalidität – gleiche Methode, aber nicht homogen
Ähnlichkeitstests messen unterschiedliche Merkmale Wenn der Korrelationskoeffizient niedrig ist, ist die Diskriminanzvalidität hoch.
Beispiel: Verwenden Sie eine Selbstberichtsskala, um die Extraversion und das Verantwortungsbewusstsein des Probanden zu messen
Ergänzung: Der Ähnlichkeitstest misst ähnliche Merkmale Je höher der Korrelationskoeffizient, desto höher die Zuverlässigkeit.
Faktorenanalyse
Fassen Sie große Mengen an Beobachtungsdaten mit einer kleinen Anzahl von Faktoren zusammen
CFA-Bestätigungsfaktoranalyse Bestätigungsfaktorenanalyse
Kennen Sie mehrere Dimensionen, testen Sie sie und erhalten Sie die Ergebnisse Überprüfen Sie, ob diese Maße korrekt sind
EFA-explorative Faktorenanalyse Erforschungsfaktoranalyse
Kennen Sie nicht ein paar Dimensionen im Voraus, lassen Sie uns sie erkunden
Empirische Validität (kriterienbezogene Validität) Kriteriumverknüpfungseffekt
Definition
Ein Testpaar befindet sich in einer bestimmten Situation Die Wirksamkeit der Einschätzung des individuellen Verhaltens
Praktische Ergebnisse als Testmaßstab nehmen
Beispiel: Auswahl der Postgraduiertenprüfung, der Test ist eine Prüfung und das Kriterium ist die Fähigkeit zur wissenschaftlichen Forschung. Wenn die Fähigkeit zur wissenschaftlichen Forschung hoch ist, bedeutet dies, dass das Kriterium der Effizienz hoch ist.
Wirksamkeitsstandard
Das Validitätskriterium bezieht sich auf das zu schätzende Verhalten, das den Standard zum Testen der Validität und den externen Standard zum Messen der Validität eines Tests darstellt.
Wirksamkeitsstandardverschmutzung
Beeinflusst durch die Kenntnis des Testergebnisses des Probanden um seinen effektiven Score zu bewerten
Auswahlkriterium
Korrelation
Der Wirksamkeitsstandard bezieht sich auf die aktuell zu bewertende Sache
Wirksamkeit
Es besteht ein hohes Maß an Übereinstimmung zwischen dem Kriterium und dem Merkmal, das es darstellt.
Keine Verschmutzung
Das Kriteriumsmaß basiert nicht auf der zu bewertenden Messung
Objektivität
Da der Wirksamkeitsstandard auf der Grundlage subjektiver Erfahrungen bewertet wird, Vermeiden Sie also subjektive Vorurteile
Praktikabilität
Unter der Prämisse, die Wirksamkeit sicherzustellen, Machen Sie es so einfach, zeitsparend und bedienbar wie möglich
Merkmale
Unabhängig vorhandene, objektiv zusammenhängende Verhaltensmerkmale
Häufig verwendete Standards
Akademische Leistungen, Bewertungen, klinische Diagnose, Ergebnisse der Fachausbildung, praktische Arbeitsleistung, Fähigkeit zur Gruppendifferenzierung und andere leicht verfügbare und gültige Tests
Anwendbar
Vorhersage von Ergebnissen, beispielsweise der Personalauswahl
Kategorien empirischer Gültigkeit
gleichzeitige Gültigkeit
Kriteriendaten und Testergebnisse werden gleichzeitig erfasst
Diagnosestatus
prognostische Validität
Machen Sie zuerst den Test und bestimmen Sie dann die Wirksamkeitskriterien basierend auf den Testergebnissen
Spekulieren Sie über die Zukunft
Bestimmungsmethode
Klare Konzeptstandards
Bestimmen Sie die Standardmessung der Wirksamkeit
Untersuchen Sie die Beziehung zwischen Messergebnissen und Kriteriumsmaßen
spezifische Methode
Relevantes Recht
Korrelationskoeffizient zwischen Testergebnissen und Kriteriumsmaßen Akkumulationsdifferenzbezogen, Notenbezogen
Unterscheidung
Zurückverfolgen T-Test
Die Probanden absolvierten zunächst den Test und durften eine Zeit lang arbeiten. Anschließend wurden sie entsprechend ihrer Arbeitsleistung in Gruppen eingeteilt und anschließend analysiert und mit den vorherigen Testergebnissen verglichen. Wenn der Unterschied signifikant ist, hat er eine hohe Validität .
Utility-Tarif-Methode
Kosten- und Nutzenmessung für Unternehmen
Erwartungstabellenmethode
Erstellen Sie ein zweidimensionales Diagramm unter Verwendung der Vorhersagebewertung und der Kriteriumsbewertung, unterteilen Sie jede Variable entsprechend der Ebene in mehrere Ebenen, geben Sie dann ein Beispiel für den Prozentsatz der Personen auf jeder Ebene und sehen Sie sich die Gültigkeitsebene des Kriteriums anhand der Tabelle an
Trefferquote-Methode
Interpretation von Testergebnissen und Standards
Prüfungsergebnis
Highscore (Erfolg)
Niedrige Punktzahl (Misserfolg)
Wirksamkeitsstandard
Hohe Energie (erfolgreich)
Idiot (Versagen)
Ergebnis Wir wollen hohe Werte, aber keine niedrigen Werte. Überprüfen Sie nach Auswahl einer höheren Punktzahl, ob die Leistung übereinstimmt.
Hohe Punktzahlen und hohe Energie = korrekte Akzeptanz (A)
Hohe Punktzahlen und niedrige Fähigkeiten = falsche Akzeptanz (B)
Erläuterung: Eine Person mit hohen Punktzahlen wurde eingestellt, aber ihre wissenschaftlichen Forschungsfähigkeiten waren gering, sodass sie einen falschen Bericht erstellte.
Niedrige Punktzahl und hohe Fähigkeit = falsche Ablehnung (C)
Erläuterung: Diejenigen mit hohen Punktzahlen verfügen über starke wissenschaftliche Forschungsfähigkeiten. Aber wir haben uns geweigert, ein Talent verpasst, einen Bericht verpasst
Niedrige Punktzahl und niedrige Energie = korrekte Ablehnung (D)
Positive Trefferquote
Was Sie wollen = Highscore
A/(A B)
negative Trefferquote
Nicht wollen, was Sie nicht sollten = eine niedrige Punktzahl erhalten
D/(C D)
Gesamttrefferquote
Richtig ausgewählte/Gesamtzahl der Personen
(A D)/(A B C D)
Basisgebühr
Hohe Energie/Gesamtzahl der Personen
(A C)/(A B C D)
Empfindlichkeit
Anteil der Highscores im Bereich High Energy
A/(AC)
Bestätigung
Anteil schlechter Noten bei energiearmen Schülern
D/(B D)
Faktoren, die die Gültigkeit beeinflussen
Merkmale des zu messenden psychologischen Merkmals selbst
Die entsprechende Forschung ist nicht tiefgreifend genug
Der Begriff ist nicht klar definiert
Die Struktur des Messwerkzeugs ist instabil
Der Prozess der Erstellung von Messinstrumenten
Definition psychologischer Merkmale
Sammlung von Messfragen, Vortest, Fragenanalyse und -überprüfung, Testqualitätsanalyse, Fragenanpassung, formaler Test
Standardisierung zur Vermeidung systematischer Verzerrungen
Die Zuverlässigkeit des Messgeräts selbst
Zuverlässigkeit ist eine notwendige Voraussetzung für die Gültigkeit. Messinstrumente sind instabil und wenn die Zuverlässigkeit beeinträchtigt ist, kann die Gültigkeit nicht garantiert werden.
Themengruppe zur Gültigkeitsüberprüfung
Das gleiche Messinstrument kann aufgrund unterschiedlicher Eigenschaften des Messobjekts unterschiedliche psychologische Merkmalsstrukturen messen.
Je heterogener die Probandengruppe, desto breiter die Punkteverteilung, desto höher die Reliabilität und desto höher die Validität.
Auswahl wirksamer Ziele
Bei der Überprüfung der Vorhersagefähigkeit von Messinstrumenten sind die Zuverlässigkeit und Validität des Kriteriums selbst von entscheidender Bedeutung.
andere Faktoren
Hauptprüfungsaspekt
Die Nichtbeachtung der Anweisungen und Fehler bei der Bewertung beeinträchtigen die Gültigkeit.
Fächer
Individueller körperlicher und geistiger Zustand; Homogenität der Gruppe, notwendige Homogenität
Messgeräte
Der Stichprobe mangelt es an Repräsentativität des vorhergesagten Inhalts und der Struktur
Unklare Anweisungen, unklare Fragesemantik, zu hoher oder zu niedriger Schwierigkeitsgrad verringern die Gültigkeit und die Testlänge ist angemessen.
Testprozess
Unerwartete Störungen, Umwelteinflüsse und physikalische Faktoren
Möglichkeiten zur Verbesserung
Standardisierung
Hauptprüfungsaspekt
Führen Sie den Testverwaltungsprozess strikt durch, und die Bewerter geben die Ergebnisse streng nach den Standards ab
Fächer
Die Stichprobe ist repräsentativ und homogen, und es wird eine Standardsituation für die Testdurchführung geschaffen, damit die Probanden ihre normalen Leistungen erbringen können.
Messgeräte
Bereiten Sie Testskalen sorgfältig vor, um große systematische Fehler zu vermeiden
Testprozess
Organisieren Sie Tests richtig und kontrollieren Sie zufällige Fehler
andere Aspekte
Stellen Sie die Testzuverlässigkeit sicher
Wählen Sie den richtigen Benchmark
Legen Sie geeignete Standardmaße für die Wirksamkeit fest
Korrekte Verwendung relevanter Formeln
Schwierigkeit
Definition
Der Schwierigkeitsgrad bezieht sich auf den Schwierigkeitsgrad des Projekts, der im Allgemeinen durch die Erfolgsquote P ausgedrückt wird
Die Schwierigkeitsanalyse wird vor allem bei Top-Verhaltenstests eingesetzt und bezieht sich auf den Anteil der Personen in der Bevölkerung, die eine bestimmte Frage richtig beantworten können.
Antwortrate-typischer Verhaltenstest
Berechnungsmethoden und Formeln
Scoring-Rate-Methode
Der Durchschnitt aller Fächer zu diesem Thema Die Punktzahl ist der Prozentsatz der Gesamtpunktzahl der Frage. Die Formel lautet:
Der Wert von Pi (0, 1) eignet sich für Fragen mit einer Bewertung von 0, 1
Bewertung der extremen Gruppierungsmethode (0,1). Sowohl Scoring als auch Non-(0,1) können durchgeführt werden
Die Probanden wurden entsprechend ihrer Gesamttestergebnisse in hohe und niedrige Gruppen eingeteilt. Als Schwierigkeitsgrad der Frage wird die durchschnittliche Punktequote der beiden Gruppen herangezogen.
Wenn es eine große Anzahl von Probanden gibt, können diese in drei Gruppen eingeteilt werden. Die höchsten 27 % und die niedrigsten 27 % werden als die höchste Gruppe und die niedrigste Gruppe verwendet. Schließlich wird die durchschnittliche Punktzahl der beiden Gruppen berechnet die Schwierigkeit des Gegenstandes.
Formel
P= (PH PL)/2= (RH/NH RL/NL)/2
PH und PL stellen jeweils die Erfolgsquote der hohen und niedrigen Gruppe dar. RH und RL stellen die Anzahl der richtigen Antworten in den hohen bzw. niedrigen Gruppen dar. NH und NL repräsentieren die Gesamtzahl der Personen in hohen bzw. niedrigen Gruppen.
Es gibt nur wenige Personen – P = R/N, R ist die Anzahl der richtigen Antworten und N ist die Anzahl aller Probanden
(0,1) Punktzahl
Formeln in nichtdichotomen Bewertungsprojekten
Je kleiner der P-Wert ist, desto größer ist die Schwierigkeit
Angemessene Schwierigkeitsverteilung und deren Kontrolle
Der Einfluss der Schwierigkeitsverteilung auf Tests
Der Einfluss des Schwierigkeitsgrads auf die Verteilungsform der Testergebnisse
Der Test ist zu schwierig und die Punkteverteilung ist positiv verzerrt
Geeignet für Screening-Tests, z. B. Englischwettbewerbe
Der Test war zu einfach und die Punkteverteilung war negativ verzerrt
Geeignet für Konformitätstests, z. B. Aufnahmeprüfungen für weiterführende Schulen
Mittlerer Schwierigkeitsgrad, Punkteverteilung ist Normalverteilung (Die Stichprobe der Probanden ist repräsentativ)
Schwierigkeit versus Streuung und Zuverlässigkeit der Testergebnisse
Der Schwierigkeitsgrad ist zu hoch, die Ergebnisse konzentrieren sich auf das untere Ende, die Gesamtspanne ist gering und die Zuverlässigkeit ist gering
Der Schwierigkeitsgrad ist zu einfach, die Ergebnisse konzentrieren sich auf das obere Ende, die Gesamtspanne ist klein und die Zuverlässigkeit gering
Der Schwierigkeitsgrad liegt am besten bei etwa 0,5. Der Bereich der Punkteverteilung ist groß, der Gesamtbereich ist groß und die Zuverlässigkeit ist hoch
Der Einfluss von Schwierigkeiten auf die Testdiskriminierung
Der durchschnittliche Schwierigkeitsgrad liegt bei 0,5, sodass Personen aller Schwierigkeitsgrade unterschieden werden können.
Die Schwierigkeit liegt an der Spitze der Nahrungskette
P=0, schwierig, Unterscheidung D=0, gesamter Bereich eng, Positive Vorspannung, rxx ist klein, r²xy ist klein
Bodeneffekt
P=1, einfach, Diskriminierung D=0, gesamter Bereich eng, Negative Vorspannung, rxx ist klein, r²xy ist klein
Ceiling-Effekt
P=0,5, mittel, Diskriminierung D=1, gesamter Bereich, Normalverteilung, rxx ist groß, r²xy ist groß
Die Bestimmung des Schwierigkeitsgrades hängt davon ab Zweck des Tests/Aufgabenformat/Art des Tests Vermeiden Sie die volle Punktzahl, da die Bedeutung der vollständigen Punktzahl unklar ist
Bei normbezogenen Tests liegt der angemessene Schwierigkeitsgrad bei etwa 0,5, und der Verteilungsbereich sollte zwischen 0,3 und 0,7 liegen Der Schwierigkeitsgrad der Fragen im Test sollte bei 0,5/-0,2 (besser) liegen.
Kriterienbezogene Tests – keine Schwierigkeitstests erforderlich, Denn damit wird geprüft, ob die Probanden alles beherrschen
Bei selektiven Prüfungen wird der Schwierigkeitsgrad anhand der Zulassungsquote gesteuert, beispielsweise bei postgradualen Aufnahmeprüfungen und öffentlichen Aufnahmeprüfungen.
Schwierigkeitsgrad der Multiple-Choice-Fragen, Schwierigkeit > Raterate
Der Schwierigkeitsgrad des Geschwindigkeitstests sollte nicht zu hoch sein und der Schwierigkeitsgrad jedes Items sollte grundsätzlich gleich sein.
Kontrolle einer angemessenen Schwierigkeitsverteilung
Den Schwierigkeitsgrad von Fragen kontrollieren
Kontrollieren Sie die Fähigkeit, sich Wissenspunkte in Fragenbewertungen zu merken Level, um den Schwierigkeitsgrad der Fragen zu kontrollieren
Kontrolle der Schwierigkeitsverteilung von Testarbeiten
Unter der Prämisse, den Schwierigkeitsgrad der Fragen zu kontrollieren, kontrollieren Sie den Anteil der Fragen mit unterschiedlichem Schwierigkeitsgrad, um die erforderliche Schwierigkeitsverteilung zu erreichen
Ratekorrektur für Multiple-Choice-Fragen
Der Zweck der Tippkorrektur besteht darin, die Möglichkeit auszuschließen, bestimmte Fragen aufgrund von Raten richtig zu beantworten, wodurch die Erfolgsquote erhöht wird.
Korrektur der Erfolgsquote aller Fächer bei einer bestimmten Anzahl von Aufgaben
CP=KP-1/K-1
Erfolgsquote nach CP-Korrektur, Anzahl der K-Optionen, P-Erfolgsquote
Eine Testperson legt einen Test ab, der aus mehreren Items besteht Korrektur der Testergebnisse
S=R-(W/K-1)
S ist die korrigierte Punktzahl, R sind die richtig beantworteten Items, W ist das Item mit der falschen Antwort
Unterscheidung
Definition
Die Fähigkeit der Frage, Unterschiede in den Merkmalen von Probanden zu unterscheiden, dargestellt durch D
Einstufung
D>0, positive Unterscheidung, hohe Punktzahl bedeutet hohe Energie, niedrige Punktzahl bedeutet niedrige Energie
D<0, negative Unterscheidung, hohe Punktzahl bedeutet niedrige Energie, niedrige Punktzahl bedeutet hohe Energie
D=0, keine Unterscheidung, keine Unterscheidung
Rechenmethode
Korrelationskoeffizientenmethode
Die Grundidee
Wenn die Frage eine gute Unterscheidungsfähigkeit aufweist, erhalten hohe Fähigkeiten immer eine hohe Punktzahl und niedrige Fähigkeiten immer eine niedrige Punktzahl.
Grundannahmen (relevant für alle Fragen)
Die Korrelation zwischen dem Item-Score und dem Kriteriums-Score wird als Indikator für die Item-Diskriminierung verwendet. Je größer die Korrelation, desto größer die Diskriminierung.
Zwei Berechnungsmethoden
Punkt-Zwei-Spalten-Korrelation
(0,1)-Score, geeignet für echte dichotome Variablen, Multiple-Choice-Fragen, wahre oder falsche Fragen
Zweispaltige Korrelation
(0,1) Bewertung, anwendbar auf zwei Spalten kontinuierlicher Variablen, eine Spalte wird künstlich in zwei Kategorien unterteilt
Produkt-Differenz-Korrelation
Gilt für verwandte Forschungsarbeiten zur Bewertung, bei denen die Gesamtpunktzahl der Fragen nicht dichotom ist
Subjektive Fragen
Methode des Artikeldiskriminierungsindex
D=PH-PL
Varianzmethode
Je unterschiedlicher die Ergebnisse der Probanden zu einem bestimmten Item waren und je größer die Varianz, desto größer war die Unterscheidungskraft der Testfrage.
Ebel-Ibel-Indikator
D>0,4
exzellent
D=0,3-0,39
Gut, wird nach der Änderung besser sein
D=0,2-0,29
OK, muss geändert werden
D<0,19
Schlecht, muss beseitigt werden
Faktoren, die die Diskriminierung beeinflussen
Schwierigkeitsgrad der Frage
Eine zu schwierige oder zu schwierige Frage führt zu einem geringen oder gar keinem Unterschied in der Punktzahl der Probanden bei der Frage, d. h. der Grad der Diskriminierung ist gering.
Homogenität der Fächergruppe
Je homogener die Probanden sind, desto ähnlicher werden ihre Niveaus und Punktzahlen sein. Je kleiner der Unterschied, desto geringer ist die Diskriminierung
Die Konsistenz der psychologischen Merkmale, die bei jeder Testfrage gemessen werden
Wenn sie inkonsistent sind, wird die Gesamtpunktzahl des Tests als Ersatz für Personen mit hohen oder niedrigen Fähigkeiten verwendet. Die Annahme ist ungültig und der Grad der Diskriminierung ist gering.
Der Wortlaut und die inhaltliche Qualität der Frage selbst
Unterschiede in der Beschreibung der Frage, unklare Bedeutung der Frage und falsche Antworten verringern die Einzigartigkeit der Frage
Verbesserung der Diskriminierung – Standardisierung der Diskriminierungsbewertung
Kontrollieren Sie den Schwierigkeitsgrad der Fragen
Stellen Sie sicher, dass die durch die Fragen gemessenen psychologischen Merkmale übereinstimmen Konsistenz psychologischer Merkmale über alle Tests hinweg = Homogenität
Die Sprache der Frage ist korrekt und standardisiert, und es gibt keine Unklarheiten zwischen dem Fragestamm und der Antwort.
Ändern Sie schlechte Optionen mithilfe der Informationen aus der Optionsanalyse
Schwierigkeit = (0,3-0,7)
Diskriminierung=Ebel-Index