Use LEFT and RIGHT arrow keys to navigate between flashcards;
Use UP and DOWN arrow keys to flip the card;
H to show hint;
A reads text to speech;
37 Cards in this Set
- Front
- Back
Vergleich KTT-IRT nach Embretson & Reise (2000): Die KTT gilt als theorielos (schwache theoretische Annahmen). Wie ist die IRT im Vergleich dazu aufgestellt? |
Sie modelliert den Zusammenhang zwischen beobachtetem Verhalten und latentem Konstrukt |
|
Vergleich KTT-IRT nach Embretson & Reise (2000): In der IRT kann die Angemessenheit des angewandten Modells überprüft werden. Wie steht es um die Prüfbarkeit bei der KTT? |
Die Axiome können nicht getestet werden. |
|
Vergleich KTT-IRT nach Embretson & Reise (2000): Bei der IRT liegt der Fokus auf den Items. Wo liegt er bei der KTT? |
auf dem Gesamtwert |
|
Vergleich KTT-IRT nach Embretson & Reise (2000): Bei der KTT sind die Parameter (Schwierigkeit, Trennschärfe, Reliabilität) stichprobenabhängig und nur bei repräsentativen Stichproben aussagekräftig. Wie ist dieser Umstand in der IRT gelagert? |
Die Parameter sind stärker stichprobenunabhängig. Es werden eher heterogene als repräsentative Stichproben verwendet. |
|
Vergleich KTT-IRT nach Embretson & Reise (2000): In der KTT ist der Standardmessfehler für alle Ausprägungen gleichermaßen gültig. Wie gilt er in der IRT? |
Der Standardmessfehler ist abhängig vom Personenparameter (=> Iteminformationsfunktion) |
|
Vergleich KTT-IRT nach Embretson & Reise (2000): in der IRT werden die Testwerte im Bezug auf die Items interpretiert. Wie verläuft die Interpretation in der KTT? |
Testwerte erhalten ihre Bedeutung durch den Vergleich mit der Normgruppe. |
|
Vergleich KTT-IRT nach Embretson & Reise (2000): Wie sind die Anwendungsvoraussetzungen für die IRT bzw. die KTT? |
KTT: Voraussetzungsfrei, leicht anwendbar
IRT: Voraussetzungen müssen geprüft werden, komplexe Statistiken. |
|
Welche Korrelationen sollten generell untersucht werden, will man die Vergleichbarkeit von KTT und IRT untersuchen? |
|
|
Welche Vergleiche sollten angestellt werden, will man die Stichprobenabhängigkeit der Itemparameterschätzungen zwischen IRT und KTT vergleichen? |
|
|
Was war die Datengrundlage für die KTT-IRT-Vergleichsstudie von Fan (1998)? |
N= 193240 Schüler der 11.Klasse an öffentlichen Schulen in Texas. Texas Assessment of Academic Skills TAAS:
|
|
Welche Stichproben kamen im Versuchplan von Fan (1998) vor? |
|
|
Welche Werte hat Fan (1998) im Bezug auf die Vergleichbarkeit von Personenkennwerten in den Testtheorien untersucht? |
Korrelationen des T-Wertes (KTT) mit dem Personenparameter ξ aus 1PL-, 2PL-, und 3PL-Modellen
[für jede Substichprobe einzeln, Mittelwerte präsentiert] |
|
Welche Werte hat Fan (1998) im Bezug auf die Vergleichbarkeit von Itemkennwerten in den Testtheorien untersucht? |
[für jede Substichprobe einzeln, Mittelwerte präsentiert] |
|
Welche Werte hat Fan (1998) im Bezug auf die Vergleichbarkeit von Stichprobenabhängigkeit bzw. -invarianz in den Testtheorien untersucht? |
Vergleich der Itemkennwerte von zwei Stichproben. (z.B. 2 Zufallsstichproben, oder männlich vs. weiblich, oder hoch vs. gering leistungsfähig) |
|
Wie sehen zusammenfassend die Ergebnisse von Fan (1998) zum Vergleich von KTT und IRT aus? |
|
|
Welche Kritik ist an der Datenauswertung von Fan (1998) zu äußern? |
|
|
Welche Quote gibt die Sensitivität eines Tests wieder? |
|
|
Welche Quote gibt die 1-Sensitivität eines Tests wieder? |
|
|
Welche Quote gibt die Spezifität eines Tests wieder? |
|
|
Welche Quote gibt die 1-Spezifität eines Tests wieder? |
|
|
Wie beeinflusst der Cut-off-Wert Sensitivität und Spezifität? |
|
|
Was gilt es bei der Festlegung eines Cut-off-Wertes besonders zu beachten? |
Die Kosten von FP- und FN-Entscheidungen:
|
|
Wo liegt in der Praxis meist der optimale Schwellenwert? |
dort, wo die Summer korrekt klassifizierter Fälle am größten ist. |
|
Was ist eine ROC-Analyse? Wie verläuft sie? |
Die ROC-Analyse (= Receiver-Operator-Characteristics-Analyse), dient der Suche des optimalen Schwellenwertes Verlauf:
|
|
Die bei einer ROC-Analyse entstehende Kurve kann unterschiedlich verlaufen. Wie ist der Verlauf zu interpretieren? |
|
|
Was ist der Youden-Index? Wie wird er berechnet? |
|
|
Wann sollte z.B. ein niedrigerer Schwellenwert angesetzt werden, als das Optimum in der ROC-Analyse? |
Wenn die Konsequenzen einer FN-Diagnose (Verpasser) schwerwiegender sind, als die von FP-Diagnosen (falscher Alarm; z.B. bei Suizidgefahr) |
|
Welches Maß zur diagnostischen Akkuratheit des Testverfahrens ist unmittelbar auf die ROC-Kurve zurückzuführen? |
AUC - Area Under Curve:
|
|
Welche inhaltliche Bedeutung hat die AUC? |
Die AUC entspricht der Wahrscheinlichkeit, dass man eine psychisch auffällige Person korrekt identifiziert, wenn man sie zufällig (und blind) aus einer der beiden Gruppen entnimmt. |
|
Welche Interpretationsregeln existieren bezüglich des AUC-Kennwertes? |
diverse, mögliche Daumen-Regel (Fischer et al. 2003):
Perfekter Test: AUC=1 Nutzloser Test: AUC= .5 |
|
Es existieren neben der ROC-Analyse noch zwei expertenbasierte Verfahren zur Ermittlung des optimalen Schwellenwertes. Wie heißen sie? |
|
|
Was ist das Ziel der Angoff-Methode? |
Definition der Minimal Acceptable Person (MAP): Leistung der Person ist grenzwertig aber noch akzeptabel. Schätzung der Wahrscheinlichkeit mit der eine MAP eine Aufgabe richtig löst. Alternativ: Wie viele von 100 MAPs lösen eine Aufgabe richtig? [Ratewahrscheinlichkeit bei MC-Fragen beachten!]
|
|
Wie verläuft die Schwellenwertbestimmung mit der Angoff-Methode? |
Iterativer Prozess:
|
|
Was spricht laut Hoffmann et al. (2010) für und was gegen die Angoff-Methode? |
PRO:
CONTRA:
|
|
Was ist die Grundlage für die Bookmark-Methode zur Bestimmung des Schwellenwertes? |
Ordered Item Booklet (OIB):
|
|
Wie wird bei der Cut-Score-Ermittlung in der Bookmark-Methode en detail vorgegangen? |
|
|
Welche Punkte sprechen für, welche gegen die Bookmark-Methode? |
PRO:
CONTRA:
[generell sollten entsprechend der Fragestellung und der Zielgruppe mehrere verschiedene Cut-off-Bestimmungsverfahren genutzt werden] |