• Shuffle
    Toggle On
    Toggle Off
  • Alphabetize
    Toggle On
    Toggle Off
  • Front First
    Toggle On
    Toggle Off
  • Both Sides
    Toggle On
    Toggle Off
  • Read
    Toggle On
    Toggle Off
Reading...
Front

Card Range To Study

through

image

Play button

image

Play button

image

Progress

1/37

Click to flip

Use LEFT and RIGHT arrow keys to navigate between flashcards;

Use UP and DOWN arrow keys to flip the card;

H to show hint;

A reads text to speech;

37 Cards in this Set

  • Front
  • Back

Vergleich KTT-IRT nach Embretson & Reise (2000): Die KTT gilt als theorielos (schwache theoretische Annahmen). Wie ist die IRT im Vergleich dazu aufgestellt?

Sie modelliert den Zusammenhang zwischen beobachtetem Verhalten und latentem Konstrukt

Vergleich KTT-IRT nach Embretson & Reise (2000): In der IRT kann die Angemessenheit des angewandten Modells überprüft werden. Wie steht es um die Prüfbarkeit bei der KTT?

Die Axiome können nicht getestet werden.

Vergleich KTT-IRT nach Embretson & Reise (2000): Bei der IRT liegt der Fokus auf den Items. Wo liegt er bei der KTT?

auf dem Gesamtwert

Vergleich KTT-IRT nach Embretson & Reise (2000): Bei der KTT sind die Parameter (Schwierigkeit, Trennschärfe, Reliabilität) stichprobenabhängig und nur bei repräsentativen Stichproben aussagekräftig. Wie ist dieser Umstand in der IRT gelagert?

Die Parameter sind stärker stichprobenunabhängig. Es werden eher heterogene als repräsentative Stichproben verwendet.

Vergleich KTT-IRT nach Embretson & Reise (2000): In der KTT ist der Standardmessfehler für alle Ausprägungen gleichermaßen gültig. Wie gilt er in der IRT?

Der Standardmessfehler ist abhängig vom Personenparameter (=> Iteminformationsfunktion)

Vergleich KTT-IRT nach Embretson & Reise (2000): in der IRT werden die Testwerte im Bezug auf die Items interpretiert. Wie verläuft die Interpretation in der KTT?

Testwerte erhalten ihre Bedeutung durch den Vergleich mit der Normgruppe.

Vergleich KTT-IRT nach Embretson & Reise (2000): Wie sind die Anwendungsvoraussetzungen für die IRT bzw. die KTT?

KTT: Voraussetzungsfrei, leicht anwendbar



IRT: Voraussetzungen müssen geprüft werden, komplexe Statistiken.

Welche Korrelationen sollten generell untersucht werden, will man die Vergleichbarkeit von KTT und IRT untersuchen?

  • Korrelationen zwischen den Schätzungen der individuellen Ausprägungen im zu messenden Merkmal (Personenkennwerte)
  • Korrelationen zwischen den Schätzungen der Item-Schwierigkeiten
  • Korrelationen zwischen den Schätzungen der Itemdiskriminationsparameter/Trennschärfen.

Welche Vergleiche sollten angestellt werden, will man die Stichprobenabhängigkeit der Itemparameterschätzungen zwischen IRT und KTT vergleichen?

  • Vergleich der Itemschwierigkeit aus verschiedenen Samples
  • Vergleich der Itemdiskriminationsparameter/ Trennschärfen aus verschiedenen Samples.

Was war die Datengrundlage für die KTT-IRT-Vergleichsstudie von Fan (1998)?

N= 193240 Schüler der 11.Klasse an öffentlichen Schulen in Texas.


Texas Assessment of Academic Skills TAAS:


  • 48 Items zur Erfassung von Lesekompetenz
  • 60 Items zur Erfassung von Mathekompetenz
  • Inhalte basieren auf dem Lehrplan
  • Multiple-Choice-Antwortformat
  • Dichotomes Scoring 0= falsch, 1= richtig.

Welche Stichproben kamen im Versuchplan von Fan (1998) vor?

  • Zufallsstichproben
  • Geschlechtergruppen
  • Leistungsgruppen

Welche Werte hat Fan (1998) im Bezug auf die Vergleichbarkeit von Personenkennwerten in den Testtheorien untersucht?

Korrelationen des T-Wertes (KTT) mit dem Personenparameter ξ aus 1PL-, 2PL-, und 3PL-Modellen



[für jede Substichprobe einzeln, Mittelwerte präsentiert]

Welche Werte hat Fan (1998) im Bezug auf die Vergleichbarkeit von Itemkennwerten in den Testtheorien untersucht?

  • Korrelation der Itemschwierigkeiten auss KTT (P) und IRT (σi) aus 1PL-, 2PL- und 3PL-Modellen
  • Korrelation zwischen Trennschärfen (Korrigierte Item-Totalkorrelation) und Itemdiskriminationsparametern λi in 2PL- und 3PL-Modellen.


[für jede Substichprobe einzeln, Mittelwerte präsentiert]

Welche Werte hat Fan (1998) im Bezug auf die Vergleichbarkeit von Stichprobenabhängigkeit bzw. -invarianz in den Testtheorien untersucht?

Vergleich der Itemkennwerte von zwei Stichproben. (z.B. 2 Zufallsstichproben, oder männlich vs. weiblich, oder hoch vs. gering leistungsfähig)

Wie sehen zusammenfassend die Ergebnisse von Fan (1998) zum Vergleich von KTT und IRT aus?

  • Personenkennwerte deutlich vergleichbar
  • Itemschwierigkeiten sind vergleichbar.
  • Trennschärfen und Itemdiskriminationsparameter weniger gut vergleichbar, Korrelationen aber hoch bis moderat.
  • Invarianz der Itemschwierigkeiten über verschiedene Stichproben hinweg bei beiden sehr hoch
  • Invarianz der Trennschärfen und Itemdiskriminationsparameter über verschiedene Stichproben hinweg in geringem Ausmaß gegeben (v.a. bei je stärker sich die Vergleichsstichproben unterscheiden) und vergleichbar.

Welche Kritik ist an der Datenauswertung von Fan (1998) zu äußern?

  • Deckeneffekte könnten zu Verzerrungen geführt haben.
  • Itempool eher klein und wenig heterogen.

Welche Quote gibt die Sensitivität eines Tests wieder?

  • = Trefferquote: RP/(FN+RP)
  • Anteil der richtig klassifizierten Fälle an der Gesamtzahl tatsächlich positiver Fälle

Welche Quote gibt die 1-Sensitivität eines Tests wieder?

  • = Verpasserquote: FN/(FN+RP)
  • Anteil fälschlicherweise negativ klassifizierter Fälle an der Gesamtzahl tatsächlich positiver Fälle.

Welche Quote gibt die Spezifität eines Tests wieder?

  • = Quote korrekter Ablehnungen: RN/(RN+FP)
  • Anzahl richtigerweise negativ klassifizierter Fälle an der Gesamtzahl tatsächlich negativer Fälle.

Welche Quote gibt die 1-Spezifität eines Tests wieder?

  • = Quote falscher Alarme: FP/(FP+RN)
  • Anzahl fälschlicherweise positiv klassifizierter Fälle an der Gesamtzahl tatsächlich negativer Fälle.

Wie beeinflusst der Cut-off-Wert Sensitivität und Spezifität?

  • Der Schwellenwert beeinflusst das Ausmaß der Sensitivität und Spezifität.
  • Verschiebt man ihn über die Verteilung der interessierenden Stichproben-Subgruppen (z.B. gesund/krank), verkleinert sich die Spezifität während die Sensitivität steigt, oder umgekehrt.

Was gilt es bei der Festlegung eines Cut-off-Wertes besonders zu beachten?

Die Kosten von FP- und FN-Entscheidungen:


  • FP: Psychische Belastung, Kosten unnötiger psychischer Behandlungen
  • FN: Gefahr nicht erfolgter oder zu spät begonnener Behandlung bei zu spät erkannter Erkrankung
  • idealerweise optimales Gleichgewicht zwischen Sensitivität und Spezifität

Wo liegt in der Praxis meist der optimale Schwellenwert?

dort, wo die Summer korrekt klassifizierter Fälle am größten ist.

Was ist eine ROC-Analyse? Wie verläuft sie?

Die ROC-Analyse (= Receiver-Operator-Characteristics-Analyse), dient der Suche des optimalen Schwellenwertes


Verlauf:


  1. Für jeden potenziellen Schwellenwert werden Sensitivität und Spezifität berechnet
  2. Betrachtung der zueinander gehörenden Werte für Sensitivität und 1-Spezifität. Ergibt die ROC-Kurve

Die bei einer ROC-Analyse entstehende Kurve kann unterschiedlich verlaufen. Wie ist der Verlauf zu interpretieren?

  • Wenn ein Test nicht gut zwischen den beiden Gruppen trennt, dann verläuft die ROC-Kurve nahe der Hauptdiagonalen. Sensitivität und 1-Spezifität für alle Schwellenwerte ähnlich.
  • Ein Kurvenverlauf oberhalb der Hauptdiagonalen zeigt folglich, dass Probanden, die das Kriterium erfüllen, höhere Testwerte aufweisen, als Probanden, die das Kriterium nicht erfüllen.
  • Optimaler Schwellenwert liegt dort, wo das Lot der Kurve den maximalen Abstand von der Hauptdiagonalen zeigt. Dort ist die Summe von Sensitivität und Spezifität am höchsten.

Was ist der Youden-Index? Wie wird er berechnet?

  • YI= Sensitivität-Spezifität-1
  • Dient der rechnerischen Identifizierung des optimalen Schwellenwertes.
  • Wertebereich zwischen 0 und 1


Wann sollte z.B. ein niedrigerer Schwellenwert angesetzt werden, als das Optimum in der ROC-Analyse?

Wenn die Konsequenzen einer FN-Diagnose (Verpasser) schwerwiegender sind, als die von FP-Diagnosen (falscher Alarm; z.B. bei Suizidgefahr)

Welches Maß zur diagnostischen Akkuratheit des Testverfahrens ist unmittelbar auf die ROC-Kurve zurückzuführen?

AUC - Area Under Curve:


  • =Anteil des Flächenquadrates, welches unter der ROC-Kurve liegt
  • Wertebereich zwischen 0 und 1, Maß wie gut ein Test diskriminieren kann.
  • Eine AUC, die sich der Hauptdiagonale nähert, zeigt, dass der Test nur zufällig diskriminiert, ähnlich eines Münzwurfs.

Welche inhaltliche Bedeutung hat die AUC?

Die AUC entspricht der Wahrscheinlichkeit, dass man eine psychisch auffällige Person korrekt identifiziert, wenn man sie zufällig (und blind) aus einer der beiden Gruppen entnimmt.

Welche Interpretationsregeln existieren bezüglich des AUC-Kennwertes?

diverse, mögliche Daumen-Regel (Fischer et al. 2003):


  • hohe Akkuratheit: AUC ≥ .9
  • mittlere Akkuratheit: AUC > .7 bis .9
  • Geringe Akkuratheit: AUC < .7


Perfekter Test: AUC=1


Nutzloser Test: AUC= .5

Es existieren neben der ROC-Analyse noch zwei expertenbasierte Verfahren zur Ermittlung des optimalen Schwellenwertes. Wie heißen sie?

  • Angoff-Methode (häufig eingesetzt bei Kompetenz-/Leistungstests im Schulkontext oder in der Eignungsdiagnostik)
  • Bookmark-Methode

Was ist das Ziel der Angoff-Methode?

Definition der Minimal Acceptable Person (MAP): Leistung der Person ist grenzwertig aber noch akzeptabel.


Schätzung der Wahrscheinlichkeit mit der eine MAP eine Aufgabe richtig löst. Alternativ: Wie viele von 100 MAPs lösen eine Aufgabe richtig?


[Ratewahrscheinlichkeit bei MC-Fragen beachten!]


Wie verläuft die Schwellenwertbestimmung mit der Angoff-Methode?

Iterativer Prozess:


  1. 5-10 diverse Experten erhalten eine Einführung in den Test
  2. Individuelle Schätzung der Experten, welche Items von wie vielen MAPs gelöst werden
  3. Berechnung der M und SD der Einschätzungen pro Item
  4. Expertendiskussion, bes. über die heterogene Ergebnisse
  5. Erneute Beurteilung der Items
  6. Wiederholung der Schritte 3. und 4. ggf. 5. Meist 3 Runden.

Was spricht laut Hoffmann et al. (2010) für und was gegen die Angoff-Methode?

PRO:


  • gängigste Methode
  • einfach umzusetzen
  • bringt zeitlich stabile Cut-offs hervor.


CONTRA:


  • stellt zu hohe kognitive Anforderungen an die Rater => Aussehen einer MAP?
  • Auswahl der Rater nicht klar definiert
  • Umfang des Trainings für Rater nicht klar definiert.

Was ist die Grundlage für die Bookmark-Methode zur Bestimmung des Schwellenwertes?

Ordered Item Booklet (OIB):


  • wird den ExpertInnen vorgelegt
  • es werden σi pro Item anhand vorhandener Daten geschätzt (meist 1PL-Modell)
  • pro Seite im OIB wird ein Item mit seiner σi dargestellt (in aufsteigender Reihenfolge)
  • ExpertInnen setzen unter Berücksichtigung der σi ihre Bookmarks dort, wo sie die Grenzen zwischen den Kompetenzstufen vermuten (Cut-Scores).

Wie wird bei der Cut-Score-Ermittlung in der Bookmark-Methode en detail vorgegangen?

  • Begutachtung aller Items: P(xvi=1)= .67 für minimal qualifizierte Personengruppe? Wenn ja: Blättern!, wenn P(xvi=1)< .67: Bookmark!
  • σi des gebookmarkten Items stellt den Cut-Score der jeweiligen Kompetenzstufe dar.
  • Bookmark-Angaben aller Rater werden gemittelt (M oder Median)
  • Beurteilungsverhalten wird deskriptiv-statistisch zurückgemeldet.
  • nach 3 Runden meist ausreichend hohe Konkordanz.

Welche Punkte sprechen für, welche gegen die Bookmark-Methode?

PRO:


  • Im Vergleich zur Angoff-Methode einfacher durchzuführen
  • Einbeziehung empirischer Daten in den Entscheidungsprozess


CONTRA:


  • oft besteht eine hohe σ-Differenz zwischen benachbarte Items. Dies erschwert die Bestimmung des Cut-offs.


[generell sollten entsprechend der Fragestellung und der Zielgruppe mehrere verschiedene Cut-off-Bestimmungsverfahren genutzt werden]