Bölüm 5 Madde Tepki Kuramı

Dr. Kübra Atalay Kabasakal

Örtük (Gizil) özellik kuramı adıyla da bilinen madde tepki kuramı (MTK) test geliştirmede kullanılan istatistiksel bir kuramdır. Kuramın adında yer alan örtük (gizil) kelimesi ölçmeye konu olan özelliklerin doğrudan gözlenemediğini vurgular. MTK; örtük özelliklerden tutum, ilgi, motivasyon, kaygı gibi çok sayıda birey özelliğinin ölçülmesinde kullanılabilir ancak eğitimde ilgilenilen birey özelliği genellikle testle ölçülen yetenek olduğundan, kitabın bu bölümünde ortak dil kullanmak adına yetenek ölçümü ele alınmıştır.

MTK, test geliştirmede yaygın olarak kullanılan ancak sınırlılıkları bulunan KTK’ya alternatif bir ölçme kuramı olarak ortaya çıkmıştır. MTK’ya dayalı çalışmaların, 1968 yılında yayımlanan “Statistical Theories of Mental Test Score” (Lord ve Novick, 1986) kitabıyla başladığı söylenebilir. Bu kitap, psikometride pek çok açıdan bir mihenk taşı olarak görülmektedir. Kitap, psikometride dönüm noktası olan Gulliksen’in Klasik Test Kuramı (KTK) çalışmalarının istatiksel olarak genişletmesini içeriyor olması nedeniyle önemlidir. Ayrıca kitap yazarlarından Lord’un, MTK ile kolayca ele alınabilecek psikometrik sorunlarla en çok karşılaşılan ve dünyada eğitimde ölçme ve değerlendirme kuruluşlarının başında gelen ETS’de çalışıyor olması, test süreçleriyle ilgili deneyimlerinin kitaba yansımasına neden olmuştur. Bunun yanı sıra, psikometri alanına önemli katkıları olan çok sayıdaki araştırmacıyla olan bağlantıları kitabın zenginleşmesinde rol oynamıştır (Embretson ve Reise, 2000)

MTK ve KTK, varsayımlarının doğası ve detayları açısından farklılık gösterir. KTK’da birey puanları ile test özelliklerini birbirinden ayırmak güçtür, her biri diğerinin bağlamında yorumlanır. Madde ve test istatistikleri birey bağlamı değiştikçe değişirken birey puanları da test bağlamı değiştikçe değişir. KTK’nın bu sınırlılıklarından dolayı ölçme alan uzmanları KTK’ya alternatif ölçme kuramlarının arayışı içine girmiştir. Sağlanması istenilen özellikler arasında gruba bağımlı olmayan madde istatistikleri ve teste bağımlı olmayan birey puanları başta gelmektedir. Ayrıca güvenirlik kestiriminde tamamen paralel testler gerektirmeyen, her yetenek puanı için bir ölçme kesinliği sağlayan bir modelin de olması beklenmiştir.

5.1 KTK ve MTK Temel Farkları

Embretson ve Reise (2000) MTK’nın yaygınlaşmasında MTK ve KTK arasındaki temel farklara değinmiştir. Bu bölümde de ilk olarak bu farklılıklardan öne çıkanlar yedi başlık altında açıklanmıştır.

5.1.1 Gruba bağımlı olmayan madde istatistikleri

KTK’nın en önemli sınırlılıklarından biri gruba bağımlı madde istatistikleridir. KTK çerçevesinde bir test maddesinin güçlük düzeyi, maddeyi doğru yanıtlayan bireylerin sayısının testi alan tüm bireylerin sayısına oranıdır. Dolayısıyla bir maddenin kolay veya zor olması testi alan gruptaki bireylerin yetenek düzeylerine bağlıdır. KTK çerçevesinde madde güçlüğünün yanı sıra madde ayırt edicilik düzeyi de testi alan bireylerin yetenek düzeylerinin dağılımına bağlıdır. Yetenek dağılımının heterojen olduğu bir gruptan elde edilen madde ayırt ediciliği, yetenek dağılımının homojen olduğu bir gruba göre daha yüksek olacaktır. Bu nedenle KTK’da hesaplanan madde istatistikleri, testin uygulanacağı asıl gruba benzer bir gruptan elde edildiği durumlarda kullanışlı olacaktır. KTK’da madde istatistiklerinin gruba bağımlı olması nedeniyle bir gruptan elde edilen bilgiler diğer gruba (gruplar benzer olmadıkça) genellenemez.

MTK’nın KTK’ya göre tercih edilme sebeplerinden biri MTK’da madde parametrelerinin değişmezliğidir. MTK’ya dayalı elde edilen madde parametreleri, veri farklı gruplardan elde edilmiş olsa da yanlı/farklı olmayacaktır (Embretson ve Reise, 2000). Kuramsal olarak kanıtlanan bu üstünlükten, pratikte MTK varsayımlarının karşılanamaması veya uygulanan testte madde güçlük aralığının dar olması gibi nedenlerle yararlanmak zordur (Macdonald ve Paunonen, 2002).

5.1.2 Teste bağımlı olmayan birey puanları

KTK’da bireyin yeteneği genellikle ham puanla ifade edilmektedir. KTK’da, testteki madde güçlük farklılıklarının etkileri dikkate alınmamaktadır. KTK çerçevesinde bir bireyin yetenek düzeyi sadece belli bir teste göre tanımlanmaktadır. Dolayısıyla bireylerin yetenek düzeyleri test maddelerinin güçlük düzeylerine bağlıdır. Test kolay maddelerden oluşuyorsa birey yüksek yeteneğe, test zor maddelerden oluşuyorsa birey daha düşük yeteneğe sahip gibi görünecektir. Birey puanları teste bağlı olarak elde edileceğinden farklı testleri alan bireylerin karşılaştırılmasında sınırlılıklar ortaya çıkacaktır.

5.1.3 Güvenirlik kestiriminde tamamen paralel testler gerektirmeyen bir model

KTK çerçevesinde güvenirlik kavramı, bir testin paralel (eşdeğer) formlarından elde edilen puanlar arasındaki korelasyon olarak tanımlanır. Ancak uygulamada paralel test tanımını sağlamak oldukça zor, hatta imkansızdır. Formların paralelliği sağlanabilse de bu formların uygulanmasında bireylerin aynı/değişmez kalması güçtür. İlk formun uygulanmasından sonra paralel formun uygulanacağı süreçte bireyler; öğrendiklerini unutabilirler, yeni beceriler geliştirebilirler, motivasyon düzeyleri, kaygı düzeyleri değişebilir vb.

Pratikte testlerin paralelliği sağlanamadığından, güvenirliğin kestiriminde kullanılan iç tutarlılığa dayalı katsayılar güvenirlik için ya bir alt sınır oluşturur ya da bilinmeyen yanlılıklara sahiptir. Doğrudan test puanlarının değişkenliği ile ilişkili olan iç tutarlılık, güvenirlik katsayısı olarak kullanıldığında madde parametreleri gibi güvenirlik de gruba bağlı elde edilmiş olacaktır.

5.1.4 Kısa testlerle dahi ölçme kesinliğini sağlama

KTK’da güvenirlik kavramı paralel testlere dayandırılmıştır. Test uzunluğu, testin paralelliği de sağlanarak arttırıldıkça puanların güvenirliği artar. Test uzunluğu arttırıldığında güvenirlik katsayısının değerinin kaç olacağı Eşitlik (5.1) verilen Sperman-Brown formülüyle hesaplanır.

\[ r_{yy}=\frac{(k)*r_{xx}}{1+(k-1)*r_{xx}} \tag{5.1} \]

Sperman-Brown formülünde $r_{xx}$, orjinal testin güvenirlik katsayısını; $k$ yeni testin orjinal teste göre uzunluğuna ilişkin katsayıyı, $r_{yy}$ yeni testin güvenirlik katsayısını göstermektedir. Örneğin güvenirlik katsayısı 0.88 olan 20 maddelik bir test, teste paralel bileşenler eklemek kaydıyla, 30 maddelik bir test olarak yeniden düzenlendiğinde k=30/20=1.5 olacaktır. Bu durumda yeni testin güvenirlik katsayısı yaklaşık 0.92 olacaktır. Aşağıdaki kod satırıyla yeni testin güvenirlik katsayısının nasıl hesaplandığı gösterilmiştir.

(1.5*0.88)/(1+(1.5-1)*0.88)
#> [1] 0.9166667

Bu hesaplama ‘CTT’ paketinde (Willse, 2018) yer alan spearman.brown() fonksiyonuyla da yapılabilmektedir. Fonksiyona sırasıyla orjinal testin güvenirlik değeri, r.xx, 0.88 olarak; yeni testin uzunluğuna ilişkin katsayı, input, 1.5 olarak ve n argümanları girildiğinde yeni testin güvenirlik değeri elde edilmiştir.

library(CTT)
spearman.brown(r.xx = 0.88, input = 1.5, "n")
#> $r.new
#> [1] 0.9166667

Ayrıca fonksiyona istenilen yeni güvenirlik değeri girildiğinde madde sayısının ne olması gerektiği hesaplanabilmektedir. Bir testin güvenirliğini 0.88’den 0.92’ye çıkarmak için fonksiyona sırasıyla orjinal testin güvenirlik değeri, r.xx, 0.88 olarak; yeni testin güvenirlik değeri, ‘input’, 0.92 olarak ve r argümanları girildiğinde test uzunluğunun kaç katına çıkarılması gerektiği hesaplanmıştır.

library(CTT)
spearman.brown(r.xx = 0.88, input = 0.92, "r")
#> $n.new
#> [1] 1.568182

KTK’da test uzunluğunun güvenirliğe etkisini göstermek amacıyla güvenirlik katsayısı 0.80 olan bir testin test uzunluğu 0.5 katından 7 katına 0.1’er arttırıldığında güvenilirliğin nasıl değiştiğinin grafik gösterimi için R kodlarından yararlanılmıştır.

Aşağıdaki kodlarla ilk olarak guvenirlik nesnesi oluşturulmuş, for() döngüsü içinde test uzunluğu oranının 0.5’ten 7’ye kadar 0.1’er artışında elde edilen güvenirlik değerleri bu nesneye atanmıştır.

guvenirlik <- c()
i=1
for (k in seq(0.5, 7, 0.1)){
  guvenirlik[i] <- spearman.brown(0.80, k, "n")$r.new
  i=i+1
}

Sonra test uzunluğu oranları ve güvenirlik değerlerinden SB veri seti oluşturulmuştur. Daha sonra ggplot2 paketinde (Wickham, 2016) yer alan ggplot() fonksiyonuyla x-ekseninde test uzunluğu oranları, y-ekseninde güvenirlik değerleri yer alacak şekilde Şekil 5.1 deki çizgi grafiği elde edilmiştir.

SB <- data.frame(k = seq(0.5, 7, 0.1), guvenirlik)

library(ggplot2)
ggplot(SB, aes(k, guvenirlik)) + 
  geom_line() +
  scale_x_continuous(limits = c(0.5, 7), breaks = seq(0, 7, 0.5)) +
  ylab("\nGüvenirlik Katsayısı") + 
  xlab("\nTest Uzunluğu Oranı")+
  theme_bw()

Şekil 5.1: Test Uzunluğu - Güvenirlik İlişkisi

MTK’da, KTK’daki gibi testteki madde sayısının artışıyla güvenirlik değerinin artması şeklinde (Şekil 5.1) bir ilişkiden söz edilmez. MTK’da birey, yetenek düzeyine uygun maddelerle karşılaştığında daha kısa testlerle daha yüksek güvenirlik değerleri sağlanabilir. Bu durum MTK’da ölçmenin standart hatasının birey ve madde düzeyinde hesaplanmasından kaynaklanır. Ölçmenin standart hatası bireylerin yetenek düzeylerine göre değiştiğinden daha hassas, yani daha güvenilir sonuçlar elde edilebilmektedir. Bu durum uygulamada özellikle bireye uyarlanmış testlerde kullanılmaktadır.

5.1.5 Her yetenek puanı için bir ölçme kesinliği sağlayan bir model

Standart hata, hatadan kaynaklı beklenen puan dalgalanmalarını tanımlar. Standart hata bir testin psikometrik bir özelliği olmasının yanı sıra bireysel puanların kullanımı için de kritiktir. Standart hatalarla tanımlanan güven aralıkları, puanların yorumlanmasına rehberlik edebilir. KTK’da ölçmenin standart hatası, puanların güvenirliği ile standart sapmasının bir fonksiyonu olup Eşitlik (5.2) ile hesaplanabilir.

\[ \text{Standart Hata}=\sigma_x*\sqrt{1-r_{xx}} \tag{5.2} \]

Eşitlik (5.2)’de $r_{xx}$ , puanların güvenirliği; $\sigma_x$ puanların standart sapmasını göstermektedir. Örneğin güvenirlik değerinin 0.75, puanların standart sapmasının 5 olduğu bir test için ölçmenin standart hatası aşağıdaki kod satırıyla hesaplanmıştır.

sqrt(1-0.75)*5
#> [1] 2.5

Ölçmenin standart hatası 2.5 olan bir testten alınan gözlenen puanlar (x) olduğunda, gerçek puanlar %68 olasılıkla $x\pm1*2.5$, %95 olasılıkla $x\pm1.96*2.5$ ve %99 olasılıkla $x\pm2.58*2.5$ aralıklarında yer almaktadır. KTK’da ölçmenin standart hatasının tüm bireyler için eşit olduğu varsayılır. Halbuki bazı bireyler bazı maddelerde daha tutarlı performans gösterebilmektedir ve bu tutarlılık yetenek düzeyine göre değişmektedir. Örneğin orta yetenek düzeylerinde olan bireylerin performanslarının, düşük yetenek düzeylerinde olanların performanslarına göre daha tutarlı olması beklenmektedir.

MTK’da standart hata değeri, her bir yetenek düzeyi için elde edilir. MTK’da ilk olarak her bir yetenek düzeyinde her bir maddenin verdiği bilgi düzeyi hesaplanır. Sonra her bir yetenek düzeyi için testteki maddelerin verdiği bilgi düzeyleri toplanır. Daha sonra $I(\theta)$, $\theta$ yetenek düzeyinde maddenin verdiği bilgi düzeyi olmak üzere, standart hata $\frac{1}{\sqrt{I(\theta)}}$ olarak hesaplanır. Her bir maddenin verdiği bilgi düzeyinin hesaplanması, verinin uyum gösterdiği modele göre farklılık gösterir.

Örnek olarak 1600 bireye uygulanmış 36 maddelik bir testten elde edilen 1-0 puanları üzerinden hesaplanan standart hata değerlerinin KTK ve MTK’ya göre hesaplanması aşağıda beş adımda verilmiştir.

Adım 1’de yer alan kodlarla oluşturulan cevaplar nesnesi bölüm boyunca kullanılmıştır.

Adım 1: Veri seti R ortamına aktarılır.

library(readxl)
veri <- read_excel("import/veriX.xlsx")
cevaplar <- veri[,-1] # Verinin birinci sütunu grup değişkeni olduğu için hariç tutulmuştur.
cevaplar[1:6, 1:6] # Oluşturulan nesnenin ilk altı satırı ve altı sütunu yazdırılmıştır.
#> # A tibble: 6 × 6
#>   madde1 madde2 madde3 madde4 madde5 madde6
#>    <dbl>  <dbl>  <dbl>  <dbl>  <dbl>  <dbl>
#> 1      0      0      0      1      1      0
#> 2      0      0      1      1      1      0
#> 3      0      0      1      0      0      0
#> 4      0      1      1      0      0      0
#> # ℹ 2 more rows

Adım 2: KTK’da güvenirlik katsayısını hesaplamak amacıyla pysch paketinden (Revelle, 2024) alpha() fonksiyonu kullanılmıştır.

# KTK'ya dayalı güvenirlik katsayısının elde edilmesi
library(psych)
guvenirlik <- alpha(cevaplar) 
(alfa <- guvenirlik$total$std.alpha)
#> [1] 0.7910163

KTK için test puanlarının güvenirliği 0.7910163 olarak heasaplanmıştır.

MTK’da bilgi düzeyini hesaplamak amacıyla irtoys paketinden (Partchev ve Maris, 2022) iif() fonksiyonu kullanılmıştır. Bilgi değerleri madde parametre kestirimlerine dayalı olarak hesaplandığından ilk olarak iki-parametreli lojistik (2PL) modele göre madde parametreleri irtoys paketindeki est() fonksiyonuyla kestirilmiştir.

# MTK'ya dayalı bilgi değerinin elde edilmesi
library(irtoys)
maddepar <- est(cevaplar, model = "2PL", engine = "ltm")
maddebilgi <- iif(maddepar)

Madde bilgi değerlerleri her bir madde için [-4.0, +4.0] yetenek aralığında hesaplanmıştır. maddebilgi nesnesi x ve f bileşenlerinden oluşmaktadır.

maddebilgi$x[1:6] # `x` bileşeninin ilk altı elemanı yazdırılmıştır.
#> [1] -4.00 -3.92 -3.84 -3.76 -3.68 -3.60

maddebilgi$f[1:6, 1:6] # `f` bileşeninin ilk altı satırı ve altı sütunu yazdırılmıştır.
#>           madde1     madde2     madde3     madde4     madde5     madde6
#> [1,] 0.008320765 0.01637554 0.01501270 0.05095572 0.03689317 0.01734186
#> [2,] 0.008457545 0.01761543 0.01521204 0.05430942 0.03891832 0.01770922
#> [3,] 0.008595643 0.01894493 0.01541101 0.05784361 0.04103418 0.01808026
#> [4,] 0.008735034 0.02036982 0.01560952 0.06156218 0.04324236 0.01845481
#> [5,] 0.008875694 0.02189617 0.01580742 0.06546818 0.04554414 0.01883267
#> [6,] 0.009017594 0.02353030 0.01600459 0.06956368 0.04794049 0.01921363

x bileşeni [-4.0, +4.0] aralığındaki yetenek düzeylerini, f bileşeni ise her bir maddenin belirtilen yetenek düzeylerinde verdiği bilgiyi göstermektedir. maddebilgi$f[1:6, 1:6] kod satırıyla ilk 6 maddenin -4 (1. satırda), -3.92 (2. satırda), -3.84 (3. satırda), -3.76 (4. satırda), -3.68 (5. satırda) ve -3.60 (6. satırda) yetenek düzeyleri için verdiği bilgi düzeyi yazdırılmıştır.

Adım 3: KTK’da standart hatayı hesaplamak için güvenirlik değeri (alfa) ve test puanlarının standart sapma değerleri kullanılmıştır. Bu örnekte test puanlarının standart sapması, standart puanlar $z$ üzerinden alındığı için hesaplamadan doğrudan 1 olarak kullanılmıştır.

zpuan <- scale(rowSums(cevaplar)) # z puanları hesaplanmıştır. 
# KTK'ya dayalı standart hata değerinin elde edilmesi
SH <- 1*sqrt(1-alfa) 
SH
#> [1] 0.4571474

KTK’ya göre hesaplanan standart hata değeri 0.4571474’dür.

MTK’da standart hatayı hesaplamak için her bir yetenek düzeyinde madde bilgi değerleri toplanmış ve karekökünün çarpmaya göre tersi ($\frac{1}{\sqrt{I(\theta)}}$) alınmıştır. Ayrıca irtoys paketinin yetenek kestirim fonksiyonu olan ability() fonksiyonu da çıktıda standart hata değerlerini vermektedir.

# MTK'ya dayalı standart hata değerlerinin elde edilmesi
1/sqrt(rowSums(maddebilgi$f))
#>   [1] 0.6747186 0.6595272 0.6447690 0.6304336 0.6165112 0.6029935 0.5898732
#>   [8] 0.5771442 0.5648018 0.5528423 0.5412636 0.5300647 0.5192459 0.5088085
#>  [15] 0.4987553 0.4890900 0.4798175 0.4709435 0.4624748 0.4544193 0.4467853
#>  [22] 0.4395824 0.4328205 0.4265107 0.4206646 0.4152944 0.4104130 0.4060337
#>  [29] 0.4021703 0.3988368 0.3960470 0.3938146 0.3921529 0.3910740 0.3905893
#>  [36] 0.3907084 0.3914394 0.3927885 0.3947599 0.3973558 0.4005762 0.4044195
#>  [43] 0.4088824 0.4139602 0.4196473 0.4259373 0.4328238 0.4403001 0.4483603
#>  [50] 0.4569990 0.4662119 0.4759956 0.4863484 0.4972697 0.5087603 0.5208226
#>  [57] 0.5334604 0.5466787 0.5604837 0.5748829 0.5898847 0.6054985 0.6217344
#>  [64] 0.6386032 0.6561163 0.6742855 0.6931228 0.7126407 0.7328515 0.7537678
#>  [71] 0.7754022 0.7977670 0.8208743 0.8447362 0.8693644 0.8947701 0.9209643
#>  [78] 0.9479575 0.9757596 1.0043801 1.0338278 1.0641110 1.0952373 1.1272137
#>  [85] 1.1600463 1.1937407 1.2283016 1.2637329 1.3000376 1.3372181 1.3752758
#>  [92] 1.4142110 1.4540235 1.4947120 1.5362742 1.5787071 1.6220065 1.6661677
#>  [99] 1.7111846 1.7570506 1.8037581

MTK’ya göre her bir yetenek düzeyinde ayrı bir standart hata değeri hesaplanmıştır. Örneğin -4 yetenek düzeyi için standart hata değeri yaklaşık 0.675, +4 yetenek düzeyi için standart hata değeri yaklaşık 1.804 olarak hesaplanmıştır.

Adım 4: KTK’ya ve MTK’ya göre hesaplanan standart hata değerleriyle %95 puan güven aralığında gerçek puanlar hesaplanmıştır.

library(tidyverse)
gozlenen <- rowSums(cevaplar)
alt_sınır <- zpuan-1.96*SH
ust_sınır <- zpuan+1.96*SH

# KTK'ya dayalı puanların elde edilmesi
KTK_puanlar <- data.frame(gozlenen = gozlenen, 
  gercek_puan = zpuan, alt_sınır, ust_sınır) %>%
  arrange(gozlenen) %>%  
  group_by(gozlenen) %>% 
  slice(1) %>% 
  ungroup()

# MTK'ya dayalı puanların elde edilmesi
yetenek <- data.frame(ability(resp = cevaplar, method = "WLE", ip = maddepar))

yetenek_df <- yetenek[,1:2] %>% 
  rename(gercek_puan = est) %>% 
  mutate(alt_sınır=gercek_puan-1.96*sem,
  ust_sınır=gercek_puan+1.96*sem, gozlenen) %>%
  arrange(gozlenen) %>%  
  group_by(gozlenen) %>% 
  slice(1) %>% 
  ungroup()

Adım 5: KTK’da gözlenen ve gerçek puanlar (z puanı olarak) alt ve üst sınır güven aralıklarıyla, MTK’da gözlenen puanlar ve yetenek kestirimleri alt ve üst sınır güven aralıklarıyla Şekil 5.2’de verilmiştir. Şekil 5.2 aşağıdaki kodlarla elde edilmiştir.

# Çizgi grafiği icin yapılan düzenleme
guvenaraligi <- tidyr::gather(KTK_puanlar, key = "alt_ust_sınır", 
                              value = "puan", alt_sınır, gercek_puan,ust_sınır)

# Çizgi grafiği icin yapılan düzenleme
yetenek_df <-  tidyr::gather(yetenek_df, key = "alt_ust_sınır", 
                             value = "puan", alt_sınır, gercek_puan, ust_sınır)

library(ggplot2)
g1 <- ggplot(guvenaraligi, aes(x = gozlenen, y = puan, group = alt_ust_sınır)) + 
        geom_line(aes(linetype = alt_ust_sınır)) + 
        scale_linetype_manual(values = c("twodash", "solid", "dotted")) +
        labs(title = "\nKTK",
        x = "\nGözlenen Puanlar",
        y = "\nGeçek Puanlar") +
        labs(linetype = "\nPuan türü") +  
        theme_bw()

g2 <- ggplot(yetenek_df, aes(x = gozlenen, y = puan, group = alt_ust_sınır)) +  
        geom_line(aes(linetype = alt_ust_sınır)) +
        scale_linetype_manual(values = c("twodash", "solid", "dotted")) +
        labs(title = "\nMTK",
        x = "\nGözlenen Puanlar",
        y = "\nGeçek Puanlar") +
        labs(linetype = "\nPuan türü") +   
        theme_bw()
 
library(ggpubr)
ggarrange(g1, g2, common.legend = TRUE)

Şekil 5.2: Standart Hata

KTK’da, test puanlarının güvenirliği ile varyansının bir fonksiyonu olan ölçmenin standart hatasının, testi alan bütün bireyler için aynı olduğu varsayılır. Ancak farklı yeteneklerdeki bireyler için elde edilen test puanları farklı miktarlarda hatalar içermektedir. MTK’ya dayalı olan grafikte, KTK’dan farklı olarak gözlenen puanlar ve yetenek/gerçek puanlar arasında doğrusal olmayan ilişki gözlenmektedir. MTK’ya dayalı grafikte uç değerlerde güven aralığının genişlediği dikkat çekmektedir.

KTK’dan farklı olarak MTK’da, yetenek kestirimleri ve standart hatalar, testin uygulandığı gruba bağlı değildir. MTK modellerinde, uygulanan maddelerin özellikleri (madde güçlük düzeyi gibi) kontrol edilerek hesaplanan yetenek puanları, her bir puan veya yanıt örüntüsü için ayrı ayrı kestirilir. Standart hatalar, maddeler belirli bir özellik/puan düzeyi için optimal olarak uygun olduğunda ve madde ayırt edicilikleri yüksek olduğunda en küçüktür.

5.1.6 Test sonuçlarının karşılaştırılması

KTK’da, farklı test formlarını alan bireylerin puanlarının karşılaştırılması Gulliksen (1950) tarafından tanımlanan paralellik koşulları sağlanıyorsa yapılabilir. Ancak test formları arasında paralellik koşulları pratikte çoğunlukla karşılanamamaktadır.

Birçok başarı ve yetenek testi, orta yetenek düzeyindeki bireyler için uygundur. Bu testlerle, düşük ve yüksek yetenek düzeyindeki bireyler için kesin yetenek kestirimi yapılamamaktadır. Ayrıca, güçlük düzeyleri açısından farklılık gösteren test formları kullanıldığında test puanları bireylerin karşılaştırılmasında yeterli olmamaktadır. Güçlük düzeyi farklı olan iki ayrı testin uygulandığı iki birey aynı başarıyı (örneğin %50) gösterseler de bu iki bireyin yetenek düzeyleri eşit olmayabilir. Halbuki testin güçlük düzeyi her bireyin yetenek düzeyiyle eşlenebilirse geçerliği yüksek test puanları elde edilebilir. Testin uygulanacağı bireylerin yetenek düzeyiyle eşleşen test maddeleri seçildiğinde testin geçerliğinde düşüş olmaksızın testler çok daha az madde içerebilir. KTK’da formlar arasında paralellik sağlanmadığında test eşitleme yöntemleri işe koşulmalıdır (Angoff, 1982). Paralel olmayan testlerde eşitleme yöntemleri uygulanabilmesine rağmen; eşitleme hatası, test formları arasındaki farklılıklardan etkilenmektedir. Eşitleme hatası, özellikle testin güçlük düzeyindeki farklılıklardan etkilenmektedir (Petersen, Marco ve Stewart, 1982).

5.1.7 Ölçme Uygulamaları

KTK’ya dayalı istatistikler, yetenek düzeylerinde maddelerin maksimum ayırt ediciliğiyle ilgili bilgi vermediğinden; KTK, birçok test geliştirme sorununa tatmin edici çözümler bulmada yeterli olamamaktadır. KTK, madde odaklı değil test odaklıdır. Klasik gerçek puan modeli bireylerin bir maddeyi nasıl yanıtladığını ele almaz, bireyin bir test maddesiyle karşılaştığında nasıl bir performans göstereceğine ilişkin bilgi vermez. Halbuki bir bireyin belli bir maddeyi doğru yanıtlama olasılığına ilişkin bir bilgi, belli birey grupları için belli özelliklerde testler tasarlarken oldukça önemlidir. Test geliştiriciler, bir ya da daha fazla grubun test puanlarının özelliklerini yordamak istediğinde veya bir gruba uygun test tasarlamak istediğinde bu bilgiye gerek duymaktadır.

5.2 Madde Tepki Kuramı

MTK’da, bir testteki maddelere verilen yanıtların testteki maddelerden daha az sayıdaki örtük özellikler tarafından açıklanacağı varsayılır. Kuramın çoğu uygulamasında varsayılan, bir testteki maddelere verilen yanıtların tek bir örtük özellik tarafından açıklanacağıdır. MTK’da, örtük özelliğin farklı düzeylerindeki bireylerin maddeyi nasıl yanıtlayacağı matematiksel olarak tanımlanır. Bu matematiksel model, farklı testleri alan bireylerin performanslarının karşılaştırılmasına da izin verir.

MTK’nın dayandığı bu matematiksel model, madde analizini, madde analizlerinde kullanılan gruptan farklı yetenek düzeylerindeki gruplara uygulanmasına izin verir. MTK iki temel varsayıma dayanır.

Bir bireyin bir test maddesindeki performansı; özellik(ler), örtük özellik(ler) veya yetenek(ler) olarak adlandırılan faktör(ler) tarafından yordanabilir (veya açıklanabilir).
Bireylerin madde performansı ve madde performansının altında yatan bir grup özellik arasındaki ilişki, madde karakteristik fonksiyonu (MKF) veya madde karakteristik eğrisi (MKE) olarak adlandırılan ve monotonik olarak artan bir fonksiyonla tanımlanır.

5.3 Madde Karakteristik Eğrisi (MKE)

MKE; testteki bir maddeyi doğru yanıtlama olasılığının, testteki performansın altında yatan örtük özelliğin bir fonksiyonu olduğunu gösteren bir eğridir. Bir testte yer alan her bir madde için MKE çizilebilmektedir. Örnek olarak cevaplar veri setindeki 1600 birey tarafından yanıtlanan 36 maddenin parametre kestirimlerini içeren maddepar nesnesi kullanılmıştır. İlk olarak irf() fonksiyonuyla [-4, +4] yetenek aralığında maddelerin doğru yanıtlanma olasılığı hesaplanmıştır. Daha sonra plot fonksiyonuyla 2. maddenin MKE’si çizdirilmiştir (Şekil 5.3).

library(irtoys)
madde2 <- irf(maddepar, item = 2)
plot(madde2)

Şekil 5.3: Örnek Madde Karakteristik Eğrisi

MKE, madde performansı altında yatan tek bir örtük özellik (yetenek) olduğu durumdaki madde karakteristik fonksiyonunu gösterir. Grup üyeliğinden bağımsız olarak, örtük özelliğin yüksek değerlerine sahip bireylerin maddeyi doğru yanıtlama olasılığı, o özelliğin düşük değerlerine sahip bireylerin maddeyi doğru yanıtlama olasılığından daha yüksektir.

5.4 MTK Modelleri

MTK’da örtük özelliğin farklı düzeylerindeki bireylerin maddeyi nasıl yanıtlayacağı matematiksel bir modelle kestirilir. Sonsuz sayıda MTK modeli tasarlamak mümkün olmakla birlikte, az sayıda model uygulamada kullanılmaktadır. En çok kullanılan tek boyutlu MTK modelleri arasındaki temel ayrım, maddeleri tanımlamak için kullanılan parametrelerin sayısıdır.

Tek boyutlu, iki kategorili madde yanıt verisi için yaygın olarak kullanılan dört MTK modeli aşağıdaki gibidir:

• Bir-parametreli lojistik (1PL) model

• İki-parametreli lojistik (2PL) model

• Üç-parametreli lojistik (3PL) model

• Dört-parametreli lojistik (4PL) model

Bu modellerin daha iyi anlaşılabilmesi için önce modellere temel oluşturan madde parametresi onu takiben ilgili model açıklanmıştır.

5.4.1 b parametresi

Tüm modellerde ortak olan parametre, madde güçlük (b) parametresidir. maddepar nesnesi kullanılarak 10. ve 11. maddelerin MKE’leri çizdirilmiştir (Şekil 5.4).

plot(irf(maddepar, items = c(10, 11)), co = NA)
legend("topleft", legend = c("Item 10", "Item 11"),
       col=c("black", "red"), lty = 1:1, cex = 0.8)

Şekil 5.4: Örnek Madde Karakteristik Eğrisi

Şekil 5.4’te yetenek düzeyini gösteren x-ekseninin sol tarafında yer alan düşük yetenekli öğrencilerin 10. maddeyi doğru yanıtlama olasılıkları 11. maddeyi doğru yanıtlama olasılıklarına göre daha yüksektir. Madde güçlük parametresi bu açıdan konum parametresi olarak da nitelendirilmektedir.

Bir $i$ maddesi için $b_i$ parametresi, yetenek düzeyinde maddeyi doğru yanıtlama olasılığının 0.5 olduğu noktadır. Bu parametre yer/konum parametresi olup yetenek düzeyiyle ilişkili olarak madde karakteristik eğrisinin konumunu belirtir. $b_i$ parametresinin daha büyük değerleri, bir bireyin maddeyi %50 olasılıkla doğru yanıtlamak için daha yüksek yetenek düzeyinde olmasını gerektirir. Diğer bir ifadeyle, $b_i$ parametresinin daha büyük değerleri, daha zor maddeleri ifade eder. Zor maddeler yetenek ölçeğinin sağında veya daha yüksek ucundadır. Kolay maddeler yetenek ölçeğinin solunda veya daha düşük ucundadır.

$b$ parametresinin MKE’deki rolünü daha iyi anlamak adına sadece b parametresi farklı olan dört madde için [-4, +4] yetenek düzeyinde maddeyi doğru yanıtlama olasıkları Eşitlik (5.3) ile hesaplanmıştır. Dört madde için [-4, +4] yetenek düzeyinde maddeyi doğru yanıtlama olasıklarıyla df_1p veri seti oluşturulmuştur.

b <- c(-1, 0, 1, 2) # b parametreleri
theta <- seq(-4, 4, 0.01)
p <- matrix(ncol = 4, nrow = length(theta))
prob <- c()
for(i in 1:4){
  for(j in 1:length(theta)){
    dir <- 1/(1+exp(-(theta[j]-b[i])))
    prob[j] <- dir
    j=j+1
  }
  p[,i] <-  prob
}
df_1p <- data.frame(theta, p)
names(df_1p) <- c("theta", paste("madde", 1:4, sep = "_"))
head(df_1p)
#>   theta    madde_1    madde_2     madde_3     madde_4
#> 1 -4.00 0.04742587 0.01798621 0.006692851 0.002472623
#> 2 -3.99 0.04787969 0.01816369 0.006759661 0.002497411
#> 3 -3.98 0.04833763 0.01834289 0.006827132 0.002522447
#> 4 -3.97 0.04879972 0.01852382 0.006895273 0.002547734
#> 5 -3.96 0.04926601 0.01870651 0.006964089 0.002573273
#> 6 -3.95 0.04973651 0.01889096 0.007033587 0.002599068

-4 yetenek düzeyinde bir bireyin madde_1’i doğru yanıtlama olasılığı 0.0474, madde_2’yi doğru yanıtlama olasılığı 0.0180, madde_3’ü doğru yanıtlama olasılığı 0.00669 ve madde_4’ü doğru yanıtlama olasılığı 0.00247’dir. -4 yetenek düzeyindeki bir birey için maddeyi doğru yanıtlama olasılığının madde_1’den madde_4’e doğru düştüğü gözlenmektedir. Bu da ilgili yetenek düzeyi için dört madde arasından madde_1’in daha kolay, madde_4’ün ise daha zor olduğu anlamına gelmektedir.

Belirtilen dört maddenin MKE’si aşağıdaki kodlarla çizdirilmiştir (Şekil 5.5).

library(tidyr)
df_1p_1 <- df_1p %>% 
  pivot_longer(!theta, names_to = "maddeler", 
               values_to = "olasilik") # Grafik çizdirmek 
# için veri ilk olarak uzun formata dönüştürülmüştür.

ggplot(df_1p_1, aes(theta, olasilik, colour = maddeler)) +
  geom_line() +
  geom_hline(aes(yintercept = 0.5), linetype = 3) +
  ggtitle('Olasılık Eğrileri') +  
  scale_x_continuous(breaks = seq(-4, 4, 1)) +
  labs(color = "Maddeler") +
  xlab(expression(theta)) + 
  ylab(expression(P(theta))) + 
  theme(text = element_text(size = 12),
        axis.text.x = element_text(colour = "black"),
        axis.text.y = element_text(colour = "black")) + 
  theme_bw()

Şekil 5.5: Dört Madde İçin Karakteristik Eğrisi

Şekil 5.5’te x-ekseni yetenek ($\theta$) düzeyini, y-ekseni doğru yanıtlama olasılığını ($P(\theta)$) göstermektedir. $b_i$ parametresi, yetenek düzeyinde maddeyi doğru yanıtlama olasılığının 0.5 olduğu nokta olduğundan; daha kolay görülebilmesi amacıyla bu noktadan yatay bir referans doğrusu çizilmiştir.

Dört madde için doğru yanıtlama olasılığının 0.5 olduğu yetenek ölçeği noktası sırasıyla -1, 0, 1 ve 2’dir. Bu durum, birinci madde güçlüğünün -1, ikinci madde güçlüğünün 0, üçüncü madde güçlüğünün 1, dördüncü madde güçlüğünün ise 2 olduğunu göstermektedir.

Bir grubun yetenek düzeyleri ortalaması 0 ve standart sapması 1 olacak şekilde ölçeklendiğinde, $b_i$ değerleri genel olarak -2 ile +2 arasında değişmektedir. $b_i$ değerleri -2’ye yakın olan maddeler bireyler için oldukça kolay, $b_i$ değerleri +2’ye yakın olan maddeler bireyler için oldukça zor maddelerdir. $b_i$ yetenek düzeyiyle aynı ölçektedir.

5.5 Bir Parametreli Lojistik (1PL) Model

1PL model yaygın olarak kullanılan MTK modellerindendir. 1PL model için madde karakteristik eğrileri Eşitlik (5.3) ile elde edilir:

\[ P_i(\theta)=\frac{exp(D(\theta-b_i))}{1+exp(D(\theta-b_i)}= \frac{1}{1+\exp[-(D(\theta-b_i)]} \tag{5.3} \]

\[\ln\frac{P_i(\theta)}{1-P_i(\theta)}=\theta-b_{i}\]

Eşitlik (5.3)’te $P_i(\theta)$, $\theta$ yetenek düzeyindeki bir bireyin $i$ maddesini doğru yanıtlama olasılığı, $b_i$ ise $i$ maddesinin güçlük düzeyi parametresidir.

MTK modelleri başlangıçta normal ogive modeli olarak geliştirildiğinden, çoğu ölçme uzmanı geleneksel olarak lojistik modeli, normal ogive modele benzetme eğilimindedir. BILOG ve MULTILOG gibi özelleşmiş çoğu MTK yazılımında sadece lojistik model kullanılmaktadır. Zamanla kümülatif normal model yerine, matematiksel olarak daha kolay ele alındığından, kümülatif lojistik model kullanılmaya başlanmıştır. Eğer ($\theta-b_i$), D=1.7 normalleştirme sabitiyle çarpılırsa, iki model arasındaki fark neredeyse ihmal edilir düzeyde olacaktır. Yetenek düzeyinin bütün değerleri için iki modelle elde edilen olasılık değerleri arasındaki fark 0.01’den küçük olacaktır. D normalleştirme sabitinin kullanılıp kullanılmaması tercihe kalmıştır.

df_1p veri setinden -4, -2, 0, 2 ve 4 yetenek düzeyleri için dört maddenin doğru yanıtlanma olasılıkları aşağıdaki kodlarla çekilmiştir.

df_1p_2 <- subset(df_1p, (theta==-4.00 |theta==-2.00 | theta==0.00 | theta==2.00 | theta==4.00 ))
df_1p_2 
#>     theta    madde_1    madde_2     madde_3     madde_4
#> 1      -4 0.04742587 0.01798621 0.006692851 0.002472623
#> 201    -2 0.26894142 0.11920292 0.047425873 0.017986210
#> 401     0 0.73105858 0.50000000 0.268941421 0.119202922
#> 601     2 0.95257413 0.88079708 0.731058579 0.500000000
#> 801     4 0.99330715 0.98201379 0.952574127 0.880797078

df_1p_2 veri seti 5 satır, 5 sütundan oluşmaktadır. Veri setinde 5 farklı yetenek düzeyinde sırasıyla dört maddeye doğru yanıt verme olasılıkları yer almaktadır. 1. maddeye doğru yanıt verme olasılığı -4 yetenek düzeyindeki bir birey için 0.0474 iken, +4 yetenek düzeyindeki bir birey için 0. 9933’tür.

R yazılımında parametre kestirimleri birden fazla paketle yapılabilmektedir. MTK analizlerinin yapılacağı diğer paketlere ltm (Rizopoulos, 2006) ve irtoys (Partchev ve Maris, 2022) örnek verilebilir. Y. J. Choi ve Asilkalkan (2019) tarafından yazılan makalede 45 farklı MTK paketine ilişkin açıklamalar bulunmaktadır.

Bu bölümde madde ve yetenek parametresi kestirimleri mirt paketiyle yapılmıştır. cevaplar nesnesi 1600 bireyin 36 maddeye verdiği yanıtlardan oluşmaktadır.

mirt paketinde analizleri gerçekleştirmek üzere ilk olarak test edilecek model hazırlanmalıdır. Aşağıdaki kodlarda mirt paketi aktif hale getirildikten sonraki kodun ilk satırında, tek bir örtük özelliğin (F’nin) veri setindeki 1 ile 36 arasındaki sütunlardaki maddeler tarafından ölçüldüğü gösterilmektedir. CONSTRAIN ile başlayan ikinci satırında ise 1’den 36’ya kadar olan sütunlardaki maddeler aynı madde ayırt ediciliğine (a1) sahip olacak şekilde sınırlanır.

library(mirt)
birpl_model <- "F=1-36
                CONSTRAIN=(1-36, a1)"

mirt paketinin mirt() fonksiyonu temel olarak data ve model olmak üzere iki argümanla çalışmaktadır. cevaplar veri setinin birpl_model modeli için analizi aşağıdaki komut satırıyla gerçekleştirilmiştir.

birpl_uyum <- mirt(data = cevaplar, model = birpl_model, SE = TRUE)

mirt() fonksiyonunun çalıştırılması sonucunda oluşturulan birpl_uyum nesnesi, parametre kestirimlerini, örtük özelliğin ortalamasını, örtük özelliğin varyans-kovaryans matrisini ve kestirim sürecine ilişkin ek bilgileri içermektedir. coef() fonksiyonuyla birpl_uyum nesnesinden parametre kestirimleri çıkarılmıştır. mirt paketi çok boyutlu MTK parametreleri olan eğim ve kesişim parametrelerini geleneksel MTK parametrelerine dönüştürmek için IRTpars argümanı TRUE değeriyle kullanılır. simplify argümanı TRUE değeriyle kullanıldığında parametreler liste yapısı yerine veri seti olarak elde edilir. Parametre kestirimleri oluşturulan birpl_par nesnesinin items bileşeninden elde edilmiştir.

birpl_par <- coef(birpl_uyum, IRTpars = TRUE, simplify = TRUE)
birpl_par$items
#>                 a          b g u
#> madde1  0.8015411  1.1579590 0 1
#> madde2  0.8015411  0.2110241 0 1
#> madde3  0.8015411  0.1143750 0 1
#> madde4  0.8015411 -1.2096404 0 1
#> madde5  0.8015411 -0.5590556 0 1
#> madde6  0.8015411  0.3732120 0 1
#> madde7  0.8015411 -1.6030189 0 1
#> madde8  0.8015411 -0.5222331 0 1
#> madde9  0.8015411 -0.4344628 0 1
#> madde10 0.8015411 -1.9858370 0 1
#> madde11 0.8015411 -1.2941862 0 1
#> madde12 0.8015411 -0.4162734 0 1
#> madde13 0.8015411 -1.1024218 0 1
#> madde14 0.8015411 -1.2516733 0 1
#> madde15 0.8015411 -1.7035073 0 1
#> madde16 0.8015411 -1.6361271 0 1
#> madde17 0.8015411 -1.2180098 0 1
#> madde18 0.8015411 -0.3257471 0 1
#> madde19 0.8015411 -0.7877435 0 1
#> madde20 0.8015411 -1.4651064 0 1
#> madde21 0.8015411 -3.2921562 0 1
#> madde22 0.8015411 -1.7775520 0 1
#> madde23 0.8015411 -0.6780646 0 1
#> madde24 0.8015411 -1.5749332 0 1
#> madde25 0.8015411 -2.2498387 0 1
#> madde26 0.8015411 -1.8128116 0 1
#> madde27 0.8015411 -1.5517276 0 1
#> madde28 0.8015411 -1.8588492 0 1
#> madde29 0.8015411 -1.9534796 0 1
#> madde30 0.8015411 -3.0547183 0 1
#> madde31 0.8015411 -2.6071841 0 1
#> madde32 0.8015411 -2.2136201 0 1
#> madde33 0.8015411 -1.7427486 0 1
#> madde34 0.8015411 -4.2803658 0 1
#> madde35 0.8015411 -4.0380468 0 1
#> madde36 0.8015411 -2.5015049 0 1

birpl_par nesnesinin items bileşeninde her satır, madde adıyla başlamaktadır. Sütunlar ise sırasıyla ilk sütun a madde ayırt edicliği, ikinci sütun b madde güçlüğü, üçüncü sütun g alt asimptot (yani tahmin), son sütun u üst asimptottur. 1PL modeli alt ve üst asimptot parametrelerini içermediğinden, değerleri sırasıyla 0 ve 1 dir. İlk sütun, 0.8015411 kestirimiyle madde ayırt ayırt edicliği parametresini göstermektedir. İkinci sütun, madde güçlük parametrelerini göstermektedir. En kolay maddenin -4.2803658 değeriyle madde34, en zor maddenin 1.157959 değeriyle madde1 olduğu görülmektedir.

plot() fonksiyonuyla oluşturulan birpl_uyum nesnesi içindeki maddeler için tek tek ya da istenilen maddeler için MKE çizdirilebilir. İlk altı madde için ayrı ayrı MKE çizdirilmesi Şekil 5.6‘de; ilk altı maddenin MKE’lerinin tek bir grafikte verilmesi ise Şekil 5.7’de yer almaktadır. Şekil 5.7’de facet_items argümanı ’FALSE’ değeriyle kullanılarak tüm maddelerin MKE’leri tek bir grafikte elde edilmiştir.

plot(birpl_uyum,type = "trace", which.items = 1:6)

Şekil 5.6: 1PL model MKE

plot(birpl_uyum, type = "trace", which.items = 1:6, facet_items = FALSE)

Şekil 5.7: 1PL model MKE

mirt paketinde grafik çiziminde lattice paketi kullanılmaktadır. lattice paketindeki özelliklerle grafiklerin özelleştirilmesi mümkündür. Panelin oluşum şekli layout argümanıyla, x-ekseni limitleri theta_lim argümanıyla, grafik başlığı ise main argümanıyla düzenlenebilir. Şekil 5.6’nin, belirtilen argümanlarla özelleştirilmiş hali Şekil 5.8’da verilmiştir.

plot(birpl_uyum, type = "trace", which.items = 1:6,
     theta_lim = c(-4, 4), main = "Madde Karakteristik Eğrileri")

Şekil 5.8: 1PL model MKE

1PL modelde, madde ayırt edicilik parametresine karşılık gelen bir madde parametresi yoktur. Bu durum, bütün maddelerin eşit ayırt ediciliğe sahip olduğu varsayımına eşdeğerdir. Ayrıca 1PL modelde, madde karakteristik eğrilerinin alt asimptotu sıfırdır. Bu durum, çok düşük yetenek düzeyine sahip bireylerin maddeyi doğru yanıtlama olasılığının sıfır olduğunu belirtmektedir. Bu anlamda 1PL model çoktan seçmeli maddelerde düşük yetenek düzeyine sahip bireylerin tahmin olasılığına izin vermemektedir. Tahmin olmaması sayıltısı çoktan-seçmeli maddeleri içeren bir testin çok kolay olduğu durumlarda karşılanabilir.

5.5.1 a parametresi

Bir parametreli model hariç diğer modellerde yer alan ayırt edicilik parametresi olan $a$ düşük yetenekli bireylerin maddeye ait konumları ile yüksek yetenekli bireylerin maddeye ait konumlarının ayırt edilebilmesi olarak tanımlanır. Bir madde için $a_i$ parametresi yetenek ölçeğinde $b_i$ noktasında madde karakteristik eğrisinin eğimiyle orantılıdır. Daha dik eğimli maddeler farklı yetenek düzeylerindeki bireyleri ayırmada, daha az eğimli maddelere göre daha ayırıcıdır.

Bir maddenin, belirli bir $\theta$ yetenek düzeyinin yakınındaki bireyler arasındaki ayırt ediciliği ($\theta$ düzeyinden daha yüksek ve ya daha düşük yetenek düzeyine sahip bireyleri ayırma gücü) $\theta$ değerindeki madde karakteristik eğrisinin eğimiyle belirlenir. $a_i$ değerleri kuramsal olarak (-∞, +∞) aralığında yer almasına rağmen uygulamada genellikle 2.0’den büyük ayırt edicilik değerlerine rastlanmamaktadır. Bu nedenle $a_i$ parametresi için olağan aralık (0, 2)’dir.

$a$ parametresinin MKE’deki rolünü daha iyi anlamak adına $b$ parametresi 1 olan $a$ parametresi farklı olan dört maddenin [-4, +4] yetenek düzeyinde maddeyi doğru yanıtlama olasıkları Eşitlik (5.4) ile hesaplanmıştır. Dört madde için [-4, +4] yetenek düzeyinde maddeyi doğru yanıtlama olasıklarıyla df_2p veri seti oluşturulmuştur.

b <- c(1, 1, 1, 1) 
a <- c(1.5, 1, 0.3, -0.5) # a parametreleri
theta <- seq(-4, 4, 0.01)
p <- matrix(ncol = 4, nrow = length(theta))
prob <- c()
for(i in 1:4){
  for(j in 1:length(theta)){
    dir <- 1/(1+exp(-(1.7*(a[i]*(theta[j]-b[i])))))
    prob[j] <- dir
    j=j+1
  }
  p[,i] <-  prob
}
df_2p <- data.frame(theta, p)
names(df_2p) <- c("theta", paste("madde", 1:4, sep = "_"))
head(df_2p)
#>   theta      madde_1      madde_2    madde_3   madde_4
#> 1 -4.00 2.902312e-06 0.0002034270 0.07242649 0.9859364
#> 2 -3.99 2.977272e-06 0.0002069141 0.07276986 0.9858180
#> 3 -3.98 3.054169e-06 0.0002104609 0.07311473 0.9856987
#> 4 -3.97 3.133051e-06 0.0002140686 0.07346110 0.9855784
#> 5 -3.96 3.213971e-06 0.0002177381 0.07380899 0.9854571
#> 6 -3.95 3.296981e-06 0.0002214704 0.07415839 0.9853347

-4 yetenek düzeyinde bir bireyin madde_1’i doğru yanıtlama olasılığı 2.90e-06, madde_2’yi doğru yanıtlama olasılığı 0.000203, madde_3’ü doğru yanıtlama olasılığı 0.0724 ve madde_4’ü doğru yanıtlama olasılığı 0.986’dır.

Belirtilen dört maddenin MKE’si aşağıdaki kodlarla çizdirilmiştir (Şekil 5.9).

library(tidyr)
df_2p_1 <- df_2p %>% 
  pivot_longer(!theta, names_to = "maddeler", 
               values_to = "olasilik") # Grafik çizdirmek 
# için veri ilk olarak uzun formata dönüştürülmüştür.


ggplot(df_2p_1, aes(theta, olasilik, colour = maddeler)) + 
  geom_line() +
  geom_hline(aes(yintercept = 0.5), linetype = 3) +
  ggtitle('Olasılık Eğrileri') + scale_x_continuous(breaks = seq(-4, 4, 1)) +
  labs(color = "Maddeler") +
  xlab(expression(theta)) + 
  ylab(expression(P(theta))) + 
  theme(text = element_text(size=12),
        axis.text.x = element_text(colour = "black"),
        axis.text.y = element_text(colour = "black")) + 
  theme_bw()

Şekil 5.9: Dört Madde İçin Karakteristik Eğrisi

Şekil 5.9’da dört maddenin de doğru yanıtlanma olasılığının 0.5 olduğu yetenek düzeyi noktası 1’dir. Ancak eğrilerin eğimleri farklılaşmaktadır. Madde 1, Madde 2 ve Madde 3 pozitif eğimli eğrilere sahiptir. Madde 4 negatif eğimli olup; bu durum, düşük yetenekli bireylerin Madde 4’ü doğru yanıtlama olasılığının, yüksek yetenekli bireylere göre daha yüksek olduğunu göstermektedir.

5.6 İki Parametreli Lojistik (2PL) Model

2PL model yaygın olarak kullanılan MTK modellerindendir. 2PL model için madde karakteristik eğrileri Eşitlik (5.4) ile elde edilir:

\[ P_i(\theta)=\frac{exp(Da_i(\theta-b_i))}{1+exp(Da_i(\theta-b_i)}= \frac{1}{1+\exp[-(Da_i(\theta-b_i)]} \tag{5.4} \]

\[ ln(\frac{P_i(\theta)}{1-P_i(\theta)})=Da_i(\theta-b_{i}) \]

Eşitlik (5.4)’te $P_i(\theta)$, $\theta$ yetenek düzeyindeki bir bireyin $i$ maddesini doğru yanıtlama olasılığı, $b_i$ $i$ maddesinin güçlük parametresi, $a_i$ $i$ maddesinin ayırt edicilik parametresidir.

2PL modelde, bir madde için $a_i$ parametresi yetenek ölçeğinde $b_i$ noktasında madde karakteristik eğrisinin eğimiyle orantılıdır. Daha dik eğimli maddeler farklı yetenek düzeylerindeki bireyleri ayırmada daha az eğimli maddelere göre daha kullanışlıdır.

Başarı testlerinde eksi yönde ayırt ediciliğe sahip maddeler, testten çıkarılmaktadır. Çünkü yetenek düzeyi arttıkça maddenin doğru yanıtlanma olasılığının düşmesi maddeyle ilgili bir probleme (yanlış anahtarlama gibi) işaret etmektedir.

df_2p veri setinden -4, -2, 0, 2 ve 4 yetenek düzeyleri için dört maddenin doğru yanıtlanma olasılıkları aşağıdaki kodlarla çekilmiştir.

df_2p_2 <- subset(df_2p, (theta==-4.00 |theta==-2.00 | theta==0.00 | theta==2.00 | theta==4.00))
df_2p_2 
#>     theta      madde_1     madde_2    madde_3    madde_4
#> 1      -4 2.902312e-06 0.000203427 0.07242649 0.98593637
#> 201    -2 4.758176e-04 0.006059801 0.17799369 0.92757351
#> 401     0 7.242649e-02 0.154465265 0.37519353 0.70056714
#> 601     2 9.275735e-01 0.845534735 0.62480647 0.29943286
#> 801     4 9.995242e-01 0.993940199 0.82200631 0.07242649

df_2p_2 veri seti 5 satır, 5 sütundan oluşmaktadır. Veri setinde 5 farklı yetenek düzeyinde sırasıyla dört maddeye doğru yanıt verme olasılıkları gösterilmektedir. 4. maddeye doğru yanıt verme olasılığı -4 yetenek düzeyinde bir birey için 0.9859364 iken, +4 yetenek düzeyinde bir birey için 0.0724265’dir.

2PL model için test edilecek model aşağıdaki kodlarla hazırlanmıştır. Bu modelde 1PL modelden farklı olarak a parametresi serbest kestirilmektedir.

ikipl_model <- "F=1-36"

Varinin ikipl_model modeli için analizi aşağıdaki kodlarla gerçekleştirilmiştir. ikipl_uyum nesnesi içinden madde parametrelerini almak için ise coef() fonksiyonu IRTpars ve simplify argümanlarının ‘TRUE’ değerleriyle çalıştırılmıştır.

ikipl_uyum <- mirt(data = cevaplar, model = ikipl_model, itemtype = "2PL", 
                   SE=TRUE)
ikipl_par <- coef(ikipl_uyum, IRTpars = TRUE, simplify = TRUE)

ikipl_par$items
#>                 a          b g u
#> madde1  0.2743254  3.0321302 0 1
#> madde2  0.9482918  0.1811490 0 1
#> madde3  0.2956152  0.2836741 0 1
#> madde4  0.9189282 -1.0930653 0 1
#> madde5  0.7726578 -0.5774001 0 1
#> madde6  0.3724382  0.7305529 0 1
#> madde7  0.6317356 -1.9465463 0 1
#> madde8  0.8476366 -0.5035977 0 1
#> madde9  0.6898505 -0.4907312 0 1
#> madde10 0.7693327 -2.0498633 0 1
#> madde11 0.7772812 -1.3261834 0 1
#> madde12 0.5175724 -0.5980091 0 1
#> madde13 0.9808828 -0.9520704 0 1
#> madde14 1.0099110 -1.0580278 0 1
#> madde15 0.9067001 -1.5501737 0 1
#> madde16 0.6905937 -1.8439059 0 1
#> madde17 0.7568033 -1.2748179 0 1
#> madde18 0.9621853 -0.2895376 0 1
#> madde19 0.6259609 -0.9626019 0 1
#> madde20 0.9649060 -1.2762525 0 1
#> madde21 0.3518186 -6.9212681 0 1
#> madde22 0.8350122 -1.7209004 0 1
#> madde23 1.1421728 -0.5337514 0 1
#> madde24 1.2439051 -1.1595681 0 1
#> madde25 0.6451010 -2.6891135 0 1
#> madde26 0.8241631 -1.7727206 0 1
#> madde27 1.4645653 -1.0421605 0 1
#> madde28 1.2556266 -1.3554899 0 1
#> madde29 0.9088149 -1.7725020 0 1
#> madde30 0.8740689 -2.8445097 0 1
#> madde31 1.1126078 -2.0374562 0 1
#> madde32 0.7903949 -2.2357910 0 1
#> madde33 1.5416772 -1.1355162 0 1
#> madde34 0.7578353 -4.4807617 0 1
#> madde35 0.9178199 -3.6063147 0 1
#> madde36 1.3086776 -1.7623275 0 1

ikipl_par nesnesinin items bileşeninde 2PL modeli alt ve üst asimptot parametrelerini içermediğinden, bu sütunlar sırasıyla 0 ve 1’dir. İlk sütun, madde ayırt edicilik parametresini göstermektedir. Ayırt ediciliği en düşük madde, madde1; en yüksek madde ise madde33’tür. İkinci sütun, madde güçlük parametrelerini göstermektedir. En kolay maddenin -6.921 değeriyle madde21, en zor maddenin 3.032 değeriyle madde1 olduğu görülmektedir.

ikipl_uyum nesnesi içindeki ilk altı madde için ayrı ayrı MKE çizdirimi Şekil 5.10’de; ilk altı maddenin MKE’lerinin tek bir grafikte verilmesi ise Şekil 5.11’de yer almaktadır.

plot(ikipl_uyum, type = "trace", which.items = 1:6)

Şekil 5.10: 2PL model MKE

plot(ikipl_uyum, type = "trace", which.items = 1:6,facet_items = FALSE)

Şekil 5.11: 2PL model MKE

Şekil 5.11’de eğriler, 1PL modelde olduğu gibi paralel değildir. Her eğrinin eğimi farklılık göstermektedir. Bu da madde ayırt edicilik parametrelerinin farklı olduğunu yansıtmaktadır. 2PL modelde, birey performansını etkileyen madde özellikleri madde güçlüğü ve madde ayırt ediciliğidir. 2PL modelde 1PL modelde olduğu gibi madde karakteristik eğrilerinin alt asimptotu sıfırdır. Bu, çok düşük yetenek düzeyine sahip bireylerin maddeyi doğru yanıtlama olasılığının sıfır olduğunu belirtmektedir. Böylece çoktan seçmeli maddelerde düşük yetenek düzeyine sahip bireylerin tahmin olasılığına izin verilmemektedir. Tahmin olmaması sayıltısı çoktan-seçmeli maddeleri içeren bir testin çok zor olmadığı durumlarda karşılanabilir.

5.6.1 c parametresi

Bir ve iki parametreli modellerde yer almayıp; üç ve dört parametreli modellerde yer alan $c_i$ parametresi, seçmeli-yanıtlı test maddelerindeki performansta tahminin bir etken olduğu durumlarda, yetenek düzeyinin düşük ucundaki performansı hesaba katar. Sıfırdan farklı $c_i$ parametresi, testi alan herhangi bir bireyin maddeyi doğru yanıtlama olasılığının sıfırdan farklı olduğunu yansıtır. Bu parametre alt asimptot olarak tanımlanır.

$c$ parametresinin MKE’deki rolünü daha iyi anlamak adına sadece c parametresi farklı olan dört madde için [-4, +4] yetenek düzeyinde maddeyi doğru yanıtlama olasıkları Eşitlik (5.5) ile hesaplanmıştır. Dört madde için [-4, +4] yetenek düzeyinde maddeyi doğru yanıtlama olasıklarıyla df_3p veri seti oluşturulmuştur.

b <- c(1, 1, 1, 1)
a <- c(1, 1, 1, 1)
c <- c(0, 0.1, 0.2, 0.3)
theta <- c(-4, -2, 0, 2, 4)
p <- matrix(ncol = 4, nrow = length(theta))
prob <- c()
for(i in 1:4){
  for(j in 1:length(theta)){
    dir <-     dir <- c[i]+((1-c[i])/(1+exp(-(a[i]*(theta[j]-b[i])))))
    prob[j] <- dir
    j=j+1
  }
  p[,i] <-  prob
}
df_3p <- data.frame(theta, p)
names(df_3p) <- c("theta", paste("madde", 1:4, sep = "_"))
head(df_3p)
#>   theta     madde_1   madde_2   madde_3   madde_4
#> 1    -4 0.006692851 0.1060236 0.2053543 0.3046850
#> 2    -2 0.047425873 0.1426833 0.2379407 0.3331981
#> 3     0 0.268941421 0.3420473 0.4151531 0.4882590
#> 4     2 0.731058579 0.7579527 0.7848469 0.8117410
#> 5     4 0.952574127 0.9573167 0.9620593 0.9668019

-4 yetenek düzeyinde bir bireyin madde_1’i doğru yanıtlama olasılığı 0.00669’tür.

Belirtilen dört maddenin MKE’si aşağıdaki kodlarla çizdirilmiştir (Şekil 5.12).

library(tidyr)
df_3p_1 <- df_3p %>% 
  pivot_longer(!theta, names_to = "maddeler", 
               values_to = "olasilik") # Grafik çizdirmek
# için veri ilk olarak uzun formata dönüştürülmüştür.

ggplot(df_3p_1, aes(theta, olasilik  , colour = maddeler)) +
  geom_line() +
  geom_hline(aes(yintercept = 0.5),linetype = 3) +
  ggtitle('Olasılık Eğrileri') +  scale_x_continuous(breaks=seq(-4, 4, 1)) +
  labs(color = "Maddeler") +
  xlab(expression(theta)) + 
  ylab(expression(P(theta))) + 
  theme(text = element_text(size=12),
        axis.text.x = element_text(colour = "black"),
        axis.text.y = element_text(colour = "black")) + 
  theme_bw()

Şekil 5.12: Dört Madde İçin Karakteristik Eğrisi

Şekil 5.11’de c parametresinin değerleri 0’dır. Şekil 5.12’de ise yetenek düzeyi çok düşük olduğunda dahi maddenin doğru yanıtlanma olasılığının 0’dan büyük olduğu görülmektedir. c parametresi çok düşük yetenek düzeyindeki bireyler için de maddeyi doğru yanıtlama olasılığı (bireyler doğru yanıtı tahmin edebileceklerinden) sıfırdan büyüktür. Şekil 5.12 için en yüksek c parametresi 4. maddeye aittir.

5.7 Üç Parametreli Lojistik (3PL) Model

3PL model yaygın olarak kullanılan MTK modellerindendir. 3PL model için madde karakteristik eğrileri Eşitlik (5.5) ile elde edilir:

\[ P_i(\theta)=c_i+(1-ci)*\frac{exp[Da_i(\theta-b_i)]}{1+exp[Da_i(\theta-b_i)]}=c_i +\frac{1-c_i}{1+exp(-[Da_i(\theta-b_i)])} \tag{5.5} \]

Eşitlik (5.5)’te $P_i(\theta)$, $\theta$ yetenek düzeyindeki bir bireyin $i$ maddesini doğru yanıtlama olasılığı, $b_i$, $i$ maddesinin güçlük parametresi, $a_i$, $i$ maddesinin ayırt edicilik parametresi, $c_i$, i maddesinin sahte-tahmin parametresidir. Tahmin yerine sahte-tahmin denmesinin nedeni, parametrenin tahminden fazlasını içermesidir. Örneğin, madde yazarları çekici ancak yanlış seçenekler geliştirebilir, madde herkes tarafından aynı şekilde anlaşılmayabilir, v.b.

1PL ve 2PL modellerde maddeyi doğru yanıtlama olasılığı yetenek düzeyi düştükçe sıfıra yaklaşır. Ancak, çok düşük yetenek düzeyindeki bireyler için bile maddeyi doğru yanıtlama olasılığı, bireyler doğru yanıtı tahmin edebileceklerinden sıfırdan büyüktür. 3PL modelinde yer alan $c_i$ parametresi, seçmeli-yanıtlı test maddelerindeki performansta tahminin bir etken olduğu durumlarda, yetenek ekseninin düşük ucundaki performansı hesaba katar. Böylece, sıfırdan farklı $c_i$ parametresi, testi alan herhangi bir bireyin maddeyi doğru yanıtlama olasılığının sıfırdan farklı olduğunu yansıtır.

df_3p veri setinden -4, -2, 0, 2 ve 4 yetenek düzeyleri için dört maddenin doğru yanıtlanma olasılıkları aşağıdaki kodlarla çekilmiştir.

df_3p_2 <- subset(df_3p, (theta==-4.00 |theta==-2.00 | theta==0.00 | theta==2.00 | theta==4.00 ))
df_3p_2 
#>   theta     madde_1   madde_2   madde_3   madde_4
#> 1    -4 0.006692851 0.1060236 0.2053543 0.3046850
#> 2    -2 0.047425873 0.1426833 0.2379407 0.3331981
#> 3     0 0.268941421 0.3420473 0.4151531 0.4882590
#> 4     2 0.731058579 0.7579527 0.7848469 0.8117410
#> 5     4 0.952574127 0.9573167 0.9620593 0.9668019

df_3p_2 veri seti 5 satır, 5 sütundan oluşmaktadır. Veri setinde 5 farklı yetenek düzeyinde sırasıyla dört maddeye doğru yanıt verme olasılıkları gösterilmektedir. Yetenek düzeyi -4 olan bir bireyin 1. maddeyi doğru yanıtlama olasılığı 0.0066929 iken, aynı bireyin 4. maddeyi doğru yanıtlama olasılığı 0.304685’dir.

3PL model için test edilecek model aşağıdaki kodlarla hazırlanmıştır. Bu model 3PL model gibi hazırlanmaktadır.

ucpl_model <- "F=1-36"

Verinin ucpl_model modeli için parametre kestirimini aşağıdaki kodlarla elde edilmiştir. ucpl_uyum nesnesi içinden madde parametrelerini almak için ise coef() fonksiyonu IRTpars ve simplify argümanlarının ‘TRUE’ değerleriyle çalıştırılmıştır.

ucpl_uyum <- mirt(data = cevaplar, model = ucpl_model,itemtype = "3PL", 
                  SE = TRUE)
ucpl_par <- coef(ucpl_uyum, IRTpars = TRUE, simplify = TRUE)

ucpl_par$items
#>                 a           b           g u
#> madde1  0.7231758  2.99840617 0.210558212 1
#> madde2  0.9797597  0.23517777 0.018317968 1
#> madde3  0.7735475  1.99283323 0.348049852 1
#> madde4  1.0372291 -0.70619175 0.154260887 1
#> madde5  1.4836808  0.44323964 0.343064857 1
#> madde6  0.3955214  1.00660032 0.049013954 1
#> madde7  1.0411162 -0.08967321 0.492887905 1
#> madde8  0.9970241 -0.11871021 0.137335260 1
#> madde9  0.6845733 -0.46671970 0.007579538 1
#> madde10 1.8577212  0.10765787 0.630229527 1
#> madde11 0.9543156 -0.56873339 0.260302267 1
#> madde12 0.8823246  0.70228430 0.320106353 1
#> madde13 1.2447061 -0.37176621 0.233457718 1
#> madde14 1.2246649 -0.51463128 0.228997675 1
#> madde15 1.0378107 -0.95059232 0.249991987 1
#> madde16 0.7732436 -1.14796256 0.234648510 1
#> madde17 0.9573281 -0.46601934 0.268174589 1
#> madde18 1.3706653  0.21613165 0.198813120 1
#> madde19 0.9298586  0.19338589 0.319963434 1
#> madde20 1.0458535 -0.93488542 0.151761275 1
#> madde21 0.3567938 -6.29968979 0.156245195 1
#> madde22 1.4895968 -0.12158060 0.526542014 1
#> madde23 1.3878699 -0.19002334 0.149685712 1
#> madde24 1.2388765 -1.12401694 0.021421450 1
#> madde25 0.8147255 -1.14567234 0.452632883 1
#> madde26 0.8218188 -1.71543674 0.032852483 1
#> madde27 1.6667861 -0.74727062 0.165577535 1
#> madde28 1.7107209 -0.64185636 0.348453367 1
#> madde29 0.8995964 -1.70465448 0.048531522 1
#> madde30 0.8725494 -2.59703042 0.168740607 1
#> madde31 1.4627942 -0.98759696 0.484712593 1
#> madde32 0.8246522 -1.86266655 0.165650809 1
#> madde33 1.6164545 -0.97424610 0.102661881 1
#> madde34 0.7299263 -4.20586178 0.253092190 1
#> madde35 2.2364326 -0.34578838 0.873737735 1
#> madde36 1.5062196 -1.21179062 0.323713888 1

ucpl_par nesnesinin items bileşeninde 3PL modeli üst asimptot parametrelerini içermediğinden, u parametreleri 1’dir. İlk sütun, madde ayırt ayırtedicliği parametresini göstermektedir. Ayırt ediciliği en düşük madde, madde21; en yüksek madde ise madde35’tir. İkinci sütun, madde güçlük parametrelerini göstermektedir. En kolay maddenin -6.3 değeriyle madde21, en zor maddenin 2.998 değeriyle madde1 olduğu görülmektedir. c parametresinin en yüksek olduğu madde ise 0.874 değeriyle madde35’tir.

ucpl_uyum nesnesi içindeki ilk altı madde için ayrı ayrı MKE çizimi Şekil 5.13’te; ilk altı maddenin MKE’lerinin tek bir grafikte verilmesi ise Şekil 5.14’te yer almaktadır.

plot(ucpl_uyum, type = "trace", which.items = 1:6)

Şekil 5.13: 3PL model MKE

plot(ucpl_uyum, type = "trace", which.items = 1:6, facet_items = FALSE)

Şekil 5.14: 3PL model MKE

5.7.1 d parametresi

Sadece dört parametreli modelde yer alan $d_i$ parametresi, diğer adıyla üst asimptot parametresi, sınava giren bireyin yetenek düzeyinden bağımsız olarak doğru yanıt verme olasılığının 1’e (bir başka deyişle, %100) yaklaşmasını engelleyen bir tavan parametresi olarak tanımlanabilir. Bu parametre, yüksek yetenekli bir öğrencinin, yetenek düzeyine rağmen kolay bir maddeyi atlamasına/boş bırakmasına olanak tanır. Bir anlamda dikkatsizlik parametresi olarak da alınabilir ve MKE’de üst asimptota karşılık gelir.

5.8 Madde Tepki Kuramı Sayıltıları

MTK’da iki ana model varsayımı vardır. Bunlar tek boyutluluk ve yerel bağımsızlıktır. Tek boyutlulukta, tüm maddelerin tek bir sürekli gizil değişkeni ölçtüğü varsayılır. Tek boyutluluk varsayımını test etmenin farklı yolları vardır. Bu varsayımı karşılamak için test performansını etkileyen baskın bir bileşen veya faktör olduğunun gösterilmesi gerekir. Tek boyutluluk varsayımını kontrol etme yöntemleri arasında temel bileşenler analizi, açımlayıcı faktör analizi ve doğrulayıcı faktör analizi bulunmaktadır. Bu yöntemlerden boyutluluğu değerlendirmek için yaygın olarak kullanılan yöntemler olan faktör analizleri kitabın ilgili bölümlerinde açıklanmıştır.

Tek boyutluluk ve yerel bağımsızlığa ek olarak, madde ve yetenek parametrelerini kestirmeden önce kontrol edilmesi gereken birkaç varsayım vardır. Testin hız testi olmaması, yani tüm sınava girenlerin testteki maddeleri yanıtlamak için yeterli zamana sahip olması bunlardan biridir. Bunun yanında, 1PL ve 2PL MTK modellerinde, verilen bir maddeye doğru yanıtı tahmin etmenin, maddeyi doğru yanıtlama olasılığı üzerinde çok az veya hiç etkisi olmadığı varsayılır. Bu varsayım, örtük özellik düzeyi düşük olan adayların maddeyi doğru yanıtlama olasılığının çok düşük olacağını göstermektedir. Ek olarak 1PL model için testteki maddeler arasında madde ayırt ediciliğinin eşdeğer olduğu varsayılır. Bu varsayım, tüm maddelerde madde ayırt edicilik düzeyinin aynı olmasını sınırlar. MTK modelleri, modelin uygulandığı veriye ilişkin bazı sayıltıların (varsayımların) karşılanmasını gerektirir. Bunlardan biri uygun boyutluluk sayıltısıdır. Tek boyutlu MTK modellerinde, bir testi oluşturan maddelerin baskın bir yeteneğin ölçüsü olduğu varsayılır.

Tek boyutluluk sayıltısının yanı sıra karşılanması gereken diğer bir sayıltı monotoniklik sayıltısıdır. Bu sayıltı gizil yetenek ile maddelere verilen yanıtlar arasındaki ilişkiyi yansıtan MKE ile gözlenebilir. Bu sayıltıya göre yetenek düzeyi arttıkça maddenin doğru yanıtlanma olasılığının artması beklenmektedir. Dolayısıyla monotoniklik MKE’nin “S” şeklinde olmasını gerektir. Bir diğer sayıltı yerel bağımsızlık sayıltısıdır. Bağımsızlık kavramı, MTK’da iki değişken arasındaki ilişkiden söz ederken yararlanılan genel bir kavramdır. Yerel bağımsızlık, yetenek düzeyi kontrol altına alındığında, bir $i$ maddesini doğru ya da yanlış yanıtlama olasılığının aynı testteki bir $j$ maddesini doğru ya da yanlış yanıtlama olasılığından bağımsız olmasıdır.

Uygun boyutluluk, maddeler arasındaki istatistiksel bağımlılık terimiyle tanımlanır. Yerel bağımsızlık örtük özelliğe göre homojen olan herhangi bir alt evren için maddelerin istatistiksel bağımsız olması anlamına gelir. Tek boyutluluk ve yerel bağımlılık eşdeğer kavramlar değildir. Örneğin testteki madde çiftleri için yerel bağımsız olacak şekilde iki örtük özellik bulunuyorsa test iki boyutludur. Genel olarak bir testin boyutu yerel bağımsızlığı sağlamak için gerekli örtük özellik sayısına eşittir.

Sayıltıların uygulanabilirliği doğrudan belirlenemez, ancak dolaylı bazı kanıtlar toplanabilir ve değerlendirilebilir. Ayrıca modelin veriye genel uyumu da değerlendirilebilir.

Kavramsal olarak genel bir faktör tarafından hesaplanan ölçek puanlarındaki varyans yüzdesini yansıtan McDonald’s hiyerarşik Omega’sı boyutluluğu değerlendirmek amacıyla kullanılabilir. Bu değer psych paketinin (Revelle, 2024) omega() fonksiyonuyla hesaplanabilir.

library(psych)
sonuc <-  omega(cevaplar)

sonuc$alpha
#> [1] 0.7910163

sonuc$omega_h
#> [1] 0.6616854

Hiyerarşik omega olarak bilinen bir güvenilirlik ölçüsü, madde setinin çok boyutlu doğasına rağmen, tüm maddeleri etkileyen tek bir genel yapı nedeniyle toplam puan varyansının oranını temsil eder (Rodriguez, Reise ve Haviland, 2015). Bu nedenle, hiyerarşik omega, toplam puanın, çok boyutlu bir ölçekteki tüm maddeleri etkileyen genel bir faktör tarafından temsil edilen bir yapının güvenilir bir ölçüsünü olduğunu temsil eder. Örnekteki tek boyutlu veriden elde edilen toplam puanların omega güvenirlik katsayısı yaklaşık 0.67 olarak kestirilmiştir.

Madde çiftlerinin yerel bağımsızlığını kontrol etmek için ise Yen’in Q3 istatistiği (Yen, 1984) kullanılabilir. $i.$ ve $j.$ maddelerden elde edilen artıklar arasındaki korelasyon matrisi residuals() fonksiyonuyla elde edilmiştir.

Q3 <- residuals(birpl_uyum, type = 'Q3', method = 'ML')

Q3 nesnesi köşegene göre simetrik, 36x36 boyutunda bir matristir. Q3 nesnesi büyüklüğünden dolayı yazdırılmamıştır. Yen 0.20’den yüksek korelasyonlara problemli olarak yaklaşmayı tavsiye etmiştir. Aşağıdaki kodlarla ilk olarak Q3 matrisin alt köşegen değerleri eksik veri olarak değiştirilmiş, daha sonra 0.20’den yüksek olan korelasyon sayısı toplanmıştır.

Q3[lower.tri(Q3,diag = TRUE)] <- NA
sum(abs(Q3) > 0.2, na.rm = TRUE)
#> [1] 0

Bu örnekte 0.20’den yüksek korelasyonlara rastlanmadığı için yerel bağımlılık olmadığı söylenebilir.

Tek boyutluluk ve yerel bağımsızlık varsayımları makul bir dereceye kadar karşılandığında, bir sonraki adım belirli bir MTK modeli seçmek ve bunu yanıt verilerine uygulamaktır. Herhangi bir istatistiksel çalışmada olduğu gibi, seçilen MTK modeli ile madde yanıt verileri arasında tutarsızlıklar gözlemlemek mümkündür. Seçilen MTK modeline bir temel sağlamak üzere bu olası tutarsızlıkları belirlemek amacıya madde, birey ve model düzeyinde uyum iyiliği istatistikleri incelenebilir.

Veri model uyumunu değerlendirmek için ele alınabilecek ölçütler M2() fonksiyonuyla elde edilmektedir. Elde edilen değerler Tablo 5.1’de yer almaktadır.

library(knitr)
uyumdegerleri <- rbind(M2(birpl_uyum), 
                       M2(ikipl_uyum), 
                       M2(ucpl_uyum))
cbind(data.frame(Modeller = c("1PL", "2PL", "3PL")), uyumdegerleri) %>% 
  kable(caption = 'Uyum Değerleri', digits = 2, row.names = FALSE)

Tablo 5.1: Uyum Değerleri
Modeller	M2	df	p	RMSEA	RMSEA_5	RMSEA_95	SRMSR	TLI	CFI
1PL	1071.35	629	0.00	0.02	0.02	0.02	0.05	0.96	0.96
2PL	574.08	594	0.71	0.00	0.00	0.01	0.02	1.00	1.00
3PL	537.87	558	0.72	0.00	0.00	0.01	0.02	1.00	1.00

Üç model için de elde edilen değerler önerilen eşik değerleri olan RMSEA <= 0,06, SRMSR <= 0,08 kullanılarak verilerin modelin iyi uyum sağladığını göstermektedir.

Tüm maddelerin aynı düzeyde ayırt ediciliğe sahip olduğu varsayılarak 1PL modeli (veya Rasch modeli) diğer modellere (2PL, 3PL gbi) tercih edilebilir. Ancak maddelerin ayırt edicilik parametreleri önemli ölçüde farklılık gösteriyorsa, madde ayırt edicilik parametrelerinin tüm maddelerde eşit olmasını kısıtlamak doğru bir karar olmayabilir.

Aynı veriye farklı MTK modelleri uyum sağlayabilir ve bu modellerin uyumu ikişerli olarak karşılaştırılabilir. 1PL modeli ile 2PL modeli arasında yapılan karşılaştırmada, 2PL modelinin, model uyumu açısından 1PL modeline göre önemli bir katkı sağlayıp sağlamadığı belirlenmek üzere iki model anova() fonksiyonu kullanılarak karşılaştırılmıştır.

uyum1 <- anova(birpl_uyum, ikipl_uyum) 
cbind(data.frame(Modeller = c("1PL", "2PL")), uyum1)[,1:6] %>% 
  kable(caption = 'Uyum Değerleri', digits=2, row.names = FALSE)

Tablo 5.2: Uyum Değerleri
Modeller	AIC	SABIC	HQ	BIC	logLik
1PL	59533.67	59615.11	59607.56	59732.65	-29729.84
2PL	59135.57	59294.04	59279.35	59522.77	-29495.79

Birkaç farklı model uyum indeksi, AIC, SABIC ve BIC çıktıda sunulmaktadır. Bu uyum indeksleri ne kadar küçük olursa, model verilere o kadar iyi uyum sağlamaktadır. Çıktıda 2PL modeli için tüm uyum indekslerinin daha küçük olduğu görülmektedir. Buradan yapılacak çıkarım 2PL modelinin veri1 veri setine 1PL modelinden daha iyi uyduğudur.

2PL modeli ile 3PL modeli arasında yapılan karşılaştırma, Tablo 5.3’de sunulmuştur.

uyum2 <- anova(ikipl_uyum, ucpl_uyum) 
cbind(data.frame(Modeller = c("2PL", "3PL")), uyum2)[,1:6] %>% 
  kable(caption = 'Uyum Değerleri', digits = 2, row.names = FALSE)

Tablo 5.3: Uyum Değerleri
Modeller	AIC	SABIC	HQ	BIC	logLik
2PL	59135.57	59294.04	59279.35	59522.77	-29495.79
3PL	59150.42	59388.13	59366.09	59731.22	-29467.21

2PL ve 3PL model uyumları incelendiğinde ise 2PL için tüm uyum indekslerinin daha küçük olduğu görülmektedir. Desjardins ve Bulut (2018) daha fazla parametreye sahip modellerin genellikle verilere daha az parametreye sahip modellerden daha iyi uyma eğiliminde olduğu ve model uyum katsayılarının tek başına modelin seçilmesinde doğru karar vermeye yetmeyeceğini vurgulamaktadır. Model uyum indekslerinin yanında madde parametreleri ve standart hataları birlikte incelenmelidir. Ayrıca model uyumuyla birlikte madde uyum indeksleri mirt paketinin itemfit() fonksiyonuyla incelenebilir. Madde uyum indeksleri sırayla ilk altı madde için 1PL model, 2PL model ve 3PL model için sunulmuştur.

options(digits = 2)
# 1PL Model Madde Uyum Değerleri
birpl_if <- itemfit(birpl_uyum)
birpl_if[,2:5] <- round(birpl_if[,2:5], 2)
names(birpl_if ) <- c("item", "X2", "sd", "RMSEA", "p")
head(birpl_if)
#>     item     X2 sd RMSEA    p
#> 1 madde1  97.92 21  0.05    0
#> 2 madde2  17.24 22  0.00 0.75
#> 3 madde3 114.61 22  0.05    0
#> 4 madde4  14.68 22  0.00 0.88
#> 5 madde5  27.46 21  0.01 0.16
#> 6 madde6  66.61 22  0.04    0

# 2PL Model Madde Uyum Değerleri
ikipl_if <- itemfit(ikipl_uyum)
ikipl_if[,2:5] <- round(ikipl_if[,2:5], 2)
names(ikipl_if ) <- c("item", "X2", "sd", "RMSEA", "p")
head(ikipl_if)
#>     item    X2 sd RMSEA    p
#> 1 madde1 15.73 22  0.00 0.83
#> 2 madde2  13.3 20  0.00 0.86
#> 3 madde3 25.99 23  0.01  0.3
#> 4 madde4 12.68 21  0.00 0.92
#> 5 madde5 23.11 21  0.01 0.34
#> 6 madde6 12.15 22  0.00 0.95

# 3PL ModelMadde Uyum Değerleri
ucpl_if <- itemfit(ucpl_uyum)
ucpl_if[,2:5] <- round(ucpl_if[,2:5], 2)
names(ucpl_if ) <- c("item", "X2", "sd", "RMSEA", "p")
head(ucpl_if)
#>     item    X2 sd RMSEA    p
#> 1 madde1 15.96 21  0.00 0.77
#> 2 madde2 14.22 19  0.00 0.77
#> 3 madde3 25.75 22  0.01 0.26
#> 4 madde4 12.62 20  0.00 0.89
#> 5 madde5 20.04 21  0.00 0.52
#> 6 madde6 10.54 21  0.00 0.97

Üç modelin uyum indeksleri birlikte incelendiğinde $\chi^2$ değerlerinin ve RMSEA değerlerinin 1PL modelde en yüksek olduğu, bu değerlerin maddelerin çoğunda en küçük olduğu modelin 2PL olduğu görülmektedir. Model veri uyumu değerlendirilirken model-veri uyumu, madde uyum değerleri ve madde parametreleri birlikte ele alınmalıdır.

5.9 Yetenek Parametresi Kestirimi

MTK modellerinde başlıca üç yöntemle yetenek kestirilir:

Maksimum Likelihood (ML)
Maksimum a Posteriori (MAP)
Expected/estimated a Posteriori (EAP)

Bu yöntemlerde örtük özelliğin ortalamasının 0, standart sapmasının 1 olduğu normal dağılım gösterdiği kabul edilir. Yetenek kestirimin anlaşılması için birkaç temel varsayımının akılda tutulması önemlidir. İlk olarak, kovaryans yapısı modellerinde (DFA, YEM) olduğu gibi, MTK modellemesindeki gizil değişkenin metriği/ölçeği keyfidir. Araştırmacılar bunu genellikle, gizil özellik dağılımının normal olduğunu varsayarak ve ardından madde kalibrasyonu sırasında gizil özellik dağılımının ortalamasını 0’a ve standart sapmasını 1.0’a sabitleyerek çözmektedir. Madde parametreleri bu yetenek dağılımın doğruluğu altında kabul edilmektedir. Madde ve yetenek parametreleri yorumlanırken bu varsayım akılda tutulmalıdır.

Log-likelihood fonksiyonunun grafiksel kestirimi çok maddeli testlerde her zaman kolay olmamaktadır. Fonksiyonun maksimum değerini bulmak için en çok kullanılan yöntem Newton-Raphson yöntemidir. Bu yöntemde her öğrencinin log-likelihood fonksiyonunun modu bulunmaktadır.

İlk önce $\theta$’nın başlangıç değeri saptanır. Bu değer 0 alınabilir ya da öğrencinin yanıt örüntüsünden yola çıkılarak bir başlangıç değeri kestirilir.
$\theta$ değerleri belirlendikten sonra her madde için $P(\theta)$ hesaplanır.
$P(\theta)$ değerleri log-likelihood fonksiyonunda yerine konularak fonksiyonun birinci ve ikinci türevi hesaplanır.
Birinci türev fonksiyonu ikinci türev fonksiyonuna bölünerek $\epsilon$ oranı hesaplanır.
Önceki yetenek düzeyinden bu oran çıkartılarak yeni yetenek düzeyi bulunur.
Bu işlem, ϵ önceden belirlenen çok küçük bir değer (.01 gibi) alıncaya kadar devam eder.

ML kestiricisi yansızdır yani $\theta$’nın beklenen değeri gerçek değerine eşittir. Etkili bir kestirici olup, hataları normal dağılır. ML kestiricisinin olumsuz yanları da vardır. Maddelerin tümü doğru ya da tümü yanlış yanıtlandığında kestirimde bulunamaz. Verilerin modele uygun olduğu varsayımı altında kestirim yapar. 20’den az madde içeren testlerde 3PL modelde uygun bir çözüm vermeyebilir.

MAP kestirimi Bayesian kestirim yöntemidir. Bu yöntemde log-likelihood fonksiyonuna ek olarak sonsal bilgiler de parametre olarak ele alınır. MAP kestirimi, tüm yanıtların 1 ve 0 olduğu durumlarda da sonuç verir ve kestirimler gerçek değere oldukça yakındır. Ancak madde sayısının azlığı MAP kestirimini de olumsuz yönde etkiler. Test ne kadar kısa olursa, önsel dağılım yetenek kestirimini o kadar çok etkilemiş olur. Uzun testlerde önsel dağılımın etkisi log-likelihood fonksiyonu tarafından bastırılır ve yetenek kestirimindeki etkisi azalır. Madde sayısı 20’den az olduğunda MAP kestirimi yanlı olabilir.

EAP, diğer yöntemlerin tersine iteratif değildir. Tüm maddeler 1 ya da 0 olarak işaretlense bile tüm modellerde bir yetenek kestirimi yapar. EAP, mod yerine ortalamayı bularak türetilen bir Bayesian kestirimidir. Her madde seti için önceden belirlenmiş q değerlerine ait olasılık ya da ağırlık hesaplanır. Bu belli sayıdaki q değerlerine quadrature nodes adı verilir.

EAP ve MAP’de önsel bilgi kullanıldığı için standart hataları benzerdir. Tek farklılık EAP’da önsel dağılımın ortalaması kullanılırken, MAP’de modun kullanılmasıdır. EAP iteratif olmadığı için daha hızlı hesaplanabilir. EAP ile türev hesaplamak gerekmez.

Madde sayısı az olduğunda EAP kestirimi yanlı olur. Madde sayısı az olduğunda, yetenek kestiriminin değeri ortalamaya doğru çekilir. ML’ye göre avantajları ise, iteratif olmaması, kolay hesaplanabilmesi, ortalama kareler kestiriminin minimum olması, tüm yanıt örüntüleri için bir yetenek kestirimi vermesidir. Olumsuz yanı, kestirimin yanlı olmasıdır. Madde sayısı fazla olsa bile, yetenek kestirimi ortalamaya doğru çekilir. Madde sayısının ne kadar olması gerektiğine ilişkin bir bulgu yoktur.

Bireylerin yetenek düzeylerinin kestirimleri mirt paketinde bulunan fscores() fonksiyonuyla hesaplanabilir. fscores() fonksiyonunun birinci argümanı object(nesne) olup bu argümanın değeri mirt() fonksiyonunun çıktısı olarak kaydedilen nesnelerdir. Kestirim yönteminin türü method argümanıyla maksimum olabilirlik (ML) olarak belirlenmiştir. full.scores.SE argümanı için de TRUE değeri seçilerek kestirimlerin standart hataları istenebilir. İlk olarak üç yöntemle yapılan kestirimin kodları aşağıda verilmiştir.

ML <- fscores(ikipl_uyum, method = "ML", full.scores.SE = TRUE)
MAP <- fscores(ikipl_uyum, method = "MAP", full.scores.SE = TRUE)
EAP <- fscores(ikipl_uyum, method = "EAP", full.scores.SE = TRUE)

Oluşan kestirim sonuçlarının ilk 6 satırı listelenmiştir.

# ML sonuclar
head(ML)
#>               F      SE_F
#> [1,]  0.5599803 0.5473369
#> [2,]  0.4045376 0.5221412
#> [3,] -0.8864927 0.3973003
#> [4,] -0.6120328 0.4108697
#> [5,]  1.0400632 0.6394085
#> [6,] -1.0927787 0.3919289

# MAP sonuclar
head(MAP)
#>               F      SE_F
#> [1,]  0.4346917 0.4661220
#> [2,]  0.3195776 0.4538243
#> [3,] -0.7643577 0.3733384
#> [4,] -0.5225621 0.3847680
#> [5,]  0.7581975 0.5034537
#> [6,] -0.9462930 0.3676326

# EAP sonuclar
head(EAP)
#>               F      SE_F
#> [1,]  0.4852553 0.4731825
#> [2,]  0.3666140 0.4607247
#> [3,] -0.7500945 0.3787693
#> [4,] -0.5011389 0.3904647
#> [5,]  0.8185055 0.5107978
#> [6,] -0.9373180 0.3728831

Üç yöntemle elde edilen kestirim sonuçları yetenek adlı bir veri setinden birleştirilmiştir. Daha sonra her bir kestirime ilişkin istatistikler yazdırılmıştır.

# kestirimlere ilişkin istatistikler
yetenek <- data.frame(ML = ML[,1], MAP = MAP[,1], EAP = EAP[,1])
apply(yetenek, 2, summary)
#>                  ML         MAP           EAP
#> Min.    -2.79732397 -2.30660110 -2.3328573421
#> 1st Qu. -0.74220492 -0.63703239 -0.6190149456
#> Median  -0.01686211 -0.01386574  0.0229439316
#> Mean            Inf -0.03658493 -0.0004996339
#> 3rd Qu.  0.79298423  0.59802695  0.6535557412
#> Max.            Inf  1.97182535  2.0577805957

ML kestirimde tüm maddeleri doğru ya da tüm maddeleri yanlış yanıtlayan bireyler için yetenek kestirimi yapılamadığından sonuçlar alınamamıştır. Aşağıdaki kodlarla kestirim yapılamayan satırlar çıkarılarak istatistikler tekrar yazdırılmıştır.

# kestirimde hesaplamayan degerler çıkarılarak elde edilen istatistikler
yetenek_v1 <- yetenek[!is.infinite(yetenek$ML),]
apply(yetenek_v1, 2, summary)
#>                  ML         MAP          EAP
#> Min.    -2.79732397 -2.30660110 -2.332857342
#> 1st Qu. -0.74469775 -0.63922944 -0.621277098
#> Median  -0.01918142 -0.01577587  0.020975416
#> Mean     0.10065963 -0.04035777 -0.004366159
#> 3rd Qu.  0.78906337  0.59537470  0.650823449
#> Max.     5.80740740  1.85395223  1.938739434

Yetenek kestirimleri arasındaki korelasyonlar aşağıdaki kod satırıyla hesaplanmıştır.

# yetenek kestirimleri arasındaki korelasyon
cor(yetenek_v1)
#>            ML       MAP       EAP
#> ML  1.0000000 0.9650090 0.9647754
#> MAP 0.9650090 1.0000000 0.9999994
#> EAP 0.9647754 0.9999994 1.0000000

Yetenek kestirimleri arasındaki ilişki saçılım garfiğiyle sunulmuştur (Şekil 5.15).

# Saçılım Grafiği 
pairs(yetenek_v1)

Şekil 5.15: Farklı Yöntemlerle Elde Edilen Yetenek Kestirimleri Arasındaki İlişki

5.10 Madde ve Test Bilgi Fonksiyonu

Teknik olarak, bilgi bir parametre kestiriminin standart hatasının tersiyle ilişkili bir değerdir. Yüksek bilgi değeri parametre kestirimi hakkında daha fazla bilgiye sahip olunduğunu belirtir. MTK’da bilgi birey yeteneğini kestirmek için kullanılan maddelerin toplamından elde edilen bilgiyi ifade eder. Bilginin miktarı yetenek değerine bağlıdır, bu nedenle test bilgi fonksiyonu olarak adlandırılır. Bilgi miktarı uygulamada test düzeyinde değerlendirilir. Ancak bilgi madde düzeyinde elde edilir ve test bilgi fonksiyonu $I_T(\theta)$ madde bilgi fonksiyonlarının $I_i(\theta)$ toplamıdır ve Eşitlik (5.6) ile hesaplanır.

\[ I_T(\theta)=\sum{I_i(\theta)} \tag{5.6} \]

Bireysel maddelerin teste katkısının miktarı testteki diğer maddelerin bilgisi olmadan belirlenebilir. Bu klasik test kuramında mümkün değildir. Örneğin, güvenirlik veya madde ayırt ediciliği testteki maddelerin geri kalanından bağımsız olarak belirlenemez. Testteki madde sayısı daha fazlaysa, daha yüksek test bilgi fonksiyonu elde edilir.

1PL modelde, bir $i$ maddesi için belli bir yetenek düzeyine ( $\theta$ değerine) ilişkin bilgi miktarı, $I_i (\theta)$, Eşitlik (5.7) ile elde edilir.

\[ I_i(\theta)=P_i(\theta)*Q_i(\theta)\tag{5.7} \]

\[Q_i(\theta)=1-P_i(\theta)\]

Eşitlik (5.7)’de $P_i(\theta)$ maddeyi doğru yanıtlama olasılığı, $Q_i(\theta)$ maddeyi yanlış yanıtlama olasılığı olup madde bilgi değeri bu iki olasılığın çarpımına eşittir.

Örneğin 1PL model kurularak madde güçlük değeri 1.2 olarak kestirilmiş olan bir maddenin, $\theta = 1.0$ yetenek düzeyindeki bir birey için verdiği bilgi değerini hesaplamak için öncelikle Eşitlik (5.3) kullanılarak bireyin maddeyi doğru yanıtlama olasılığı aşağıdaki gibi hesaplanmalıdır.

\[P_i(\theta)=\frac{1}{1+exp[-(\theta-b_i)}\]

\[P_i(1) = \frac{1}{1+exp[-(1.0-1.2)} = 0.45\]

$\theta = 1.0$ yetenek düzeyinde bir bireyin, madde güçlük değeri 1.2 olan bir maddeyi doğru yanıtlama olasılığı yaklaşık 0.45 olarak hesaplanmıştır. Bu durumda bireyin maddeyi yanlış yanıtlama olaslığı yaklaşık 1-0.45 = 0.55’tir. Daha sonra Eşitlik (5.8) kullanılarak maddeye ilişkin bilgi düzeyi aşağıdaki gibi hesaplanabilir.

$I_i(\theta)=0.45*(1-0.45)=0.248$

Maddenin $\theta = 1.0$ yetenek düzeyinde verdiği bilgi düzeyi yaklaşık 0.248 olarak hesaplanmıştır. Verilen örnek için yapılan hesaplamalar aşağıdaki kodlarla gerçekleştirilmiştir.

p <- 1/(1+exp(-(1-1.2)))
p*(1-p)
#> [1] 0.2475166

2PL modelde, bir $i$ maddesi için belli bir yetenek düzeyine ($\theta$ değerinde) ilişkin bilgi miktarı, $I_i (\theta)$, Eşitlik (5.8) ile elde edilir. $i$ maddesi için belli bir yetenek düzeyinde ( $\theta$ değerinde) bilgi miktarı 2PL model için Eşitlik (5.8) ile elde edilir.

\[ I_i(\theta)=a_i^2P_i(\theta)*Q_i(\theta)\tag{5.8} \]

Eşitlik (5.8)’de madde bilgi değeri maddeyi doğru yanıtlama olasılığı ile maddeyi yanlış yanıtlama olasılığının $a$ parametresinin karesiyle çarpımına eşittir.

Örneğin 2PL model kurularak madde güçlüğü 1.2 ve madde ayırt ediciliği 0.8 olarak kestirilmiş olan bir maddenin $\theta = 1.0$ yetenek düzeyindeki bir birey için verdiği bilgiyi hesaplamak için öncelikle Eşitlik (5.4) kullanılarak bireyin maddeyi doğru yanıtlama olasılığı hesaplanmalıdır. Bu örnek için hesaplamalar aşağıdaki kodlarla gerçekleştirilmiştir.

b <- 1.2
a <- 0.8
p <- 1/(1+exp(-(0.8*(1-1.2))))
a^2*p*(1-p)
#> [1] 0.1589804

3PL modelde, bir i maddesi için belli bir yetenek düzeyine ($\theta$ değerine)ilişkin bilgi miktarı Eşitlik (5.9) ile elde edilir.

\[ I_i(\theta)=a_i^2 \frac{Q_i(\theta)}{P_i(\theta)}[\frac{P_i(\theta)- c_i}{1-c_i}]^2 \tag{5.9} \]

Eşitlik (5.9)’da madde bilgi değerinin hesaplanmasına $c$ parametresi de dahil edilir.

Örneğin 3PL modelde madde güçlüğü 1.2, madde ayırt ediciliği 0.8 ve sahte tahmin parametresi 0.2 olarak kestirilmiş olan bir maddenin $\theta = 1.0$ yetenek düzeyindeki bir birey için verdiği bilgiyi hesaplamak için öncelikle Eşitlik (5.5) kullanılarak bireyin maddeyi doğru yanıtlama olasılığı hesaplanmalıdır. Bu örnek için hesaplamalar aşağıdaki kodlarla gerçekleştirilmiştir.

b <- 1.2
a <- 0.8
c <- 0.2
p <- c+((1-c)/(1+exp(-(a*(1-b)))))
a^2*((1-p)/p)*((p-c)/(1-c))^2
#> [1] 0.1030081

$i$ maddesi için maksimum bilgi farklı MTK modellerinde aşağıdaki yetenek düzeylerinde ( $\theta$ değerlerinde) elde edilir:

1-PL model için $\theta=b_i$

2-PL model için $\theta=b_i$

3-PL model için $\theta=b_i+\frac{1}{Da_i}[ln\frac{1+\sqrt{1+8c_i}}{2}]^2$

Verilen örnek için sırasıyla 1PL, 2PL ve 3PL modellerde aşağıdaki kodlarla önce [-4, 4] yetenek düzeyi aralığında maddeyi doğru yanıtlama olasılıkları sonra madde bilgi değerleri hesaplanmıştır. Her model için maddeye ilişkin maksimum bilginin elde edildiği yetenek değerleri aşağıdaki kodlarla hesaplanmıştır.

b <- 1.2
a <- 0.8
c <- 0.2
theta <- seq(-4, 4, 0.01)
prob_1PL <- c(); prob_2PL <- c(); prob_3PL <- c()
for(j in 1:length(theta)){
  dir1 <- 1/(1+exp(-(theta[j]-b)))
  prob_1PL[j] <- dir1
  dir2 <-1/(1+exp(-(a*(theta[j]-b))))
  prob_2PL[j] <- dir2
  dir3 <-  c+((1-c)/(1+exp(-(a*(theta[j]-b)))))
  prob_3PL[j] <- dir3
  j=j+1
}
bilgi_1PL=prob_1PL*(1-prob_1PL)
bilgi_2PL=a^2*prob_2PL*(1- prob_2PL)
bilgi_3PL=a^2*((1-prob_3PL)/prob_3PL)*((prob_3PL-c)/(1-c))^2
bilgi <- data.frame(theta, bilgi_1PL, bilgi_2PL, bilgi_3PL)
bilgi <- gather(bilgi, key = "Model" ,"Bilgi", -theta )
bilgi  %>% 
  group_by(Model) %>% 
  summarise(MaksimumBilgi = max(Bilgi))
#> # A tibble: 3 × 2
#>   Model     MaksimumBilgi
#>   <chr>             <dbl>
#> 1 bilgi_1PL         0.25 
#> 2 bilgi_2PL         0.16 
#> 3 bilgi_3PL         0.109

Elde edilen değerlerin üç model için madde bilgi fonksiyonları çizdirilmiştir (Şekil 5.16).

library(tidyverse)
ggplot(bilgi, aes(theta, Bilgi)) + 
  facet_wrap(~Model) +
  geom_line()

Şekil 5.16: Madde

Madde bilgi fonksiyonları mirt paketinde bulunan iteminfo() fonksiyonuyla elde edilebilir. Bölüm içerisinde kullanılan verinin 2PL modele en iyi uyum sağladığı belirlenmişti. Bu modelde madde9’un bilgi fonksiyonu aşağıdaki kodlarla elde edilmiş olup çizdirilen Şekil 5.17’de verilmiştir.

madde9 <- extract.item(ikipl_uyum, 9)
theta <- matrix(seq(-4, 4, by = .1))
info_madde9 <- iteminfo(madde9, theta)
plot(theta, info_madde9, type = 'l', main = "Madde Bilgi\n")

Şekil 5.17: Madde 9 Bilgi Fonksiyonu

Test bilgi fonksiyonu ise mirt paketinde bulunan testinfo() fonksiyonuyla elde edilebilir. Bölüm içerisinde kullanılan verinin ikipl_uyum nesnesinden elde edilden test bilgi fonksiyonu aşağıdaki kodlarla elde edilmiştir ve çizdirilen Şekil 5.18’de sağlanmıştır.

Theta <- matrix(seq(-4, 4, .01))
tinfo <- testinfo(ikipl_uyum, Theta)
plot(Theta, tinfo, type = 'l', main = "Test Bilgi\n")

Şekil 5.18: Test Bilgi Fonksiyonu

Bölüm atıf bilgisi: Atalay-Kabasakal, K. (2025). Madde tepki kuramı. N. Güler, B. Atar & K. Atalay-Kabasakal (Ed.), R ile psikometri içinde. Pegem Akademi.

Kaynaklar

Angoff, W. (1982). Summary and derivation of equating methods used at ETS. P. Holland ve D. Rubin (Ed.), Test equating içinde. New York: Academic Press.

Choi, Y. J. ve Asilkalkan, A. (2019). R packages for item response theory analysis: Descriptions and features. Measurement: Interdisciplinary Research and Perspectives, 17(3), 168-175. doi:10.1080/15366367.2019.1586404

Desjardins, C. D. ve Bulut, O. (2018). Handbook of educational measurement and psychometrics using R. Chapman; Hall/CRC. doi:10.1201/b20498

Embretson, S. E. ve Reise, S. P. (2000). Item response theory. London, UK: Erlbaum Publishers.

Gulliksen, H. (1950). Theory of mental tests. John Wiley & Sons Inc. https://doi.org/10.1037/13240-000 adresinden erişildi.

Lord, F. M. ve Novick, M. R. (1986). Statistical theories of mental test scores (1nd bs.). Addison-Wesley, Menlo Park.

Macdonald, P. ve Paunonen, S. V. (2002). A Monte Carlo comparison of item and person statistics based on item response theory versus classical test theory. Educational and Psychological Measurement, 62(6), 921-943. doi:10.1177/0013164402238082

Partchev, I. ve Maris, G. (2022). irtoys: A collection of functions related to item response theory (IRT). https://CRAN.R-project.org/package=irtoys adresinden erişildi.

Petersen, N. S., Marco, G. L. ve Stewart, E. E. (1982). A test of the adequacy of linear score equating models. P. W. Holland ve D. B. Rubin (Ed.), Test Equating içinde (ss. 71-135). New York: Academic Press Inc.

Revelle, W. (2024). psych: Procedures for psychological, psychometric, and personality research. https://CRAN.R-project.org/package=psych adresinden erişildi.

Rizopoulos, D. (2006). Ltm: An R package for latent variable modelling and item response theory analyses. Journal of Statistical Software, 17. https://doi.org/10.18637/jss.v017.i05 adresinden erişildi.

Rodriguez, A., Reise, S. P. ve Haviland, M. G. (2015). Applying bifactor statistical indices in the evaluation of psychological measures. Journal of Personality Assessment, 98(3), 223-237. doi:10.1080/00223891.2015.1089249

Wickham, H. (2016). ggplot2: elegant graphics for data analysis. https://ggplot2.tidyverse.org adresinden erişildi.

Willse, J. T. (2018). CTT: Classical Test Theory Functions. https://CRAN.R-project.org/package=CTT adresinden erişildi.