Bölüm 2 Klasik Test Kuramı, Güvenirlik ve Geçerlik

Dr. Derya Çobanoğlu Aktan

Bir test aynı bireylere benzer koşullar altında tekrar uygulandığında bireylerin testlerden benzer sonuçlar alması beklenir. Ancak bir grup öğrenciye örneğin okuduğunu anlama testinin iki alternatif formu uygulandığında bazı öğrencilerin puan sıralaması ölçme sonuçlarına karışan hatalardan dolayı muhtemelen aynı olmayacaktır. Ölçme sonuçlarına karışan hatalar, uzun zamandan bu yana bilim insanlarının ilgisini çekmiştir.

Klasik test kuramı (KTK) çerçevesinde; hatalar, gözlenen puanlar ve gerçek puanlar arasındaki ilişki matematiksel olarak ortaya koyulur. Bu çerçevede güvenirlik, ölçme araçlarından elde edilen puanlara karışan hatalardan arınıklık derecesi ve duyarlılık olarak tanımlanır (Brennan, 2001). Puanlar, ölçme hatalarından ne kadar arınık ise ölçme işlemi tekrarlandığında o düzeyde tutarlı sonuçlar elde edilecektir. KTK, modelleme yoluyla ve belirli varsayımlar altında güvenirliğin kestirilmesine imkân tanır. Bu kısımda bu modelin bileşenleri ve güvenirlik kestiriminde rol alan varsayımlar açıklanmıştır.

2.1 Klasik Test Kuramı

Crocker ve Algina (1986)’nın aktarımına göre KTK çerçevesinde geliştirilen klasik gerçek puan modeli, ilk olarak 1904 yılında Spearman’ın korelasyona olan ilgisiyle ortaya çıkmıştır (Spearman, 1904). Spearman’ın modelinde; test puanları, bireylerin özelliklerinin bir miktar hata içeren ölçümlerine dayanır. Modele göre gözlenen puanlar hata içerdiği için mükemmel ölçümler gerçekleştirilemez. İlerleyen yıllarda model, Gulliksen (1950) ve Lord ve Novick (1986) tarafından gözden geçirilmiş ve genişletilmiştir. Klasik gerçek puan modeline göre gözlenen puan, gerçek puan ve hata arasındaki ilişki, Eşitlik (2.1)’deki gibi tanımlanır.

\[ X_i=T_i+E_i \tag{2.1} \] Eşitlikte; \(X_i\): i bireyinin gözlenen puanı, \(T_i\): i bireyinin gerçek puanı, \(E_i\): i bireyinin hata puanıdır.

2.1.1 Gerçek Puanın Tanımı

KTK’da gözlenen puanlar rastgele değişkendir. Rastgele değişken, bir dizi olasılığa göre değer alan değişkendir. Bir bireyin test puanı, varsayımsal puan dağılımından (aynı bireye bir testin unutturulup tekrar uygulanması durumunda elde edilebilecek) rastgele bir değişken olarak düşünülebilir. Beklenen değer ise bir rastgele değişkenin ortalama değerine karşılık gelir.

Bir test bir bireye tekrar uygulandığında bireyin testi hatırlamadığı, yani test puanlarının önceki uygulamalardan etkilenmediği ancak puanlara karışabilecek hata miktarı bu uygulamalarda farklılaştığı için test puanlarının bir dağılım gösterdiği farz edilirse bireyin test puanı bu puanların dağılımından rastgele bir değişken olarak düşünülebilir.

Gözlenen test puanı \(X_i\) rastgele bir değişken olarak ele alındığında, i bireyi için gerçek puan, bu değişkenin beklenen değeri olarak, Eşitlik (2.2)’deki gibi tanımlanır.

\[ T_i=\varepsilon(X_i)=\mu_{X_i} \tag{2.2} \] Eşitlikte \(\varepsilon(X_i)\), \(X_i\) rastgele değişkeninin beklenen değeridir. Bu beklenen değer, i bireyinin bir testten alabileceği olası tüm test puanlarının ortalaması olarak düşünülebilir. Bu durumda bireyin gerçek puanı, aynı testle sonsuz sayıda tekrarlanan uygulamalardan elde edilen gözlenen puanların ortalamasıdır. Ancak bu durum kuramsaldır ve gerçekte sonsuz sayıda birbirinden bağımsız tekrarlı ölçümler elde edilemez.

2.1.2 Hatanın Tanımı

Ölçme hatası, bir bireyin gözlenen test puanı ile gerçek puanı arasındaki tutarsızlıktır. Bir i bireyinin puanındaki hata, \(E_i\), Eşitlik (2.3) ile ifade edilir:

\[ E_i=X_i-T_i \tag{2.3} \] Crocker ve Algina (1986), \(X_i\), i bireyi için rastgele bir değişken ve \(T_i\) bu birey için sabit olduğundan aradaki farkın yani \(E_i\)’nin rastgele bir değişken olduğunu belirtir. İleriki kısımlarda \(E_i\)’nin beklenen değeri, KTK’nın varsayımları kapsamında tanımlanacaktır.

Kavramsal olarak hata, sistematik ve tesadüfi olmak üzere ikiye ayrılır. Sistematik hatalar, bireyin testle ölçülmesi istenilen (amaçlanan) yapıyla ilgisi olmayan bazı özellik ya da özellikler nedeniyle bireyin puanını sürekli olarak etkileyen hatalardır. Testler tekrarlanırsa bireyin puanında benzer hatalar hep bulunacaktır ve bu durumda bireyin test puanları tutarlı bir şekilde yüksek veya düşük olacaktır. Diğer taraftan tesadüfi hatalar şüphesiz her seferinde farklı olacak, muhtemelen tekrarlanmayacaktır. Tesadüfi hatalar tamamen şans eseri meydana geldiği için bireysel puanlarını tutarsız bir biçimde etkiler. Bunlar bir bireyin puanını pozitif ya da negatif yönde etkileyebilir. Tesadüfi hataların kaynakları arasında yanıtın tahmin edilmesi, sınav ortamındaki dikkat dağıtıcı unsurlar, uygulama hataları, içerik örnekleminden kaynaklı hatalar, puanlama hataları ve bireyin durumundaki dalgalanmalar yer alır. Bireylerin durumlarındaki dalgalanmalar genel test performansını etkileyecek kadar genel olabileceği gibi (baş ağrısının bir sınav katılımcısının tüm maddelerdeki performansını etkilemesi gibi) çok kısa ve spesifik de olabilir (bir soruyu yanlış okumak, bir matematik problemini yanıt kağıdına yanlış aktarmak, vb gibi).

Hem sistematik hem de tesadüfi hatalar puanların yorumlamasında göz önünde bulundurulmalıdır. Sistematik hatalar test puanlarında tutarsızlığa yol açmaz, ancak puanların yanlış yorumlanmasına neden olabilir. Tesadüfi hatalar ise test puanlarının tutarlılığını azaltır. Sadece tesadüfi hatalar güvenirliği etkiler.

2.1.3 Varsayımlar

KTK’da güvenirlik kestirimine geçebilmek için kuramın bazı varsayımları ele alınmalıdır. Bu varsayımlar, çeşitli kaynaklara göre farklılık göstermektedir. Crocker ve Algina (1986)’da üç varsayımdan bahsedilirken Price (2016)’da ise altı varsayım listelenmektedir. Price (2016)’da yer verilen varsayımlardan biri gerçek puanın tanımını, diğeri ise paralel testin tanımını içerdiği için burada yer verilmemiştir. KTK’nın varsayımları aşağıdaki gibidir:

1. Bireylerin (grup) hata puanlarının ortalaması 0’dır \((\mu_{E}=0)\).

2.Bireylerin (grup) gerçek puanları ile hata puanları arasındaki korelasyon 0’dır \((\rho_{{TE}}=0)\).

3. Bireylerin iki ayrı testteki (veya aynı testin iki ayrı oturumundaki) puanlarının hata puanları arasındaki korelasyon 0’dır \((\rho_{E_1E_2}=0)\).

4. Bir testteki hata puanları ile diğer bir testteki gerçek puanlar arasındaki korelasyon sıfırdır.

Varsayım 1: Bireylerin (grup) hata puanlarının ortalaması 0’dır \((\mu_{E}=0)\).

Birey için hata puanı, gözlenen puan ve gerçek puan arasındaki fark olduğundan, i bireyinin hata dağılımının ortalaması, beklenen değer kullanılarak, Eşitlik (2.4) ile ifade edilebilir.

\[ \mu_{E_i}=\varepsilon(E_i)=\varepsilon(X_i-T_i) \tag{2.4} \]

\[ \varepsilon(E_i)=\varepsilon(X_i)-\varepsilon(T_i) \tag{2.5} \] Gerçek puan sabit olduğu için gerçek puanın beklenen değeri kendisine eşittir.

\[ \varepsilon(E_i)=\varepsilon(X_i)-T_i \tag{2.6} \]

Burada \(\varepsilon(X_i)=T_i\) olduğu için

\[ \varepsilon(E_i)=T_i-T_i=0 \tag{2.7} \]

Yani bireyin tekrarlı ölçümlerdeki hatalarının ortalaması sıfırdır.

Birey puanı için yapılan işlemler, bu bireylerden oluşan grup puanları için de genişletilebilir. Bu amaçla grup için hataların ortalaması çift beklenti operatörüyle ifade edilirse;

\[ \mu_E=\varepsilon(\varepsilon(E_i)) \tag{2.8} \]

Burada \(\varepsilon(E_i)=0\) olduğu için

\[ \mu_E=\varepsilon(0)=0 \tag{2.9} \]

olarak elde edilir.

Varsayım 2: Bireylerin (grup) gerçek puanları ile hata puanları arasındaki korelasyon 0’dır \((\rho_{ET}=0)\).

Bu varsayım, hatalar tesadüfi dağıldığı için, puanları düşük veya yüksek olan bireylerin sistematik olarak yüksek veya düşük ölçme hataları göstermediğini belirtir. Gerçek puanlar ile hata puanları arasındaki korelasyon sıfır olduğundan gözlenen puan varyansı, gerçek puan varyansı ve hata puanı varyansının toplamı olarak Eşitlik (2.10)’daki gibi ifade edilir.

\[ \sigma_X^2=\sigma_T^2+\sigma_E^2 \tag{2.10} \] Eşitlikte; \(\sigma_X^2\): gözlenen puan varyansı, \(\sigma_T^2\): gerçek puan varyansı, \(\sigma_E^2\): hata puanı varyansıdır.

Varsayım 3: Bireylerin iki ayrı testteki puanlarının, hata puanları arasındaki korelasyon 0’dır \((\rho_{E_1E_2}=0)\).

\(\rho_{E_1E_2}\) test 1 ve test 2’nin tesadüfi ölçme hataları arasındaki gruplar için korelasyonudur. Bu varsayımın açıklaması olarak Price (2016) tesadüfi hataların doğasından dolayı (yani iki hata da tesadüfi olduğu için) aralarında ilişki olmadığını yani korelasyonun sıfır olduğunu belirtir.

Varsayım 4: Varsayım 2’den biraz farklı olarak bu varsayımda farklı iki teste atıfta bulunulmaktadır. Yani bir testteki hata puanları ile diğer bir testteki gerçek puanlar arasındaki korelasyon sıfırdır. \((\rho_{E_1T_2}=0)\). \(\rho_{E_1T_2}\) test 1’in gerçek puanı ve test 2’nin tesadüfi ölçme hataları arasındaki gruplar için korelasyondur.

2.1.4 Gerçek Puan Eşdeğerliği, Temelde Gerçek Puan Eşdeğerliği ve Konjenerik Testler

Gözlenen ve gerçek puan ortalamalarının eşdeğer olduğu ancak varyansların farklı olduğu testler, gerçek puan eşdeğer (tau-eşdeğer) testlerdir. Temelde gerçek puan eşdeğerliğinde ise testlerde gerçek puanların bir sabit kadar birbirinden farklı olmasına müsaade edilir. Puanların kovaryansı kullanılarak güvenirlik kestirildiği için gerçek puanlara bir sabitin eklenmesi güvenirliği etkilemez. Varsayımların en esnek olduğu durum ise konjenerik (türdeş) testlerdir. Aynı yapıyı ölçmek için oluşturulmuş testlerin gerçek puanlarının mükemmel bir biçimde ilişkili olması bu testler için yeterlidir.

2.2 Güvenirlik

KTK’da gözlenen puanlar ile gerçek puanlar arasındaki ilişkinin düzeyini belirlemek için bu iki değişken arasındaki korelasyon incelenir. Bu ilişkiyi betimleyen indekse ise güvenirlik indeksi denir (Crocker ve Algina, 1986). Bu indeks bir testteki gözlenen puanlar ile gerçek puanlar arasındaki ilişkinin derecesini ifade eden korelasyon katsayısıdır. Sapma puanları kullanılarak hesaplanır. Sapma puanları, ham puanlardan ortalamanın çıkarılmasıyla elde edilir. Bu durumda

\[ x=X-\bar{X}; t=T-\bar{T}; e=E-\bar{E} \]

Sapma puanları cinsinden KTK modeli aşağıdaki eşitlikle tanımlanır.

\[ x=t+e \]

Güvenirlik indeksi, Eşitlik (2.11)’deki gibi yazılır:

\[ \rho_{XT}=\frac{\Sigma xt}{N\sigma_X\sigma_T} \tag{2.11} \]

Bu eşitlikte \(x\)’in açılımı yazılınca;

\[ \begin{gathered} \rho_{XT}=\frac{\Sigma(t+e)t}{N\sigma_X\sigma_T} \\ \rho_{XT}=\frac{\Sigma t^2}{N\sigma_X\sigma_T}+\frac{\Sigma te}{N\sigma_X\sigma_T} \end{gathered} \tag{2.12} \]

Gerçek puanlar ile hata puanları arasındaki korelasyon sıfıra eşit olduğundan (ikinci terim sıfıra eşittir) ve gerçek puanın varyansı \(\sigma_T^2=\frac{\sum t^2}N\) olduğundan,

\[ \rho_{XT}=\frac{\sigma_T^2}{\sigma_X\sigma_T} \] \[ \rho_{XT}=\frac{\sigma_T}{\sigma_X} \tag{2.13} \]

elde edilir. Böylece güvenirlik indeksi gerçek puanların standart sapmasının gözlenen puanların standart sapmasına oranı olarak ifade edilir. Gerçek puanlar doğrudan gözlenebilir olmadığı ve her bir birey için tüm olası gözlenen puanlar elde edilemeyeceğinden bu ifadenin pratikte pek bir değeri yoktur. KTK’nın ampirik veriyle güvenirlik kestirimi, paralel testler göz önüne alınırsa mümkündür. Sapma puanları kullanılarak, gözlenen puanlar ile gerçek puanlar arasındaki korelasyon iki paralel testle hesaplanırsa:

\[ x_1=t_1+e_1 \\ ve\\ x_2=t_2+e_2 \]

Burada \(x_1\) ve \(x_2\) iki paralel testin gözlenen puanları olmak üzere, bu iki gözlenen puanlar arasındaki korelasyon \(\rho_{x_1x_2}\) aşağıdaki eşitlikle gösterilir.

\[ \rho_{x_1x_2}=\frac{\Sigma x_1x_2}{N\sigma_{x_1}\sigma_{x_2}} \]

\(x_1\) ve \(x_2\) açıkça ifade edilirse, bu eşitlik:

\[ \rho_{x_1x_2}=\frac{\Sigma(t_1+e_1)(t_2+e_2)}{N\sigma_{x_1}\sigma_{x_2}} \]

Parantezleri açıldığında eşitlik:

\[ \rho_{x_1x_2}=\frac{\Sigma t_1t_2}{N\sigma_{x_1}\sigma_{x_2}}+\frac{\Sigma t_1e_2}{N\sigma_{x_1}\sigma_{x_2}}+\frac{\Sigma t_2e_1}{N\sigma_{x_1}\sigma_{x_2}}+\frac{\Sigma e_1e_2}{N\sigma_{x_1}\sigma_{x_2}} \]

Bu eşitlikte testlerin farklı formlarında bireylerin gerçek puanlarının ve hata varyanslarının aynı olduğu ve gerçek puanlar ile hata puanlarının korelasyonlarının sıfır olduğu varsayımı kullandıldığında eşitlikteki birinci terim haricinde diğer terimler sıfıra eşit olur. Böylece iki paralel test arasındaki korelasyon aşağıdaki biçimde sadeleşir.

\[ \rho_{x_1x_2}=\frac{\Sigma t_1^2}{N\sigma_{x_1}^2} \]

veya

\[ \rho_{x_1x_2}=\frac{\sigma_T^2}{\sigma_x^2} \tag{2.14} \]

Bu eşitlikten güvenirlik katsayısının matematiksel olarak gerçek puan varyansının gözlenen puan varyansına oranı olduğu görülmektedir. Bu katsayının yorumlanmasında Crocker ve Algina (1986)’ya göre \(\rho_{x_1x_2}\) gözlenen puan varyansının bireylerin gerçek puanlarındaki varyansa ilişkin oranı, bu katsayının karesi ise \(\left(\rho_{x_1x_2}\right)^2\) bir paralel testte gözlenen varyansın, diğer paralel testte gözlenen puan varyansından tahmin edilebilen oranını belirtmektedir. Bu katsayı gerçek paralel testlerin olmadığı durumlar için kuramsal bir değerdir.

2.2.1 Güvenirlik Kestirim Yöntemleri

KTK’ya göre, güvenirlik katsayısının tamamen paralel testler arasındaki korelasyon olarak tanımlandığı ve ayrıca bireylerin gerçek puanlarındaki varyansın gözlenen puan varyansına oranına eşit olduğu da gösterilmiştir. Ancak uygulamada, tamamen paralel testler oluşturmak mümkün olmadığından, bireylerin gerçek puanları elde edilemez. Bu nedenle bir dizi puan için güvenirlik katsayısı hiçbir zaman tam olarak hesaplanamaz; ancak, belirli bir test maddesi örneklemine yanıt veren belirli bir birey örneklemi için kestirilebilir. Kestirim terimi, verilere bakıp güvenirlikleri hakkında keyfi bir tahminde bulunmayı değil, incelenen teorik niceliğin bir tahmini olan bir gözlem örnekleminden sayısal bir değer hesaplamayı ifade eder.

Güvenirlik katsayıları ve bu katsayıların kestiriminde kullanılacak test puanları, çeşitli yöntemlerle elde edilebilir. Her bir kestirim ve test puanlarının elde edilme yöntemi, gerçek puanlara karışabilecek birbirinden farklı hata kaynaklarını ele alır. Bu açıdan yapılan araştırma kapsamında ölçülen özelliklerin niteliği ve belirlenmesi hedeflenen hata kaynakları, kullanılacak güvenirlik kestirimi yönteminde etkilidir. Kullanılan yöntemlerin belirli hata kaynaklarını ele alması sebebiyle, Standards for Educational and Psychological Testing’te çeşitli veri toplama ve güvenirlik kestirim yöntemiyle elde edilecek güvenirlik katsayılarının birbirinin yerine geçmeyeceğini belirtilmektedir (American Educational Research and Association ve National Council on Measurement in and Education, 2014). Crocker ve Algina (1986)’da en uygun yöntemin nasıl seçileceği konusunda en az iki görüş olduğunu belirtilmektedir. Birinci görüşe göre, tamamen paralel test formlarının puanlarının mevcut olduğu durumlarda, güvenirlik çalışması, mümkün olduğunca paralel ölçümler kullanılarak paralel olmayan ölçümlerin etkisini en aza indirecek şekilde tasarlanır. İkinci görüşe göre ise, en uygun yöntemin yukarıda da belirtildiği üzere, test puanlarının kullanım amacına (ilgilenilen hata kaynağına) göre belirlenmesidir. Bunun için, puan yorumlamasına en çok zarar verebilecek hata kaynaklarının belirlenmesi ve bu hataların etkilerinin değerlendirilebilmesine imkan veren bir güvenirlik çalışması tasarlanması önerilir.

2.2.1.1 İki Test Uygulamasına Dayalı Yöntemler

Test Tekrar Test Yöntemi – Kararlılık Katsayısı

Bazı durumlarda araştırmacılar tek bir test formunu yanıtlayan bireylerin farklı zamanlarda ne kadar tutarlı yanıt verdiğiyle ilgilenirler. Bu gibi durumlarda, anlık durumlarındaki geçici değişiklikler nedeniyle bireylerin puanlarına karışan hatalar incelenir. Bu hatalar, testin uygulanması, puanlaması, bireylerin yanıtları tahmin etmesi, yanlış işaretleme yapması ve davranışlarındaki diğer geçici dalgalanmalardan kaynaklanabilir. Test tekrar test yönteminde bu hataların incelenebilmesi için test bir gruba uygulanır, belli bir zaman sonra, aynı test aynı gruba tekrar uygulanıp elde edilen iki puan seti arasındaki korelasyon katsayısı hesaplanır. Kararlılık katsayısı olarak da adlandırılan bu yönteme test-tekrar test yöntemi adı verilir.

Test- tekrar test yönteminde, testin iki uygulamasının arasında ne kadar zaman geçmesi gerektiğine dair tek kesin bir yanıt yoktur. Uygulamalar arasındaki zaman aralığının, hatırlama (aktarım) veya alıştırma etkilerinin kaybolmasına izin verecek kadar uzun olması,ancak bireylerin gerçek puanlarında değişim (örneğin tutum) veya tarihsel değişikliklerin (örneğin yaş) meydana gelmesine izin verecek kadar uzun olmaması gerektiği belirtilmektedir.

Bu nedenle gerçek puanların zaman içinde değişim gösterdiği özellikler (ruh hali veya kaygı gibi) için bu yöntemin kullanılması önerilmemektedir. Öte yandan, yetişkin bireylerin zekâsı mesleki ilgi vb. zaman içinde sabit olan özellikler için test-tekrar test yöntemi genellikle kullanışlıdır. İki uygulama arasındaki süre arttıkça ölçülen özellikte değişiklik olma olasılığı da artmaktadır Nunnally ve Bernstein (1994)’te test uygulamaları arasındaki ideal süre 14 ila 28 gün arası olarak önerilmektedir.

Test- tekrar test yöntemi ile elde edilen kararlılık katsayısının düşük olduğu durumlarda, bu değer eğer bireylerin ölçülen özelliklerinin zaman içinde değişebileceği öngörülüyorsa, KTK’nın temel bir varsayımı olan gerçek puanın sabit olduğu ihlal edilmiş olduğundan, elde edilen korelasyon katsayısının test puanı güvenilirliğinin uygun bir kestirimi olmadığı göz önünde bulundurulmalıdır.

Paralel (Alternatif) Formlar Yöntemi - Eşdeğerlik Katsayısı

Güvenirlik kestirimine paralel formlar yaklaşımı, bir testin paralel formlarının bulunduğu durumlarda faydalıdır. İki test formunun tamamen paralel olması için (1) aynı özelliği ölçen gerçek puanların ve (2) hata puanlarının varyanslarının eşit olması gerekir.

Paralel formlar yöntemi bir testin iki benzer formunun oluşturulmasını ve her iki formun da aynı sınav grubuna uygulanmasını gerektirir. Paralel formlarda yorulma etkisini azaltmak için, sınava girenlerin yarısı rastgele bir şekilde form 1 ve ardından form 2’yi yanıtlarken, diğer yarısı form 2 ve ardından form 1’i yanıtlar. İki formdan elde edilen test puanları arasındaki korelasyon katsayısı hesaplanır. Bu katsayı eşdeğerlik katsayısı olarak adlandırılır. Paralel formlar aynı ortamda sınava giren bireylerin kopya çekme olasılığını azaltmak için veya kısa bir süre aralığıyla bir testin tekrar uygulanması gerektiği durumlarda kullanışlıdır. Bu ve benzeri durumlarda farklı formlardaki içerikten kaynaklanan hataların gözlenen puanlara karışma düzeyi incelenebilir.

Alternatif Formlarla Test-Tekrar Test

Alternatif formların uygulanması arasında belli bir zaman aralığı olduğu durumlarda kestirilen güvenirlik katsayısıdır. İki puan seti arasında hesaplanan korelasyon katsayısı kararlılık ve eşdeğerlik katsayısı olarak adlandırılır. İçerik örnekleminden ve bireylerin performanslarında zaman içinde meydana gelen değişikliklerden ve daha önce açıklanan hemen hemen tüm diğer hata türlerinden etkilenir.

2.2.1.2 Tek Bir Test Uygulaması Gerektiren Yöntemler

Bir testin bir kez uygulandığı zamanlarda da güvenirliğin kestirilmesi gerekebilir. Misal, öğrenciler testin konusunu öğrenmeye (veya unutmaya) devam edecekleri için bir test öğrencilere iki kez uygulandığında puanların kararlı olması beklenmez ve güvenirlik tek bir test uygulamasıyla kestirilir. Bu gibi durumda bireylerin testi oluşturan maddelere veya madde alt kümelerine ne kadar tutarlı yanıtlar verdiği incelenir. Bu tür güvenirlik kestirim yöntemlerine iç tutarlılık yöntemleri denir. Bu yöntemlerden ilki eş yarılar yöntemidir.

Eş yarılar yöntemi

Bu yöntemde bir test, mümkün olan en yüksek derecede paralellik varsayımlarını karşılayan iki eş yarıya bölünür. Yani testte 20 madde varsa 10 madde bir yarıda diğer 10 madde diğer yarıda olmak üzere ikiye bölünür. Daha sonra bu iki yarı testten elde edilen puanların arasındaki eşdeğerlik katsayısını belirlemek için korelasyon hesaplanır. Bu katsayı testin yarısına dayanan güvenirliktir. Bu güvenirlik katsayısının testin tamamından elde edilecek güvenirlikten düşük olması muhtemeldir (daha uzun testler genellikle daha kısa testlerden daha güvenilirdir). Bu sorunu çözmek için Spearman-Brown formülü kullanılarak testin tamamına ait güvenirlik elde edilir. Spearman-Brown düzeltme formülü, Eşitlik (2.15)’teki gibidir:

\[ \rho_{xx^{\prime}}=\frac{2(\rho_{ii^{\prime}})}{1+\rho_{ii^{\prime}}} \tag{2.15} \]

Eşitlikte; \(\rho_{ii^{\prime}}\): iki yarı test arasındaki korelasyon katsayısı, \(\rho_{xx^{\prime}}\): testin tamamı için Spearman Brown formülü uygulanmış güvenirliktir.

Bu yöntemin uygulanması için testin homojen bir içeriğe sahip maddelerden oluşması istenir (diğer bir deyişle madde homojenliği (Price, 2016). Eş yarılar yönteminde ilk olarak, maddeler her bir yarı teste (a) rastgele bir şekilde (b) madde güçlük düzeyine veya (c) tek numaralı maddelerden oluşan bir yarıya ve çift numaralı maddelerden oluşan ikinci bir yarıya atanarak her bir yarı için test oluşturulur. Bu yöntemlerle homojen madde içeriğine sahip iki paralel yarı test oluşturulması amaçlanır. Oluşturulan iki yarının paralel test olması için eşit ortalamalara, standart sapmalara ve içeriğe sahip olması gerekir. Ortalama puanlardaki farklılıklar, iki yarının göreceli zorluğunun farklı olduğunu gösterecek ve bu da yarıların karşılaştırılabilirliğine ilişkin sorulara yol açacaktır. İki yarının varyansındaki farklılıklar, hatanın her birinde farklı bir rol oynadığını ve bunun da korelasyon katsayısını ve dolayısıyla puan güvenirliği kestirimini olumsuz etkileyebileceğini düşündürecektir.

Bu yöntemin eş yarılar testlerinin tamamen paralel olduğu varsayımına dayandığına dikkat edilmelidir. Bu varsayım ne kadar ihlal edilirse, elde edilen sonuçların doğruluğu o kadar az olacaktır. Testi iki yarıya bölme yöntemiyle ilgili diğer bir husus da, ikiye bölmede kullanılan yönteme göre farklı güvenirlik katsayılarının elde edilmesidir.

Madde Kovaryanslarına Dayanan Güvenirlik Kestirimleri

Güvenirliği kestirmek için en yaygın kullanılan yöntemler, ölçme aracında yer alan maddeler arasındaki kovaryanslara dayanmaktadır. Kovaryans iki değişken arasındaki korelasyon katsayısının payıdır veya iki değişken arasındaki ilişkinin (standartlaştırılmamış) bir ölçüsü olarak tanımlanır. Madde kovaryanslarına dayanan güvenirlik kestirim yöntemlerinin başlıca avantajı, testin birden fazla kez uygulanmasını veya testin keyfi bir yöntem ile ikiye bölünmesini gerektirmemesidir. Gerçek puan modelinde, her bireyin madde puanları toplanarak toplam test puanı oluşturulur. Dolayısıyla testin toplam puanı bir tür bileşik puandır. Ayrıca iki veya daha fazla testin toplam puanlarının toplanması, “bileşik” puanlamanın bir başka şeklidir. Bileşikler toplam madde puanlarına veya toplam test puanlarına dayalı olduğundan, bu bileşikler testte paralel bileşenler olarak görev yapar. Tek bir uygulama ile bir testin güvenirlik katsayısı kestirilirken, test maddeleri testin paralel parçaları olarak ele alınabilir. Her bir maddenin varyansı, testi oluşturan tüm maddelerin toplam varyansını oluşturacak şekilde toplanabilir. Eşitlik (2.16), bu işlemi açıkça gösterir. Bu eşitlikte, test puanı varyansının, testteki her bir maddenin varyansı ve kovaryansı tarafından belirlendiği görülmektedir. Test puanı varyansı, her bir maddeye ilişkin varyansların toplamı artı bireysel kovaryans değerlerinin toplamının iki katı olarak Eşitlik (2.16)’daki gibi ifade edilir.

\[ \sigma_{\mathrm{test}}^2=\sum\sigma_i^2+2\sum\rho_{ik}\sigma_i\sigma_k\mathrm{~}i>k \tag{2.16} \]

Eşitlikte; \(\sigma_{\mathrm{test}}^2\): toplam test puanlarının varyansı, \(\sum\sigma_i^2\): madde i’nin varyansı, \(\sigma_{i}\): madde i’nin standart sapması, \(\sigma_{k}\): madde k’nın standart sapması, \(\rho_{ik}\) ise i. ve k. maddeler arasındaki korelasyon, \(\rho_{ik}\sigma_i\sigma_k\): bütün maddelerin arasındaki kovaryans, \(\sum\rho_{ik}\sigma_i\sigma_k\) bütün maddelerin kovaryanslarının toplamıdır.

Test puanlarının bir bileşik olarak ele alınması tek uygulamaya dayalı eş yarılarda Cronbach alfa, KR-20 ve KR-21 yöntemiyle güvenirlik kestirimi yapılmasını mümkün kılar.

Alfa Katsayısı. 1951 yılında Cronbach, iç tutarlılığı hesaplamaya yönelik çeşitli yöntemleri incelemiş ve bunları Cronbach \(α\) olarak bilinen tek bir genel formülle ilişkilendirmiştir (L. J. Cronbach, 1951). Alfa katsayısı, Eşitlik (2.17)’deki formülle hesaplanır.

\[ \widehat{\alpha}=\frac k{k-1}(1-\frac{\Sigma\widehat{\sigma}_i^2}{\widehat{\sigma}_X^2}) \tag{2.17} \]

Eşitlikte; \(k\): testteki madde sayısı, \(\widehat{\sigma}_i^2\): madde i’nin varyansı, \(\widehat{\sigma}_X^2\): toplam test puanlarının varyansıdır.

\(\alpha\), ikili puanlanan maddelerin veya bazı tutum envanterlerinde veya kompozisyon sınavlarında olduğu gibi çok kategorili puanlanan maddelerin iç tutarlılığını kestirmek için kullanılabilir. Bu eşitlikteki sembollerin üzerindeki “^” işareti ortalama, varyans ve korelasyon için istatistiksel değerlerin kullanıldığını, bir evrenden ziyade örneklem için hesaplandığını gösterir. Alternatif olarak bu Eşitlik (2.18) ile de ifade edilir.

\[ \alpha=\left(\frac k{k-1}\right)\left[1-\frac{\sum_{k=1}^pS_k^2}{S_{Test}^2}\right] \tag{2.18} \]

Eşitlikte; \(k\): testteki madde sayısı, \(S_{k}^2\): madde puanlarının varyansı, \(S_{Test}^{2}\): toplam test puanlarının varyansıdır.

Alfa katsayısı, iki kategorili puanlanan (doğru/yanlış) test maddeleri veya sıralı bir ölçme düzeyinde puanlanan maddeler (örneğin Likert tipi veya derecelendirme ölçeği maddeleri) ve açıklı uçlu kısmi puan tipi maddelerin güvenilirliğini kestirmede kullanılabilir. Bu nedenlerle alfa katsayısının literatürde diğer katsayılara göre daha sık rapor edildiği görülmektedir.

KR 20 sadece ikili puanlanan maddeler için kullanılabilir. Bu formül, Kuder ve Richardson (1937) tarafından iki yarıya bölme yöntemlerinin belirli bir test için tek bir sonuç vermemesi sorununa çözüm ararken türetilmiştir. Maddeler iki kategorili puanlandıklarında (doğru 1, yanlış 0) \(\alpha\) eşitliği Kuder Richardson 20 (KR 20) formülüne eşit olur. Bu konu üzerindeki dönüm noktası niteliğindeki makalelerindeki, formüllerin eşitlik numaraları bu formüllere adlarını vermiştir. KR 20, Eşitlik (2.19)’daki formülle hesaplanır.

\[ KR_{20}=\frac k{k-1}(1-\frac{\sum pq}{\widehat{\sigma}_X^2}) \tag{2.19} \]

Eşitlikte; \(p\): maddeye doğru yanıt veren bireylerin oranı, \(q\): maddeye yanlış yanıt veren bireylerin oranı \(\widehat{\sigma}_X^2\): toplam test puanlarının varyansıdır.

\(α\) formülündeki madde varyansı, yerine bu eşitlikte \(pq\) her bir maddenin varyansını belirtir. Maddelerin varyansları hesaplanıp toplandıktan sonra toplam test puanının varyansına bölünür. KR-20, Cronbach \(α\)’nın özel bir durumudur. Yani istatistiksel yazılımlarında iki kategorili puanlar için elde edilen \(α\) değerini hesapladıklarında KR 20 değerini hesaplamış olurlar. Kuder ve Richardson ayrıca, tüm maddelerin güçlüklerinin aynı olduğu varsayıldığında, ikili verilerle güvenilirliği kestirmek için KR 21’i geliştirmiştir. KR 21, Eşitlik (2.20)’deki formülle hesaplanır.

\[ KR_{21}=\frac k{k-1}[1-\frac{\hat{\mu}(k-\hat{\mu})}{k\hat{\sigma}_X^2}] \tag{2.20} \]

Eşitlikte; \(\hat{\mu}\): toplam test puanlarının ortalaması, \(\widehat{\sigma}_X^2\): toplam test puanlarının varyansıdır.

KR-21, güvenirlik kestirimlerini bilgisayar yardımı olmaksızın elde yapılması gerektiği ve hesaplanmasının oldukça zaman alıcı olduğu durumlarda kullanılmak üzere geliştirilmiştir (Crocker ve Algina, 1986). Bütün maddelerin güçlüklerinin eşit olması gerçekte beklenmez.

Çoğu zaman, eğitim ve psikolojide kullanılan testler veya ölçekler bir dizi alt ölçeklerden veya alt testlerden oluşur. Bu gibi durumlarda araştırmacılar, ölçekteki maddelerin homojen alt ölçekler halinde düzenlendiğini göz önünde bulundurup, tüm maddeler için tek bir katsayı hesaplamanın uygun olup olmadığını incelemelidirler. Alt ölçeklerin var olduğu durumlarda, standart Cronbach \(α\) ölçeğin gerçek güvenilirliğini olduğundan düşük gösterebildiği belirtilmektedir (Kamata, Turhan ve Darandari, 2003; Osburn, 2000; Rae, 2007). Birden fazla alt ölçekten oluşan bir ölçeğin güvenilirliğini kestirmek için Feldt ve Brennan (1989) tarafından tabakalı \(α\) kestirimi için eşitlik (2.21)’nin kullanılması önerilmiştir:

\[ \alpha_{tabakal\iota}=1-\frac{\sum_{m=1}^M\sigma_m^2(1-\alpha_m)}{\sigma_x^2} \tag{2.21} \]

Eşitlikte; \(\sigma_m^2\): m alt ölçeğinin/testinin varyansı, \(\alpha_{m}\): m alt ölçeği için Cronbach \(\alpha\) değeri, \(\sigma_x^2\): toplam test puanlarının varyansıdır.

Alt ölçeklerdeki maddeler nispeten büyük ve homojen faktör yüklerine sahip olduğunda, tabakalı \(α\) bileşik bir ölçeğin güvenilirliğini kestirmek için en uygun yöntemdir (Rae, 2007).

2.2.2 Ölçmenin Standart Hatası

Ölçmenin standart hatası (ÖSH), ölçmedeki hatanın standart sapmasının bir kestirimidir. \(\rho_{xx}=\frac{\sigma_T^2}{\sigma_X^2}=\frac{\sigma_T^2}{\sigma_T^2+\sigma_E^2}\) olduğunu hatırlayalım. Basit bir ifadeyle ÖSH \(\widehat{\sigma}_{E}\) nin bir kestirimidir. \(\widehat{\sigma}_{X}\) gözlenen puanların varyansı ve \(\rho_{xx}\) ölçme aracının güvenirliği kullanılarak kestirilir. Evren için ÖSH, Eşitlik (2.22) ile hesaplanır.

\[ \mathrm{ÖSH}=\sigma_x\sqrt{1-\rho_{xx}} \tag{2.22} \]

Örneklem için ÖSH, Eşitlik (2.23) ile hesaplanır.

\[ \mathrm{ÖSH}=S_x\sqrt{1-\widehat{\rho}_{xx}} \tag{2.23} \]

Eşitlikte; \(S_{x}\): örneklemdeki gözlenen puanların standart sapması, \(\widehat{\rho}_{xx}\): örneklemdeki güvenirlik katsayıdır.

Örnek olarak, bir örneklem için gözlenen puanların standart sapması 10 ve güvenirlik 0.75 ise, ÖSH şu şekilde hesaplanır:

\[ \mathrm{ÖSH}=10\sqrt{1-0.75}=10\sqrt{0.25}=10(0.5)=5 \]

ÖSH elde edildikten sonra, elde edilen değer etrafında bir güven aralığı oluşturmak mümkündür. Bu aralık şu şekilde oluşturulur: \(X\pm\mathrm{Z}_{\mathrm{ga}}OSH\)

\(\mathrm{Z}_\mathrm{ga}\), standart normal dağılımdaki kritik değeri ifade eder. Örneğin gerçek puan için %95’lik bir güven aralığı oluşturmak istenilirse, \(\mathrm{Z}_\mathrm{ga}\) 1.96 olur. Önceki örneğe devam edilecek olursa, yani ÖSH = 5 ve bir bireyin puanı ilgili testte 80 ise, T için %95 güven aralığı: 80±1.96(5) ==>80 ± 9.8 (70.2, 89.8). Dolayısıyla, gözlenen puanı 80 olan bir birey için gerçek puanın güven aralığının içinde yani 70.2, 89.8 arasında olması kuvvetle muhtemeldir. Bu aralık oldukça geniştir, özellikle söz konusu test bir zeka testi ise. Güvenirlik değeri 1’e yaklaştıkça, karekökün içindeki değer küçülür ve ÖSH azalır. Bu bilinen veya varsayılan bir T’ye dayalı olarak gözlenen puan için daha dar bir güven aralığıyla ilişkilendirilebilir. Diğer bir ifadeyle daha yüksek test güvenilirliğinin, gözlenen X puanına dayalı olarak T kestiriminin kesinliğinin daha fazla olduğuna işaret ettiği görülür.

2.2.3 R Paketleriyle Güvenirlik Analizi

2.2.3.1 Eş Yarılar Güvenirlik Kestirimi

Bu bölümde madde ve güvenirlik analizleri psych (Revelle, 2024) ve hemp (Bulut, 2024) paketlerindeki ilgili fonksiyonlar kullanılarak gerçekleştirilmiştir. Analizlerde iki kategorili puanlanan maddeleri içeren veri seti (DFA_2.xlsx) ve çok kategorili puanlanan maddeleri içeren veri seti (DFA_4.xlsx) kullanılmıştır. Her bir veri dosyası 300 bireyin ID’si ve bireylerin 16 maddeye verdiği yanıtlar olmak üzere 17 sütundan oluşmaktadır.

Analizlere başlamadan önce ilgili paketlerin kütüphanede bulunmuyorsa install.packages() fonksiyonuyla yüklenmesi ve yüklenen paketlerin library() fonksiyonuyla aktif hale getirilmesi gerekmektedir. Ancak hemp paketinin yüklenmesi için öncelikle devtools paketinin yüklenmesi gerekmektedir. İlgili paketlerin yüklenmesi için install.packages("psych") install.packages("devtools")ve devtools::install_github("cddesja/hemp") kodları çalıştırılmıştır. Bu paketlerin aktif hale getirilmesi içinse aşağıdaki kod çalıştırılmıştır.

library(psych)
library(devtools)
# devtools::install_github("cddesja/hemp")
library(hemp)

Veri setinin R ortamına aktarılması için readxl paketinin kütüphanede bulunmuyorsa install.packages() fonksiyonuyla yüklenmesi ve yüklenen paketin library() fonksiyonuyla aktif hale getirilmesi gerekmektedir. readxl paketindeki read_excel() fonksiyonu kullanılarak DFA_2.xlsx veri seti veri01 nesnesine, DFA_4.xlsx veri seti veri123 nesnesine aktarılmıştır. Veri setlerinin ilk sütunu öğrenci id numaralarını içermekte olup analizler gerçekleştirilmeden önce bu ilk sütun veri setlerinden çıkarılmıştır. Böylece bireylerin madde yanıtlarını içeren sırasıyla test01 ve test123 nesneleri oluşturulmuştur.

library(readxl) 
veri01 <- read_excel("import/DFA_2.xlsx") 
veri123 <- read_excel("import/DFA_4.xlsx") 
test01 <- veri01[,-1]
test123 <- veri123[,-1]

Eş yarılar güvenirlik katsayısı kestirimi hemp paketindeki split_half() fonksiyonu kullanılarak yapılmıştır. split_half() fonksiyonunun data argümanı için test01 veri seti girilmiştir. Fonksiyonun type argümanı önce tek ya da çift sayılı maddelerin iki yarıdan birine atanması için alternate değeriyle kullanılmıştır. Fonksiyonun çalıştırılmasıyla yarıların güvenirlik kestirimi elde edilmiştir ve tekcift nesnesine atanmıştır. Spearman-Brown düzeltme formülünün uygulanması için split_half() fonksiyonunun data vetype argümanlarına ek olarak sb argümanı TRUE değeriyle kullanılmıştır. Fonksiyonun çalıştırılmasıyla testin güvenirlik kestirimi elde edilmiştir ve SB_tekcift nesnesine atanmıştır.

split_half() fonksiyonunun type argümanı sonra maddelerin rastgele bir biçimde iki yarıdan birine atanması için random değeriyle kullanılmıştır. set.seed() fonksiyonu kullanılmadıkça type=random için komutun her çalıştırılmasında farklı bir güvenirlik katsayısı elde edilmektedir. Fonksiyonun çalıştırılmasıyla yarıların güvenirlik kestirimi elde edilmiştir ve tesadüfi nesnesine atanmıştır. Spearman-Brown düzeltme formülünün uygulanması için split_half() fonksiyonunun data vetype argümanlarına ek olarak sb argümanı TRUE değeriyle kullanılmıştır. Fonksiyonun çalıştırılmasıyla testin güvenirlik kestirimi elde edilmiştir ve SB_tesadüfi nesnesine atanmıştır.

# Maddelerin yarılara tek-çift yöntemiyle atanmasıyla eşdeğer yarıların güvenirlik kestirimi
tekcift <- split_half(data = test01, type = "alternate")
tekcift
#> [1] 0.786
# Spearman-Brown düzeltmesiyle güvenirlik katsayısının hesaplanması
SB_tekcift <- split_half(data = test01, type = "alternate", sb = TRUE)
SB_tekcift
#> [1] 0.8801792

# Maddelerin yarılara rastgele olarak atanmasıyla eşdeğer yarıların güvenirlik kestirimi
set.seed(1) # analiz tekrarlandığında aynı sonucu elde etmek için seed
tesadufi <- split_half(data = test01, type = "random")
tesadufi
#> [1] 0.712
# Spearman-Brown düzeltmesiyle güvenirlik katsayısının hesaplanması
set.seed(1) # analiz tekrarlandığında aynı sonucu elde etmek için seed
SB_tesadufi <- split_half(data = test01, type = "random", sb = TRUE)
SB_tesadufi
#> [1] 0.8317757

Eş yarılar güvenirliği için tek-çift yöntemiyle 0.786 ve rastgele yöntemiyle 0.712 değerleri elde edilmiştir. Bu değerlere Spearman-Brown düzeltme formülü uygulandığında tek-çift yönteminde 0.880 ve rastgele yönteminde ise 0.832 değerlerine ulaşılmıştır. set.seed() fonksiyonu kullanılarak ve seed sayısı değiştirilerek eşdeğer yarılar güvenirlik katsayılarının bir örneklemi elde edilip ortalaması hesaplanabilir. Bu yapılmak istenmezse, psych paketindeki splitHalf() fonksiyonu kullanılarak veri seti için olası bütün eş yarılar güvenirlik katsayılarının ortalaması hesaplanabilir.

psych paketindeki splitHalf() fonksiyonuyla test01 veri seti için eş yarılar yöntemiyle güvenirlik kestirimleri gerçekleştirilmiştir. Fonksiyonun ilk argümanı olarak korelasyon matrisi ya da kovaryans matrisi de girilebilir. Fonksiyonun çalıştırılmasıyla elde edilen çıktı psych_esyari nesnesine atanmıştır.

library(psych)
psych_esyari <- psych::splitHalf(r = test01)
psych_esyari
#> Split half reliabilities  
#> Call: psych::splitHalf(r = test01)
#> 
#> Maximum split half reliability (lambda 4) =  0.9
#> Guttman lambda 6                          =  0.86
#> Average split half reliability            =  0.84
#> Guttman lambda 3 (alpha)                  =  0.84
#> Guttman lambda 2                          =  0.85
#> Minimum split half reliability  (beta)    =  0.58
#> Average interitem r =  0.25  with median =  0.21

Elde edilen çıktıda eş yarılar güvenirliği için katsayının minimum, maksimum ve ortalama değerleri verilmiştir.

2.2.3.2 Alfa katsayısı

Alfa katsayısı R programında çeşitli paketlerle hesaplanabilir. Örneğin psych paketindeki reliability() fonksiyonu (cevapların puan anahtarı olması gerekir) ve alpha() fonksiyonuyla eş yarıların (split) maksimum, minimum değerlerinin yanı sıra alfa (alpha) katsayısı da kestirilir.

İki kategorili puanlanan madde yanıtlarının içeren test01 verisi için alfa katsayısı psych paketindeki alpha() fonksiyonuyla aşağıdaki komut satırı kullanılarak elde edilmiştir.

psych::alpha(x = test01)
#> 
#> Reliability analysis   
#> Call: psych::alpha(x = test01)
#> 
#>   raw_alpha std.alpha G6(smc) average_r S/N   ase mean   sd median_r
#>       0.84      0.84    0.86      0.25 5.2 0.014 0.48 0.27     0.21
#> 
#>     95% confidence boundaries 
#>          lower alpha upper
#> Feldt     0.81  0.84  0.86
#> Duhachek  0.81  0.84  0.87
#> 
#>  Reliability if an item is dropped:
#>     raw_alpha std.alpha G6(smc) average_r S/N alpha se var.r med.r
#> V1       0.83      0.83    0.86      0.25 5.0    0.014 0.016  0.22
#> V2       0.83      0.83    0.85      0.24 4.8    0.015 0.017  0.20
#> V3       0.83      0.83    0.85      0.25 5.0    0.014 0.016  0.21
#> V4       0.83      0.83    0.85      0.25 5.0    0.014 0.016  0.21
#> V5       0.83      0.83    0.85      0.24 4.8    0.015 0.014  0.21
#> V6       0.83      0.83    0.85      0.24 4.8    0.015 0.013  0.21
#> V7       0.83      0.83    0.85      0.24 4.8    0.015 0.014  0.22
#> V8       0.83      0.83    0.85      0.24 4.7    0.015 0.015  0.21
#> V9       0.83      0.83    0.85      0.24 4.8    0.015 0.013  0.21
#> V10      0.83      0.83    0.85      0.25 4.9    0.014 0.014  0.22
#> V11      0.83      0.83    0.85      0.25 5.1    0.014 0.014  0.21
#> V12      0.83      0.83    0.85      0.25 4.9    0.014 0.016  0.21
#> V13      0.83      0.83    0.85      0.25 5.0    0.014 0.015  0.22
#> V14      0.83      0.83    0.85      0.25 4.9    0.014 0.016  0.21
#> V15      0.83      0.83    0.85      0.25 5.0    0.014 0.016  0.22
#> V16      0.83      0.83    0.85      0.25 4.9    0.014 0.016  0.21
#> 
#>  Item statistics 
#>       n raw.r std.r r.cor r.drop mean  sd
#> V1  300  0.48  0.48  0.42   0.38 0.45 0.5
#> V2  300  0.60  0.60  0.56   0.52 0.47 0.5
#> V3  300  0.51  0.51  0.46   0.42 0.48 0.5
#> V4  300  0.50  0.50  0.45   0.41 0.48 0.5
#> V5  300  0.60  0.60  0.58   0.52 0.50 0.5
#> V6  300  0.60  0.60  0.58   0.52 0.48 0.5
#> V7  300  0.58  0.57  0.55   0.49 0.47 0.5
#> V8  300  0.61  0.61  0.59   0.54 0.56 0.5
#> V9  300  0.59  0.59  0.57   0.51 0.48 0.5
#> V10 300  0.53  0.53  0.49   0.44 0.50 0.5
#> V11 300  0.47  0.47  0.42   0.37 0.49 0.5
#> V12 300  0.52  0.53  0.48   0.43 0.44 0.5
#> V13 300  0.48  0.49  0.44   0.39 0.44 0.5
#> V14 300  0.54  0.54  0.51   0.46 0.46 0.5
#> V15 300  0.49  0.49  0.44   0.40 0.47 0.5
#> V16 300  0.54  0.54  0.51   0.45 0.46 0.5
#> 
#> Non missing response frequency for each item
#>        0    1 miss
#> V1  0.55 0.45    0
#> V2  0.53 0.47    0
#> V3  0.52 0.48    0
#> V4  0.52 0.48    0
#> V5  0.50 0.50    0
#> V6  0.52 0.48    0
#> V7  0.53 0.47    0
#> V8  0.44 0.56    0
#> V9  0.52 0.48    0
#> V10 0.50 0.50    0
#> V11 0.51 0.49    0
#> V12 0.56 0.44    0
#> V13 0.56 0.44    0
#> V14 0.54 0.46    0
#> V15 0.53 0.47    0
#> V16 0.54 0.46    0

Elde edilen çıktıda alfa katsayısının 0.84 olduğu görülmektedir. Çıktıda ayrıca her bir madde testten çıkartıldığında alfa katsayısının alacağı değer de “Reliability if an item is dropped” olarak gösterilmektedir.

Çok kategorili puanlanan madde yanıtlarının içeren test123 verisi için alfa katsayısı alpha() fonksiyonuyla aşağıdaki komut satırı kullanılarak elde edilmiştir.

psych::alpha(x = test123)
#> 
#> Reliability analysis   
#> Call: psych::alpha(x = test123)
#> 
#>   raw_alpha std.alpha G6(smc) average_r S/N    ase mean   sd median_r
#>       0.89      0.89    0.91      0.33 7.8 0.0098  2.9 0.63     0.27
#> 
#>     95% confidence boundaries 
#>          lower alpha upper
#> Feldt     0.87  0.89  0.90
#> Duhachek  0.87  0.89  0.91
#> 
#>  Reliability if an item is dropped:
#>     raw_alpha std.alpha G6(smc) average_r S/N alpha se var.r med.r
#> V1       0.88      0.88    0.91      0.33 7.3    0.010 0.027  0.27
#> V2       0.88      0.88    0.91      0.33 7.4    0.010 0.026  0.28
#> V3       0.88      0.88    0.91      0.33 7.3    0.010 0.027  0.27
#> V4       0.88      0.88    0.91      0.33 7.4    0.010 0.027  0.27
#> V5       0.88      0.88    0.91      0.32 7.1    0.011 0.025  0.27
#> V6       0.88      0.88    0.91      0.32 7.2    0.010 0.022  0.28
#> V7       0.88      0.88    0.91      0.32 7.2    0.011 0.023  0.27
#> V8       0.88      0.88    0.91      0.32 7.2    0.011 0.024  0.27
#> V9       0.88      0.88    0.91      0.32 7.2    0.010 0.023  0.27
#> V10      0.88      0.88    0.91      0.32 7.1    0.011 0.024  0.27
#> V11      0.88      0.88    0.91      0.33 7.2    0.010 0.026  0.27
#> V12      0.88      0.88    0.91      0.33 7.4    0.010 0.025  0.27
#> V13      0.88      0.88    0.91      0.33 7.5    0.010 0.024  0.28
#> V14      0.88      0.88    0.91      0.32 7.2    0.010 0.027  0.27
#> V15      0.88      0.88    0.91      0.33 7.3    0.010 0.026  0.28
#> V16      0.88      0.88    0.91      0.33 7.4    0.010 0.024  0.28
#> 
#>  Item statistics 
#>       n raw.r std.r r.cor r.drop mean   sd
#> V1  300  0.60  0.59  0.56   0.52  2.9 1.08
#> V2  300  0.58  0.57  0.54   0.50  2.9 1.05
#> V3  300  0.60  0.60  0.57   0.53  3.0 1.06
#> V4  300  0.58  0.58  0.54   0.50  2.9 1.00
#> V5  300  0.67  0.67  0.65   0.61  3.0 1.09
#> V6  300  0.63  0.63  0.62   0.57  3.0 1.03
#> V7  300  0.64  0.64  0.62   0.57  3.0 1.06
#> V8  300  0.65  0.65  0.63   0.59  3.0 1.07
#> V9  300  0.63  0.63  0.61   0.57  3.0 1.05
#> V10 300  0.67  0.66  0.65   0.60  2.9 1.06
#> V11 300  0.61  0.62  0.59   0.55  2.9 0.98
#> V12 300  0.55  0.56  0.53   0.48  2.9 1.00
#> V13 300  0.52  0.53  0.49   0.44  3.0 0.96
#> V14 300  0.63  0.63  0.60   0.56  2.9 1.04
#> V15 300  0.58  0.59  0.56   0.51  2.9 1.06
#> V16 300  0.57  0.57  0.55   0.49  2.9 1.04
#> 
#> Non missing response frequency for each item
#>        1    2    3    4    5 miss
#> V1  0.11 0.27 0.34 0.22 0.06    0
#> V2  0.09 0.27 0.37 0.21 0.07    0
#> V3  0.07 0.27 0.35 0.22 0.09    0
#> V4  0.09 0.24 0.42 0.20 0.05    0
#> V5  0.08 0.26 0.33 0.24 0.09    0
#> V6  0.07 0.28 0.35 0.24 0.07    0
#> V7  0.08 0.27 0.34 0.23 0.08    0
#> V8  0.09 0.21 0.37 0.25 0.08    0
#> V9  0.08 0.23 0.38 0.24 0.08    0
#> V10 0.09 0.27 0.36 0.21 0.07    0
#> V11 0.08 0.24 0.42 0.21 0.05    0
#> V12 0.07 0.28 0.38 0.21 0.06    0
#> V13 0.04 0.28 0.38 0.24 0.06    0
#> V14 0.10 0.26 0.36 0.24 0.05    0
#> V15 0.09 0.27 0.37 0.19 0.07    0
#> V16 0.08 0.29 0.35 0.21 0.07    0

Elde edilen çıktıda alfa katsayısının 0.89 olduğu görülmektedir.

2.3 Madde Analizi

Ölçme aracı geliştirme sürecinde, ölçme uzmanlarının her bir maddenin performansını/istatistiklerini (güçlüklerini ve ayırt ediciliklerini) belirlemesi gerekir. Ayrıca çoktan seçmeli maddelerde, doğru yanıtlanma oranının yanında, her bir seçeneğin işleyişine ilişkin bilgi edinmek seçenekleri geliştirmek ve incelemek için faydalıdır.

2.3.1 Madde Güçlüğü

İki kategorili puanlanan maddelerde madde güçlüğü, maddeyi doğru yanıtlayan bireylerin oranı olarak tanımlanır ve p sembolüyle gösterilir. Madde güçlüğünün hesaplanmasında Eşitlik (2.24)’teki formül kullanılır.

\[ p=\frac{n_d}N \tag{2.24} \]

Eşitlikte; \(n_d\): maddeyi doğru yanıtlayan birey sayısı, \(N\): maddeyi yanıtlayan birey sayısıdır.

Madde güçlüğü, 0 ve 1 aralığında değerler alır. Madde güçlüğünün, maddeyi doğru yanıtlayan bireylerin oranı olduğu göz önüne alındığında, 0’a yakın değerler maddeye az sayıda bireyin doğru yanıt verdiğini, maddenin zorlaştığını ve 1’e yakın değerler ise maddeye çok sayıda bireyin doğru yanıt verdiğini, maddenin kolaylaştığını gösterir. Madde güçlüğü, madde puanlarının ortalamasına eşittir. Ayrıca maddeyi doğru yanıtlayan bireylerin yüzdesini de gösterir. Madde güçlüğü 100 ile çarpıldığında maddeyi doğru yanıtlayan bireylerin yüzdesi elde edilir. Örneğin bir maddeyi 100 bireyden 20 birey doğru yanıtlamış olsun. Bu madde için madde güçlüğü 20/100=0.20’dir. Bu değer 100 ile çarpılarak (0.20x100), bireylerin %20’sinin maddeyi doğru yanıtladıkları söyleyenebilir.

Madde güçlüğü \((p)\) değeri birden çıkartılıp \((1-p)\) kendisiyle çarpıldığında madde puanlarının varyansı elde edilir. Madde puanlarının varyansının hesaplanmasında Eşitlik (2.25)’teki formül kullanılır.

\[ s^2=p(q)=p(1-p) \tag{2.25} \]

Eşitlikte; \(q=1-p\)

Çok kategorili puanlanan maddeler için madde güçlüğü, madde puanlarının ortalamasıdır. Ortalama hesabı için bir maddeyi yanıtlayan bireylerin puanları toplanıp, birey sayısına bölünür. Çok kategorili puanlanan maddelerin güçlüğünün hesaplanmasında Eşitlik (2.26)’daki formül kullanılır.

\[ p=\bar{x}=\frac{\sum_{i=1}^Nx_i}N \tag{2.26} \]

Eşitlikte; \(\bar{x}\): puanların ortalaması, \(x_i\): i. bireyin madde puanı, \(N\): toplam birey sayısıdır.

Çok kategorili puanlanan maddeler için madde puanlarının varyansı, herhangi bir puanın varyansı gibi hesaplanır. Çok kategorili puanlanan Madde puanlarının varyansının hesaplanmasında Eşitlik (2.27)’deki formül kullanılır.

\[ s^2=\frac{\sum_{i=1}^N(x_i-\bar{x})^2}{N-1} \tag{2.27} \]

2.3.2 Madde Ayırt Ediciliği

Madde ayırt ediciliği; bir maddenin, ölçülen özelliğe nispeten daha fazla sahip olan bireyleri, bu özelliğe daha az sahip olanlardan ayırma derecesini ifade eder. KTK bağlamında, iki kategorili puanlanan maddeler için ayırt edicilik farklı şekillerde ele alınabilir. Bu yaklaşımlardan biri, bir maddeyi doğru yanıtlayan en yüksek toplam puana sahip bireylerin oranı ile doğru yanıtlayan en düşük toplam puana sahip bireylerin oranını karşılaştırmaktır. Bu yaklaşım genellikle alt grup – üst grup yöntemi olarak adlandırılır. Madde ayırt ediciliğini kestirmek için diğer bir yöntem madde puanları ile toplam test puanları arasındaki korelasyonun hesabına dayanır. Madde iki kategorili puanlandığında, bu işlem çift serili ya da nokta çift serili korelasyon katsayıları kullanılarak hesaplanır. Madde çok kategorili puanlandığında, madde ayırt ediciliği tipik olarak madde puanları ile toplam puanlar arasındaki Pearson momentler çarpımı korelasyon katsayısı kullanılarak hesaplanır.

Önce iki kategorili puanlanan maddeler için alt grup – üst grup yöntemi, ardından çift serili korelasyon ile nokta çift serili korelasyon ve son olarak da çok kategorili puanlanan maddeler için Pearson korelasyonunun kullanımına ilişkin bilgi verilmiştir.

2.3.2.1 Alt Grup - Üst Grup Yöntemi

Ayırt edicilik indeksinin hesaplanması için öncelikle toplam puana göre üst ve alt gruplar belirlenir. Genellikle üst grup toplam puanların en üst %27’sinin ve alt grup toplam puanların en alt %27’sinin kullanılmasıyla tanımlanır. Alt grup - üst grup yöntemine göre ayırt edicilik indeksinin hesaplanmasında Eşitlik (2.28)’deki formül kullanılır.

\[ Ayırt\ edicilik=p_{üst}-p_{alt} \tag{2.28} \]

Ayırt edicilik indeksi -1.00 ile 1.00 arasında değişebilir. Maddeler nispeten büyük pozitif ayırt edicilik değerlerine sahip olduklarında iyi performans gösterdikleri kabul edilir; bu da üst gruptakilerin alt gruptakilere kıyasla daha fazla doğru yanıt oranına sahip olduğu anlamına gelir. Başarı, yetenek veya bilişsel testlerinde, 0’dan küçük değerlerin elde edilmesi istenmez. Ayırt edicilik formülü göz önüne alındığında, negatif bir değerden, testte en düşük puanları alan bireylerin, en yüksek puanları alan bireylere kıyasla daha yüksek oranda doğru yanıt verdiği anlamı çıkarılır.

2.3.2.2 Nokta-çift Serili Korelasyon

Bu yöntemde ayırt edicilik madde puanları ile toplam puanlar arasındaki korelasyonun hesabına dayanır. Nokta- çift serili korelasyon iki kategorili puanlanan yani 1 (doğru) veya 0 (yanlış) puan alan bir test maddesine ilişkin puanlar ile toplam puanlar arasındaki ilişkiyi kestirmek için kullanılır. Nokta-çift serili korelasyon katsayısının hesaplanmasında Eşitlik (2.29)’daki formül kullanılır.

\[ \rho_{pbis}=\frac{\mu_+-\mu_x}{\sigma_x}.\sqrt{\frac pq} \tag{2.29} \]

Eşitlikte; \(\rho_{pbis}\): nokta-çift serili korelasyon katsayısı, \(\mu_+\): maddeyi doğru yanıtlayan bireylerin toplam puanlarının ortalaması, \(\mu_x\): tüm grubun toplam puanlarının ortalaması, \(\sigma_x\): tüm grubun toplam puanlarının standart sapması, \(p\): madde güçlüğü \(q\): \((1-p)\)

Nokta-çift serili korelasyon katsayısı, iki kategorili değişkenin ya da test maddesinin her bir seviyesinin altındaki dağılımın normal dağılım göstermesini gerektirmez. Bu nedenle katsayının iki kategorili değişkenin her iki düzeyinin altında bir normal dağılım olduğunu varsayımı olan çift serili korelasyon katsayından daha kullanışlıdır. Testin tamamı 25’ten daha az madde içeriyorsa, nokta-çift serili korelasyonda incelenen maddenin toplam puan hesaplamasından çıkarılması önerilir (Crocker ve Algina, 1986).

2.3.2.3 Çift Serili Korelasyon

Korelasyonu hesaplanan her iki değişkenin de sürekli olduğu ve normal dağıldığı ancak bu değişkenlerden birinin daha sonradan iki kategoriye indirgendiği durumlarda bu korelasyon hesabı kullanılır. Örneğin öğrencilerin puanlarının 50’nin altına ve üstünde diye iki kategoriye ayrıldığı düşünülebilir. Çift serili korelasyon katsayısının hesaplanmasında Eşitlik (2.30)’daki formül kullanılır.

\[ \rho_{bis}=\frac{(\mu_+-\mu_x)}{\sigma_x}(p/Y) \tag{2.30} \]

Eşitlikte; \(\rho_{pbis}\): Çift serili korelasyon katsayısı, \(\mu_+\): maddeyi doğru yanıtlayan bireylerin toplam puanlarının ortalaması, \(\mu_x\): tüm grubun toplam puanlarının ortalaması, \(\sigma_x\): tüm grubun toplam puanlarının standart sapması, \(p\): madde güçlüğü, \(Y\): \(p\) değerine karşılık gelen normal eğrinin ordinatıdır (y eksenini kestiği noktadır)

2.3.2.4 Çeldirici Analizi

Ölçme uzmanları, maddelerin güçlük ve ayırt edicilik indekslerinin yanı sıra, genellikle çeldirici olarak adlandırılan bireylerin maddelere verdikleri yanlış yanıtlarını da incelemek isteyebilir. Çeldirici analizi en yaygın olarak çoktan seçmeli maddeler için yapılır ve kötü performans gösterebilecek çeldiricilerin belirlenmesine odaklanılır. Bu, yanlış yanıt seçeneklerinin sıklığının (frekansının) incelenmesi yoluyla gerçekleştirilir.

2.3.3 R Paketleriyle Madde Analizi

Bu bölümde madde analizleri için psych paketi kullanılmıştır. Analizlere başlamadan önce bu paketin library() fonksiyonuyla aktif hale getirilmesi gerekmektedir. Madde analizleri örnekleri güvenirlik analizlerinde olduğu gibi iki kategorili test01 ve çok kategorili test123 veri setleri üzerinden gerçekleştirilmiştir.

Madde güçlükleri her bir veri seti için colMeans() fonksiyonuyla hesaplanmıştır. Ayrıca madde güçlük değerlerininyüzde birler basamağına yuvarlanması için round() fonksiyonu kullanılmıştır.

mad_guc01 <- colMeans(test01)
round(mad_guc01, 2) 
#>   V1   V2   V3   V4   V5   V6   V7   V8   V9  V10  V11  V12  V13  V14  V15  V16 
#> 0.45 0.47 0.48 0.48 0.50 0.48 0.47 0.56 0.48 0.50 0.49 0.44 0.44 0.46 0.47 0.46

Elde edilen çıktıda iki kategorili puanlanan maddeleri içeren test için V1-V16 kısaltmalarıyla adlandırılan maddelerin madde güçlük değerlerinin 0.44 ile 0.56 arasında değerler aldığı görülmektedir.

mad_guc123 <- colMeans(test123)
round(mad_guc123, 2)
#>   V1   V2   V3   V4   V5   V6   V7   V8   V9  V10  V11  V12  V13  V14  V15  V16 
#> 2.86 2.91 2.97 2.88 2.98 2.96 2.97 3.02 3.02 2.92 2.92 2.91 2.99 2.87 2.88 2.91

Elde edilen çıktıda çok kategorili puanlanan maddeleri içeren test için ise madde güçlüklerinin 2.86 ile 3.02 arasında değişen değerler aldığı görülmektedir.

Madde ayırt edicilikleri dilenirse kod yazılarak hesaplanabilir veya hazır paketlerdeki fonksiyonlar kullanılabilir.

psych ve hemp paketleriyle madde güçlük ve ayırıcılık değerleri elde edilebilir. Bu kısımda madde analizi psych paketindeki alpha() fonksiyonuyla yapılmıştır. Bu fonksiyon hem madde düzeyinde hem de ölçek düzeyinde istatistikler içeren ayrıntılı bir çıktı vermektedir. Fonksiyonun tüm argümanları aşağıda verilmiştir.

alpha(x, keys=NULL,cumulative=FALSE, title=NULL, max=10,na.rm = TRUE, check.keys=FALSE,n.iter=1,delete=TRUE,use="pairwise",warnings=TRUE, n.obs=NULL,impute=NULL, discrete=TRUE)

alpha() fonksiyonunu kullanmak için, analiz edilecek veri setinin x ile belirtilmesi yeterlidir (yani, x = veri seti adı). Fonksiyon başka argümanlar da içerir (örneğin kayıp verileri kaldırmak için na.rm = TRUE). Ancak bu argümanlar için varsayılan değerler madde analizi yapmak için yeterlidir (paketin yardım sayfasında ?psych::alpha aracılığıyla ulaşılıp argümanlar hakkında daha fazla ayrıntılı bilgi edinilebilir).

psych() fonksiyonu aşağıdaki örnek kodla çalıştırılarak test01 veri setinin madde analizi gerçekleştirilmiştir ve psych() fonksiyonunun çıktısı mad_analiz01 nesnesine atanmıştır.

library(psych)
mad_analiz01 <- psych::alpha(x = test01)
mad_analiz01
#> 
#> Reliability analysis   
#> Call: psych::alpha(x = test01)
#> 
#>   raw_alpha std.alpha G6(smc) average_r S/N   ase mean   sd median_r
#>       0.84      0.84    0.86      0.25 5.2 0.014 0.48 0.27     0.21
#> 
#>     95% confidence boundaries 
#>          lower alpha upper
#> Feldt     0.81  0.84  0.86
#> Duhachek  0.81  0.84  0.87
#> 
#>  Reliability if an item is dropped:
#>     raw_alpha std.alpha G6(smc) average_r S/N alpha se var.r med.r
#> V1       0.83      0.83    0.86      0.25 5.0    0.014 0.016  0.22
#> V2       0.83      0.83    0.85      0.24 4.8    0.015 0.017  0.20
#> V3       0.83      0.83    0.85      0.25 5.0    0.014 0.016  0.21
#> V4       0.83      0.83    0.85      0.25 5.0    0.014 0.016  0.21
#> V5       0.83      0.83    0.85      0.24 4.8    0.015 0.014  0.21
#> V6       0.83      0.83    0.85      0.24 4.8    0.015 0.013  0.21
#> V7       0.83      0.83    0.85      0.24 4.8    0.015 0.014  0.22
#> V8       0.83      0.83    0.85      0.24 4.7    0.015 0.015  0.21
#> V9       0.83      0.83    0.85      0.24 4.8    0.015 0.013  0.21
#> V10      0.83      0.83    0.85      0.25 4.9    0.014 0.014  0.22
#> V11      0.83      0.83    0.85      0.25 5.1    0.014 0.014  0.21
#> V12      0.83      0.83    0.85      0.25 4.9    0.014 0.016  0.21
#> V13      0.83      0.83    0.85      0.25 5.0    0.014 0.015  0.22
#> V14      0.83      0.83    0.85      0.25 4.9    0.014 0.016  0.21
#> V15      0.83      0.83    0.85      0.25 5.0    0.014 0.016  0.22
#> V16      0.83      0.83    0.85      0.25 4.9    0.014 0.016  0.21
#> 
#>  Item statistics 
#>       n raw.r std.r r.cor r.drop mean  sd
#> V1  300  0.48  0.48  0.42   0.38 0.45 0.5
#> V2  300  0.60  0.60  0.56   0.52 0.47 0.5
#> V3  300  0.51  0.51  0.46   0.42 0.48 0.5
#> V4  300  0.50  0.50  0.45   0.41 0.48 0.5
#> V5  300  0.60  0.60  0.58   0.52 0.50 0.5
#> V6  300  0.60  0.60  0.58   0.52 0.48 0.5
#> V7  300  0.58  0.57  0.55   0.49 0.47 0.5
#> V8  300  0.61  0.61  0.59   0.54 0.56 0.5
#> V9  300  0.59  0.59  0.57   0.51 0.48 0.5
#> V10 300  0.53  0.53  0.49   0.44 0.50 0.5
#> V11 300  0.47  0.47  0.42   0.37 0.49 0.5
#> V12 300  0.52  0.53  0.48   0.43 0.44 0.5
#> V13 300  0.48  0.49  0.44   0.39 0.44 0.5
#> V14 300  0.54  0.54  0.51   0.46 0.46 0.5
#> V15 300  0.49  0.49  0.44   0.40 0.47 0.5
#> V16 300  0.54  0.54  0.51   0.45 0.46 0.5
#> 
#> Non missing response frequency for each item
#>        0    1 miss
#> V1  0.55 0.45    0
#> V2  0.53 0.47    0
#> V3  0.52 0.48    0
#> V4  0.52 0.48    0
#> V5  0.50 0.50    0
#> V6  0.52 0.48    0
#> V7  0.53 0.47    0
#> V8  0.44 0.56    0
#> V9  0.52 0.48    0
#> V10 0.50 0.50    0
#> V11 0.51 0.49    0
#> V12 0.56 0.44    0
#> V13 0.56 0.44    0
#> V14 0.54 0.46    0
#> V15 0.53 0.47    0
#> V16 0.54 0.46    0

Elde edilen çıktıda madde analizi sonuçları için item statistics kısmı incelenir. Madde istatistikleri tablosunda “n” sütunu her bir maddeyi kaç bireyin yanıtladığını, “raw.r” sütunu madde puanları ile toplam puanlar arasındaki (ilgili maddenin puanı toplam puana dahilken) korelasyon katsayısını, “std. r” sütunu standart madde puanları ile toplam puanlar arasındaki korelasyon katsayısını, “r.cor” sütunu madde puanları ile toplam puanlar arasındaki hem madde örtüşmesi hem de ölçek güvenilirliği için düzeltilmiş korelasyon katsayısını, “r.drop” sütunu madde puanları ile toplam puanlar arasındaki (ilgili maddenin puanı toplam puana dahil değilken) korelasyon katsayısını, “mean” sütunu madde puanlarının ortalamasını (madde güçlüğünü) ve “sd” sütunu madde puanlarının standart sapmasını içermektedir. “raw.r” ile karşılaştırıldığında, “r.cor” ve “r.drop”, toplam puana ilgili madde dahil edilmediği için madde ayırt ediciliğinin daha iyi göstergeleridir. Not: Nokta-çift serili ve Pearson korelasyon hesabı sonuçları benzer çıktılar üretmektedir.

İki kategorili puanlanan maddeleri içeren testte (test01) madde güçlüklerinin 0.45 ile 0.50 arasında yani orta güçlükte olduğu, madde ayırt ediciliklerinin ise 0.37 ile 0.52 arasında değerler aldığı görülmektedir.

psych() fonksiyonu aşağıdaki örnek kodla çalıştırılarak test123 veri setinin madde analizi gerçekleştirilmiştir ve psych() fonksiyonunun çıktısı mad_analiz123 nesnesine atanmıştır.

mad_analiz123 <- psych::alpha(x = test123)
mad_analiz123
#> 
#> Reliability analysis   
#> Call: psych::alpha(x = test123)
#> 
#>   raw_alpha std.alpha G6(smc) average_r S/N    ase mean   sd median_r
#>       0.89      0.89    0.91      0.33 7.8 0.0098  2.9 0.63     0.27
#> 
#>     95% confidence boundaries 
#>          lower alpha upper
#> Feldt     0.87  0.89  0.90
#> Duhachek  0.87  0.89  0.91
#> 
#>  Reliability if an item is dropped:
#>     raw_alpha std.alpha G6(smc) average_r S/N alpha se var.r med.r
#> V1       0.88      0.88    0.91      0.33 7.3    0.010 0.027  0.27
#> V2       0.88      0.88    0.91      0.33 7.4    0.010 0.026  0.28
#> V3       0.88      0.88    0.91      0.33 7.3    0.010 0.027  0.27
#> V4       0.88      0.88    0.91      0.33 7.4    0.010 0.027  0.27
#> V5       0.88      0.88    0.91      0.32 7.1    0.011 0.025  0.27
#> V6       0.88      0.88    0.91      0.32 7.2    0.010 0.022  0.28
#> V7       0.88      0.88    0.91      0.32 7.2    0.011 0.023  0.27
#> V8       0.88      0.88    0.91      0.32 7.2    0.011 0.024  0.27
#> V9       0.88      0.88    0.91      0.32 7.2    0.010 0.023  0.27
#> V10      0.88      0.88    0.91      0.32 7.1    0.011 0.024  0.27
#> V11      0.88      0.88    0.91      0.33 7.2    0.010 0.026  0.27
#> V12      0.88      0.88    0.91      0.33 7.4    0.010 0.025  0.27
#> V13      0.88      0.88    0.91      0.33 7.5    0.010 0.024  0.28
#> V14      0.88      0.88    0.91      0.32 7.2    0.010 0.027  0.27
#> V15      0.88      0.88    0.91      0.33 7.3    0.010 0.026  0.28
#> V16      0.88      0.88    0.91      0.33 7.4    0.010 0.024  0.28
#> 
#>  Item statistics 
#>       n raw.r std.r r.cor r.drop mean   sd
#> V1  300  0.60  0.59  0.56   0.52  2.9 1.08
#> V2  300  0.58  0.57  0.54   0.50  2.9 1.05
#> V3  300  0.60  0.60  0.57   0.53  3.0 1.06
#> V4  300  0.58  0.58  0.54   0.50  2.9 1.00
#> V5  300  0.67  0.67  0.65   0.61  3.0 1.09
#> V6  300  0.63  0.63  0.62   0.57  3.0 1.03
#> V7  300  0.64  0.64  0.62   0.57  3.0 1.06
#> V8  300  0.65  0.65  0.63   0.59  3.0 1.07
#> V9  300  0.63  0.63  0.61   0.57  3.0 1.05
#> V10 300  0.67  0.66  0.65   0.60  2.9 1.06
#> V11 300  0.61  0.62  0.59   0.55  2.9 0.98
#> V12 300  0.55  0.56  0.53   0.48  2.9 1.00
#> V13 300  0.52  0.53  0.49   0.44  3.0 0.96
#> V14 300  0.63  0.63  0.60   0.56  2.9 1.04
#> V15 300  0.58  0.59  0.56   0.51  2.9 1.06
#> V16 300  0.57  0.57  0.55   0.49  2.9 1.04
#> 
#> Non missing response frequency for each item
#>        1    2    3    4    5 miss
#> V1  0.11 0.27 0.34 0.22 0.06    0
#> V2  0.09 0.27 0.37 0.21 0.07    0
#> V3  0.07 0.27 0.35 0.22 0.09    0
#> V4  0.09 0.24 0.42 0.20 0.05    0
#> V5  0.08 0.26 0.33 0.24 0.09    0
#> V6  0.07 0.28 0.35 0.24 0.07    0
#> V7  0.08 0.27 0.34 0.23 0.08    0
#> V8  0.09 0.21 0.37 0.25 0.08    0
#> V9  0.08 0.23 0.38 0.24 0.08    0
#> V10 0.09 0.27 0.36 0.21 0.07    0
#> V11 0.08 0.24 0.42 0.21 0.05    0
#> V12 0.07 0.28 0.38 0.21 0.06    0
#> V13 0.04 0.28 0.38 0.24 0.06    0
#> V14 0.10 0.26 0.36 0.24 0.05    0
#> V15 0.09 0.27 0.37 0.19 0.07    0
#> V16 0.08 0.29 0.35 0.21 0.07    0

Elde edilen çıktıda madde analizi sonuçları için item statistics kısmı incelenir. Çok kategorili puanlanan maddeleri içeren testte (tes123) madde güçlükleri 2.9 ile 3.0 aralığında değerler alırken, madde ayırt ediciliklerinin ise 0.44 ile 0.61 aralığında yüksek değerler aldığı görülmektedir. Çok kategorili verilerde bir madde için alınabilecek en yüksek puanın 5 olduğu düşünüldüğünde madde güçlüğünün orta nokta olan 2.5’tan yüksek olması nedeniyle ortadan biraz daha yüksek olduğu belirtilebilir.

2.4 Geçerlik

Bu bölümde ölçmenin en temel unsuru olan geçerlik ve geçerlik kanıtları ele alınmıştır. Geçerlik genellikle ölçme aracının ölçmek istediği özelliği başka değişkenlerle karıştırmadan ölçmesi veya testin amacına hizmet etme derecesi olarak tanımlansa da bu kavram 1950’lerden bu yana anlam bakımından değişikliğe uğramıştır. Bu değişiklikleri Brennan (2006) eğitimde ölçmenin evrimi ve geleceği üzerine görüşleri bölümünde özetlemektedir. Aşağıdaki bölümde bu değişiklikler kısaca açıklanmıştır.

Educational Measurement’ın ilk baskısında Cureton (1951) geçerliği testin amacına hizmet etme derecesi olarak tanımlamıştır. Bu anlayışta geçerlik, ölçme aracından elde edilen puan ile bir ölçüt puanı (gerçek görev olduğu varsayılan) arasındaki korelasyon olarak tanımlanmış ve buna da ölçüt geçerliği denilmiştir. Bu ölçüt genellikle, aynı yapıyı ölçmeyi amaçlayan başka bir araçtan alınan belirli bir işteki performans veya lise sonrası eğitimdeki notlar gibi gelecekteki davranışlar veya sonuçlar ya da ölçütün özellikle ilgili puanlardır. Bu korelasyon katsayıları geçerlik katsayıları olarak da bilinmektedir. Genellikle testin ölçmeyi amaçladığı özellik doğrudan gözlemlenebilir olmadığından alternatif geçerlik kanıtı kavramlarının geliştirilmesini gerektirmiştir. 1954 yılında yayınlanan “Technical recommendations for psychological tests and diagnostic techniques” kitabında (bundan sonra Standartlar olarak anılacaktır) kapsam geçerliği, eşzamanlı ve yordama geçerliği olmak üç geçerlik türü listelenmiştir (American Psychological Association, 1954). Standartların 1966 baskısında yordama ve eşzamanlı geçerlik birleştirilip, geçerlik türleri kapsam, ölçüt ve yapı geçerliği olarak üç tür olarak verilmiştir (American Educational Research Association, American Psychological Association ve National Council on Measurement in Education, 1966). Yordama geçerliğinde ölçüt gelecekte gerçekleşen bir durumla ilişkilidir. Eşzamanlı geçerlikte ise, testten alınan puanlar ile yaklaşık olarak aynı zamanda ölçülen bir ölçütten alınan puanlar arasındaki korelasyon hesaplanır. Bu durumda ölçüt genellikle aynı yapıyı ölçtüğü iddia edilen ve bu amaç için geçerli olduğu zaten gösterilmiş olan başka bir test puanıdır.

Kapsam geçerliği, ölçme aracını oluşturan maddelerin içeriğinin ayrıntılı olarak incelenmesini içerir. Kapsam geçerliğinin mantığı, ilgilenilen yapıyı ölçmek için kullanılan maddelerin gerçekten de bunu yapıp yapmadığının belirlenmesidir. Kapsam geçerliğine dair kanıt üretmek için öncelikle maddeler uzman incelemesinden geçirilir. İlgilenilen yapının iyi tanımlandığı varsayıldığında, madde sayısının yapıyı kapsamak için yeterli olup olmadığı ve maddelerin yapıyı gerçekten ölçüp ölçmediğini test edilen alandaki uzmanlardan oluşan bir panel inceler. Bu nedenle, kapsam geçerliği bir korelasyon katsayısından ziyade maddelerin içeriği ile ölçülen yapı arasında teorik bir bağlantı olduğuna dair kanıt sağlamayı amaçlar. Kane (2006) panelde yer alan uzmanların görüşlerinin öznelliğine dikkat çeker.

1950’li ve 1960’lı yıllardan itibaren ölçütten ziyade, ölçülen yapının kendisini merkeze alan bir geçerlik ön plana çıkmıştır. 1966 baskısında Standartlara yapı geçerliği eklenmiştir (American Educational Research Association ve diğerleri, 1966). Yapı geçerliği, teorik beklentiler ve ölçme aracının bu beklentilerle ne ölçüde eşleştiği temeline dayanmaktadır. Diğer bir ifadeyle yapı geçerliği, söz konusu ölçme aracının teorinin öngördüğü şekilde davranma derecesini ele almaktadır (Finch ve French, 2018). 1960’larda yapı geçerliği, teoriyle olan açık bağlantıları nedeniyle içerik ve ölçüt geçerliliğinden ayrı ve daha üstün olarak görülmeye ve geçerliğin tüm yönlerini kapsayan bir şemsiye terim olarak anlaşılmaya başlanmıştır. Yapı geçerliğine dair açıklamalar kitabın bölüm 3’te detaylı olarak ele alınmaktadır. 1985’te geçerlik türleri yerine geçerlik delili türleri kavramı kullanılmıştır (American Educational Research and Association ve National Council on Measurement in and Education, 1985).

Yapı geçerliğinin bütüncül bir geçerlik fikri olarak ortaya çıkmasından sonra, Messick (1989) bu fikri genişletmiş, ölçme aracına dair geçerlik kanıtı toplamaktan ziyade ölçme aracından elde edilen puanlar için yapılan çıkarımların geçerliğinin incelendiğini belirtmiştir. Diğer bir ifadeyle geçerlik çalışması (validation), puanların belirli bir amaç için kullanılmasını destekleyen kanıtların sunulmasını içeren bir argüman olarak ele alınmalıdır. Örneğin ehliyet sınavından yüksek puan alanların daha az trafik kuralı ihlali yapacağı gibi bir argüman ortaya koyup bu amaçla kanıt toplanabilir. Messick (1989)’in çerçevesini kullanarak, sürüş testi puanının trafik kuralı ihlaline ilişkin faydalı çıkarımlar sağladığını, ancak sürüşün diğer yönleri hakkında hiçbir şey söylemediği rahatlıkla söylenebilir.

Standartların 1999 baskısından bu yana geçerlik, test puanları için yapılan yorumların (test puanlarına verilen anlamların) ve test puanlarının kullanımlarının delillerle ve teoriyle desteklenme derecesi olarak tanımlanmaktadır (American Educational Research and Association ve National Council on Measurement in and Education, 1999). Geçerliğin türleri ve çeşitleri yoktur, geçerlik üniter bir kavramdır. Tek bir geçerlik için toplanılan geçerlik kanıtlarının kaynakları vardır. Standartların 2014 baskısında olası geçerlik kanıtı kaynakları aşağıdaki gibi listelenmektedir (American Educational Research and Association ve National Council on Measurement in and Education, 2014).

1.Testin kapsamına dayalı kanıtlar

2.Yanıtlama sürecine dayalı kanıtlar

3.İç yapıya dayalı kanıtlar

4.Diğer değişkenlerle ilişkilere dayalı kanıtlar

4.1.Test-ölçüt ilişkisi

4.2.Yakınsak ve ıraksak kanıtlar

5.Testin sonuçlarına dayalı kanıtlar

2.4.1 Testin Kapsamına Dayalı Kanıtlar

Bu kanıtlar, bir ölçme aracını oluşturmak üzere seçilen maddelerin ölçülen özelliğe ilişkin bir içerik kapsamı sağladığından emin olmaya odaklanır. Bu kanıtların toplanmasının ilk adımında, hedef alanın tam (açık ve net) olarak tanımlanması gerekir. Kapsama dair deliller içerik alanına (örneğin matematik) ve hedef kitleye (örneğin üçüncü sınıf öğrencileri, üniversite öğrencileri) aşina olan konu/alan uzmanları (örneğin öğretmenler, üniversite öğretim üyeleri) tarafından incelenir. Konu uzmanlarının sorumluluğu, maddelerin test edilen alanı (ör. üçüncü sınıf Türkçe) kabul edilebilir şekilde kapsayıp kapsamadığını gözden geçirmektir. Uzmanlardan her bir madde için bir puan vermeleri ve açıklama yapmaları istenir. Puan tipik olarak 1 = Yapıyı açıkça ölçüyor, 2 = Yapıyı kısmen ölçüyor, 3 = Yapıyı ölçmüyor gibi bir ifade olacaktır. Açıklama, uzmanın bir maddenin ilgili yapıyı nasıl ölçtüğüne veya ölçmediğine dair kısa bir açıklama ile bu derecelendirmeyi genişletmesine olanak tanır. Bu derecelendirmeler araştırmacı tarafından derlenir ve özet bilgi daha sonra uzmanlara geri verilir. Bu yinelemeli bir süreçtir. Uzman değerlendirme sürecinin sonunda, araştırmacı sonuçları yani son değerlendirmeden elde edilen her bir madde için verilen puanların frekansları ve değerlendiriciler tarafından sağlanan açıklamaları derler. Bu bilgilerin sayısallaştırılması için, bazı kaynaklarda bunun Kapsam geçerlik oranı (content validity ratio-CVR) kullanılır (Lawshe, 1975). CVR aşağıdaki formülle hesaplanır.

\[ CVR=\frac{n_e-(N/2)}{N/2} \tag{2.31} \]

Burada \(n_e\) maddenin uygun ve gerekli olduğunu belirten uzmanların sayısı ve \(N\) ise toplam uzman sayısıdır.

2.4.2 Yanıtlama Sürecine Dayalı Kanıtlar

Yanıtlama süreci kanıtı için, bireylerin maddeleri nasıl yanıtlarını (sesli düşünmelerini) içeren sözlü açıklamaları elde edilir. Bu tür veriler çoğunlukla, sesli düşünme protokollerinin kullanılmasını gerektirir. Buna ek olarak, diğer bilgi türleri de kullanılabilir (örneğin göz izleme, yanıt süreleri, tuş vuruşu yakalama vb.). Bu tür kanıtların toplanmasında iki yaklaşım vardır. Bu yaklaşımlardan ilki, bireylerin belirli problemleri nasıl çözdüklerine ve kısa süreli/çalışan hafızalarının nasıl işlediğine incelemeye odaklanır. İkincisi ise, katılımcıların yeni materyalleri nasıl kavradıkları ve bu yeni materyalleri uzun süreli bellekte yer alan bilgilerle nasıl bütünleştirdikleri konusunda içgörü kazanmaya yöneliktir. Problem çözme sürecini incelemenin amacı belirli bir bilişsel teorinin gözlemlenen verilerle ne ölçüde desteklendiğini tespit etmek olduğu için doğrulayıcı bir araç olarak da kabul edilir. Dolayısıyla, bu yaklaşımı kullanırken, bir araştırmacının bir bireyin belirli bir problem türünü çözme yoluna ilişkin iyi geliştirilmiş bir teoriye sahip olması gerekir. Veriler daha sonra bir sesli düşünme protokolü kullanılarak toplanır ve ardından kodlama yapılır. Elde edilen bilgiler daha sonra, uygulamada gözlemlenen stratejilerin gerçekten de kullanıldığı varsayılan stratejiler olup olmadığını tespit etmek amacıyla, çözümlerin katılımcılar tarafından nasıl geliştirilmesinin beklendiğine ilişkin var olan teoriyle karşılaştırılır. Yanıtlama süreci kanıtları ayrıca araştırmacıya bilişsel olarak neyi ölçtükleri açısından puanların nasıl yorumlanabileceği konusunda rehberlik sağlar (Finch ve French, 2018).

2.4.3 İç Yapıya Dayalı Kanıtlar

Bir ölçme aracındaki maddelere verilen yanıtların altında yatan örtük yapının modellenmesini içerir.

2.4.4 Diğer Değişkenlerle İlişkilere Dayalı Kanıtlar

Ölçme aracından alınan puanlar ile teorinin hedef ölçütle ilişkilendirilmesini önerdiği ve genellikle ölçüt olarak adlandırılan başka bir ölçütten alınan puanlar arasındaki ilişkilerin incelenmesini içerir. Testten alınan puanlarla ve ölçüt ölçümlerden elde edilen puanlar arasındaki korelasyon katsayısı (örneğin Pearson Momentler Çarpımı) kullanılarak ölçülür.

2.4.4.1 Ölçüte dayalı kanıtlar

Puanların kullanım amacına bağlı olarak, araştırmacılar eşzamanlı veya yordayıcı geçerlik kanıtları elde ederler. Önceki paragraflarda açıklandığı üzere, eşzamanlı geçerlik kanıtı, aynı veya çok benzer özelliği ölçmek üzere tasarlanmış iki ölçümden elde edilen puanların bir birlerine ne derece benzer olduğunu belirlemeyi içerir. Hem eşzamanlı hem de yordayıcı geçerlik kanıtları, testten alınan puanlar ile aynı özelliği ölçtüğü varsayılan başka bir testten alınan puanlar arasındaki ilişkiye odaklanır. İkisi arasındaki temel fark, ölçüt puanlarının elde edildiği zamandır: yani testle aynı zamanda (yani eşzamanlı) veya gelecekte bir noktada (yani yordama) olması.

2.4.4.2 Yakınsak ve ıraksak kanıtlar

Yakınsak geçerlik kanıtı genellikle iki puan arasındaki korelasyon katsayısı kullanılarak değerlendirilse de okuryazarlık değerlendirmesi gibi hedef özellik bakımından niteliksel olarak farklı iki grup (örneğin düşük ve yüksek riskli okuyucular) arasındaki ortalama puanların karşılaştırılması şeklinde de olabilir. Bazen bu yaklaşım, bir aracın farklı performansa sahip olduğu varsayılan iki veya daha fazla grup arasında farklılaşan puanlar verme derecesini değerlendirmek için kullanılabilir.

Bazı durumlarda, ölçme aracından elde edilen puanların ilişkili olmaması gereken değişkenlerle ilişkilerini göstererek teorik olarak bu ölçme aracının nitelikli olduğunu yani herhangi bir değişken ile yüksek korelasyon göstermediğini göstermemiz gerekir, bu bize ıraksak geçerlik kanıtları sağlar. Testten elde edilen puanların, testle ilişkili olmaması gereken farklı bir ölçümden elde edilen puanlarla ilişkili olup olmadığının ve araştırılmasını içerir. Örneğin bir yaratıcılık ölçeğini ele alalım. Ölçekten daha yüksek puan alan bireylerin daha yüksek derecede yaratıcılık sergilemesi beklenir. Yakınsak geçerlik kanıtı için, ölçeğin yanı sıra, katılımcılara bir geleneksel yaratıcılık görevi de uygulayıp, daha sonra ölçeğin puanları ile geleneksel yaratıcılık görevindeki çözümlere puanlayıcılar tarafından verilen puanlar arasındaki korelasyonu hesaplarız. Bu korelasyonların pozitif ve yüksek olmasını bekleriz. Iraksak geçerlik kanıtı için ise, her katılımcıya bir bilişsel yetenek ölçeği uygulayıp, bu ölçekten aldıkları puanlar ile yaratıcılık ölçeğinden aldıkları puanlar arasındaki korelasyonu hesaplayabiliriz. Bu durumda, ölçeğimiz bilişsel yeteneği değil de sadece yaratıcılığı ölçüyorsa, iki puan dizisi arasındaki korelasyonun nispeten düşük olmasını ve kesinlikle iki yaratıcılık ölçümü (kendi kendine uygulanan ve puanlayıcı tarafından puanlanan) arasındaki korelasyondan daha düşük olmasını bekleriz (Finch ve French, 2018).

2.4.5 Testin Sonuçlarına Dayalı Kanıtlar

Bu kanıt türü belirli bir ölçme aracının belirli bir amaç için kullanılmasının toplumsal ve bireysel sonuçlarının neler olduğu üzerinde durur. Brennan (2006) test puanlarının öngörülen ve öngörülmeyen kullanımları ve bu kullanımların olumlu (pozitif) ve olumsuz (negatif) sonuçları (consequences) olduğunu belirtir. Her ne kadar ister beklenen ister beklenmeyen olumlu sonuçlar bir sorun teşkil etmese de, üstünde durulması gereken nokta olumsuz sonuçlardır. Standartlar (2014) test geliştiricilerinin test puanlarının kullanımları ve yorumları için beklenen olumlu ve olumsuz sonuçlar için kanıt sağlaması gerektiğini, ancak test puanlarının öngörülmeyen kullanım ve yorumlarına dair sorumluluğun test puanlarını kullananlarda olduğunu belirtmektedir. Peki bu kanıtların hepsini her durumda toplamamız gerekmekte midir? Standartların giriş bölümünde standartların bir kontrol listesi gibi kullanılmaması gerektiği ve toplanması gereken kanıtların bağlama bağlı olduğu belirtilmektedir. Başka bir deyişle test puanlarını ne şekilde yorumladığımız ve kullandığımız toplamamız gereken öncelikli kanıtları belirler.

Korelasyon hesaplaması içeren geçerlik kanıtları için R programında Pearson korelasyonu için cor() fonksiyonunu kullanabilirsiniz.

  • Bölüm atıf bilgisi: Aktan-Çobanoğlu, D. (2025). Klasik test kuramı, güvenirlik ve geçerlik. N. Güler, B. Atar & K. Atalay-Kabasakal (Ed.), R ile psikometri içinde. Pegem Akademi.

Kaynaklar

American Educational Research and Association, A. P. A. ve National Council on Measurement in and Education. (1985). Standards for Educational and Psychological Testing. Washington, DC: American Psychological Association.
American Educational Research and Association, A. P. A. ve National Council on Measurement in and Education. (1999). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association.
American Educational Research and Association, A. P. A. ve National Council on Measurement in and Education. (2014). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association.
American Educational Research Association, American Psychological Association ve National Council on Measurement in Education. (1966). Standards for Educational and Psychological Testing. Washington, DC: American Psychological Association.
American Psychological Association. (1954). Technical recommendations for psychological tests and diagnostic techniques. Washington, DC.
Brennan, R. L. (2001). An essay on the history and future of reliability from the perspective of replications. Journal of Educational Measurement, 38(4), 295-317.
Brennan, R. L. (2006). Perspectives on the Evolution and Future of Educational Measurement. R. L. Brennan (Ed.), Educational measurement içinde (4th bs., ss. 1-16). Westport, CT: Praeger.
Bulut, O. (2024). hemp: Handbook of educational measurement and psychometrics Using R Companion Package. https://github.com/cddesja/hemp adresinden erişildi.
Crocker, L. ve Algina, J. (1986). Introduction to Classical and Modern Test Theory. Holt, Rinehart,; Winston.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297-334. doi:10.1007/BF02310555
Cureton, E. E. (1951). Validity. E. F. Lindquist (Ed.), Educational measurement içinde (ss. 621-694). Washington, DC: American Council on Education.
Feldt, L. S. ve Brennan, R. L. (1989). Reliability. R. L. Linn (Ed.), Educational measurement içinde (3rd bs., ss. 105-146). Washington, DC: American Council on Education, Macmillan.
Finch, W. H. ve French, B. F. (2018). Educational and Psychological Measurement. Routledge. doi:10.4324/9781315650951
Gulliksen, H. (1950). Theory of mental tests. John Wiley & Sons Inc. https://doi.org/10.1037/13240-000 adresinden erişildi.
Kamata, A., Turhan, A. ve Darandari, E. (2003). Estimating reliability for multidimensional composite scale scores. The Annual meeting of American Educational Research Association içinde.
Kane, M. T. (2006). Validation. R. L. Brennan (Ed.), Educational measurement içinde (4th bs., ss. 17-64). Westport, CT: Praeger.
Kuder, G. F. ve Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2(3), 151-160. doi:10.1007/bf02288391
Lawshe, C. H. (1975). A quantitative approach to content validity. Personnel Psychology, 28(4), 563-575. doi:10.1111/J.1744-6570.1975.TB01393.X
Lord, F. M. ve Novick, M. R. (1986). Statistical theories of mental test scores (1nd bs.). Addison-Wesley, Menlo Park.
Messick, S. (1989). Validity. R. L. Linn (Ed.), Educational measurement içinde (3rd bs., ss. 13-103). Washington, DC: American Council on Education, Macmillan.
Nunnally, J. C. ve Bernstein, I. H. (1994). Psychometric theory. McGraw-Hill series in psychology. McGraw-Hill Companies,Incorporated.
Osburn, H. G. (2000). Coefficient alpha and related internal consistency reliability coefficients. Psychological methods, 5(3), 343.
Price, L. R. (2016). Psychometric methods: Theory into practice. Guilford Publications.
Rae, G. (2007). A note on using stratified alpha to estimate the composite reliability of a test composed of interrelated nonhomogeneous items. Psychological Methods, 12(2), 177.
Revelle, W. (2024). psych: Procedures for psychological, psychometric, and personality research. https://CRAN.R-project.org/package=psych adresinden erişildi.
Spearman, C. (1904). The Proof and Measurement of Association between Two Things. The American Journal of Psychology, 15(1), 72. doi:10.2307/1412159