Bölüm 4 Genellenebilirlik Kuramı
Dr. Neşe Güler
Bir İngilizce öğretmeninin sınıfında uyguladığı çoktan seçmeli bir testle öğrencilerinin başarısını ölçtüğünü düşünelim. Ölçülmek istenen değişken, ölçülmesi amaçlanan yapı (ölçme objesi) öğrencilerin “gerçek başarı puanı”dır. Ancak öğretmenin, öğrencilerin verdiği yanıtlara göre, elde ettiği puanlar “gözlenen başarı puanı”dır. Gözlenen başarı puanları “ölçme hatası”nı da içermektedir. Diğer bir ifadeyle “gözlenen puan = gerçek puan + hata” eşitliği klasik test kuramı (KTK)’nın temel eşitliğidir. Bu eşitlikte yer alan “hata”nın farklı bileşenleri vardır. Ancak KTK’da “hata”nın farklı kaynaklara ayrıştırılması mümkün değildir. Bu durum KTK’nın bir sınırlılığı olarak yorumlanmaktadır.
Yukarıdaki örnekte öğrencilerin aldıkları puanların farklılığı (varyansı) (1) öğrencilerin farklı başarı düzeyine sahip olmasından, (2) maddelerin güçlük düzeyindeki farklılıktan, (3) öğrenci-madde etkileşiminden, sistematik ve rastgele hata kaynaklarının birleşiminden oluşmaktadır. KTK, bu bileşenlerin ne düzeyde olduğuna ilişkin bilgi edinmemize imkân tanımaz. Öğrencilerin belirli bir psiko-motor becerisinin dereceli puanlama anahtarıyla (rubrikle) farklı zamanlarda ve birden fazla puanlayıcı tarafından puanlandığı bir ölçme durumunda varyans bileşenlerinin çok daha karmaşık bir hal alacağı açıktır.
KTK’da farklı hata kaynaklarının dikkate alındığı, farklı yöntemlerle hesaplanan (test tekrar-test yöntemi, paralel formlar yöntemi, iç tutarlılık katsayıları gibi) güvenirlik katsayıları birbirinden farklı olabilir. Genellenebilirlik kuramı (G kuramı), KTK’nın bu sınırlılığını gidermeye yönelik daha esnek bir yöntem olarak geliştirilerek puanlayıcı, test formu, oturum (zaman), madde veya görevler gibi tüm potansiyel değişkenlik kaynaklarından gelebilecek hataları birlikte ve aynı zamanda değerlendirerek kapsamlı tek bir güvenirlik katsayısı hesaplamayı mümkün kılar. Böylece G kuramı, eğitim, psikoloji vb. alanlarda karşılaşılan karmaşık ölçme durumlarında elde edilen sonuçlara ilişkin de güvenirlik kestirimlerinde bulunmaya imkan tanır.
G kuramı, KTK’nın sadece yeniden yorumlanması olmayıp aynı zamanda güvenirlik ve geçerlik arasındaki yerleşe gelmiş farklılığın nasıl ortadan kaldırılabileceğini de açıklar. Genel anlamıyla yapı geçerliği, ölçülmesi amaçlanan bir yapının (örneğin bireylerde var olduğu kabul edilen bir özelliğin) ölçme sonucunda ortaya konma derecesi olarak yorumlanabilir (Baykul, 2000) ve KTK’da güvenirlik, paralel ölçümlerle gerçek puana ilişkin doğru kestirimde bulunmanın bir derecesidir. G kuramında yer alan “evren” kavramı, tüm gözlem koşulları ve değişkenlik kaynaklarını kapsamaktadır ki bu da klasik kuramdaki “yapı” kavramını tanımlamaktadır. G kuramı, bu örtük yapıyla (kabul edilebilir gözlemler evreniyle) ilgili kestirimlerin doğru olarak elde edilmesi mümkün olduğunda güvenilir sonuçlara ulaşılabileceğini ortaya koyarak güvenirlik ile geçerlik arasındaki geleneksel ayırımı ortadan kaldırmış olur (Allal ve Cardinet, 1997).
4.1 Genellenebilirlik Kuramının Temel Kavramları
Bir bireyin bir dersteki başarısını, akademik tutumunu, bir alandaki yeteneğini vb. tek bir madde ya da tek bir ölçümle belirlemeye çalışmayız. Yukarıda yer alan örnekte olduğu gibi bir öğrencinin matematik başarısını ölçmek üzere bir test uyguladığımızda bu test, tek bir madde içermemektedir. Varsayalım ki bir test, ölçülmesi amaçlanan kapsamı yansıtacak 20 maddeden oluşsun. Testte yer alan bu 20 madde, ölçülmek istenen yapıya ilişkin oluşturulabilecek tüm maddelerin evreninin sadece bir örneklemidir ve bu 20 maddeyle, maddelerin evrenine ilişkin olarak öğrencinin matematik başarısına dair genel bir kanıya varmak isteriz, kısacası genelleme yapmak isteriz. Testte yer alan tüm maddelerin güçlük düzeyleri eşitse, bireyin başarısı bir maddeden diğerine yaklaşık aynı düzeyde olacaktır ve bu 20 maddeden elde edilecek başarı düzeyi tüm evrene genellenebilecektir. Ancak testte yer alan maddeler farklı güçlük düzeyindeyse, öğrencinin başarı düzeyi de sadece bu testteki madde örneklemine bağlıdır. Bu örneklemden evrene genelleme yapmak riskli olacak ve “maddeler”deki değişkenlik, genellemedeki potansiyel hata kaynağını oluşturacaktır. G kuramı çerçevesinde, bu örnekteki tek değişkenlik kaynağı olan “maddeler” yüzey (facet) olarak ifade edilir. Bireyin başarısı hakkında karar verme sürecindeki amaca bağlı olarak, testteki maddelerle elde edilen ölçümler,“kabul edilebilir gözlemler evreninin” bir örneklemidir ve testte yer alan bu 20 madde, evrendeki diğer “madde”lerle yer değiştirebilirdir; madde evreni de kabul edilebilir tüm maddeler olarak tanımlanacaktır. Örnekten de anlaşılacağı üzere, bireyin başarısını ölçmenin amaçlandığı bu süreçte hata kaynağı, “maddeler” olup; bu ölçme durumu,* tek yüzeyli bir evrene sahiptir. Ancak eğitim, psikoloji, sosyal bilimler gibi farklı alanlarda yapılan pek çok ölçme, çok daha karmaşık süreçleri içermektedir.
İngilizce dersinde, öğrencilerin (o) kompozisyon yazma becerilerinin, on görevin (g) yer aldığı bütüncül bir dereceli puanlama anahtarıyla iki puanlayıcı (p) tarafından puanlandığını düşünelim. Bu ölçme sürecinde hem görevler hem de puanlayıcılar, puanlardaki hataya kaynaklık edecek “yüzey”leri oluşturmaktadır. Diğer bir ifadeyle bu ölçme sürecinde iki yüzey bulunmaktadır. Yüzeyleri oluşturan her bir düzey de koşul (condition) olarak tanımlanır. Bu örnekte yer alan görev yüzeyi 10 ve puanlayıcı yüzeyi de iki koşuldan oluşmaktadır. İki yüzeyli bu örnekte olduğu gibi genelde yüzeylerden biri puanlayıcılar olmakla birlikte farklı ölçme oturumlarının / gözlem koşullarının da yer alması mümkün olabilir. Ayrıca ölçme süreçlerinde elde edilen veriler 0 ya da 1 (ynalış ya da doğru gibi) ya da “0 ile 10”, “1 ile 3”, “1 ile 5” vb. arasındaki puanlar olabileceği gibi frekans (sıklık) değerlerinden de oluşabilir (Shavelson ve Webb, 1991).
Genellikle, ölçme sürecinde yer alan yüzeylerin olası koşullarının sonsuz büyüklükte olduğu varsayılır. Ölçme sonuçlarının elde edildiği örneklemin yerini alabilecek olası tüm ölçme sonuçlarını kapsayan evrene “kabul edilebilir gözlemler evreni” adı verilir. Öğrencilerin başarısının ölçüldüğü örnekte, öğrencilerin puanları, benzer tüm matematik maddelerinden elde edilebilecek puanların bir örneklemi olup, buradaki “kabul edilebilir gözlemler evreni” madde yüzeyini içermektedir. Öğrencilerin kompozisyon yazma becerilerinin ölçüldüğü örnekte ise, öğrencilerin puanları, benzer tüm görev ve puanlayıcılardan elde edilebilecek puanların bir örneklemini oluşturmaktadır ve buradaki “kabul edilebilir gözlemler evreni” görev ve puanlayıcı yüzeylerini içermektedir. Her iki örnekte de ölçmeye konu olan, diğer bir ifadeyle asıl gözlenmek istenen, “öğrenciler” arasındaki farklılıktır (varyanstır).G kuramında, ölçmenin hedefinde yer alan değişkenliği oluşturan bu kaynak, yüzey olarak değil “ölçme objesi (the object of measurement)” olarak tanımlanır. “Ölçme objesi”ne bağlı değişkenlik, bir hata kaynağı olarak ele alınmaz. Diğer bir ifadeyle bireylere bağlı varyans istenilen bir durum olup hataya kaynaklık etmez, ölçülmesi amaçlanan değişkenliği oluşturur. Her ne kadar eğitimde ve sosyal bilimlerde genellikle ölçme objesi “bireyler/öğrenciler” olsa da bu bir zorunluluk değildir. Ölçmenin amacına bağlı olarak, zaman zaman maddeler, görevler, öğretmenler/puanlayıcılar vb. de birer ölçme objesi olabilmektedir.
G kuramında, ölçme sürecinde yer alan her bir yüzeydeki durumların genellenmesi istenilen tüm durumlar “evren (universe)” olarak ifade edilirken; “ölçme objesi” için “popülasyon”* kavramı kullanılır (Brennan, 1992, ss. 2-3) . Böylece, kabul edilebilir gözlemler evreninde yer alan yüzeyler üzerinden ölçme objesine ilişkin elde edilebilecek olası tüm puanların ortalaması “evren puanı” olarak ifade edilir. Evren puanı varyansı, KTK’da yer alan gerçek puan varyansına benzerdir. Ancak G kuramında KTK’dan farklı olarak iki ayrı hata varyansı bulunur. Diğer bir ifadeyle G kuramında hem göreli hem de mutlak kararlara dair iki ayrı hata varyansı ve buna bağlı olarak iki ayrı güvenirlik katsayısı elde edilebilir. G kuramındaki göreli hata varyansı KTK’daki hata varyansı gibi düşünülebilir (Shavelson ve Webb, 1991) ve buna bağlı genellenebilirlik (G) katsayısı kestirilebilirken; ayrıca mutlak hata varyansı ve buna dayalı olarak da güvenirlik (phi-\(\phi\) ) katsayısı hesaplanabilir.
Kompozisyon yazma becerilerinin ölçüldüğü örnekte, puanlayıcıların her biri tüm öğrencilerin, tüm görevlerini puanlıyorsa, bu ölçme desenine çapraz desen (crossed design) adı verilir ve bu desenin gösterimi ö x g x p şeklindedir. Ancak bazen de bu tür bir ölçme sürecinde puanlayıcıların her biri tüm görevleri gerek zaman gerekse uzman oldukları alan nedeniyle puanlayamazlar. Örneğin çevre mühendisliği bölümü öğrencilerinin tamamladığı bitirme projelerine ilişkin belirlenen 25 farklı görevden her beş görevi, uzmanlığına uygun olarak farklı iki puanlayıcı (toplam 10 puanlayıcı) puanlıyor olabilir. Bu ölçme sürecinde puanlayıcılar, görevler içinde yuvalanmış olacaktır. Öğrenciler ise tüm görevleri yerine getirmiş ve tüm puanlayıcılar tarafından puanlanacaktır. Bu çalışmanın deseni ise yuvalanmış desen (nested design) olarak ifade edilir ve ö x (p : g) şeklinde gösterilir. Bu gösterim, “puanlayıcılar görevlerde yuvalanmıştır ve öğrenciler hem puanlayıcılar hem de görevler ile çaprazlanmıştır” olarak yorumlanmaktadır. Yuvalanmış desene ilişkin durumlar daha farklı olarak da karşımıza çıkabilir. Buna ilişkin örnekler bölümün ilerleyen kısımlarında daha ayrıntılı olarak ele alınmıştır. G kuramında ö x g x p desenine ilişkin, kabul edilebilir gözlemler evrenindeki herhangi bir görevin herhangi bir puanlayıcı tarafından puanlanmasıyla elde edilen popülasyondaki bir öğrencinin gözlenebilir puanı Eşitlik (4.1)’deki gibi ifade edilir.
\[ X_{ögp} = \mu + \nu_{ö} + \nu_{g} + \nu_{p} + \nu_{ög} + \nu_{öp} + \nu_{gp} + \nu_{ögp}\tag{4.1} \]
Eşitlik (4.1)’de, µ, kabul edilebilir gözlemler evreni üzerinden genel ortalamayı, ʋ ise ilişkisiz 7 bileşenden her birini ifade eder. Bu model, ö x g x p’nin doğrusal modelidir (Brennan, 2011; Guler, 2012).
G kuramının, KTK’dan ayrılan bir başka özelliği G kuramında, güvenirliğin araştırılmasında iki ayrı çalışmanın yer almasıdır: Genellenebilirlik (G) Çalışması ve Karar (K) Çalışması.
G çalışmasıyla desene ilişkin olası tüm varyans bileşenlerinin kestirimi gerçekleştirilir. Bu varyansların kestirimi, varyans analizi (ANOVA) yöntemi kullanılarak gerçekleştirilir. Ancak ANOVA’da gruplar arası farklılığın istatistiksel olarak manidar olup olmadığı test edilmek üzere varyans bileşenlerine bağlı olarak elde edilen F değeri, G çalışmasında hesaplanmaz (Brennan, 2011; Shavelson ve Webb, 1991). Yukarıdaki örnekte de görüleceği üzere görev ve puanlayıcı gibi iki yüzeyli çapraz bir desende toplam 7 varyans bileşeni bulunmaktadır. Elde edilen bu varyans bileşenleri, kabul edilebilir gözlemler evreninin sınırları içinde yer almaktadır. Diğer bir ifadeyle G çalışmasında görevler ve puanlayıcılar olmak üzere iki yüzey bulunuyorsa, kabul edilebilir gözlemler evreni sadece bu yüzeylere ilişkin tüm olası durumları içerecektir, başka bir yüzeye ilişkin durumları içeremez.
K çalışmasında, G çalışmasının kabul edilebilir gözlemler evreni çatısı altında; G çalışmasından elde edilen varyans bileşenleri kullanılarak benzer ölçme durumlarına ilişkin güvenirlik kestirimleri gerçekleştirilir. Bir K çalışmasıyla (1) genelleme evreni tanımlanarak, genellemenin yapılması istenen yüzeylerin sayısı ve genişliği belirlenir; (2) ölçme sonuçlarının yorumlanacağı amaçlar saptanarak, mutlak ve/veya göreli kararlar için ölçme hatalarının ve bunlara bağlı olarak güvenirliğin kestirimleri yapılır; (3) G çalışmasıyla elde edilen ölçmedeki hataya kaynaklık eden varyans bileşenlerine dayalı bilgilerden yararlanılarak, hatayı olabildiğince azaltacak ve güvenirliği arttıracak alternatif ölçme desenlerinin değerlendirilmesi mümkün olur. Örneğin yukarıdaki öğrenci projelerinin puanlandığı ö x g x p desenine ilişkin G çalışmasından kestirilen varyans bileşenleri üzerinden, farklı sayıda (daha az ya da daha fazla) görev ve/veya puanlayıcının olduğu ölçme durumlarında güvenirliğin ne düzeyde olabileceği kestirilir. Daha genel ifade etmek gerekirse bir K çalışması, G çalışmasında yer alan varyans bileşenlerinden yararlanarak, ölçme objesine dair kararların alınacağı durumlara ilişkin daha güvenilir ölçme sonuçlarının elde edilmesine yardımcı olur. Tek bir G çalışmasından elde edilen varyans bileşenleri üzerinden farklı K çalışmaları düzenlenebilir.
G kuramı, genel olarak yüzeylerin rastgele olmasına dayalı bir kuramdır. EÖlçme deseni tek bir yüzey içeriyorsa bu yüzey rastgele (random) olmalı, daha fazla sayıda yüzey içeriyorsa da en az bir rastgele yüzey bulunmalıdır. Ancak bazı ölçme durumlarında yüzeylerin sabit olması söz konusu olabilir. Örneğin güzel sanatlar okulundaki öğrencilerin sahne performanslarını puanlamada belirli ve değişmeyen puanlayıcılar görev alıyor olabilir. Bu durumda araştırmacının amacı, bu puanları ölçme sürecinde yer alan puanlayıcıların ötesinde daha geniş bir puanlayıcı evrenine genellemek olmayabilir. Böylece bu ölçme deseninde, puanlayıcı yüzeyi sabit olacaktır. Bir başka durumda da öğrencilerin bir uzmanlık alanına ilişkin mutlak yapmaları gereken görevler vardır ve bu görevlerin daha geniş bir evreni bulunmayabilir. Diğer bir ifadeyle araştırmacı “öğrencilerin sadece bu görevlere ilişkin puanlarının ne düzeyde olduğunu bilmek istiyorum” diye düşünebilir. Burada da görevler sabit (fixed) bir yüzey olmaktadır. Kısacası, araştırmacı ya bir yüzeydeki durumları daha geniş bir evrene genellemek istemiyor olabilir ya da ölçme sürecinde yer alan yüzeyin durumları sınırlı olup, daha genel bir evren bulunmayabilir. Bu gibi durumlarda bu yüzey sabit bir yüzey olarak ele alınmaktadır. G kuramında, ölçme deseni iki ya da daha fazla yüzey içeriyorsa bu yüzeylerin tümü sabit olamaz; bu durum genellenebilirlik kuramının altında yatan mantığa aykırıdır. Sabit ve rastgele yüzeylerin birlikte yer aldığı desenler, karma desenler (mixed designs)2 olarak ifade edilir Shavelson ve Webb (1991). Yüzeylerin rastgele ya da sabit olmasına göre de güvenirlik kestirimleri farklılık göstermektedir. Buna ilişkin açıklamalara ve örnek durumlara bölümün ilerleyen kısmında daha ayrıntılı olarak yer verilmiştir.
Buraya dek ifade edilmeye çalışılan G kuramının KTK’ya göre daha avantajlı olan dört özelliği şu şekilde özetlenebilir: 1) Tek bir analizle farklı yüzeylerden kaynaklanan hataların kestirimine olanak sağlar. 2) Ölçme desenine bağlı olarak G çalışmasında kestirilen varyans bileşenleri yardımıyla yapılacak K çalışmalarıyla daha güvenilir ölçme durumlarının belirlenmesine imkân tanır. 3) Hem bağıl hem de göreli kararların alınacağı durumlara dair ayrı ayrı güvenirlik katsayılarının kestirilmesi mümkündür. 4) Çaprazlanmış ve yuvalanmış, rastgele ve sabit yüzeylerin olduğu desenler gibi çok farklı ve karma ölçme desenlerinde de güvenirlik kestiriminin yapılabilmesine olanak tanır.
4.2 Tek Yüzeyli Desenlerde G ve K Çalışmaları
G kuramının en basit (sade) deseni tek yüzeyli desenlerden oluşmaktadır. Tek yüzeyli desenlerde; genelde olduğu gibi ölçme objesi bireylerden, desende yer alan tek yüzey de genellikle maddelerden ya da görevlerden oluşmaktadır. Örneğin ölçme ve değerlendirme bölümüne yüksek lisans öğrenci alımında yapılan bilim sınavına 10 öğrencinin katıldığını ve 8 maddeden oluşan kısa yanıtlı bir test uygulandığını düşünelim. Sınavdan elde edilen puanların güvenirliğini G kuramıyla kestiriyor olalım. Bu ölçme sürecinde, ölçme objesi öğrenciler ve tek yüzey bilim sınavında yer alan maddeler olacaktır. Eğer tüm öğrencilere (b) aynı 8 madde (m) uygulanırsa ölçme deseni b x m şeklinde çapraz; her bir öğrenciye farklı farklı 8 madde uygulanırsa ölçme deseni m : b şeklinde yuvalanmış bir desenden oluşacaktır. Örneğe bağlı olarak tek yüzeyli desenler için olası durumlar sadece bu iki desenden ibarettir. Diğer bir ifadeyle ölçme objesi ile tek yüzey ya çaprazlanacak ya da bu tek yüzey ölçme objesi içinde yuvalanacaktır.3 Ayrıca tek yüzeyli desenlerdeki yüzey sabit değil rastgele bir yüzey olmaktadır.
Şimdi, yüksek lisans öğrencilerine uygulanan bilim sınavı örneğine dönelim. Sınava 10 öğrenci (b) katılmış ve 8 maddeden (m) oluşan kısa yanıtlı bir test uygulanmıştı. Öncelikle tüm öğrencilerin aynı 8 maddeyi yanıtladığını düşünelim ve desen b x m çapraz desen olsun. G çalışmasıyla; öğrenci (b), madde (m) ve öğrenci ile madde etkileşimiyle birlikte artık varyansın yer aldığı (bm,a) üç varyans bileşenine dair kestirimler elde edilebilecektir. Bu ölçme sürecine ilişkin kabul edilebilir gözlemler evrenini sadece madde yüzeyi ve benzer tüm maddeler oluşturacak, G çalışmasıyla elde edilen varyans bileşenlerini içerecektir. G çalışması sonrası yapılabilecek olası K çalışmaları ise aşağıda yer alan sorulara yanıt aramayı içerecektir:
Ölçme deseni yine b x m olduğunda G çalışmasıyla aynı ve farklı madde sayılarında G ve \(\phi\) katsayıları ne düzeyde olacaktır?
Ölçme deseni bu kez de m : b olduğunda, G çalışmasıyla aynı ve farklı madde sayılarında G ve \(\phi\) katsayıları ne düzeyde olacaktır?

Şekil 4.1: Tek Yüzeyli Çapraz Desen
Yukarıdaki tabloda yer alan, G çalışması varyans bileşenlerinden ilki olan birey varyansı; bireylerin evren puanlarının, genel toplamdan (grand mean) olan sapmalarının karesini ifade eder. Maddelere ilişkin varyans bileşeni, evrendeki maddelerin güçlük düzeyleri arasındaki farklılıkların kestirimini verir. Son varyans bileşeni olan etkileşim etkisi ise birey madde etkileşimi ile ölçülemeyen ya da sistematik olmayan değişkenliğin kestirimidir. Daha açık ifade etmek gerekirse, σ2(bm,e) gösterimindeki bm, birey-madde etkileşimini, tüm bireylerin aynı maddeleri kolay ya da zor bulmalarındaki farklılığın düzeyini ifade eder ve “e” ise sistematik olmayan (rastgele) hatayı temsil eder. Buradaki hata, bir bireyin doğru yanıtlayabileceği maddelere yaşadığı herhangi bir olumsuz durumdan dolayı (ansızın öksürük tutması, dışarıdan gelen şiddetli bir gürültü vb.) hem dikkatinin dağılması hem de zaman kaybetmesiyle alabileceği puandan daha düşük puan almasına ya da tersine alabileceği puandan daha yüksek puan almasına sebep olabilecek (şans başarısı vb.) durumları içerir. Aynı zamanda, tek yüzeyli G çalışmasıyla kontrol edilemeyen (rastgele) ya da desene dahil olmayan yüzeylerden gelen sistematik etkileri de kapsar. Örneğin bireylerin maddeleri yanıtladığı ortamda maruz kaldıkları ışık düzeyi, her bir birey için aynı derecede yeterli olmayabilir. Yetersiz ışık düzeyinde maddeleri yanıtlayan bireyler yeterli ışıkta yanıtlayanlardan daha düşük puan almış olabilirler. Farklı ölçme ortamları, sistematik bir değişkenlik kaynağı olup çalışmaya bir yüzey olarak dahil edilebilir olsa da örnekteki gibi tek bir yüzeyin yer aldığı (bu yüzey de maddelerdir) bir ölçme deseninde ortamın puanlara olan etkisini kestirmek mümkün olmayacaktır.
Yukarıdaki taboloda verilen G çalışmasından elde edilen varyans değerlerine bağlı olarak, G çalışmasında yer alan madde sayısına ya da farklı madde büyüklüklerine bağlı olarak önce göreli ve mutlak hata varyansları, ardından sırasıyla bu hata varyanslarından yararlanarak da G ve \(\phi\) katsayıları hesaplanabilecektir. G çalışmasında, Tablo 1’in beşinci satırında yer alan varyans bileşenleri, çalışmanın gerçekleştirildiği madde büyüklüğüne bağlı olarak tablonun altında verilen eşitlikler yardımıyla elde edilir. Dikkat edilirse, G çalışmasında elde edilen varyans bileşenlerinin (madde varyansı ve birey-madde etkileşimi, artık varyansı) gösteriminde yer alan madde bileşeni küçük harfle (“m” ile) ifade edilmiştir. G çalışmasıyla hesaplanan varyans değerleri K çalışmalarında yer alacak madde büyüklüklerine bağlı olarak (ki G çalışmasında yer alan madde büyüklüğüyle aynı olarak da belirlenebilir) altıncı sütunda gösterildiği şekilde varyans bileşenleri olarak hesaplanır ve burada ise G çalışmasıyla K çalışmasının farklılığını vurgulamak üzere madde yüzeyi “M” ile belirtilmiştir (Brennan, 1992). Dolayısıyla her bir K çalışması için hesaplanacak olan G ve \(\phi\) değerlerinin hesaplanması için göreli ve mutlak hata varyansları da bu gösterime uygun olarak aşağıda yer alan eşitlikler üzerinden elde edilecektir.
\[ \sigma^2(\delta)=\sigma^2(bM)\tag{4.2} \]
\[ \sigma^2(\Delta)=\sigma^2(bM)+\sigma^2(M)\tag{4.3} \]
\[ E b^2=KR-20=\frac{\sigma^2(b)}{\sigma^2(b)+\sigma^2(\delta)}\tag{4.4} \]
\[ \phi=\frac{\sigma^2(b)}{\sigma^2(b)+\sigma^2(\Delta)}\tag{4.5} \]
Eşitlik (4.2) ve Eşitlik (4.3)’te dikkat edileceği üzere, mutlak hata varyansı göreli hata varyansından daha büyük bir değere (eğer madde varyansı sıfır ise tabii ki iki hata varyansı, bu durumda eşit olacaktır) sahip olacağından Eşitlik (4.5)’te yer alan mutlak kararlar için elde edilecek olan \(\phi\) katsayısı göreli kararlar için hesaplanacak olan G katsayısından daha düşük (ya da eşit) bir değere sahip olacaktır.
Yukarıda yer alan tek yüzeyli çapraz desene ilişkin bilgiler çerçevesinde, şimdi de hipotetik bir örnek üzerinden R programıyla genellenebilirlik analizinin nasıl yapılacağını ve yorumlanacağına bir bakalım. Tek yüzeyli çapraz desen için veriler TekYuzeyliCaprazDesen.xlsx
dosyasında yer almaktadır. Veriler, 40 bireyin tümünün aynı 10 maddeye verdikleri yanıtlardan aldıkları 0-5 arasında değişen puanlarını içermektedir. Böylece desende ölçme objesini bireyler
, tek yüzeyi maddeler
oluşturmaktadır ve desen bireyler (b) ile maddelerin (m) çaprazlandığı “b x m” bir desendir. Verilerimizin girişine ait dosyanın ilk 24 satırı Şekil 4.2’de örnek olarak gösterilmiştir.

Şekil 4.2: Tek yüzeyli çapraz desen veri girişi örneği
Şekil 4.2’de görüldüğü üzere veri setinin ilk satırı birinci bireyin ilk maddeden aldığı puandır. İlk 40 satır ise 40 bireyin birinci maddeye ait puanıdır. Devam eden 40 satır ise kırk bireyin ikinci maddeye ait puanlarıdır. Benzer örüntü çalışmada yer alan diğer 8 madde için de tekrarlanarak puanlar girilmiştir. Şekil 4.2’de yer alan veri seti uzun veri formatındadır. Veri seti Şekil 1’de girildiği gibi uzun veri formatında değilse, veri düzenleme aşamalarıyla bu formata getirilmelidir. Geniş veri formatındaki veriyi, uzun veri formatına dönüşme işlemi için Ek 1’de örnek bir kod verilmiştir.
TekYuzeyliCaprazDesen.xlsx
veri setinin R ortamına aktarılması için readxl
paketinin aktif hale getirilmesi gerekmektedir. readxl
paketindeki read_excel()
fonksiyonu kullanılarak veri seti TekYuzeyli_CD
nesnesine aktarılmıştır. Veri setindeki sütun adları değişken adı olarak alınmıştır. Veri setinin programa doğru aktarılıp aktarılmadığını kontrol etmek için verinin ilk 6 satırı head()
fonksiyonuyla incelenmiştir.
library(readxl)
TekYuzeyli_CD <- read_excel("import/TekYuzeyliCaprazDesen.xlsx")
TekYuzeyli_CD <- as.data.frame(TekYuzeyli_CD)
head(TekYuzeyli_CD)
#> Birey Madde Puan
#> 1 1 m1 2
#> 2 2 m1 0
#> 3 3 m1 0
#> 4 4 m1 5
#> 5 5 m1 1
#> 6 6 m1 3
G kuramına ilişkin analizlerin yapılabilmesi için gtheory
paketinin kütüphanede bulunmuyorsa yüklenmesi ve yüklendikten sonra aktif hale getirilmesi gerekmektedir. Bu pakette yer alan gstudy()
fonksiyonuyla G çalışması analizleri yapılabilir. Bu fonksiyonun birey “ölçme objesi” ve madde “yüzeyi” için çapraz desen altında çalıştırılmasına ilişkin örnek kod aşağıda verilmiştir. İlk olarak fonksiyonun data
argümanı için veri setinin adı olan TekYuzeyli_CD
yazılmıştır. Sonra formula
argümanı için yüzeylerin temel ve ortak etkileri aşağıdaki komut satırlarında görüldüğü şekilde yazılmıştır. Örnek kodda sonuçlar g1
nesnesine atanmıştır. g1
nesnesi tek bileşenli bir liste olup, varyans kaynaklarını ve varyans yüzdelerini içeren components
bileşeni g1
listesinden seçilmiştir.
library(gtheory)
#> Loading required package: lme4
#> Loading required package: Matrix
g1 <- gstudy(data = TekYuzeyli_CD,
formula = "Puan~(1|Birey)+(1|Madde)")
g1$components
#> source var percent n
#> 1 Birey 0.8432052 22.7 1
#> 2 Madde 0.3631227 9.8 1
#> 3 Residual 2.5141844 67.6 1
Çıktıda görüldüğü üzere birinci sütun “source”, değişkenlik (varyans) kaynaklarını; ikinci sütun “var”, değişkenlik (varyans) değerlerini; üçüncü sütun “percent” ise her bir değişkenlik (varyans) kaynağının değerinin toplam değişkenliğe (varyansa) oranını göstermektedir. G çalışmasıyla kestirilen varyans bileşenleri, bir bireyin bir maddeye dair evren puanının (bir bireyin, evrendeki tüm maddeler üzerinden ortalamasıdır) genellenmesindeki hatanın büyüklüğünü yansıtmaktadır (Shavelson ve Webb, 1991, s. 30). Bu nedenle son sütun “n” altında yer alan değerler “1” olarak gözlenmektedir.
G çalışmasıyla elde edilen sonuçlar yorumlanırken varyans değerleri ve daha anlaşılır olduğu için genellikle de varyans yüzdeleri dikkate alınmaktadır. Buna göre bireylere ilişkin varyans yüzdesi yaklaşık %22.9 (0.853) değeriyle ikinci en yüksek değere sahiptir ve puanlardaki (verideki) değişkenliğin yaklaşık %22.9’unun bireyler arası farklılıktan kaynaklandığını ifade etmektedir. Bu değer, evren puanlarına ilişkin varyans bileşenidir ve bu varyans bileşeninin en yüksek değere sahip olması asıl istenendir. Maddelere ilişkin varyans yüzdesi yaklaşık %9.6 (0.357) değeriyle üçüncü en yüksek değere sahiptir. Bu değer, dereceli puanlama anahtarında yer alan görevlerin (maddelerin) güçlük düzeylerinin birbirinden oldukça farklı olduğunun bir göstergesidir. Son olarak, artık (residual) varyansına ilişkin yüzde yaklaşık %67.6 (2.519) değeriyle en yüksek değere sahiptir. Bu değer, birey-madde etkileşimine ve/veya bu ölçme süreciyle ölçülmemiş diğer sistematik ve sistematik olmayan varyans kaynaklarının varlığına işaret etmektedir. Artığa ilişkin varyans bileşeninin olabildiğince küçük, sıfıra yakın olması ise asıl istenen durumdur. Bu örnekte olduğu gibi artığa ilişkin varyans yüzdesinin yüksek çıkması, ölçme sürecine karışmış olabilecek hatalara işaret etmektedir. Bu durum araştırmacı tarafından dikkate alınmalı ve sebeplerinin neler olabileceği açık bir şekilde yorumlanmalıdır (örneğin oldukça subjektif bir ölçme sürecinin gerçekleşmiş olabileceği, dereceli puanlama anahtarının kullanılmamış olabileceği vb. gibi).
gtheory
paketinde yer alan dstudy()
fonksiyonuyla karar (K) çalışması analizleri yapılabilir. Bu fonksiyonun çalıştırılmasına ilişkin kod aşağıda verilmiştir.Bu fonksiyonun ilk argümanının değeri gstudy()
fonksiyonunun çıktısı olan g1
nesnesidir. Fonksiyonun ikinci argümanı colname.objects
olup argümanın değeri olarak ölçme objesinin adı, üçüncü argümanı colname.scores
olup argümanın değeri olarak puan sütununun adı yazılmıştır. Fonksiyonun son argümanı ise data
argümanı olup argümanın değeri olarak veri seti nesnesinin adı yazılmıştır. Bu fonksiyonun çıktıları d1
nesnesine atanmıştır. d1
bir liste olup bu listede genellenebilirlik (g) katsayısı, kararlılık (\(\phi\)) katsayısı, göreli hata varyansı ve standart hatası, mutlak hata varyansı ve standart hatası gibi bileşenler bulunmaktadır.
library(gtheory)
d1 <- dstudy(g1, colname.objects = "Birey", colname.scores = "Puan",
data = TekYuzeyli_CD)
d1$generalizability
#> [1] 0.7703152
d1$dependability
#> [1] 0.7455818
d1$var.error.rel
#> [1] 0.2514184
d1$sem.rel
#> [1] 0.5014164
d1$var.error.abs
#> [1] 0.2877307
d1$sem.abs
#> [1] 0.5364054
Elde edilen çıktıda genellenebilirlik katsayısının değerinin yaklaşık 0.77 olduğu görülmektedir. Bu değer, göreli kararların alınacağı durumlar için güvenirlik katsayısı olarak yorumlanmaktadır ve klasik test kuramında olduğu gibi olabildiğince 1’e yakın bir değer çıkması istenir. Kararlılık katsayısının değeri yaklaşık 0.75 olarak elde edilmiştir. Bu değer, mutlak kararların alınacağı durumlar için güvenirlik katsayısı olarak yorumlanmaktadır ve benzer şekilde bu değerin de olabildiğince 1’e yakın olması beklenir. Çıktıdan da anlaşılacağı üzere genellenebilirlik katsayısı daima kararlılık katsayısından daha büyük ya da kararlılık katsayısına eşittir. Bu katsayılarından ardından ise sırasıyla göreli hata varyansı ve standart hatası ile mutlak hata varyansı ve standart hatası yer almaktadır. Bilindiği üzere, hata varyanslarının da olabildiğince düşük, sıfıra yakın çıkması istenir.
Yukarıda açıklanan genellenebilirlik ve kararlılık katsayıları madde sayısının 10 olduğu K çalışmasına ilişkin katsayılardır. G kuramında, yüzeylerin farklı sayıda koşullarına ilişkin yapılacak farklı K çalışmaları için örnek durumlar da aşağıda verilmiştir. Tek yüzeyli çapraz desene ilişkin K çalışmalarına örnek olmak üzere sırasıyla 10, 5, 15 ve 20 madde için K çalışmaları gerçekleştirilmiş, bu sayıları içeren bir n_i
vektörü oluşturulmuştur.
Her madde sayısı için göreli hata varyansları, “g1” çalışması sonucunda yer alan “Residual (BM)” değerinin madde sayılarına bölünmesiyle hesaplanmıştır.
# Relative Error Variance
rel_err_var <- g1$components[3, 2]/n_i # Residual
rel_err_var
#> [1] 0.2514184 0.5028369 0.1676123 0.1257092
Genellenebilirlik katsayısı, birey değişkenlik kaynağına ilişkin varyans değerinin, bireyden kaynaklanan varyans ile göreli hata varyansı toplamına bölünmesiyle elde edilmiştir.
# Generalizability Coefficient
gen_coef <- g1$components[1, 2]/(g1$components[1, 2]+rel_err_var)
gen_coef
#> [1] 0.7703152 0.6264330 0.8341814 0.8702577
Mutlak hata varyansı, “g1” çalışması sonucunda yer alan “birey” dışındaki tüm varyans kaynaklarının (madde ve artık) ile ilgili varyansların madde sayısına bölümlerinin toplamıyla hesaplanmıştır.
# abs error variance
abs_err_var <- g1$components[2, 2]/n_i + # Madde
g1$components[3, 2]/n_i # Residual
abs_err_var
#> [1] 0.2877307 0.5754614 0.1918205 0.1438654
Kararlılık (\(\phi\)) katsayısı, bireye ilişkin varyans değerinin, birey varyans değeri ile mutlak hata varyansı değerinin toplamına bölünmesiyle elde edilmiştir.
dep_coef <- g1$components[1, 2]/(g1$components[1, 2]+abs_err_var)
dep_coef
#> [1] 0.7455818 0.5943646 0.8146708 0.8542502
Sonuçların tek bir tabloda yer alması için aşağıdaki komut satırları çalıştırılmıştır.
dcalismasi <- data.frame(rbind(gen_coef, round(gen_coef, 2),
dep_coef, round(dep_coef, 2),
rel_err_var, abs_err_var))
rownames(dcalismasi) <- c("Coef_G_rel.", "rounded_G_rel",
"Coef_G abs.", "rounded_G_abs",
"Rel. Err. Var.", "Abs. Err. Var.")
colnames(dcalismasi) <- n_i
library(gt)
dcalismasi %>%
gt(rownames_to_stub = TRUE)
10 | 5 | 15 | 20 | |
---|---|---|---|---|
Coef_G_rel. | 0.7703152 | 0.6264330 | 0.8341814 | 0.8702577 |
rounded_G_rel | 0.7700000 | 0.6300000 | 0.8300000 | 0.8700000 |
Coef_G abs. | 0.7455818 | 0.5943646 | 0.8146708 | 0.8542502 |
rounded_G_abs | 0.7500000 | 0.5900000 | 0.8100000 | 0.8500000 |
Rel. Err. Var. | 0.2514184 | 0.5028369 | 0.1676123 | 0.1257092 |
Abs. Err. Var. | 0.2877307 | 0.5754614 | 0.1918205 | 0.1438654 |
Yukarıda verilen K çalışması sonucu elde edilen G katsayıları (Coef G rel.) incelendiğinde, ilk değerin G çalışmasının yapıldığı ölçme sürecinde yer alan 10 madde (ki G çalışmasında hesaplanmış ve elbette ki aynı değer elde edilmişti) için 0.77 olduğu görülebilir. G katsayıları, madde sayısı yarıya indirildiğinde 0.63, 15 olduğunda 0.84 ve iki katına çıkarıldığında ise 0.87 olarak elde edilmiştir. Kısacası, yapılan K çalışmaları sonucunda; yapılacak göreli değerlendirmelerde kullanılmak üzere istenilen güvenirlik düzeyinde hangi madde sayısı daha ekonomik ve pratik bir çözüm sağlayacaksa bu madde sayısının kullanılmasına karar verilebilir. Benzer şekilde kararlılık (\(\phi\)) katsayıları (Coef. G abs.), sırasıyla 10, 5, 15 ve 20 madde için 0.75, 0.60, 0.82 ve 0.86 olarak elde edilmiştir. Benzer şekilde, mutlak kararlar için kabul edilebilir olan güvenirlik değerine ulaşmak üzere hangi madde sayısının kullanılacağı, bu değerler üzerinden belirlenebilir. G ve \(\phi\) katsayıları açık ve net bir şekilde yorumlandıktan sonra, araştırma sorusu (problemi) gerektirmedikçe ayrıca ilgili hata varyanslarını yorumlamaya gerek yoktur.
Yukarıda yer alan örneklerde dikkat edileceği üzere, bireylerin (öğrencilerin) tümü aynı maddeleri yanıtlandırmışlardı. Diğer bir ifadeyle ölçme objesinin her bir elemanı, desende yer alan yüzeyin her bir elemanı ile eşleşmişti (çapraz desen). Ancak ölçme süreçleri her zaman bu şekilde gerçekleşmeyebilir. Örneğin bir yüksek lisans bilim sınavında, sınava katılan 10 öğrencinin (b) her birine farklı 8 maddeden (m) oluşan kısa yanıtlı bir test uygulanmış da olabilirdi. Bu durumda, desen m : b yuvalanmış desen olacak ve G çalışmasıyla öğrenci (b) ve öğrenci ile madde etkileşimiyle birlikte artık varyansın (bm,e) yer aldığı sadece iki varyans bileşenine dair kestirimler elde edilebilecektir. Bu ölçme sürecine ilişkin kabul edilebilir gözlemler evrenini sadece madde yüzeyi ve benzer tüm maddeler oluşturacak, G çalışmasıyla elde edilen varyans bileşenleri bu evren kapsamında yer alacaktır. G çalışması sonrası olası yapılabilecek K çalışması ise bu kez sadece aşağıda yer alan tek bir soruyla sınırlı kalacaktır:
- Desen m : b olduğunda, G çalışmasıyla aynı ve farklı madde sayılarında G ve \(\phi\) katsayıları ne düzeyde olacaktır?

Şekil 4.3: Tek yüzeyli yuvalanmış desen
Yukarıdaki tabloda yer alan değişkenlik kaynaklarından da görüleceği üzere, maddelerin yüzeyi oluşturduğu tek yüzeyli yuvalanmış desende “madde” değişkenlik kaynağını ayrı bir şekilde elde etmek mümkün değildir. Madde değişkenliği, “artık” değişkenlik kaynağının içinde yer almaktadır; “artık” değişkenlik kaynağının bir parçasıdır. Farklı bireyler farklı maddelere maruz kaldığı için madde etkisi, birey-madde etkileşiminden ayrı olarak kestirilemez ve böylece birey-madde etkileşimi de “artık”ın diğer bir parçasını oluşturmaktadır. Bir öğrencinin bir madden aldığı düşük bir puan, maddenin gerçekten zor olmasından mı yoksa bu öğrenciye zor gelmesinden kaynaklı mı ortaya çıkmıştır bilinemez. Hatta öğrencinin düşük puan almasına başka bir değişkenlik kaynağı da sebep olmuş olabilir. Örneğin, öğrencinin sınıftaki bir gürültü sebebiyle dikkatinin dağılmasıyla yanlış yanıt vermesi gibi. Anlaşılacağı üzere yuvalanmış desenlerde bazı önemli sorular yanıtsız kalmaktadır. Bu yuvalanmış desenle yapılan G çalışmasında, maddelerin güçlük düzeylerine ilişkin bir fikre varmak mümkün değildir. Halbuki b x m deseniyle yapılan G çalışmasında, tüm bireyler aynı maddeleri yanıtladığından madde güçlük düzeylerine ilişkin bilgi edinmek mümkün olmaktadır.
Tablo 2’de yer alan tek yüzeyli yuvalanmış desene ilişkin sadece tek yüzeyli yuvalanmış bir desen üzerinden ve farklı madde büyüklüklerine ilişkin K çalışmaları yapılabilecek ve bu K çalışmalarına ilişkin G ve \(\phi\) katsayıları da aşağıdaki eşitlikler yardımıyla hesaplanabilir.
\[ \sigma^2(\delta)=\sigma^2(b:M)\tag{4.6} \]
\[ \sigma^2(\delta)=\sigma^2(b:M)\tag{4.7} \]
\[ Eb^2=\frac{\sigma^2(b)}{\sigma^2(b)+\sigma^2(\delta)}=\frac{\sigma^2(b)}{\sigma^2(b)+\sigma^2(\Delta)}\tag{4.8} \]
Eşitlik (4.8)’de görüleceği üzere, tek yüzeyli yuvalanmış desende, göreli ve mutlak hata varyanslarının birbirine eşit olması sebebiyle mutlak ve göreli kararlar için elde edilecek olan G ve \(\phi\) katsayıları da birbirine eşit olacaktır.
Yukarıda verilen örneklerden de anlaşılacağı gibi çapraz desenlere ilişkin G çalışması sonucu varyans bileşenleri daha ayrıntılı bir şekilde hesaplanabilmekte ve K çalışmaları da hem çapraz hem de yuvalanmış desenlere ilişkin güvenirlik katsayılarını belirlemeye imkân tanımaktadır. Böylece diyebiliriz ki, eğer mümkünse G çalışması için çapraz desenin (birden fazla yüzey olduğunda da tümüyle çapraz desenin) yuvalanmış desenlere tercih edilmesi, tüm değişkenlik kaynaklarına ilişkin bilgi edinmek, kestirim yapabilmek için söz konusu olmaktadır (G. Cronbach L. J., 1972). Çapraz desenin olduğu çalışmalarda, olası tüm yüzeylere ve bunlar arasındaki etkileşimlere bağlı hata kaynaklarının tamamı kestirilebilmektedir. Bu kestirimler, daha sonra yapılacak K çalışmalarının planlanmasında önem taşımaktadır. G çalışması yuvalanmış desen üzerinden olduğunda K çalışmalarının da yuvalanmış desenden oluşmasından başka bir seçenek bulunmayacaktır.
Şimdi de tek yüzeyli yuvalanmış desen ile ilgili hipotetik bir örnek üzerinden R programıyla genellenebilirlik analizinin nasıl yapılacağını ve yorumlanacağını açıklamaya çalışalım. Tek yüzeyli yuvalanmış desen için veriler TekYuzeyliYuvalanmisDesen.xlsx
dosyasında yer almaktadır. Bu dosyada, 18 bireyin her birinin farklı 18 maddeye verdiği yanıtlarına dair 0-5 arasında aldıkları puanlar bulunmaktadır. “Birey”lerin ölçme objesi, tek yüzeyin “madde”ler olduğu yuvalanmış desenin veri girişine ait dosyanın ilk 24 satırı aşağıda verilmiştir.

Şekil 4.4: Tek yüzeyli yuvalanmış desen veri girişi Örneği
Şekil 4.4’de görüldüğü üzere veri setinin ilk satırı birinci bireyin ilk maddeden aldığı puandır. İlk 19 satır ise birinci bireyin 18 maddeye ait puanıdır. Devam eden 18 satır ise ikinci bireyin farklı 18 maddeye ait puanıdır. Benzer örüntü çalışmada yer alan diğer bireyler için de tekrarlanarak puanlar girilmiştir. Her 18 bireyin yanıtladığı 18 madde birbirinden farklıdır. Dikkat edileceği üzere, tek yüzeyli çapraz desen ile yuvalanmış desenin veri girişi farklılık göstermemektedir. Desenlerin çapraz ya da yuvalanmış olmasının farkı veri girişinde değil, programa desenin tanıtımında gerçekleşir. Bu şekilde veri girişi sadece R ile yapılan analizlerde değil, SPSS ya da EduG gibi G kuramı analizlerinin yapıldığı diğer programlar için de benzer şekilde gerçekleştirilir.
Şekil 4.4’de yer alan veri seti uzun veri formatındadır. Veri seti Şekil 2’de girildiği gibi uzun veri formatında değilse, veri düzenleme aşamalarıyla bu formata getirilmelidir. Geniş veri formatındaki veriyi, uzun veri formatına dönüşme işlemi için Ek 1’de örnek bir kod verilmiştir.
TekYuzeyliYuvalanmisDesen.xlsx
dosyası R ortamına aktarmak için readxl
paketinin aktif hale getirilmesi gerekmektedir. readxl
paketindeki read_excel()
fonksiyonu kullanılarak TekYuzeyli_YD
nesnesine veri seti aktarılmıştır. Veri setindeki sütun adları değişken adı olarak alınmıştır. Veri setinin ilk 6 satırı kontrol amaçlı head()
fonksiyonuyla incelenmiştir.
library(readxl)
TekYuzeyli_YD <- read_excel("import/TekYuzeyliYuvalanmisDesen.xlsx")
TekYuzeyli_YD <- as.data.frame(TekYuzeyli_YD)
head(TekYuzeyli_YD)
#> Birey Madde Puan
#> 1 1 1 2
#> 2 1 2 2
#> 3 1 3 3
#> 4 1 4 3
#> 5 1 5 0
#> 6 1 6 3
G kuramı analizlerini yapabilmek için gtheory
paketinin aktif hale getirilmesi gerekmektedir. Bu pakette yer alan gstudy()
fonksiyonuyla G çalışması analizleri yapılabilir. Bu fonksiyonun birey ve madde değişkenlik kaynakları için yuvalanmış desen altında çalıştırılmasına ilişkin örnek kod aşağıda verilmiştir. İlk olarak data
argümanı için veri seti adı olan TekYuzeyli_YD
girilmiştdir. Sonra formula
argümanına değişkenlik kaynaklarının temel ve ortak etkileri komut satırlarında görüldüğü şekilde yazılmıştır. Örnek kodda sonuçlar g3
nesnesine atanmıştır. g3
nesnesi tek bileşenli bir liste olup, değişkenlik kaynaklarını ve varyans yüzdelerini içeren components
bileşeni g3
listesinden seçilmiştir.
library(gtheory)
g3 <- gstudy(data = TekYuzeyli_YD,
formula = Puan~(1|Birey))
g3$components
#> source var percent n
#> 1 Birey 0.8821109 24.3 1
#> 2 Residual 2.7494553 75.7 1
Çıktıda, birinci sütun “source”, değişkenlik kaynaklarını; ikinci sütun “var”, varyans değerlerini; üçüncü sütun “percent”, varyans oranlarını ifade etmektedir. Elde edilen sonuçlardan görüldüğü üzere, en yüksek varyans oranı %75.7 (2.75) değeriyle artık bileşenine aittir. Tek yüzeyli yuvalanmış desendeki bu artık bileşeni; madde etkisini, madde-birey etkileşim etkisini ve bu çalışmayla ölçülemeyen sistematik ve sistematik-olmayan değişkenlikleri içermektedir. Her birey farklı maddelerden puan aldığı için maddelerin güçlük düzeylerinin farklı olup olmadığını (madde ana etkisi) ya da bazı maddelerin bazı bireyler için daha zor/kolay gelip gelmediğini (madde-birey etkileşimi) belirlemek mümkün değildir. Tabloda, artık değer dışında bir de ölçme objesi olan birey değişkenlik kaynağına ilişkin varyans değeri (0.88) ve varyans yüzdesi (%24.3) yer almaktadır. Tek yüzeyli yuvalanmış desende de asıl istenen ölçme objesine ilişkin değişkenliğin olabildiğince yüksek, artığa ilişkin değerin ise olabildiğince sıfıra yakın çıkmasıdır. Tek yüzeyli yuvalanmış desene ilişkin özetle söylenebilir ki, bu desende önemli sorular yanıtsız kalmaktadır: Maddelerin güçlük düzeylerine ilişkin yorum yapmak mümkün değildir. Tek yüzeyli yuvalanmış desende G çalışmasının ardından, gtheory
paketinde yer alan dstudy()
fonksiyonuyla K çalışması analizleri yapılabilir. Bu fonksiyonun ilk argümanı gstudy()
fonksiyonunun çıktısı olan g3
nesnesidir. İkinci argüman olan colname.objects
e ölçme objesinin adı; üçüncü argüman olan colname.score
a ise puan sütununun adı yazılmalıdır. Son argüman ise data
argümanıdır, veri seti nesnesi ise TekYuzeyli_YD
olmalıdır. Bu fonksiyonun çıktıları d3
nesnesine atanmıştır. d3
listesinde genellenebilirlik (g) katsayısı ve hatası, kararlılık (phi) katsayısı ve hatası, göreli ve mutlak hata varyansları gibi bileşenler bulunmaktadır. Bunların dışa aktarım kodları aşağıda verilmiştir.
d3 <- dstudy(g3, colname.objects = "Birey", colname.scores = "Puan",
data = TekYuzeyli_YD)
d3$generalizability
#> [1] 0.8523977
d3$dependability
#> [1] 0.8523977
d3$var.error.rel
#> [1] 0.1527475
d3$sem.rel
#> [1] 0.3908293
d3$var.error.abs
#> [1] 0.1527475
d3$sem.abs
#> [1] 0.3908293
Elde edilen çıktıdaki değerlerin yorumlanması, tek yüzeyli çapraz desende elde edilen değerlerin yorumlanmasına benzemektedir. Bu desende genellenebilirlik katsayısının değerinin yaklaşık 0.85 olduğu görülmektedir. Bu değer, göreli kararların alınacağı durumlar için güvenirlik katsayısı olarak yorumlanmaktadır ve klasik test kuramında olduğu gibi olabildiğince 1’e yakın bir değer çıkması istenir. Kararlılık katsayısının değeri yaklaşık 0.85 olarak elde edilmiştir. Bu değer, mutlak kararların alınacağı durumlar için güvenirlik katsayısı olarak yorumlanmaktadır ve benzer şekilde bu değerin de olabildiğince 1’e yakın olması beklenir. Dikkat edileceği üzere, G katsayısı ile phi katsayısı aynı değere sahiptir. Daha önce de belirtildiği üzere bu iki katsayı birbirine eşit de çıkabilir ya da G katsayısı, phi katsayısından daha yüksek bir değere de sahip olabilir. Bu katsayılarından ardından ise sırasıyla göreli hata varyansı ve standart hatası ile mutlak hata varyansı ve standart hatası yer almaktadır. Bilindiği üzere, hata varyanslarının da olabildiğince düşük, sıfıra yakın çıkması istenir.
Yukarıda açıklanan genellenebilirlik ve kararlılık katsayıları madde sayısının 18 olduğu K çalışmasına ilişkin katsayılardır. G kuramında, yüzeylerin farklı sayıda koşullarına ilişkin yapılacak farklı K çalışmaları için örnek durumlar da aşağıda verilmiştir. Tek yüzeyli çapraz desenimize ilişkin K çalışmalarına örnek olmak üzere sırasıyla 18, 9, 12 ve 24 madde için K çalışmaları gerçekleştirilmiş, bu sayıları içeren bir n_i
vektörü oluşturulmuştur.
Göreli hata varyansı, “g3” çalışması sonuçlarından “Residual (BM)” değerinin madde sayısına bölünmesiyle hesaplanmıştır.
#relative error variance
rel_err_var <- g3$components[2, 2]/n_i
rel_err_var
#> [1] 0.1527475 0.3054950 0.2291213 0.1145606
G katsayısı, birey (ölçme objesi) varyansının, birey varyansı ile göreli hata varyansı toplamına bölünmesiyle elde edilmiştir.
#genellenebilirlik katsayısı
gen_coef <- g3$components[1, 2]/(g3$components[1, 2]+rel_err_var)
gen_coef
#> [1] 0.8523977 0.7427640 0.7938133 0.8850568
Mutlak hata varyansı, “g3” çalışması sonuçlarından, “birey” dışındaki varyans kaynağının (residual) ilgili varyanstaki madde sayısına bölümlerinin toplamıyla hesaplanmıştır.
#abs error variance
abs_err_var <- g3$components[2, 2]/n_i
abs_err_var
#> [1] 0.1527475 0.3054950 0.2291213 0.1145606
Phi katsayısı, “birey” (ölçme objesi) varyansının, birey varyansı ile mutlak hata varyansının toplamına bölünmesiyle elde edilmiştir.
dep_coef <- g3$components[1, 2]/(g3$components[1, 2]+abs_err_var)
dep_coef
#> [1] 0.8523977 0.7427640 0.7938133 0.8850568
Sonuçların tek bir tabloda yer alması için ise aşağıdaki komut satırları oluşturulmuştur.
dcalismasi <- data.frame(rbind(gen_coef, round(gen_coef, 2),
dep_coef, round(dep_coef,2) ,
rel_err_var, abs_err_var))
rownames(dcalismasi)<- c("Coef_G_rel.", "rounded_G_rel",
"Coef_G abs.", "rounded_G_abs",
"Rel. Err. Var.", "Abs. Err. Var.")
colnames(dcalismasi) <- n_i
library(gt)
dcalismasi %>%
gt(rownames_to_stub = TRUE)
18 | 9 | 12 | 24 | |
---|---|---|---|---|
Coef_G_rel. | 0.8523977 | 0.742764 | 0.7938133 | 0.8850568 |
rounded_G_rel | 0.8500000 | 0.740000 | 0.7900000 | 0.8900000 |
Coef_G abs. | 0.8523977 | 0.742764 | 0.7938133 | 0.8850568 |
rounded_G_abs | 0.8500000 | 0.740000 | 0.7900000 | 0.8900000 |
Rel. Err. Var. | 0.1527475 | 0.305495 | 0.2291213 | 0.1145606 |
Abs. Err. Var. | 0.1527475 | 0.305495 | 0.2291213 | 0.1145606 |
Yukarıda verilen K çalışması sonucu elde edilen G katsayıları (Coef G rel.) ile kararlılık (phi) katsayılarının (Coef. G abs.) tümü birbirine eşit çıkmıştır. G çalışmasının yapıldığı ölçme sürecinde yer alan 18 madde (ki G çalışmasında hesaplanmış ve elbette ki aynı değer elde edilmiştir) için G ve phi katsayılarının 0.85 olduğu görülebilir. Madde sayısı yarıya indirildiğinde 0.74, 12 olduğunda 0.79 ve 24 olduğunda ise 0.89 olarak elde edilmiştir. Kısacası, yapılan K çalışmaları sonucunda yapılacak göreli ve mutlak değerlendirmelerde kullanılmak üzere istenilen güvenirlik düzeyinde hangi madde sayısı daha ekonomik ve pratik bir çözüm sağlayacaksa bu madde sayısının kullanılmasına karar verilebilir. G ve phi katsayıları açık ve net bir şekilde yorumlandıktan sonra, araştırma sorusu (problemi) gerektirmedikçe ayrıca ilgili hata varyanslarını yorumlamaya gerek yoktur.
4.3 İki Yüzeyli Desenlerde G ve K Çalışmaları
4.3.1 Çapraz Desen:
Eğitimde ve psikolojide pek çok ölçme durumları, tek yüzeyli desenlerden çok daha karmaşık durumlardan oluşmaktadır. Örneğin eğitim fakültelerinde yer alan mikro-öğretim dersinde, 10 öğrencinin-bireyin (b) performansı, dereceli puanlama anahtarında yer alan 10 madde (m) üzerinden iki puanlayıcı (p) tarafından puanlanıyor olabilir. Tüm öğrenciler aynı puanlama anahtarındaki tüm maddeler üzerinden ve her iki puanlayıcı tarafından puanlandığı için desen, * b x m x p* şeklinde çaprazlanmış ve 7 değişkenlik kaynağının elde edilebileceği bir desendir. Çaprazlanmış b x m x p desenine ilişkin kestirilen varyans bileşenleri ve beklenen kareler ortalamalarının eşitlikleri Tablo 3’te verilmiştir.

Şekil 4.5: İki yüzeyli çapraz desen
ANOVA ile elde edilen her bir kareler ortalaması değeri, beklenen kareler ortalaması eşitliklerinde kullanılarak beklenen varyans bileşenlerinin değerleri hesaplanır. Eşitliklerde yer alan n_b, n_o ve n_p gösterimleri sırasıyla desende yer alan öğrenci sayısı (10), madde sayısı (10) ve puanlayıcı sayısına (2) karşılık gelmektedir. G çalışmasında, varyans bileşenlerinin kestirimi için en kolay yol, en alttan yani artıktan başlayarak yukarı doğru hesaplamaya devam etmektir (bkz. Tablo 3’ün altında yer alan hesaplamalar). Böylece beklenen varyans bileşenlerinin değerleri ve sonrasında her bir varyans bileşeninin toplam varyans içindeki yüzdeleri elde edilmiş olur. İki yüzeyli çapraz desenlerde, tablodan da görüleceği üzere, 7 ayrı varyans bileşeni elde edilmektedir. Bu varyans bileşenlerinden biri ölçme objesine ait olup; diğer iki bileşen, yüzeylerle (ana etkiler) üç bileşen, etkileşimlerle ve son bileşen ise artık ile ilişkilidir. Yüzeyler, belirli bir örneklemde yer alan bir öğrencinin (bireyin) ölçme sonucunu kabul edilebilir gözlemler evrenine genellerken oluşabilecek hataların kaynaklarıdırlar. Diğer bir ifadeyle puanlayıcıların verdikleri puanlardaki tutarsızlıklar; bu puanlayıcıların ortalama puanının, kabul edilebilir puanlayıcılar evreninden elde edilecek ortalama puana genellenmesinde ve dereceli puanlama anahtarında yer alan maddelerin güçlük düzeylerindeki farklılıklar, bu maddelerin ortalama puanının kabul edilebilir maddeler evreninden elde edilecek ortalama puana genellenmesinde hataya sebep olacaktır. Puanlayıcılardan birinin yüksek ya da düşük puanlama yapan bir puanlayıcı olmasına, ölçütlerden birinin daha zor ya da kolay görev içermesine bağlı olarak öğrencinin puanı değişebilecektir ve bu durum, tüm öğrenciler için geçerli olacaktır. Böylece, bu yüzeyler tüm puanlar için geçerli olan “ana etki” (varyans analizindeki ifadesiyle) olarak ifade edilebilecektir. Bunun yanı sıra, birinci puanlayıcı sadece belirli öğrencilere ikinci puanlayıcıdan daha yüksek puan verirken ikinci puanlayıcı da diğer öğrencilere daha yüksek puan vermiş olabilir. Bu durum, öğrenci-puanlayıcı etkileşim etkisi olarak ifade edilir. Benzer şekilde, birey-madde ve madde-puanlayıcı etkileşim etkisinin oluşması da söz konusudur. Son olarak yedinci varyans bileşeni (değişkenlik kaynağı) ise birey-madde-puanlayıcı ortak etkisini ve ölçme sürecindeki değişkenliğe neden olan ölçülemeyen değişkenlik kaynağını ve rastgele etkileri içermektedir.
G çalışmasında kestirilen varyans bileşenlerinin büyüklüklerine bağlı olarak, K çalışmalarındaki senaryolara uygun olarak G ve \(\phi\) katsayıları da aşağıda verilen eşitlikler yardımıyla hesaplanabilir. Her bir K çalışmasında yüzeylerde yer alan koşul sayıları farklılık gösterecektir. Bu ayrımı vurgulamak adına G ve \(\phi\) katsayılarının hesaplanmasında, yüzeylere ilişkin koşul sayıları n_m’ ve n_p’ olarak belirtilmiştir. Böylece her bir K çalışmasında koşul sayılarına bağlı olarak bu değerler farklılık gösterecektir.
\[ \sigma^2(\delta)=\frac{\sigma_{bo}^2}{n'_m}+\frac{\sigma_{bp}^2}{n'_p}+\frac{\sigma_{bmp}^2}{n'_m n'_p}\tag{4.9} \]
\[ \sigma^2(\Delta)=\frac{\sigma_m^2}{n'_m}+\frac{\sigma_p^2}{n'_p}+\frac{\sigma_{mp}^2}{n'_m n'_p}+\frac{\sigma_{bm}^2}{n'_m}+\frac{\sigma_{bp}^2}{n'_p}+\frac{\sigma_{bmp}^2}{n'_m n'_p}\tag{4.10} \]
\[ E_b^2=\frac{\sigma^2(b)}{\sigma^2(b)+\sigma^2(\delta)}\tag{4.11} \]
\[ \phi=\frac{\sigma^2(b)}{\sigma^2(b)+\sigma^2(\Delta)}\tag{4.12} \]
Şimdi de yukarıda yer alan örneği, hipotetik bir veri üzerinden R programında nasıl analiz edebileceğimizi ve sonuçlarını nasıl yorumlayabileceğimizi görelim: 10 bireyin 10 madde üzerinden iki puanlayıcıdan aldığı puanlara ilişkin iki yüzeyli çapraz desen örneğine ait veri seti IkiYuzeyliCaprazDesen.xlsx
dosyasında yer almaktadır. Bu desenin veri girişine ait dosyanın ilk 24 satırı aşağıda yer alan Şekil 4.6’de verilmiştir.

Şekil 4.6: İki yüzeyli çapraz desen veri girişi örneği
Şekil 4.6’de görüldüğü üzere veri setinin ilk satırı birinci bireyi (öğrenciyi) puanlayan birinci puanlayıcının ilk maddeye verdiği puandır. Böylelikle İlk 10 satır, birinci bireyi puanlayan birinci puanlayıcının 10 maddeye ait puanıdır. Devam eden10 satır ise birinci bireyi puanlayan ikinci puanlayıcının 10 maddeye ait puanıdır. Benzer örüntü çalışmaya katılan diğer dokuz birey için de tekrarlanarak puan (veri) girişi gerçekleştirilir. Şekil 4.4’de yer alan veri seti uzun veri formatındadır. Veri setiniz Şekil 4.6’de girildiği gibi uzun veri formatında değilse, veri düzenleme aşamaları ile veri setinizi bu formata getirmeniz gerekecektir. Geniş veri formatındaki veriyi, uzun veri formatına dönüştürme işlemine dair örnek bir kod Ek 1’de verilmiştir.
IkiYuzeyliCaprazDesen.xlsx
dosyası R ortamına aktarmak için readxl
paketinin aktif hale getirilmesi gerekir. readxl
paketindeki read.xlsx()
fonksiyonu kullanılarak IkiYuzeyli_CD
nesnesine veri seti aktarılmıştır. Veri setindeki sütun isimleri, değişken adlarını ifade eder. Veri setinin ilk 6 satırı kontrol amaçlı head()
fonksiyonuyla incelenmiştir.
library(readxl)
IkiYuzeyli_CD <- read_excel("import/IkiYuzeyliCaprazDesen.xlsx")
IkiYuzeyli_CD <- as.data.frame(IkiYuzeyli_CD)
head(IkiYuzeyli_CD)
#> Birey Puanlayıcı Madde Puan
#> 1 1 1 1 2
#> 2 1 1 2 2
#> 3 1 1 3 3
#> 4 1 1 4 3
#> 5 1 1 5 0
#> 6 1 1 6 3
Genellenebilirlik kuramı analizlerini yapabilmek için gtheory
paketinin de aktif hale getirilmesi gerekmektedir. Bu pakette yer alan gstudy()
fonksiyonuyla G çalışması analizleri yapılabilir. Bu fonksiyonun birey, puanlayıcı ve madde yüzeyleri için çapraz desen altında çalıştırılmasına ilişkin örnek kod aşağıda verilmiştir. İlk olarak data
argümanına veri seti adı olan IkiYuzeyli_CD
yazılmıştır. Sonra formula
argümanına yüzeylerin temel ve ortak etkileri aşağıdaki komut satırlarında görüldüğü şekilde yazılmıştır. Örnek kodda sonuçlar g2
nesnesine atanmıştır. g2
nesnesi tek bileşenli bir listedir ve varyans kaynaklarını ve varyans yüzdelerini içeren components
bileşeni g2
listesinden seçilmiştir.
library(gtheory)
g2 <- gstudy(data = IkiYuzeyli_CD,
formula = "Puan~(1|Birey)+(1|Puanlayıcı)+(1|Madde)+
(1|Birey:Madde)+(1|Puanlayıcı:Madde)+(1|Birey:Puanlayıcı)")
g2$components
#> source var percent n
#> 1 Birey:Madde 1.976421260 51.9 1
#> 2 Birey:Puanlayıcı 0.005432278 0.1 1
#> 3 Puanlayıcı:Madde 0.033209592 0.9 1
#> 4 Madde 1.052465257 27.6 1
#> 5 Birey 0.411349931 10.8 1
#> 6 Puanlayıcı 0.119006277 3.1 1
#> 7 Residual 0.212345938 5.6 1
Çıktıda görüldüğü üzere birinci sütun “source”, değişkenlik (varyans) kaynaklarını; ikinci sütun “var”, varyans değerlerini; üçüncü sütun “percent”, değişkenlik kaynağının varyansının toplam varyansa oranını göstermektedir. Tek yüzeyli çapraz desen örneğinde de açıklandığı üzere, G çalışmasıyla kestirilen varyans bileşenleri, bir bireyin bir madde ve bir puanlayıcıya dair evren puanının genellenmesindeki hatanın büyüklüğünü yansıtmaktadır. Kestirilen bu varyans bileşenleri, test puanı üzerinden yapılacak genellemenin hatası değildir (Shavelson ve Webb, 1991, s. 30). G çalışmasıyla elde edilen sonuçlar yorumlanırken genellikle varyans değerleri ve daha anlaşılır olduğu için de varyans yüzdeleri dikkate alınmaktadır. Öncelikle ana etkiler, sonra etkileşimler ve daha sonra artık yorumlanmaktadır.
Bulgulara göre bireye (ölçme objesine) ilişkin varyans yüzdesi yaklaşık %10.8 (0.411) değeriyle üçüncü en yüksek değerdir ve puanlardaki (verideki) değişkenliğin yaklaşık %10.8’nin bireyler arası farklılıktan kaynaklandığını ifade etmektedir. Bu değer, evren puanlarına ilişkin varyans bileşenidir ve bu varyans bileşeninin en yüksek değere sahip olması asıl istenendir. Maddelere ilişkin varyans yüzdesi yaklaşık %27.6 (1.0529) değeriyle ikinci en yüksek değerdir. Bu değer, dereceli puanlama anahtarında yer alan görevlerin (maddelerin) güçlük düzeylerinin birbirinden oldukça farklı olduğunun bir göstergesidir. Puanlayıcılara ilişkin varyans yüzdesi yaklaşık %3.1 (0.119) değeriyle sondan üçüncü yüksek değerdir. Puanlayıcı yüzeyine ilişkin varyansın olabildiğince düşük, sıfıra yakın bir değer çıkması istenir. Puanlayıcı yüzeyine ilişkin varyansın sıfır olması, puanlayıcıların puanlamaları arasında mükemmel bir uyum olduğuna işaret etmektedir ve varyans değeri sıfırdan uzaklaştıkça puanlayıcıların puanları arasındaki tutarsızlık da o ölçüde artıyor demektir. Puanlayıcı yüzeyine ilişkin varyans diğer yüzeylere kıyasla düşük bir değere sahip olmakla birlikte mutlak anlamda da düşüktür. Puanlayıcı yüzeyine ilişkin varyansın karekökü olan standart sapma değerinin yaklaşık 0.35 olduğu düşünüldüğünde, puanlayıcıların beklenen puanlarının, ±2 standart sapma ile 1.4 ve ±3 standart sapma ile 2.1 puan aralığında dağılım göstereceği ve öğrencilerin alabilecekleri puanların 0-10 aralığında olduğu da düşünüldüğünde, puanlayıcıların puanları ranjının oldukça dar olduğu söylenebilir. Bu durum, puanlayıcıların tutarlı puanlama yaptıklarının bir başka göstergesidir.
Ana etkilerden sonra yüzeylerin ikili etkileşimlerinin yorumlanmasına sıra gelmektedir. Birey-madde etkileşimine ilişkin varyans yüzdesi yaklaşık %51.9 (1.98) değeriyle en yüksek varyans yüzdesine sahiptir. Bu durum, puanlama anahtarında yer alan maddelerin güçlük düzeylerinin bireyden bireye de farklılık gösterdiğini ifade etmektedir. Diğer bir ifadeyle maddelerin güçlük düzeylerindeki sıralama bireyden bireye farklılaşmaktadır. Bunun çeşitli sebepleri olabilir. Araştırmacı bunu dikkatlice yorumlamalıdır. Örneğin bireylerin görevlere ilişkin hazır bulunuşluk düzeyleri, önceki yaşantıları birbirlerinden oldukça farklı olabilir. Bir sonraki varyans bileşeni birey-puanlayıcı etkileşimine ilişkin varyans yüzdesi yaklaşık %0.1 (0.005) değeriyle en düşük varyans değeridir. Bu durum, puanlayıcıların verdikleri puanlara göre bireylerin sıralamasında bir değişiklik olmadığını ifade etmektedir. Diğer bir ifadeyle bireylerin sıralaması iki puanlayıcı arasında neredeyse hiç farklılık göstermemiştir ki; bu da istenilen bir durumdur. Bir diğer etkileşim olan puanlayıcı-madde etkileşimine ilişkin varyans yüzdesi yaklaşık %0.9 (0.033) değeriyle en düşük ikinci varyans değeridir. Benzer şekilde bu durum, maddelerin güçlük düzeylerindeki sıralamanın puanlayıcıdan puanlayıcıya fazla bir farklılık göstermediğine işaret etmektedir.
Son olarak artık varyans yüzdesi yaklaşık %5.6 (0.21) değeriyle en yüksek dördüncü değere sahiptir. Bu değer, birey-madde-puanlayıcı üçlü etkileşimini ve/veya bu ölçme süreciyle ölçülmemiş diğer sistematik ve sistematik olmayan varyans kaynaklarının varlığına işaret etmektedir. Artığa ilişkin varyansın olabildiğince küçük, sıfıra yakın olması ise asıl istenilen durumdur.
G kuramında, G çalışmasıyla elde edilen varyans bileşenlerinin ardından, bu çalışmada yer alan değerlerden yararlanılarak gerçekleştirilen karar çalışmaları gelir. Yine aynı örnek üzerinden K çalışmalarının R programıyla analizlerine ve yorumlarına geçelim.
gtheory
paketinde yer alan dstudy()
fonksiyonuyla K çalışması analizleri yapılabilir. Bu fonksiyonun ilk argümanının değeri gstudy()
fonksiyonunun çıktısı olan g2
nesnesidir. Fonksiyonun İkinci argümanı olan “colname.objects” argümanının değeri olarak ölçme objesinin adı, üçüncü argümanı olan colname.scores
argümanının değeri olarak puan sütununun adı yazılmalıdır. Son argüman ise data
argümanıdır ve değeri olarak veri seti nesnesi olan IkiYuzeyli_CD
yazılmalıdır. Bu fonksiyonun çıktıları d2
nesnesine atanmıştır. d2
listesinde genellenebilirlik (g) katsayısı ve kararlılık (phi) katsayısı ile sırasıyla bu katsayıların hesaplanmasında yer alan göreli ve mutlak hata varyansları ile standart hatalarına ait bileşenler bulunmaktadır. Bunların dışa aktarım kodları da aşağıda verilmiştir.
d2 <- dstudy(g2, colname.objects = "Birey", colname.scores = "Puan",
data = IkiYuzeyli_CD)
d2$generalizability
#> [1] 0.6609884
d2$dependability
#> [1] 0.5215308
d2$var.error.rel
#> [1] 0.2109756
d2$sem.rel
#> [1] 0.4593208
d2$var.error.abs
#> [1] 0.3773857
d2$sem.abs
#> [1] 0.6143173
Elde edilen çıktıda genellenebilirlik katsayısının değerinin yaklaşık 0.66 olduğu görülmektedir. Bu değer, göreli kararların alınacağı durumlar için güvenirlik katsayısı olarak yorumlanmaktadır ve klasik test kuramında olduğu gibi olabildiğince 1’e yakın bir değer çıkması istenir. Kararlılık katsayısının değeri yaklaşık 0.52 olarak elde edilmiştir. Bu değer, mutlak kararların alınacağı durumlar için güvenirlik katsayısı olarak yorumlanmaktadır ve benzer şekilde bu değerin de olabildiğince 1’e yakın olması beklenir. Çıktıdan da anlaşılacağı üzere genellenebilirlik katsayısı daima kararlılık katsayısından daha büyük ya da eşittir. Bu katsayılarından ardından ise sırasıyla göreli hata varyansı ve standart hatası ile mutlak hata varyansı ve standart hatası yer almaktadır. Bilindiği üzere, hata varyanslarının da olabildiğince düşük, sıfıra yakın çıkması istenir. Yukarıda açıklanan genellenebilirlik ve kararlılık katsayıları madde sayısının 10 ve puanlayıcı sayısının iki olduğu K çalışmasına ilişkin katsayılardır. G kuramında, yüzeylerin farklı sayıda koşullarına ilişkin yapılacak K çalışmaları için örnek durumlar aşağıda verilmiştir.
K çalışmalarına örnek olarak önce puanlayıcı sayısının iki, madde sayısının sırasıyla 10, 5 ve 20 olduğu; sonra da puanlayıcı sayısının üç ve madde sayısının 5 ve 10 olduğu toplam beş durum için K çalışması gerçekleştirilmiştir. Puanlayıcı sayısını 2 ve 3 olarak belirtmek üzere n_o
nesnesi ve madde sayılarını ifade etmek için de n_i
vektörleri aşağıdaki gibi oluşturulmuştur.
İlk olarak g katsayısını elde edebilmek üzere göreli hata varyansı hesaplanmıştır. Bu hesaplama için “g2” çalışması sonucu elde edilen “birey:madde” (BM) varyans değeri madde sayısına bölünmüş, “birey:puanlayıcı” (BP) varyans değeri puanlayıcı sayısına bölünmüş ve artık varyans değeri (BPM) ise madde sayısı ile puanlayıcı sayısının çarpımlarına bölünerek, bu değerlerin toplamı alınmıştır.
#relative error variance
rel_err_var <- g2$components[1, 2]/n_i+ #BM
g2$components[2, 2]/n_o+ #BP
g2$components[7, 2]/(n_i*n_o) #BPM, residual
round(rel_err_var, 2)
#> [1] 0.21 0.42 0.11 0.41 0.21
Genellenebilirlik (g) katsayısı, aşağıda verilen komut satırlarında görüleceği üzere, birey yüzeyine ilişkin varyans değerinin, yine birey yüzeyi varyans değeri ile yukarıda elde edilen göreli hata varyansı (rel_err_var) toplamına bölünmesi ile elde edilir. Elde edilen değerleri, sadece ondalık ilk iki değeri ile elde edebilmek üzer round
argümanından yararlanılmıştır.
# Generalizability Coefficient
gen_coef <- g2$components[5, 2]/(g2$components[5, 2]+rel_err_var)
round(gen_coef, 2)
#> [1] 0.66 0.50 0.79 0.50 0.67
Yukarıda verilen K çalışması sonucu elde edilen g katsayıları incelendiğinde, ilk değerin G çalışmasının yapıldığı ölçme sürecinde yer alan 10 madde ve iki puanlayıcıya dair g katsayısı olduğu (0.66) görülebilir. Puanlayıcı sayısının iki olarak kaldığı ancak madde sayısının yarıya indiği (5) durumda g katsayısı (0.50) oldukça düşmüş, madde sayısının iki katına çıkarıldığı (20) durumda ise g katsayısı (0.79) oldukça yükselmiştir. Puanlayıcı sayısının üçe çıkarıldığı ve madde sayısının yarıya indirildiği (5) durumda g katsayısının (0.50) yine oldukça düşerek iki puanlayıcı ve beş madde ile aynı değere ulaştığı görülebilir. Madde sayısının sabit kaldığı (10) durumda ise puanlayıcı sayısını üçe çıkarmış olmasının harcanan emeğe değmeyecek kadar az olduğu (0.67) söylenebilir. Kısacası, yapılan K çalışmaları sonucunda; iki puanlayıcı ve 10 madde ile elde edilen güvenirlik değeri (0.66) arttırılmak isteniyorsa puanlayıcı sayısının değil madde sayısının arttırılmasının daha ekonomik ve pratik bir çözüm sağlayacağı söylenebilir. Bu durum hiç de şaşırtıcı değildir: G çalışması sonucu elde edilen varyans değerlerinden de görüleceği üzere madde yüzeyine ilişkin varyans oldukça yüksek bir değere sahipken, puanlayıcı yüzeyinin varyans değeri çok düşüktür. Bu durum, puanlayıcı sayısının arttırılmasına gerek olmadığı ancak madde sayısının arttırılmasının önemli olduğuna işaret etmektedir. Ayrıca, hatırlatmakta fayda olacaktır; madde ve puanlayıcı sayıları arttırılıp azaltılarak çok daha farklı koşullar ile de K çalışmaları yapılabilir.
K çalışmalarında g katsayısının yanı sıra kararlılık (phi) katsayısını hesaplayabilmek için yine yukarıda elde ettiğimiz n_o
ve n_i
nesnelerinden yararlanacağız. Phi katsayısını elde etmek üzere öncelikle mutlak hata varyansını “abs_err_var” hesaplamamız gerekecek. Mutlak hata varyansı; birey (ölçme objesi) varyansı hariç tüm varyans bileşenlerinin, bileşende yer alan yüzeylerin karar çalışmasındaki koşul sayılarına bölündükten sonra, toplanmasıyla aşağıda gösterildiği şekilde elde edilir. Diğer bir ifadeyle örneğimiz için;
Mutlak hata varyansı = (madde yüzeyi varyansı / madde sayısı) + ( puanlayıcı yüzeyi varyansı / puanlayıcı sayısı) + (madde-birey etkileşimi / madde sayısı) + (puanlayıcı-birey etkileşimi / puanlayıcı sayısı) + [madde-puanlayıcı etkileşimi / (madde sayısı + puanlayıcı sayısı)] + [birey-madde-puanlayıcı etkileşimi, artık / (madde sayısı + puanlayıcı sayısı)
# Abs Error Variance
abs_err_var <- g2$components[4, 2]/n_i+
g2$components[6, 2]/n_o+
g2$components[3, 2]/(n_i*n_o)+
g2$components[1, 2]/n_i+
g2$components[2, 2]/n_o+
g2$components[7, 2]/(n_i*n_o)
abs_err_var
#> [1] 0.3773857 0.6925521 0.2198025 0.6636272 0.3525534
Yukarıda görüleceği üzere elde edilen mutlak hata varyansı kullanılarak phi katsayısı aşağıdaki şekilde hesaplanır. dep_coef
nesnesine atanan bu katsayı; birey varyansının, birey varyansı ile mutlak hata varyansının toplamına bölünmesi ile elde edilir. Dikkat edileceği üzere, round
argümanı kullanılmadığı taktirde ondalık basamağı default
olarak 7 basamaktan oluşmakta ve okumak oldukça zorlaşmaktadır.
dep_coef <- g2$components[5, 2]/(g2$components[5, 2]+abs_err_var)
dep_coef
#> [1] 0.5215308 0.3726326 0.6517442 0.3826592 0.5384843
Elde edilen phi katsayılarının yorumu da g katsayısına benzerdir. Phi katsayısının, özellikle mutlak kararların alınacağı durumlarda yorumlanması gereken güvenirlik katsayısı olduğu unutulmamalıdır. Bu durum hariç, tüm K çalışmalarına ilişkin elde edilen değerlerin yorum g katsayısı ile aynı olacaktır.
Yukarıdaki analizlere ek olarak, K çalışmasında yer alan tüm durular üzerinden g ve phi katsayıları ile hata varyanslarını toplu olarak tek bir tabloda görmek istersek data.frame
argümanıyla birlikte aşağıda yer alan komutları kullanmamız gerekmektedir.
dcalismasi <- data.frame(rbind(gen_coef, round(gen_coef, 2),
dep_coef, round(dep_coef, 2),
rel_err_var, abs_err_var))
rownames(dcalismasi) <- c("Coef_G_rel.", "rounded_G_rel",
"Coef_G abs.", "rounded_G_abs",
"Rel. Err. Var.", "Abs. Err. Var.")
colnames(dcalismasi) <- paste(n_i, "x", n_o, sep = "")
library(gt)
dcalismasi %>%
gt(rownames_to_stub = TRUE)
10x2 | 5x2 | 20x2 | 5x3 | 10x3 | |
---|---|---|---|---|---|
Coef_G_rel. | 0.6609884 | 0.4952533 | 0.7938118 | 0.5000599 | 0.6657430 |
rounded_G_rel | 0.6600000 | 0.5000000 | 0.7900000 | 0.5000000 | 0.6700000 |
Coef_G abs. | 0.5215308 | 0.3726326 | 0.6517442 | 0.3826592 | 0.5384843 |
rounded_G_abs | 0.5200000 | 0.3700000 | 0.6500000 | 0.3800000 | 0.5400000 |
Rel. Err. Var. | 0.2109756 | 0.4192350 | 0.1068459 | 0.4112514 | 0.2065311 |
Abs. Err. Var. | 0.3773857 | 0.6925521 | 0.2198025 | 0.6636272 | 0.3525534 |
4.3.2 Yuvalanmış Desen:
G çalışmalarında yuvalanmış desenler, bazen desenin doğası gereği karşımıza çıkar. Örneğin bir başarı testi, farklı alt testlerden oluşuyorsa bu alt testler farklı maddeleri içeriyor ve hiçbir alt test aynı maddelerini kapsamıyor olacaktır. Böylece desenin doğası gereği maddeler alt testlerde “yuvalanmış” olarak yer alacaktır. Bazen de G çalışmalarındaki yüzeylerin yuvalanmış olması ekonomik, lojistik vb. sebeplerden dolayı ortaya çıkar. Diğer bir ifadeyle aslında kabul edilebilir gözlemler evreninde çaprazlanmış olabilecek yüzeyleri, araştırmacı yuvalanmış olarak tercih edebilir ya da araştırmanın/çalışmanın koşulları bunu gerektirebilir. Örneğin öğretmen adaylarının okul uygulamalarında, dereceli puanlama anahtarında yer alan aynı 10 madde (görev) üzerinden değerlendirilmesinde, her bir öğrenciyi hem okuldaki uygulama öğretmenleri hem de öğretim elemanları olmak üzere farklı iki puanlayıcı görev almaktadır. Aslında, kabul edilebilir gözlemler evreninde, her bir öğrencinin göstermiş olduğu performans 10 madde üzerinden aynı iki puanlayıcı tarafından gözlemleniyor olabilir (çapraz desen). Ancak zaman, ekonomik. lojistik vb. açılardan bu durum mümkün olmayıp her bir öğrencinin aynı 10 maddedeki performansının farklı iki puanlayıcı tarafından puanlanıyor olması da olasılık dahilindedir. Öğrenciler (b) ölçme objesi olup, maddeler (m) ve puanlayıcılar (p) yüzeyleri oluşturmaktadır. Bu desende, her bir öğrenci birden fazla sayıda ve farklı puanlayıcılar tarafından puanlandığı için puanlayıcılar bireylerde yuvalanmıştır. Aynı 10 maddenin onu da tüm öğrencilere uygulandığından ve her bir madde tüm puanlayıcılar tarafından puanlandığından maddeler de hem öğrenciler hem de puanlayıcılar ile çaprazlanmıştır. Böylece bu desen m x (p:b) olarak ifade edilebilir ve Şekil 4.7’de yer alan ven şemasıyla gösterilebilir. 4.7’de de görüleceği üzere m x (p:b) yuvalanmış deseni (p :b) x m olarak da ifade ediilebilir. Ancak m x (p:b) deseni m x (b:p) olarak ifade edilemez4.

Şekil 4.7: İki Yüzeyli Çapraz Desen Veri Girişi Örneği
İki ve daha fazla yüzeyli desenlerde, desende yer alan tüm yüzeyler yuvalanmış (elbette ki ölçme objesi hariç) ise bu desene özel olarak tümüyle yuvalanmış desen adı verilir. Tümüyle yuvalanmış desenler, elde edilebilecek en az varyans bileşenine sahiptir. Diğer bir ifadeyle yüzeyler hakkında en az bilgi elde edilebilecek desenlerdir. Yukarıdaki örneğimizde yer aldığı gibi yüzeylerden biri (ya da sadece bir kısmı) yuvalanmış ise “kısmi yuvalanmış desen” olarak da ifade edilmektedir. Ancak tümüyle yuvalanmış bir desen olmayıp, çapraz ve yuvalanmış yüzeylerin yer aldığı bir deseni genellikle “yuvalanmış desen” olarak ifade etmek oldukça yaygındır.
Yuvalanmış iki yüzeyli m x (p:b) deseninin değişkenlik kaynaklarına ilişkin varyans bileşenleri kestirimlerinin nasıl elde edildiği aşağıda yer alan Tablo 4’te açıklanmıştır.

Şekil 4.8: İki yüzeyli yuvalanmış desen
Tablo 4’te yer alan değişkenlik kaynaklarını çapraz desende yer alan değişkenlik kaynaklarıyla karşılaştırdığımızda, değerlendirici yüzeyine ilişkin değişkenliğin bireylerde yuvalanmış olmasından dolayı puanlayıcı yüzeyine ilişkin bir varyans bileşeninin ayrı olarak elde edilemediğini ve puanlayıcı-madde etkileşimine ilişkin de ayrı bir varyans bileşeninin elde edilemediğini, madde-puanlayıcı -birey üçlü etkileşimine ve ölçülmemiş hata kaynağına (artık) dahil olarak elde edilebildiğini görebiliriz. Böylece çapraz desende yer alan 7 değişkenlik kaynağına karşılık m x (p:b) yuvalanmış deseninde beş farklı değişkenlik kaynağı karşımıza çıkmaktadır.
Tablo 4’te yer alan kestirilen varyans bileşenleri yardımıyla mutlak ve bağıl kararlar için G ve \(\phi\) katsayıları aşağıda verilen eşitlikler yardımıyla hesaplanabilir.
\[ \sigma^2(\delta)=\frac{\sigma_{bm}^2}{n_m^{'}}+\frac{\sigma_{mp:b}^2}{n_p^{'} n_m^{'}}\tag{4.13} \]
\[ \sigma^2(\Delta)=\frac{\sigma_m^2}{n_m^{'}}+\frac{\sigma_{bm}^2}{n_m^{'}}+ \frac{\sigma_{p:b}^2}{n_p^{'}}+\frac{\sigma_{mp:b}^2}{n_p^{'} n_m^{'}} \tag{4.14} \]
\[ E\rho^2=\frac{\sigma^2(b)}{\sigma^2(b)+\sigma^2(\delta)} \tag{4.15} \]
\[ \phi=\frac{\sigma^2(b)}{\sigma^2(b)+\sigma^2(\Delta)} \tag{4.16} \]
Genellenebilirlik kuramı kapsamında yer alan iki yüzeyli yuvalanmış desenler, yukarıda verilen örnekle sınırlı değildir. Çok daha farklı şekillerde karşımıza çıkabilmektedir. Yuvalanmış ve tümüyle yuvalanmış bu örneklere ilişkin desenlere, varyans bileşenlerine dair daha ayrıntılı bilgi edinmek için Guler (2012)’ye bakabilirsiniz.
Yuvalanmış iki yüzeyli desenin hipotetik bir veri seti üzerinden R programında nasıl analiz edileceğine ve bulgularının nasıl yorumlanabileceğine örnek olarak yukarıda yer verilen m x (p:b)* yuvalanmış iki yüzeyli desenin analizi ve bulgularının yorumlanması ele alınmıştır. Bu ölçme sürecinde, 10 bireyin her biri aynı 10 maddeyi yanıtlamış ve her bireyi farklı iki puanlayıcı puanlamıştır. İki yüzeyli yuvalanmış bu desene ilişkin veri seti IkiYuzeyliYuvlalanmisDesen.xlsx
dosyasında yer almaktadır. Bu desenin veri girişine ilişkin dosyanın ilk 24 satırı aşağıda yer alan Şekil 4.9’de verilmiştir.

Şekil 4.9: İki Yüzeyli Çapraz Desen Veri Girişi Örneği
Şekil 4.9’de görüldüğü üzere veri setinin ilk satırı birinci bireyi puanlayan birinci puanlayıcının ilk maddeye verdiği puandır. İlk 10 satır, birinci bireyi puanlayan birinci puanlayıcının 10 maddeye ait puanıdır. Devam eden 10 satır, birinci bireyi puanlayan ikinci puanlayıcının 10 maddeye ait puanıdır. Benzer örüntü çalışmaya katılan diğer dokuz birey için de tekrarlanarak puan girişi gerçekleştirilmiştir. Her 10 bireyi puanlayan ikişer puanlayıcı birbirinden farklıdır. Şekil4.9’de yer alan veri seti uzun veri formatındadır. Veri seti Şekil 4.9’de girildiği gibi uzun veri formatında değilse, veri düzenleme aşamalarıyla bu formata getirilmelidir. Geniş veri formatındaki veriyi, uzun veri formatına dönüşme işlemi için Ek 1’de örnek bir kod verilmiştir.
IkiYuzeyliYuvalanmisDesen.xlsx
dosyasını R ortamına aktarmak için readxl
paketinin aktif hale getirilmesi gerekmektedir. readxl
paketindeki read_excel()
fonksiyonu kullanılarak veri seti IkiYuzeyli_YD
nesnesine aktarılmıştır. Veri setindeki sütun isimleri değişken adı olarak alınkıştır. Veri setinin ilk 6 satırı kontrol amaçlı head()
fonksiyonuyla incelenmiştir.
library(readxl)
IkiYuzeyli_YD <- read_excel("import/IkiYuzeyliYuvalanmisDesen.xlsx",
sheet = "Sayfa2")
IkiYuzeyli_YD <- as.data.frame(IkiYuzeyli_YD)
head(IkiYuzeyli_YD)
#> Birey Puanlayıcı Madde Puan
#> 1 1 1 1 2
#> 2 1 1 2 2
#> 3 1 1 3 3
#> 4 1 1 4 3
#> 5 1 1 5 0
#> 6 1 1 6 3
G kuramına ilişkin analizlerin yapılabilmesi için gtheory
paketinin aktif hale getirilmesi gerekmektedir. Bu pakette yer alan gstudy()
fonksiyonuyla G çalışması analizleri yapılabilir. Bu fonksiyonun birey, puanlayıcı ve madde yüzeyleri için yuvalanmış desen altında çalıştırılmasına ilişkin örnek kod aşağıda verilmiştir. İlk olarak data
argümanı için veri setinin adı olan IkiYuzeyli_YD
yazılmıştır. Sonra formula
argümanına yüzeylerin temel ve ortak etkileri aşağıdaki komut satırlarında görüldüğü şekilde yazılmıştır. Örnek kodda sonuçlar g4
nesnesine atanmıştır. g4
nesnesi tek bileşenli bir liste olup, varyans kaynaklarını ve varyans yüzdelerini içeren components
bileşeni g4
listesinden seçilmiştir.
library(gtheory)
g4 <- gstudy(data = IkiYuzeyli_YD,
formula = Puan~(1|Madde)+(1|Madde:Birey)+(1|Birey/Puanlayıcı))
g4$components
#> source var percent n
#> 1 Madde:Birey 1.9597917 52.3 1
#> 2 Puanlayıcı:Birey 0.1244583 3.3 1
#> 3 Birey 0.3519013 9.4 1
#> 4 Madde 1.0689980 28.5 1
#> 5 Residual 0.2455549 6.5 1
Çıktıda görüldüğü üzere birinci sütun “source”, değişkenlik (varyans) kaynaklarını; ikinci sütun “var”, varyans değerlerini; üçüncü sütun “percent”, değişkenlik kaynağının varyansının toplam varyansa oranını göstermektedir. İki yüzeyli çapraz desen örneğinde de açıklandığı üzere, G çalışmasıyla kestirilen varyans bileşenleri, bir bireyin bir madde ve bir puanlayıcıya dair evren puanının genellenmesindeki hatanın büyüklüğünü yansıtmaktadır. Kestirilen bu varyans bileşenleri, test puanı üzerinden yapılacak genellemenin hatası değildir ; (Shavelson ve Webb, 1991, s. 30). G çalışmasıyla elde edilen sonuçlar yorumlanırken genellikle varyans değerleri ve daha anlaşılır olduğu için de asıl varyans yüzdeleri dikkate alınır. Öncelikle ana etkiler, sonra etkileşimler ve daha sonra artık yorumlanmaktadır.
Bulgulara göre birey yüzeyine ilişkin varyans; diğer bir ifadeyle desenin evren puanı varyansı yaklaşık 0.352 ve varyans yüzdesi yaklaşık %9.4 değeryle üçüncü en yüksek değedir ve puanlardaki (verideki) değişkenliğin yaklaşık %9.4’ünün bireyler arası farklılıktan kaynaklandığını ifade etmektedir. Bu değer, evren puanlarına ilişkin varyans bileşenidir ve bu varyans bileşeninin en yüksek değere sahip olması asıl istenendir. Maddelere ilişkin varyans yaklaşık 1.069 ve varyans yüzdesi yaklaşık %28.5 değeriylele ikinci en yüksek değerdir. Bu değer, dereceli puanlama anahtarında yer alan görevlerin (maddelerin) güçlük düzeylerinin birbirinden oldukça farklı olduğunun bir göstergesidir.
Dikkat edileceği üzere, iki yüzeyli yuvalanmış m x (p:b) desene ilişkin ana etkilerde “puanlayıcı” yüzeyine ilişkin varyans bileşeni yer almamaktadır. Puanlayıcı yüzeyi birey yüzeyi içinde yuvalandığından; puanlayıcı ana etkisini, bireyler ile puanlayıcıların etkileşiminden ayrı olarak elde etmek mümkün değildir. Puanlayıcıların, bireyler içinde yuvalandığı bileşenin varyansı yaklaşık 0.124 değeriyle toplam varyansın yaklaşık %3.3’ünü oluşturmaktadır. Bu değer, toplam varyans içindeki en düşük değer olup; bir bireyin bir puanlayıcıdan aldığı puanlarının diğer puanlayıcıda çok bir değişim göstermemiş olduğunu ifade etmektedir. Ancak bir puanlayıcının diğerlerinden daha katı mı cömert mi puan verdiğini (puanlayıcı ana etkisini) ya da bireylerin puanlayıcılara göre puanlarındaki yerlerinin (göreceli düzeylerinin) farklılık gösterip göstermediğini (birey-puanlayıcı etkileşimi) yorumlayamayız.
Birey-madde etkileşimine ilişkin varyans bileşeni (1.96) %52.3 ile en yüksek varyans oranına sahiptir. Bu durum, puanlama anahtarında yer alan maddelerin güçlük düzeylerinin bireyden bireye oldukça farklılık gösterdiğini ifade eder. Diğer bir ifadeyle bireylerin puan sıralamaları maddeden maddeye oldukça farklılık göstermektedir. Bu durumu dikkatli yorumlamak gerekir: Bir bireyin, bir puanlayıcıdan aldığı puanlar diğer puanlayıcıda çok da farklılık göstermediğine göre (puanlayıcıların bireylerde yuvalandığı bileşenin varyans değeri), bu ölçme sürecinde, maddelerin farklı yorumlanması çok fazla söz konusu olmamıştır diyebiliriz. Bu durumda, bireylerin her bir maddedeki görevlerdeki performanslarında farklılık olabilir. Örneğin; yukarıda yer alan öğrencilerin öğretmenlik uygulamalarındaki performanslarını düşündüğümüzde, dereceli puanlama anahtarında yer alan maddelerde “öğretmen adayının öğrenci ile iletişimi”ne dair bir maddede bir öğrenci yüksek başarı gösterirken, “sınıf yönetimi” ile ilgili bir maddede düşük bir performansa sahip olabilir ve başka bir öğrenci ise tam tersi performans sergileyebilir.
Yine dikkat edileceği üzere, madde-puanlayıcı etkileşimi varyansını, birey-madde-puanlayıcı etkileşimi ve ölçülemeyen hata kaynaklarının bir arada olduğu artık varyansından ayrı olarak elde etmek bu desende mümkün değildir. Artık (residual) varyansın değeri (0.25) %6.5 ile en düşük ikinci değere sahiptir. Bu değer, birey-madde-puanlayıcı üçlü etkileşimini ve/veya bu ölçme süreci ile ölçülmemiş diğer sistematik ve sistematik olmayan varyans kaynaklarının varlığına işaret eder. Artığa ilişkin varyans bileşeninin olabildiğince küçük, sıfıra yakın olması ise asıl istenilen durumdur.
“gtheorypaketinde yer alan
dstudy()fonksiyonuyla K çalışması analizleri yapılabilir. Bu fonksiyonun ilk argümanı
gstudy()fonksiyonunun çıktısı olan
g4nesnesidir. İkinci argüman olan
colname.objectse ölçme objesinin adı; üçüncü argüman olan
colname.scoresa ise puan sütununun adı yazılmalıdır. Son argüman ise
dataargümanıdır, veri seti nesnesi
IkiYuzeyli_YDolarak ifade edilmelidir. Bu fonksiyonun çıktıları
d4nesnesine atanmıştır.
d4` listesinde genellenebilirlik (g) katsayısı ve hatası, kararlılık (phi) katsayısı ve hatası, göreli ve mutlak hata varyansları gibi bileşenler bulunmaktadır. Bunların dışa aktarım kodları aşağıda verilmiştir.
d4 <- dstudy(g4, colname.objects = "Birey", colname.scores = "Puan",
data = IkiYuzeyli_YD)
d4$generalizability
#> [1] 0.5654056
d4$dependability
#> [1] 0.4825278
d4$var.error.rel
#> [1] 0.2704861
d4$sem.rel
#> [1] 0.5200828
d4$var.error.abs
#> [1] 0.3773859
d4$sem.abs
#> [1] 0.6143174
Yukarıdaki çıktıda yer alan d4
listesinin generalizability
bileşeninin değeri, 0.57 olarak elde edilmiş genellenebilirlik katsayısının değerini ifade eder. Bu değer, göreli kararların alınacağı durumlar için güvenirlik katsayısı olarak yorumlanmaktadır ve klasik test kuramında olduğu gibi olabildiğince 1’e yakın bir değer çıkması istenir. d4
listesinin dependability
bileşeninin değeri ise 0.48 olarak elde edilmiş mutlak kararların alınacağı durumlar için güvenirlik katsayısı olarak yorumlanır ve benzer şekilde bu değerin de olabildiğince 1’e yakın olması beklenir. Çıktıdan da anlaşılacağı üzere genellenebilirlik katsayısı daima kararlılık katsayısından daha büyük ya da eşittir. Bu katsayılarından ardından ise sırasıyla göreli hata varyansı ve standart hatası ile mutlak hata varyansı ve standart hatası yer almaktadır. Bilindiği üzere, hata varyanslarının da olabildiğince düşük, sıfıra yakın çıkması istenir. Yukarıda açıklanan genellenebilirlik ve kararlılık katsayıları madde sayısının 10 ve puanlayıcı sayısının iki olduğu K çalışmasına ilişkin katsayılardır. G kuramında, yüzeylerin farklı sayıda koşullarına ilişkin yapılacak K çalışmaları için örnek durumlar aşağıda verilmiştir.
K çalışmalarına örnek olarak madde sayısının 10, 5 ve 15, puanlayıcı sayısının iki, üç ve dört olduğu durumlar için K çalışması gerçekleştirilmiştir. K çalışması sıra ile 10, 10 , 10, 5 ve 15 madde için gerçekleştirilmek istendiğinden bu sayılardan oluşan bir n_i
vektörü oluşturulmuştur. Bu koşullarda puanlayıcı sayısını 2, 3 ve 4 olarak değiştirmek için ise n_o
nesnesi oluşturulmuştur.
İlk olarak göreli hata varyansı, “g4” çalışması sonuçlarından BM değerinin madde sayısına bölümü, P:B değerinin birey sayısına bölümü ve BPM değerinin ise birey sayısı ile madde sayısına çarpımlarına bölümlerinin toplamı ile hesaplanmıştır.
#relative error variance
rel_err_var <- g4$components[1,2]/n_i + #BM
g4$components[2,2]/n_o + #P:B
g4$components[5,2]/(n_i*n_o) #Res
rel_err_var
#> [1] 0.2704861 0.2456504 0.2332326 0.4787430 0.2010671
Genellenebilirlik katsayısı ise bireyden kaynaklanan varyansın, bireyden kaynaklanan varyans ve göreli hata varyansı toplamına bölünmesiyle elde edilir.
#calculate generalizability coefficient
gen_coef <- g4$components[3,2]/(g4$components[3,2] + rel_err_var)
gen_coef
#> [1] 0.5654056 0.5889052 0.6014030 0.4236486 0.6363859
Yukarıda verilen K çalışması sonucu elde edilen g katsayıları incelendiğinde, ilk değerin G çalışmasının yapıldığı ölçme sürecinde yer alan 10 madde ve iki puanlayıcıya dair g katsayısı olduğu (0.57) görülebilir. Madde sayısının 10 olarak kaldığı puanlayıcı sayısının üç olduğu durumda g katsayısı 0.59 ile bir miktar artış göstermiş ve madde sayısının 10, puanlayıcı sayısının dört olduğu durumda ise g katsayısı 0.60’a yükselmiştir. Madde sayısının yarıya indirildiği (2) ve puanlayıcı sayısının aynı kaldığı (2) durumda g katsayısının (0.42) oldukça düştüğü, ancak yine puanlayıcı sayısının sabit kaldığı (2) ve madde sayısının 15’e çıkarıldığı durumda ise g katsayısının 0.64’e yükseldiği görülebilir. Kısacası, yapılan K çalışmaları sonucunda; 10 madde ve dört puanlayıcı ile ulaşılan göreceli güvenirlik katsayısı 0.60 iken iki puanlayıcı ve 15 madde ile elde edilen göreceli güvenirlik değeri 0.64’e yükselmiştir. Diğer bir ifadeyle “puanlayıcı sayısını iki katına çıkarmak mı madde sayısını beş tane daha arttırmam mı daha ekonomik ve pratik bir çözüm sağlayacak; ki bu durumda dahi madde sayısını arttırmak daha yüksek bir güvenirlik değerine sahiptir” karar verilerek güvenirlik değerini arttırmak için en uygun durum belirlenebilir. Bir başka noktayı daha burada dikkate almakta fayda olacaktır. Desenimiz yuvalanmış bir desen ve puanlayıcı yüzeyi birey yüzeyinde yuvalandığı için puanlayıcı sayısını dörde çıkarmak demek toplamda “birey sayısı x 4” (örneğimizde 10 birey vardı, bu durumda 10x4=40 puanlayıcı) kadar puanlayıcıya ihtiyacımız olacağı anlamına gelmektedir. Tüm bunların yanı sıra, burada verilen madde ve puanlayıcı sayılarından çok daha farklı koşullar ile de K çalışmaları da yapılabilir.
Mutlak hata varyansı “g4” çalışması sonuçlarından Birey (b) dışındaki tüm varyans kaynakları öncelikle ilgili varyansta; madde yer alıyorsa madde sayısına, puanlayıcı yer alıyorsa puanlayıcı sayısına, madde ve puanlayıcı yer alıyorsa madde sayısı ile puanlayıcı sayısının çarpımlarına bölünerek, ardından tüm bu değerler toplanarak hesaplanmıştır.
#abs error variance
abs_err_var <- g4$components[4,2]/n_i +
g4$components[2,2]/n_o +
g4$components[1,2]/n_i +
g4$components[5,2]/(n_i*n_o)
abs_err_var
#> [1] 0.3773859 0.3525502 0.3401324 0.6925426 0.2723336
Phi katsayısı ise bireyden kaynaklanan varyansın, bireyden kaynaklanan varyans ve mutlak hata varyansı toplamına bölünmesiyle elde edilmiştir.
dep_coef <- g4$components[3, 2]/(g4$components[3, 2]+abs_err_var)
dep_coef
#> [1] 0.4825278 0.4995394 0.5085031 0.3369270 0.5637322
Elde edilen phi katsayılarının yorumu da g katsayısına benzerdir. Phi katsayısının, özellikle mutlak kararların alınacağı durumlarda yorumlanması gereken güvenirlik katsayısı olduğu unutulmamalıdır. Bu durum hariç, tüm K çalışmalarına ilişkin elde edilen değerlerin yorum g katsayısı ile aynı olacaktır.
Sonuçların tek bir tabloda yer alması için ise aşağıdaki kod satırları oluşturulmuştur.
dcalismasi <- data.frame(rbind(gen_coef, round(gen_coef, 2),
dep_coef,round(dep_coef, 2),
rel_err_var, abs_err_var))
rownames(dcalismasi) <- c("Coef_G_rel.", "rounded_G_rel",
"Coef_G abs.", "rounded_G_abs",
"Rel. Err. Var.", "Abs. Err. Var.")
colnames(dcalismasi) <- paste(n_i, "x", n_o, sep = "")
library(gt)
dcalismasi %>%
gt(rownames_to_stub = TRUE)
10x2 | 10x3 | 10x4 | 5x2 | 15x2 | |
---|---|---|---|---|---|
Coef_G_rel. | 0.5654056 | 0.5889052 | 0.6014030 | 0.4236486 | 0.6363859 |
rounded_G_rel | 0.5700000 | 0.5900000 | 0.6000000 | 0.4200000 | 0.6400000 |
Coef_G abs. | 0.4825278 | 0.4995394 | 0.5085031 | 0.3369270 | 0.5637322 |
rounded_G_abs | 0.4800000 | 0.5000000 | 0.5100000 | 0.3400000 | 0.5600000 |
Rel. Err. Var. | 0.2704861 | 0.2456504 | 0.2332326 | 0.4787430 | 0.2010671 |
Abs. Err. Var. | 0.3773859 | 0.3525502 | 0.3401324 | 0.6925426 | 0.2723336 |
Genellenebilirlik kuramı kapsamında yer alan iki yüzeyli yuvalanmış desenler, yukarıda verilen örnekten farklı olarak çok daha farklı şekillerde karşımıza çıkabilmektedir. Farklı örneklere ve bu örneklere ilişkin desenlerin açıklamalarına, varyans bileşenlerine dair daha ayrıntılı bilgi edinmek için Guler (2012)’ye bakabilirsiniz.
4.3.3 Varyans Bileşenlerinin Negatif Kestirimi
Varyans analizinde (ANOVA) kestirilen varyans bileşenlerinin negatif çıkması söz konusu değilken G kuramında varyans bileşenleri negatif elde edilebilir. Ölçme modelinin ve/veya örneklemin belirlenmesinde bir hata yapıldıysa kestirilen varyans bileşenlerinin negatif kestirilmesi mümkün olabilecektir. Negatif varyans bileşenin değeri görece büyükse, ölçme modelinin yanlış tanımlanmış olma olasılığı yüksektir. Örneğin; ölçme ve değerlendirmede doktora yeterlik öğrencilerinin bir dönemde aldıkları tüm derslere ilişkin performans düzeylerinin ölçüleceği bir sınav gerçekleştirilmiş olsun. Bu sınavda öğrencilere, kuramsal ya da uygulamalı gerçekleştirmeleri gereken, görevler sunulsun (görevler derslerin içine yuvalanmıştır). Ancak bu durumda, bazı derslerdeki görevler performans açısından birbirine benzerlik gösterirken bazı derslerde yer alan görevler çok farklı performans görevlerini içeriyor olabilir. Bu durumda dersler ve derslerin diğer yüzeyler ile etkileşimlerine ilişkin varyans bileşenlerinin negatif elde edilmesi olasıdır. Çünkü derslerin kendi içindeki değişkenliği dersler arasındaki değişkenlikten çok daha büyük olabilecek, sonuçta da derslere ve derslerin diğer yüzeylerle olan etkileşimlerine ilişkin varyans negatif kestirilebilecektir (Tablo 3 ve 4’te yer alan varyans bileşenlerinin hesaplamalarında yer alan “çıkarma” işlemlerine dikkat ediniz). Böyle bir durumda, ölçme modeli yeniden belirlenmeli ve ders yüzeyi modelden çıkarılmalı, dersler için ayrı desenler oluşturulmalıdır. Özetle, varyans bileşenlerine ilişkin kestirimlerde negatif ve yüksek değerler elde edildiğinde, ölçme modelinin hatalı belirlenmiş olma olasılığı göz önüne alınmalı ve modelin yeniden belirlenmesi üzerine çalışılmalıdır.
Negatif varyans bileşeni görece küçükse (sıfıra yakın), büyük olasılıkla ölçümler, oldukça büyük bir evrene sahip olan çok küçük bir örneklem üzerinden elde edilmiştir. Bu durumda, negatif varyans değerinin yorumlanmasına dair farklı öneriler söz konusudur. Cronbach vd. (1972), G çalışmasıyla kestirilen negatif varyans değerlerinin sıfır alınmasını ve sonrasında yapılan tüm hesaplamaların da sıfır alınarak gerçekleştirilmesini önermektedir (Akt.; (Brennan, 2011)). Brennan (2001) ise G çalışmasında elde edilen negatif varyans değerinin sıfır olarak yorumlanmasını ancak bu değer ile yapılacak sonraki hesaplamalarda orijinal değerin kullanılmasını önerir. Her iki önerinin de maalesef sınırlılıkları bulunmaktadır ve biri diğerine göre daha önerilebilir değildir. İlk öneri, kuramsal olarak mümkün olmayacak negatif varyansın hesaplamalara dahil edilmesini önlemekte, ancak gerçekte elde edilen negatif varyansın sıfır kabul edilerek hesaplamalara dahil edilmesiyle yanlı kestirimlere sebep vermektedir. İkinci öneride ise her ne kadar elde edilen gerçek varyans değeri ile yanlı olmayan hesaplamalar yapılıyor olsa da varyans değerinin negatif olarak alınması pek de makul olmamaktadır. Sonuç olarak her ne kadar her iki öneri de çok tatminkâr olmasa da alan yazındaki uygulamalarda ikisinden birini tercih etmenin mümkün olduğu görülmektedir.
4.3.4 Sabit Yüzeyin Bulunduğu Desenlerde G ve K Çalışmaları
G kuramı, değişkenlik kaynaklarının rastgele olmasına dayalı bir kuramdır. Diğer bir ifadeyle G kuramında amaçlanan, G çalışmalarında yer alan madde, oturum, puanlayıcı vb. yüzeylerinin çok daha geniş bir evrene genellenmesidir. Ancak bazen yüzeylerin, çalışmada yer alan durumların ötesinde, bir evrene genellenmesi amaçlanmayabilir. Bazen zaman, ekonomik, lojistik vb. sınırlılıklardan dolayı bir yüzeyin sadece belirli durumlarının kullanılması söz konusu olabilir ki burada evrene genelleme yapmak mümkün olmayacaktır. Bazen de yüzey, sınırlı sayıda koşula sahiptir ve G çalışması var olan olası tüm durumları içerir ki burada da genelleme yapmak olası değildir. Bu iki durumda da yüzey (yüzeyler) rastgele değil sabit olacaktır.
Örneğin bir spor akademisinde jimnastik programına öğrenci seçiminde, öğrenciler “zorunlu” ve “artistik” olmak üzere iki farklı alanda birden fazla puanlayıcı tarafından puanlanmaktadır. Bu ölçme sürecinde yer alan puanlayıcılar, buradaki puanlayıcılar ile sınırlı değildir ve aslında puanlayıcı evreni çok daha geniştir. Her ne kadar ölçmede görev alan puanlayıcılar, puanlayıcı evreninden rastgele seçilmiş olmasalar da evrendeki diğer puanlayıcılarla yer değiştirebilecek özellikte olduklarından, verecekleri puanların evrene genellenmesi söz konusu olabileceğinden, buradaki “puanlayıcı” yüzeyi rastgele olacaktır (bkz. (Shavelson ve Webb, 1991, s. 66)). Ancak aynı durum ölçmeye konu olan “zorunlu” ve “artistik” kategorileri için söz konusu olmayabilir. Jimnastik seçiminde puanlama sadece zorunlu ve artistik olmak üzere iki kategoriyle sınırlıdır ve buradan elde edilecek puanların daha geniş bir kategori evrenine genellenmesi söz konusu olmayacaktır. Bu durumda, bu ölçme sürecindeki “kategori” yüzeyi sabit olarak ele alınacaktır.
Bir yüzeyin rastgele ya da sabit olarak ele alınması, ölçmenin genellenebilirliğine etki eder. Eğer bir ya da daha fazla sayıda yüzey sabit olarak alınmışsa bu durumda genellikle hata varyansı azalır ki bu da güvenirlik için hesaplanacak katsayıların (G ve \(\phi\) katsayıları) artmasına sebep olur. Ancak bu sonuç yapılacak yorumların sınırlı kalmasını beraberinde getirmektedir (Brennan, 2011). Diğer bir ifadeyle ölçme sürecinden elde edilen sonuçların, sabit olan yüzeyler üzerinden genellenmesi mümkün olmayacaktır.
G kuramının, ölçme sürecinde yer alan yüzeyin/yüzeylerin rastgele olmasına dayalı bir kuram olduğuna dikkat etmek gerekir. Diğer bir ifadeyle G kuramında yer alan desende en azından bir yüzey, mutlaka rastgele olmalıdır. Çok yüzeyli bir desende ya tüm yüzeyler rastgele olacaktır ya da bazı yüzeyler rastgele ve bazı yüzeyler sabit olacaktır. Buradan anlaşılacağı üzere, tek yüzeyli bir desende yüzeyin sabit olması G kuramında mümkün değildir. Rastgele ve sabit yüzeylerin birlikte yer aldığı desenler G kuramında,karma desen (mixed design) olarak ifade edilir 5 Diğer bir ifadeyle sabit yüzeylerin yer aldığı modellerin aslında birer karma model olduğu unutulmamalıdır.
Karma modellerde, istatistiksel süreç de farklılık gösterir. Bu farklılığı yukarıda yer alan spor akademisinin jimnastik programına öğrenci seçimi örneği üzerinden açıklamaya çalışalım. Bu örnekte yer alan ölçme sürecinde, kategori yüzeyi sabit bir yüzey olarak ele alınıyorsa puanlayıcıların, zorunlu ve artistik kategoriler için verdiği puanların ortalamaları alınıp, bu puanın sabit olan kategori yüzeyine ilişkin evrenin tüm koşullarına genellenebilecek bir evren puanı olabileceği düşünülebilir. Ancak bu iki kategori üzerinden ortalama almanın çok da anlamlı olmadığını savunan spor alanı uzmanları olacaktır. Bu durumda, zorunlu ve artistik kategoriler için ayrı ayrı desenler oluşturulup bu desenler üzerinden analizlerin yapılması daha uygunı olacaktır. İki yaklaşımdan hangisinin seçileceğini ölçmenin yapılacağı “alan uzmanlığı” bağlamında ele almak gerekmektedir. Eğer ölçme sonuçlarını yorumlayacak, kullanacak araştırmacılar açısından ortalama almak mantıklı ise bu noktada dikkat edilmesi gereken bir başka durum daha bulunmaktadır. Eğer sabit yüzeye ilişkin varyans bileşeninin değeri oldukça yüksek bir kestirime sahipse bu sonuç sabit yüzeyin koşullarında önemli derecede bir farklılaşmanın olduğuna işaret etmektedir. Bu durumda da mantıklı olan, bu yüzeyin her bir koşuluna ilişkin ayrı ayrı analizin yapılması olacaktır (Shavelson ve Webb, 1991).
Karma desenlere ilişkin bu iki yaklaşımdan ilki olan sabit yüzeyin koşulları üzerinden ortalama alınarak G çalışması üç adımda özetlenebilir. Bu adımları öğrencilerin (o), puanlayıcıların (p) ve kategorilerin (k) çaprazlandığı jimnastik programına öğrenci seçimi örneği üzerinden açıklayalım:
Adım 1. Örnekte puanlayıcı yüzeyi rastgele, kategori yüzeyi sabittir. Ancak ilk adımda öncelikle tüm yüzeyler rastgeleymiş gibi analizler gerçekleştirilir. Böylece tümüyle rastgele olan o x p x k deseni üzerinden aşağıdaki 7 varyans bileşeni kestirilir:
\[ \sigma_o^2, \sigma_p^2, \sigma_k^2, \sigma_{op}^2, \sigma_{ok}^2, \sigma_{pk}^2, \sigma_{opk.e}^2 \] Adım 2. İkinci adımda o x p x k karma desenin rastgele olan parçası belirlenir. Öğrencilerin puanlayıcılar ile çaprazlandığı parça rastgele olup, buradaki varyans bileşenleri kestirilir. Böylece öğrenciler (o), puanlayıcılar (p) ve öğrenciler ile puanlayıcıların etkileşimi artı hata (op,e) varyans bileşenlerinin ilk adımdaki tümüyle rastgele desen üzerinden elde edilen varyans bileşenlerinden farklılığını vurgulamak için bu bileşenler aşağıdaki gibi olarak belirtilir:
\[ \sigma_o^{*2},\sigma_p^{*2},\sigma_{op}^{*.e2} \] Adım 3. Karma desenin rastgele olan parçasına dahil olan Adım 2’de belirlenen varyans bileşenleri hesaplanır. Her varyans bileşeni için Adım 1’de tümüyle rastgele olarak ele alınan desende karşılık gelen varyans bileşeni için kestirilen değer ile bu varyans bileşenin sabit bileşenle olan etkileşiminin \[\frac{1}{n_k} \] ile çarpımı alınarak toplanır:
\[ \sigma_{o*}^2=\sigma_o^2+\frac{1}{n_k}\sigma_{ok}^2\tag{4.17} \]
\[ \sigma_{p*}^2=\sigma_p^2+\frac{1}{n_k}\sigma_{pk}^2\tag{4.18} \]
\[ \sigma_{op,e*}^2=\sigma_{op,e}^2+\frac{1}{n_k}\sigma_{opk,e}^2\tag{4.19} \]
Yukarıdaki eşitliklerde dikkat edileceği üzere, eşitliğin sağ tarafı hesaplanan bileşenin sadece sabit yüzeyle olan etkileşimi içermektedir. Örneğin \(\sigma_{o}^{*2}\) bileşenin hesaplanmasında \(\sigma_{opk,e}^2\) bileşeni yer almamaktadır çünkü bu bileşen rastgele olan puanlayıcı (p) bileşenini içermektedir.
Karma desenlere ilişkin iki yaklaşımdan ikincisi olan sabit yüzeyin her bir koşulunun ayrı ayrı analiz edildiği G çalışmasında; araştırmacı ya sabit yüzeyin koşulları üzerinden ortalama bir puan almanın mantıklı olmayacağı kanısındadır ya da ilk yaklaşımın birinci adımında sabit yüzeyler üzerinden elde edilen varyans bileşenlerinin kestirimleri oldukça yüksek çıkmıştır (Adım 1’de hesaplanan \(\sigma_k^2, \sigma_{ok}^2, \sigma_{pk}^2, \sigma_{opk.e}^2)\)). Jimnastik programına öğrenci seçimi örneği üzerinden açıklarsak; puanlayıcıların, öğrencilerin artistik performanslarını puanlamaları bir desen (artistik puanlar için: o x p rastgele deseni) ve zorunlu performanstan alınan puanlar aarı bir desen (zorunlu puanlar için: o x p rastgele deseni) olarak analiz edilecektir (Örnek durumlar ve açıklamaları için bkz. ; (Shavelson ve Webb, 1991)).
Yukarıda yer alan açıklamalar yüzeylerin birbiriyle çaprazlandığı (o x p x k) karma desenler üzerinden yapılan G çalışmalarına ilişkindir. Yuvalanmış yüzeylerin yer aldığı karma desenlere ilişkin açıklamalar, örnek durum ve analizlerine ilişkin daha fazla bilgi (Shavelson ve Webb, 1991), s. 72)’ten elde edilebilir.
4.3.5 Dengelenmemiş Desenlerde G ve K Çalışmaları
Önceki bölümlerde yer alan ölçme desenlerinde, dikkat edileceği üzere, yüzeylere ilişkin düzeylerdeki tüm gözlem sayıları (koşullar) eşit olarak ele alınmıştır. G kuramında, yüzeylerde yer alan gözlem sayıları eşit ise bu tür desenlere dengelenmiş desen (balanced design) adı verilir (Brennan, 2001). Örneğin farklı konservatuarlarda öğrenim gören öğrencilerin aynı üç görev üzerinden performanslarının kendi kurumlarındaki değerlendiriciler tarafından uluslararası bir yarışmaya katılmak üzere puanlandıkları bir ölçme süreci olduğunu düşünelim. Öğrencilerin (b) tümü her üç görevi (g) de gerçekleştiriyor ve her bir görev farklı iki değerlendirici (d) tarafından puanlanıyor olup; bu ölçme süreci b x (d:g) desenindedir. Diğer bir ifadeyle tüm görevler aynı sayıda fakat farklı iki değerlendirici tarafından puanlanmış olup dengelenmiş bir desen söz konusudur.
Ancak bazı ölçme süreçlerinde gerek 1) desenin doğası gereği gerekse 2) çalışmanın olanaklarına bağlı olarak desende yer alan yüzeylerdeki gözlem sayıları eşit olmayabilir. İlk duruma örnek olarak, alt testlerden oluşan başarı testleri örnek gösterilebilir. Örneğin matematik başarısını ölçen bir test farklı sayıda maddelerin yer aldığı, aritmetik ve geometri alt testlerinden oluşabilir. Benzer durum farklı sayıda maddeler içeren farklı alt testlerden oluşan dil yeterliğinin ölçüldüğü dil sınavlarında da söz konusudur. İkinci duruma örnek olarak ise b x (d:g) deseninde; zaman, ekonomik, lojistik vb. şartlar sebebiyle, ölçme objesi olan ve farklı öğretim kurumlarında eğitim alan öğrencilerin tümünün performans gösterdikleri aynı üç görev; kurumlarında bulunan farklı sayıda farklı değerlendiriciler tarafından puanlanıyor olabilir. Bu durumlara ek olarak bir de yüzeylerde kayıp verilerin yer alması da yüzeylerde eşit sayıda gözlem bulunmamasına neden olabilir.
G kuramında, yüzeylerde yer alan gözlem sayılarının eşit olmadığı durumlar dengelenmemiş desenler (unbalanced design) olarak ifade edilir. Dengelenmemiş desenlerde, verilere ilişkin analizler dengelenmiş desenlerden çok daha karmaşık olmaktadır. Bu nedenle zaman zaman yüzeylerde yer alan veriler silinerek dengelenmemiş desenden dengelenmiş bir desen oluşturulması yoluna gidilebilir. Ancak bu durumda veri kaybı söz konusu olacağı unutulmamalıdır ([Bell (1985)](Jarjoura, 1981). Dengelenmemiş desenler ile ilgili daha ayrıntılı açıklamalar ve hesaplamalar için Taşdelen Teker, T2014’e bakabilirsiniz.
4.3.6 Genellenebilirlik Kuramı ile İlgili Çalışmalarda Yapılmış ve Yapılabilecek Olası Hatalar*:
*Sayın okuyucu, bu başlık altında yer alan bilgiler, yazarın bu bölümü yazana dek elde edebildiği bilgi birikimi, ulusal ve uluslararası genellenebilirlik kuramıyla ilgili önemli çalışmalar yapmış araştırmacılarla görüşüp, tartışması, sorular sorması-yanıtlar almasıyla oluşturulmaya çalışılmıştır. Alan yazında (naçizane) “hatalı” olduğu düşünülen noktalar ancak yazarın bilgi ve ifade sınırları içinde açıklanabilmiştir. Bu durum göz önünde bulundurularak, buradaki bilgiler tüm okuyucuların görüş, eleştiri ve önerilerine açıktır. Memnuniyetle kabul edileceği unutulmamalıdır…
G kuramında, ölçme deseninin önemli bir yeri vardır. Ölçme deseninin doğru belirlenmesi ve desenin ifade edilmesine (gösterimine) de dikkat edilerek uygun bir şekilde yapılması, sonrasında yürütülecek G ve K çalışmalarındaki tüm kestirimlerin doğru bir şekilde elde edilmesinin ilk adımıdır. Ölçme deseni yanlış kurgulandığında ve ifade edildiğinde sonrasındaki tüm adımlar da yanlış olacaktır. Bu noktada şunu belirtmekte fayda vardır: Ölçme deseni yanlış belirlendiğinde, genellenebilirlik kuramına ilişkin çalışmalar yapmak üzere kullanılan bilgisayar programları (EduG, R vb.) uyarı, hata vermeyebilir. Ayrıca çalışmanın tüm araştırmacılar tarafından doğru bir şekilde anlaşılması ve uygulanması için çalışmanın her aşamasında desenin tanımlanmasına, gösterimine, kullanılan terminolojiye çok dikkat edilmesi gerekmektedir. Aksi taktirde gözden kaçan bir hata ya da önemsenmeyen farklı bir kullanım, sonrasında yapılacak bilimsel çalışmalarda ortaya çıkacak hatalara kaynaklık edebilmektedir. Bu bağlamda, karşılaşılabilecek durumlar aşağıda paylaşılmaya çalışılmıştır:
- G kuramında ölçme desenleri çapraz ve yuvalanmış olarak karşımıza üç durumda ortaya çıkar: a) çapraz desen, b) yuvalanmış desen ve c) tümüyle yuvalanmış desen. “Çapraz desen”de ölçme objesi ve yüzey(ler) çaprazlanmıştır ve hiçbir yuvalanma söz konusu değildir. “Çapraz desen” alan yazında “tümüyle çapraz desen” olarak da ifade edilir. Bu ifade yanlış değildir ancak sadece bir yüzey bile yuvalanmış olursa bu desen “yuvalanmış desen” olarak ifade edilecektir. Diğer bir ifadeyle desende tek bir yuvalanmış desen bulunmasıyla birlikte desen artık yuvalanmış bir desen olacaktır. Dolayısıyla desende hiçbir yüzey yuvalanmış değilse desen “çapraz desen”dir; “yuvalanmış desen”de bu sebeple hem yuvalanmış hem de çaprazlanmış yüzeyler birlikte yer alabilir. Desende hiçbir yüzey çaprazlanmış değilse bu özel durumu belirtebilmek adına desene “tümüyle yuvalanmış desen” demek yerinde olacaktır.
- Ölçme deseni çapraz ise desenin gösteriminde ölçme objesinin ve yüzeylerin sıralamasının bir önemi yoktur. Örneğin bireyler (b) ile maddelerin (m) çaprazlandığı tek yüzeyli bir desende “b x m” ile “m x b” gösterimi aynıdır ve ikisi de doğru bir gösterimdir. Ancak alan yazında özellikle de G kuramının oluşmasında ve gelişmesinde katkı sunan araştırmacıların çalışmalarını da incelediğimizde ortak olan nokta, ölçme objesinin başta yer almasıdır. Bu durumda örnekte yer alan desen için eğer bireyler ölçme objesi ise “b x m” daha doğru bir gösterim olacaktır. Yüzey sayısı daha fazla olduğunda da benzer durum geçerlidir. Ölçme objesinin yine “bireyler”, yüzeylerin maddeler (m) ve puanlayıcılar (p) olduğu çapraz bir desen için “b x m x p” ile “b x p x m” gösterimleri mümkündür ve doğru gösterimlerdir. Halbuki benzer durum yuvalanmış desenler için kesinlikle söz konusu değildir. Yuvalanmış yüzeylerin, gösterimdeki sırası büyük önem taşır. Örneğin b x (p:m) gösterimi ile b x (m:p) gösterimine sahip iki desen birbirinden tamamen farklıdır. Her iki gösterim için de bireyler, madde ve puanlayıcı yüzeyi ile çaprazlanmıştır, buraya kadar bir farklılık yoktur. Ancak sonrası farklılık gösterir ve dikkat edilmesi gerekir: İlk gösterimde (p:m), puanlayıcılar maddelerin içine yuvalanmış iken ikinci gösterimde (m:p) maddeler puanlayıcıların içine yuvalanmıştır. Her iki desenin uygulamadaki yeri, ven şemasıyla gösterimi ve veri girişi birbirinden farklıdır. Aşağıda yer alan şekilden de görüleceği üzere, b x (p:m) deseninde her maddeyi farklı ikişer puanlayıcı puanlarken; b x (m:p) deseninde ise her puanlayıcı farklı ikişer maddeyi puanlamaktadır. Dikkat edileceği üzere, her iki desen için toplamda yer alacak madde ve puanlayıcı sayıları farklılık gösterecektir.

Şekil 4.10: Yuvalanmış Desen Örneklerinin Gösterimi
NOT: Bir ölçme objesi ile iki veya daha fazla yüzeyin yer aldığı bir ölçme deseninde, yüzeylerin her bir koşulu diğer yüzey(ler)in her bir (sadece bir) koşulu ile eşleşiyorsa bu desen yuvalanmış bir desen değildir. Bu tür bir desenin daha açık olarak gösterimi aşağıdaki şekilde yer almaktadır. Örnekte yer alan desen, “puanlayıcı yüzeyi madde yüzeyi ile karışmıştır (confounded)” olarak ifade edilir (Şekil 2). Bu durum Shavelson ve Webb (1991, sf:46-47)’te şöyle ifade edilmiştir:
*“Varyans analizinde, bir A faktörü diğer bir B faktöründe yuvalanmış ise (a) A’nın birden fazla düzeyi B’nin her bir düzeyi ile ilişkilidir ve (b) A’nın farklı düzeyleri B’nin her bir düzeyi ile ilişkilidir. G kuramında da yuvalanmış yüzeyler varyans analizi ile benzer şekilde tanımlanır. Örneğin, farklı alt testlerden oluşan bir başarı testinde, farklı maddeler (i) her bir farklı alt test (s) ile ilişkilidir. Böylece maddeler alt testlerde yuvalanmıştır. Burada, i yüzeyinin s yüzeyinde yuvalandığını, i:s ya da i(s) gösterimi ile ifade ederiz. Bir yüzeyin diğer yüzeyde yuvalanmış olması için her iki durumun da sağlanması gerekir. Eğer sadece ilk durum – A’nın birden fazla düzeyi B’nin her bir düzeyi ile ilişkili fakat A’nın aynı düzeyleri B’nin her bir düzeyi ile ilişkilidir – sağlanırsa yüzeyler çaprazlanmıştır. Eğer sadece ikinci durum – A’nın tek bir ve farklı düzeyleri B’nin her bir düzeyi ile ilişkilidir – sağlanırsa da bu desende A ile B karışmıştır (A confounded with B), A yüzeyi B’de yuvalanmış değildir.”-

Şekil 4.11: Yuvalanmış olmayan (confounded) bir desen örneği
- Yuvalanmış desenlerde dikkat edilmesi gereken bir başka çok önemli nokta ölçme objesinin herhangi bir yüzey içine yuvalanamayacağıdır. Yukarıdaki bölümlerde açıklandığı üzere, klasik kuramda yer alan “gerçek puana” benzer olarak genellenebilirlik kuramında da “evren puanı” söz konusudur ve güvenirlik, evren puan varyansının gözlenen puan varyansına oranı olarak ifade edilir. Evren puan varyansı, ölçme desenindeki “ölçme objesi”ne ait elde edilen varyanstır. G kuramında, göreli ve mutlak kararlar için elde edilen güvenirlik katsayıları da evren puanı varyansına \(\sigma_b^2\) bağlı olarak hesaplanır (gösterimde ölçme objesi birey olarak alınmıştır):
Göreli kararlar için genellenebilirlik katsayısı:
\(Eb^2=\frac{\sigma^2(b)}{\sigma^2(b)+\sigma^2(\delta)}\)
Mutlak kararlar için güvenirlik katsayısı:
\(\phi=\frac{\sigma^2(b)}{\sigma^2(b)+ \sigma^2(\Delta)}\)
Eğer ölçme objesi bir yüzey içine yuvalanırsa, ölçme objesine ilişkin bir varyans elde etmek mümkün olamayacak ve bu durumda güvenirliğin hesaplanması için gerekli olan “evren puan varyansı” elde edilemeyecektir. Ancak alan yazında da görüleceği üzere, ölçme objesinin “bireyler” olarak ele alınabileceği bir desende, bireylerin sınıflarda, okullarda, illerde vb. yuvalandığı desenlerin kullanıldığını görebiliriz. Bu tür desenlerde, artık söz konusu “ölçme objesi” tek tek bireyler değil bireylerin yuvalandığı sınıfların, okulların, illerin vb. her biridir. Ölçmeye konu olan, asıl ölçülmesi istenilen değişkenlik bu gruplar üzerinden elde edilir ve bu şekilde yorum yapılır. Ancak bireylere ilişkin bir yapıyı (başarı, performans, beceri vb.) ölçmek üzere (burada bireyler ölçme objesidir) görev/maddelerin kullanıldığı ve puanlayıcıların bireyleri puanladığı bir ölçme deseninde bireylerin maddeler ya da puanlayıcılar içine yuvalayarak, bireylere ilişkin elde edilen puanlar üzerinden güvenirliğe ilişkin yorum yapmak mümkün değildir. Ölçme objesinin, birey/öğrenci olmadığı farklı durumlar için de benzer durum söz konusudur. Bu nedenle genellenebilirlik çalışmalarında açık ve net bir şekilde desende yer alan “ölçme objesi” ve yüzey/yüzeylerin neler olduğu belirtilmelidir.
- İlk maddede de açıklandığı üzere genellenebilirlik kuramında ölçme desenleri; çapraz, yuvalanmış ve tümüyle yuvalanmış olarak bulunabilir. Bir desende hem yuvalanmış hem de çaprazlanmış yüzeylerin yer alması durumunda desen “karma -mixed- (karışık, karmaşık)” olarak ifade edilmemelidir. “Karma” desen, birden fazla yüzeyin bulunduğu ve yüzeylerden birinin rastgele değil “sabit” olduğu desenler için kullanılan bir ifadedir. G kuramı, yüzeylerin rastgele olmasına dayanan, bu mantık üzerine kurulu bir kuramdır. Bu nedenle unutulmamalıdır ki tek yüzeyli desenlerde yüzey mutlaka “rastgele”, iki veya daha fazla yüzeyin yer aldığı desenlerde de yüzeylerden en az birinin mutlaka “rastgele” olması gerekir. Tek yüzeyli bir desende; “ölçme objesi rastgele ve yüzey sabittir” olarak kabul etmek, iki ya da daha fazla yüzeyin yer aldığı bir desende “ölçme objesi rastgele ve diğer tüm yüzeyler sabittir” olarak deseni kurgulamak ve çalışmayı sürdürmek doğru olmayacaktır.
- Önceki bölümlerde de açıklandığı üzere G kuramında, genellenebilirlik (G) ve karar (K) çalışmaları yer almaktadır. Öncelikle ölçme deseni doğru bir şekilde kurgulandıktan sonra G çalışması yapılır. G çalışmasıyla kabul edilebilir gözlemler evrenine ilişkin tüm varyans değerleri hesaplanır. Ardından, sadece bu kabul edilebilir gözlemler evreni çatısı altında yer alan genellenebilirlik evrenine bağlı olarak, G çalışmasıyla aynı ya da farklı desenler üzerinden kurgulanan senaryolara bağlı olarak K çalışması gerçekleştirilebilir. Bu mantık çerçevesinde, K çalışmalarındaki tüm süreç G çalışmasından elde edilen varyanslar, bu çalışma ile elde edilen bilgiler üzerine kuruludur, bunun dışına çıkmak mümkün değildir. G çalışmasında elde edilen varyanslar, G çalışmasında yer alan “ölçme objesinin” ne olduğuna ve büyüklüğünün ne olduğuna bağlı kestirilir. Örneğin; öğrencilerin ölçme objesi olduğu bir çalışmada 100 öğrenci yer almışsa G çalışmasındaki varyanslar öğrencilerin ölçme objesi olduğu durum ve 100 öğrenci üzerinden kestirilir. K çalışmalarında ise burada elde edilen bilgiler üzerinden, G çalışmasıyla aynı ya da bu bilgilerin dışına çıkmayacak şekilde kurgulanmış farklı desenler ve yüzeylerdeki durum sayısının arttırılıp/azaltılması senaryolarına bağlı olarak yürütülür. Bu durumda, K çalışmalarında “ölçme objesi”nin değiştirilmesi ya da büyüklüğünün farklılaştırılması söz konusu olamayacaktır. Ancak, “ölçme objesi”nin farklı büyüklüklere sahip olması durumunda G çalışması varyans değerleri ve sonrasında yine bu G çalışmasındaki bilgilere bağlı olarak K çalışmalarının yürütülmesi mümkündür. NOT: Bir G kuramı çalışmasında yer alan aynı “ölçme objesinin” farklı büyüklüklerine dair simülasyon vb. çalışmalar elbette ki yapılabilir (bkz. Atılgan, 2013). Ancak, tekrar vurgulamakta fayda vardır, bu çalışmalarda yapılanlar birer K çalışması değildir.
- Bölüm atıf bilgisi: Güler, N. (2025). Genellenebilirlik kuramı. N. Güler, B. Atar & K. Atalay-Kabasakal (Ed.), R ile psikometri içinde. Pegem Akademi.
Kaynaklar
Türkçe alan yazında “mixed designs” kavramına karşılık olarak “karışık desenler” ifadesi kullanılıyor olmakla birlikte “karışık” kelimesinin Türkçe anlamının “karmaşa, kaos vb.” içeriyor olması ve aslında “mixed design”ın içeriğinin bir karmaşa değil “karma” bir desen oluşumunu kapsıyor olmasından dolayı “karma desenler” olarak kullanımı tercih edilmiştir.↩︎
Yuvalanmış desenlerde, ölçme objesi diğer yüzeylerin içine yuvalanamaz. Bu nedenle yuvalanmış desenlerin gösterimindeki sıralamanın bir önemi bulunmaktadır. Örneğin ölçme objesinin bireyler olduğu bir durumda, m : b şeklinde bir gösterim söz konusu iken b : m şeklinde bir gösterim kullanılamaz.↩︎
Bu gösterimdeki kural, “çarpma işleminde değişme özelliği vardır ancak bölme işleminde değişme özelliği yoktur” gibi düşünülebilir.↩︎
Türkçe alan yazında “mixed design” genel olarak “karışık desen” olarak ifade edilmiştir. Ancak Türkçe’de “karışık” kelimesinin anlamı bir “karmaşa, düzensizliği” çağrıştırmakta olup “mixed design” kavramı aslında bu çağrışımı içermekten çok “rastgele ve sabit yüzeylerin bir aradalığını” ifade etmektedir. Bu nedenle “karma” kavramının “karışık” yerine kullanılması tercih edilmiştir.↩︎