Bölüm 1 Ölçme Aracı Seçme, Geliştirme ve Uyarlama

Dr. Merve Yıldırım Seheryeli & Dr. Sebahat Gören

Eğitimde ve psikolojide ölçme, ilgilenilen özelliğe uygun olarak geliştirilmiş ölçme araçları yardımıyla, özelliğin bireylerde var olma derecesini nicel ya da nitel olacak şekilde ifade edebilme sürecidir. Bu sürecin gerçekleştirilebilmesi için ölçme işleminden önce hazırlanmış, geçerlik ve güvenirlik kanıtlarının ortaya konduğu uygun bir ölçme aracının bulunması gerekmektedir. Ölçme araçları; ölçmenin amacına, zamana ya da puanlama yöntemine göre farklı türlerde karşımıza çıkmaktadır. Birçok kaynakta geleneksel ve alternatif ya da tamamlayıcı yöntemler olarak ayrılmakla birlikte aslında bu yöntemlerin birinin diğerinin alternatifi olma ya da herhangi bir tamamlama görevi bulunmamaktadır. Her birinin kullanım amacı bilişsel, duyuşsal ya da psikomotor alanların hangi düzeyinin ölçüleceğine, sürece ya da sonuca yönelik değerlendirme yapılacağına bağlı olarak farklılaşmaktadır. Bu ölçme araçlarından bazıları aşağıda listelenmiştir:

  • Çoktan seçmeli, doğru-yanlış tipinde, eşleştirmeli, boşluk doldurmalı, kısa yanıtlı, açık uçlu maddelerden oluşan testler
  • Yazılı yoklamalar, sözlüler, ödevler
  • Gözlemler, görüşmeler, anekdot kayıt fomrları
  • Performans görevleri, projeler, portfolyolar
  • Öz, akran, grup değerlendirme formları
  • Kontrol listeleri, dereceleme ölçekleri, dereceli puanlama anahtarları (rubrikler)
  • Tanılayıcı dallanmış ağaçlar, yapılandırılmış gridler, kavram haritaları
  • Görsel düzenleyiciler (Frayer diyagramı, T-tablosu, Y-tablosu, V-diyagramı, KWL-tablosu, İki yıldız bir dilek, 3-2-1 etkinliği, vb.)

Bu bölümde uygun ölçme aracı seçme, ölçek ve başarı testi geliştirme, dereceli puanlama anahtarı (rubrik) hazırlama ve ölçme aracı uyarlama süreçleri ele alınmıştır. Ayrıca bu süreçlerde yapılabilecek olası yanlışlar, örnekler üzerinden açıklanmıştır.

1.1 Ölçme Aracı Seçme ve Uygun Araca Karar Verme Süreci

Bu kısımda ölçme aracı seçerken nelere dikkat edilmesi gerektiği bir örnek üzerinden anlatılmıştır. Örnekte, bir araştırmacının ölçme aracına karar verme sürecinde karşılaşabileceği farklı durumlar verilmiş, bu durumlar karşısında nasıl bir yol izleyebileceği açıklanmıştır.

Örnek 1.1
Ada tez/makale yazma sürecinde olan bir öğrencidir. Ada, konusunu belirlemiş, ilgili alanyazını incelemiş, değişken(ler)e karar vermiş, araştırma sorularını oluşturmuştur. Fakat kullanacağı ölçme aracına ve bu aracın uygunluğuna karar verememiştir. Ada veri tabanlarını incelediğinde üç durum ile karşılaşabilir:
     1. Değişkene ait güncel bir ölçme aracı vardır: Bu ölçme aracı (i) ölçme aracının geliştirildiği dil ile aynı dili konuşan ve aynı kültürdeki bireylere uygulanacaktır (ii) ölçme aracının geliştirildiği örneklemin demografik özelliklerine benzer özelliklerdeki bir örneklem kullanılacaktır (iii) yeterli ve uygun geçerlik ve güvenirlik kanıtlarına sahiptir.
     2. Değişkene ait ölçme aracı vardır ancak ya güncel değildir ya da birinci durumdaki açıklamaya uymayan en az bir özelliğe sahiptir.
     3. Değişkeni ölçmek için geliştirilmiş bir ölçme aracı bulunmamaktadır.
Peki Ada nasıl ilerlemelidir?

Her araştırmacı Ada’nın karşılaşabileceği bu üç durumdan en az biriyle karşılaşabilir. Bu örnek durumlar aşağıda sırasıyla incelenmiştir.

Durum 1 “Değişkene ait güncel bir ölçme aracı vardır.” Böyle bir durumda ölçme aracı orijinal ya da sorumlu yazarından izin alınarak doğrudan kullanılabilir. Peki bu örnek durumda bahsedilen güncel ölçme aracının uygunluğuna nasıl karar verilir?

  1. Seçilen ölçme aracı, geliştirildiği dil ile aynı dili konuşan ve aynı kültürdeki kişilerden oluşan bir örneklemde kullanılmalıdır. Eğer farklı bir dilde/kültürde geliştirilmişse kültüre uygunluk için uyarlama çalışmasına ihtiyaç duyulmaktadır. Buradaki uyarlama yalnız dilsel çeviriden oluşmamaktadır. “Ölçme Aracı Uyarlama Aşamaları” takip edilerek geçerlik ve güvenirlik kanıtları elde edilmelidir.

  2. Seçilen ölçme aracının, geliştirildiği örneklemin demografik özelliklerine benzer özelliklerdeki bir örneklemde kullanılması uygundur. Örneğin ilkokul kademesi için geliştirilmiş bir araç lise kademesinde kullanılmadan önce, anneler için geliştirilmiş bir gözlem formu babalar tarafından kullanılmadan önce, dört yaş için geliştirilmiş bir kontrol listesi beş yaş için kullanılmadan önce ya da öğretmenler için geliştirilmiş bir ölçek okul müdürlerine uygulanmadan önce yine uyarlama çalışmalarına ihtiyaç duyulmaktadır. Buradaki uyarlama yalnız kelimelerin ya da cümlelerin anlaşılırlığını kontrol etmeyi içermemektedir. “Ölçme Aracı Uyarlama Aşamaları” takip edilerek geçerlik ve güvenirlik kanıtları elde edilmelidir.

  3. Seçilen ölçme aracının güvenirlik kanıtları için ölçmeyi yapan bireyden, ölçme aracından, uygulama yönteminden, uygulama ortamından ya da örneklemdeki bireylerden kaynaklanan tesadüfi hataların minimum olması gerekir (Association, Association ve Measurement in Education, 2014; Crocker ve Algina, 2006). Geçerlik kanıtları için ilgili değişkeni tam ve doğru bir şekilde, başka değişkenleri karıştırmadan ölçebilmesi beklenir (Crocker ve Algina, 2006). Bu kanıtlar için hem uzman görüşleri hem de istatistiksel yöntemler kullanılarak psikometrik özelliklerin (geçerlik ve güvenirlik) uygunluğu değerlendirilmelidir. Kitabın “Klasik Test Kuramı, Güvenirlik ve Geçerlik” bölümünde ayrıntıları verilmiştir.

Durum 2 “Değişkene ait ölçme aracı vardır, fakat ya güncel değildir ya da birinci durumdaki açıklamaya uymayan en az bir özelliğe sahiptir.” Böyle bir durumda mevcut ölçme aracının ilgili örneklem için uyarlanmaya ihtiyacı vardır. Özellikle ölçülen psikolojik yapının kuramsal altyapısı değişmese bile uygulanan grupların özellikleri ya da ölçülen özelliğe ilişkin uyarıcılar(maddeler) yıllar içerisinde değişme eğilimindedir. “Kaç yıl önce geliştirilen bir ölçeği yeniden uyarlamalıyız?” sorusunun net bir yanıtı bulunmamakla birlikte bu süre; ölçülen özelliğe ve bu özelliğe ilişkin maddelerde kullanılan kelimelerin güncelliğine göre belirlenmelidir. Ayrıca birinci durumdaki açıklamaya uymayan en az bir özelliğe sahip olduğunda da benzer şekilde geçerlik ve güvenirlik kanıtlarının yeniden ortaya konması gerekmektedir. Bu nedenle ölçeğin güncellemeye ihtiyacı vardır. Ayrıntılar bu kitabın “Ölçme Aracı Uyarlama” bölümünde yer almaktadır.

Durum 3 “Değişkeni ölçmek için geliştirilmiş bir ölçme aracı bulunmamaktadır.” Böyle bir durumda yeni bir ölçme aracı geliştirilmesi gerekmektedir. Bu ölçme aracını geliştirme süreci değişkenin bilişsel, duyuşsal ya da psikomotor alana ait olma durumuna göre farklılık gösterebilir. Bilişsel bir alana ait değişkeni ölçmek için başarı testleri, gözlem formları, sözlü ve yazılılar, araştırmaya dayalı projeler, performans görevleri, rubrikler kullanılabilirken duyuşsal alana ait bir değişkeni ölçmek için ölçekler, envanterler, gözlem formları kullanılabilir. Psikomotor alana ait bir değişkeni ölçmek için ise performans görevleri, gözlem formları, kontrol listeleri, rubrikler gibi performansı ortaya koyabilecek sürece dayalı yöntemler kullanılabilir. Portfolyolar ise bütüncül bir bakış açısı ile bilişsel, duyuşsal ve psikomotor alanlarda öğrencilerin gelişimlerini izlemek ve değerlendirmek için kullanılabilir. Bu kitapta ölçme araçlarının geliştirilmesi ölçekler, başarı testleri ve rubriklerle sınırlandırılmıştır.

1.2 Ölçme Araçlarının Geliştirilmesi: Ölçek Geliştirme

Ülkemizde ölçek kavramı, yalnız bir davranış türünü (bilişsel, duyuşsal ve psikomotor) ölçmekle sınırlı olmamasına rağmen sıklıkla duyuşsal alanın (ilgi, tutum, duygular, algılar, vb.) ölçülmesinde kullanılan araçları ifade eder. Bu anlamda ölçekler bireylerin bir nesneye, olaya ya da duruma ilişkin duygu, düşünce ve davranışlarını belirten ifadelerden oluşur. Ölçme araçlarının en küçük birimi olan bu ifadeler madde olarak adlandırılır. Maddeler olumlu ya da olumsuz ifadeler içerebilir. Bu maddeler iki kategorili yanıtlanabileceği gibi (Var-Yok, Uygun-Uygun Değil, Gözlendi-Gözlenmedi, vb.) ölçülen özelliğe göre ikiden fazla kategorisi olacak şekilde de yanıtlanabilmektedir. Ölçek maddelerinin başarı testlerinde olduğu gibi doğru ya da yanlış yanıtları bulunmamaktadır. Bireylerin yanıtları, maddelere katılma düzeyleri (Hiç katılmıyorum, … Tamamen Katılıyorum), maddeleri gerçekleştirme sıklıkları (Yılda bir kez, … Haftada bir kez), maddelerin kendileri için uygunluk düzeyleri (Bana hiç uygun değil, … Benim için tamamen uygun) farklılaşabilmektedir. İki ve daha fazla yanıtlama kategorisi bulunan ölçekler ise dereceleme ölçekleri olarak adlandırılır. Kontrol listeleri, dereceleme ölçeklerinin iki kategorisi bulunan özel bir hâlidir. İkiden fazla kategorisi bulunan ve en sık kullanılan dereceleme ölçeği ise Likert Tipi Ölçeklerdir. Şekil 1.1’de örnek olması açısından Bilir, Akbaş ve Darıca (2022) tarafından geliştirilen “Okul Öncesi Öğretmenlerine Yönelik İnovatif Düşünme Eğilimi Ölçeği”nin ilk dört maddesi verilmiştir.

Likert Tipi Ölçek Örneği İlk Dört Maddesi

Şekil 1.1: Likert Tipi Ölçek Örneği İlk Dört Maddesi

Likert tipi ölçeklerde genellikle bireylerin maddelere katılım durumlarıyla ilgilenilmektedir. En alt yanıt kategorisi bireyin olumlu maddeye düşük derecede, en üst yanıt kategorisi yüksek derecede katıldığını belirtir. Ölçeklerde bazı maddeler ölçülen özelliğe ters yönde katkıda bulunabilir. Örneğin öğrencilerin matematiği sevme düzeyleri ölçülürken “Derslere devam etmekte sorun yaşarım.” gibi bir madde kullanılabilir. Bu maddeye en üst kategoride katıldığını belirten bir katılımcının matematiği sevmediği söylenebilir. Bu gibi maddeler olumsuz maddeler olarak adlandırılır. Olumsuz maddelere verilen yanıtların analizler sırasında ters kodlanması gerektiği unutulmamalıdır. En düşük ve en yüksek dereceler dışında kalan ara dereceler ise iki uçtaki kadar güçlü ya da fazla bir katılım duygusu belirtmez. Orta nokta ise “Kararsızım”, “Nötr”, “Ne katılıyorum Ne katılmıyorum” gibi belirsizlik durumudur. Bu nedenle tutum ölçeklerinde tek sayıda yanıt derecesi kullanılması yaygındır. En sık kullanılanı 5’li derecedir. 3’lü, 7’li ya da daha fazla dereceler ise ölçülen özelliğe, katılımcıların yaş grubuna ya da demografik özelliklerine göre farklılaşabilmektedir. Bu derecelerin sayıları ve niteleyicileri yine ölçek geliştirme sürecinde karar verilmesi gereken önemli noktalardan biridir. Bir ölçeğin geliştirilme sürecindeki aşamalara özen gösterilmesi ölçekten elde edilecek ölçümlerin geçerlik ve güvenirlik kanıtlarını sunmaya da yardımcı olacaktır.

Aşağıdaki örnekte bir araştırmacının ölçek geliştirme sürecinde karşılaştığı yanlış durumlardan bahsedilmiş, daha sonra bu durumlarda gözden kaçırılan kısımlar açıklanmıştır. İzlenmesi gereken doğru süreç ise “Ölçek Geliştirme Aşamaları” ile verilmiştir.

Örnek 2.1
Sude, alanyazını incelemiş kendi değişkeni ile ilgili herhangi bir ölçeğe rastlamamış ve ölçek geliştirmeye karar vermiştir.
     1. Okuduğu yayınlardan, birkaç ölçme aracından beğendiği ve kendi yazdığı ifadeleri bir araya getirerek bir araç hazırlamıştır.
     2. Bu araçla veri toplamış, ulaştığı grup hakkında yorumlarda bulunmuştur.
    3. Üstelik araştırmacılar tarafından yeni yazılan maddelerin forma eklenerek kullanıldığı ölçme araçlarının da çalışmalarda yer aldığını görmüştür.
Sude çalışmasını yaparken neleri gözden kaçırmıştır?

Sude’nin çalışmasında olduğu gibi birçok araştırmacı benzer sorunlarla karşılaşabilmektedir. Bu örnek durumlar aşağıda sırasıyla incelenmiştir.

Durum 1 “Okuduğu yayınlardan, birkaç ölçme aracından beğendiği ve kendi yazdığı ifadeleri bir araya getirerek bir araç hazırlamıştır.”

Öncelikle bir ölçme aracının geçerlik ve güvenirlik kanıtları ortaya konmuş ise bu özellik ölçme aracının yalnız maddelerine değil maddelerin bir araya gelerek oluşturduğu yapıya aittir. Dolayısıyla bir ölçeğin beğenilen maddeleri seçilemez ya da maddelere yeni maddeler eklenip çıkarılamaz. Eğer ölçeğin alt boyutları var ve bu boyutların geçerlik ve güvenirlik kanıtları yeterli ise ilgili boyut, madde eklenmeden ya da çıkarılmadan kullanılabilir. Bu şartları sağlamayan bir ölçme aracını kullanmak tercih edilmemelidir. Ölçme aracının amaca hizmet etmesi ile ilgili bir sorun (madde eklenmesi/çıkarılması, yeni boyut eklenmesi vb.) olduğu düşünülüyorsa yeni bir ölçme aracı geliştirilmelidir.

Durum 2 “Bu araçla veri toplamış, ulaştığı grup hakkında yorumlarda bulunmuştur.”

Geçerlik ve güvenirik kanıtları sunulmamış bir ölçme aracından elde edilen ölçümler, grup hakkında yapılan yorumların doğruluğunu sorgulamamıza neden olmaktadır. Neyi, hangi yapıyı ölçtüm? Maddelerden elde edilen ölçümlerden toplam puan alabilir miyim? Amacıma hizmet ettiğini kanıtlayamadığım ölçümlerle kişiler hakkında doğru kararlar verebilir miyim? Tüm bu soruların yanıtları için “Ölçek Geliştirme Aşamaları”na dikkat ederek detaylı bir çalışma yapmak gerekmektedir. Eğer amacımız ölçülen özellik açısından grup hakkında yorumlar yapmak ise önceden geçerlik ve güvenirlik kanıtları ortaya konmuş bir ölçme aracı kullanılmalıdır.

Durum 3 “Üstelik araştırmacılar tarafından yeni yazılan maddelerin forma eklenerek kullanıldığı ölçme araçlarının da çalışmalarda yer aldığını görmüştür.”

Böyle bir ölçme aracı hazırlandığında her bir maddeyle merak edilenler araştırılabilir. Katılımcıların demografik özellikleri, bir konu hakkında ne bildikleri, bir olaydaki davranışları, konu ya da olaya ilişkin duygu ve düşünceleri ölçülmek istendiğinde her madde birbirinden bağımsız olacak şekilde hazırlanan ölçme aracı “Anket”tir. Anketlerde bulgular ve yorumlar her bir madde bazında raporlanır. Anketin bir bölümü aynı özelliği ölçtüğü düşünülen maddelerden oluşabilir, bu bölüm için de ölçek/başarı testi geliştirme aşamalarının uygulanması gerekir. Ayrıca, anketin bir bölümü bir ölçekten oluştuğunda yorumlar madde bazında değil, maddelerin birlikte ölçtüğü özellik bazında yapılır. Dikkat edilmesi gereken nokta anketin tamamı için de geçerlik ve güvenirlik kanıtlarının raporlanması gerektiğidir (Büyüköztürk, 2005). Bu kısım için anket geliştirme/hazırlama ile ilgili kaynaklar incelenebilir.

1.2.1 Ölçek Geliştirme Aşamaları

Aşağıda ölçek geliştirme 11 aşamada verilmiştir. Farklı kaynaklarda bu aşamaların sayıları değişmekle birlikte süreç genel olarak aynıdır. İdeal olan aşağıdaki tüm aşamalara dikkat edildiğinin kanıtlarla belirtilmesidir. Yapılamayan ya da atlanan aşamaların nedeni ayrıntılı olarak açıklanmalıdır.

  1. Ölçülecek özelliğin belirlenmesi ve kuramsal alt yapının incelenmesi
  2. Hazırlanacak ölçeğin amacının belirlenmesi
  3. Amaca uygun olacak şekilde alt başlık/olası boyutlara ilişkin özelliklerin belirlenmesi
  4. Belirlenen özelliklere ilişkin maddelerin yazılması ve madde havuzunun oluşturulması
  5. Olası boyut(lar) ve madde havuzuna ilişkin uzman görüşünün alınması
  6. Ölçeğin deneme/taslak formunun oluşturulması ve ön pilot uygulamasının yapılması
  7. Ölçek maddelerinin düzeltilmesi ve pilot uygulama için grubun belirlenmesi
  8. Pilot uygulamanın yapılması
  9. Maddelerin ve ölçeğin istatistiklerinin hesaplanması, boyutlara karar verilmesi ve yapının test edilmesi
  10. Ölçeğin standartlaştırma çalışmalarının yapılması
  11. Ölçeğin kullanım kılavuzunun hazırlanması (Raporlaştırma)

1. Ölçülecek özelliğin belirlenmesi ve kuramsal alt yapının incelenmesi

İlk olarak ölçülecek yapının belirlenmesi gerekmektedir. Bu yapının alanyazında nasıl ele alındığı, başka değişkenlerle nasıl ilişkilendirildiği ve nasıl ölçüldüğü kuramsal olarak detaylı bir şekilde incelenmelidir. Ölçülmek istenen özelliğin tanımlanması, sınırlandırılması ve alanyazındaki araçlarla arasındaki benzerlik ve farklılıkların ortaya konulması oldukça önemlidir. Özellikle ölçülecek özelliğin kuramsal çerçeve ve alanyazına dayalı olarak beklenen olası boyutları açıklanmalıdır.

2. Hazırlanacak ölçeğin amacının belirlenmesi

Ölçülecek özelliğe karar verilip kuramsal altyapı incelendikten sonra ölçeğin kullanılış amacına ve nasıl kullanılacağına karar verilmelidir. Bir özelliğin katılımcılarda bulunma düzeyi ölçülmeden önce “Bu ölçeğin kullanım amacı nedir? Ölçek kimler tarafından yanıtlanacak?, Hangi yaş grubuna uygulanacak?, Kâğıt-kalem formu mu dijital form mu oluşturulacak?” gibi sorular yanıtlanmalıdır.

3. Amaca uygun olacak şekilde alt başlıkarın/olası boyutlara ilişkin özelliklerin belirlenmesi

Kuramsal çerçeve sunulurken bahsedilen ölçeğin olası boyutlarına ilişkin özellikler amaca uygun olacak şekilde belirlenmelidir. “Ölçülen özelliğe yüksek düzeyde sahip olanların özellikleri nelerdir?” ve “Ölçülen özelliğe düşük düzeyde sahip olanların özellikleri nelerdir?” sorularını yanıtlamak yardımcı olacaktır. Burada belirlenen özelliklerin boyutlarla ilişkilendirilmesinin uygun olup olmadığı hakkında uzman görüşü alınması oldukça önemlidir.

4. Belirlenen özelliklere ilişkin maddelerin yazılması ve madde havuzunun oluşturulması

Her bir özelliğe ilişkin maddeler yazılırken gözlenebilir davranışlar evreninin oluşturulması önemlidir. Örneğin, “Eşim beni önemser.” yerine şu maddeler tercih edilebilir: “Eşim ihtiyaçlarımı ben söylemeden karşılar.” ya da “Eşim konusunu sevmese de izlemek istediğim bir filmi benimle beraber izler.” Her iki öneri maddede de önemseme özelliğinin olası davranışları örneklediği söylenebilir. Burada dikkat edilmesi gereken nokta, ilgili özelliğin davranışlarla nasıl ifade edilebileceğinin çeşitlendirilmesidir. Bu çeşitlendirme alanyazına göre ya da benzer ölçeklerdeki maddeler incelenerek yapılabileceği gibi küçük bir katılımcı grubundan görüş alınarak (kompozisyon yazdırma, konu hakkındaki görüşlerini alma vb.) da yapılabilir. Soyut bir kavramın mümkünse her katılımcının aynı şekilde anlayacağı ifadelere ya da davranışlara dönüştürülmesi oldukça önemlidir. Bu ifadelerin arasında ölçülen özelliğe zıt katkı sağlayan (ters kodlanması gereken) maddelerin kullanılıp kullanılmayacağı, kullanılacak ise bu maddelerin sayısı da alanyazın incelenerek karar verilmelidir. Bu maddelerin çoğunlukla bir araya gelerek ayrı bir boyut (ölçülen özelliğin olumsuzunu) oluşturduğu unutulmamalıdır. Eğer oluşan boyut alanyazında beklenen bir durum ise boyut isimlendirmek kuramsal olarak mümkün olurken, boyutların olumlu-olumsuz şeklinde isimlendirilmesi boyutların ayrışmadığı anlamına da gelebilmektedir. Dikkat edilmesi gereken diğer önemli nokta, daha önce yazılmış maddelerdeki kelimelerin yalnız yerinin değiştirilmesiyle yeni madde yazılmamasıdır. Her bir madde ölçülmek istenen özelliği temsil edebilecek davranış evreninin bir temsilcisi olmalıdır. Her olası boyutu tanımlamaya ilişkin özellikleri ortaya çıkarmak için yazılacak maddeler yeterli sayıda olmalıdır. Burada “Kaç madde yazılmalıdır?” sorusunun yanıtı ölçülen özelliğe ve olası boyut sayısına göre farklılaşmaktadır. Özellikle çok boyutlu bir yapı (psikolojik özellik) ölçülmek istendiğinde, ölçeğin nihai formunda her boyutta en az üç maddenin kalmış olması farklı araştırmacılar (Bollen, 1989; Costello ve Osborne, 2005; Ding, Velicer ve Harlow, 1995; Zwick ve Velicer, 1986) tarafından önerilmektedir. Dolayısıyla analiz öncesinde çok daha fazla sayıda madde yazılması gerekmektedir. Madde yazımında dikkat edilmesi gereken özellikler ile ilgili kontrol listesi EK-A’da verilmiştir. Ek olarak katılımcıların maddelere okuyarak yanıt verdiğini görebilmek adına kontrol maddelerinin de ölçeğe dahil edilmesi önerilmektedir. Bu kontrol maddeleri ölçekte yer alacak bir maddenin tam zıt bir ifadesi olabilirken “Bu ifadeyi 4 olarak işaretleyiniz.” gibi bir yönlendirme de olabilir. Bu kontrol maddelerini beklenenden farklı yanıtlayan katılımcıların ve bu maddelerin analizlere dahil edilmeyeceği unutulmamalıdır.

Burada karar verilmesi gereken bir diğer konu ise yanıt stilleri/kategorileridir. Diğer bir ifadeyle 3’lü, 5’li, 7’li ya da daha fazla kategori kullanımı ve bu kategorilerin niteleyicileri belirlenmelidir. Örneğin “Eşim ihtiyaçlarımı ben söylemeden karşılar.” ifadesine katılma durumu “Hiç katılmıyorum” ile “Tamamen Katılıyorum” arasında puanlanabileceği gibi sıklık durumu “Hiçbir zaman” ile “Her zaman” arasında da puanlanabilir. Bu karar amaca, uygulanan gruba, demografik özelliklere ve tüm maddelerin bu yanıta uygun olup olmadığına göre belirlenmektedir. Ayrıca ölçme aracındaki maddelerin tamamında aynı yanıt kategorilerinin kullanılması Klasik Test Kuramı (KTK)’na göre yapılacak analizlerde kolaylık sağlarken farklı olması durumunda Madde Tepki Kuramı (MTK)’na dayalı yöntemlerin tercih edilmesi gerekmektedir. Tablo 1.1’de katılma düzeyi, memnuniyet düzeyi, uygunluk düzeyi, sıklık gibi farklı durumlarda kullanılabilecek niteleyicilerden bazılarına yer verilmiştir.

Tablo 1.1: Likert Tipi Ölçeklerde Tepki Kategorileri için Niteleyici Örnekler
1 2 3 4 5 6 7
Katılmıyorum Kararsızım Katılıyorum - - - -
Bana hiç uygun değil Bana kısmen uygun Bana Tamamen uygun - - -
Hiç Katılmıyorum Katılmıyorum Kararsızım Katılıyorum Tamamen Katılıyorum - -
Hiç Az Orta Çok Tam - -
Hiçbir zaman Nadiren Bazen Ara Sıra Her zaman - -
Yılda en az 1 Dönemde en az 1 Ayda en az 1 Haftada en az 1 Her gün - -
Hiç önemli değil Önemli değil Önemli Kısmen önemli Çok önemli - -
Hiçbir zaman Nadiren Fırsat buldukça Bazen Sıklıkla Genellikle Her zaman

5. Olası boyut(lar) ve madde havuzuna ilişkin uzman görüşünün alınması

Olası boyutlar ve bu boyutları temsil eden maddelerin tamamı için hem ilgili boyutu ölçme durumu hem de dil ve teknik uygunluğu açısından uzman görüşü alınmalıdır. Bu nedenle alan uzmanı, Türkçe dil uzmanı, ölçme ve değerlendirme uzmanı gibi farklı kişilerden görüşler bir araya getirilerek inclelenmelidir. Bu inceleme sonunda gerekli düzeltmeler uzmanların önerileri doğrultusunda yapılmalıdır. Uzmanların demografik bilgileri, hangi maddelerde nasıl düzeltmeler yapıldığı, kaç maddenin neden çıkarıldığı gibi bilgiler mutlaka raporlanmalıdır.

Bu aşamada uzman görüşlerinin nasıl elde edildiğine (Delfi tekniği, Lawshe tekniği) bağlı olarak kapsam geçerlik oranı ya da uyum indeksleri (Uyuşma yüzdesi, Kendall’ın Konkordans, Cohen’in Kappa, Fleiss’in Kappa, Krippendorf katsayıları vb.) hesaplanabilir (Yeşilyurt ve Çapraz, 2018; Yurdugül, 2005).

6. Ölçeğin deneme/taslak formunun oluşturulması ve ön pilot uygulamasının yapılması

Uzman görüşleri sonrasında madde havuzunda kalan tüm maddeler taslak form için düzenlenir. Taslak form için uygulamanın nasıl yapılacağına ilişkin yönerge de bu aşamada hazırlanır. Formun uygulanacağı birey, katılımcıdan farklı ise (çocuklar için anne/baba formu vb.) hem uygulanan bireyler için hem de katılımcılar için ayrı yönergeler düzenlenmelidir. Hazırlanan taslak form uygulanacak olan asıl örneklemle benzer özelliklerdeki katılımcılardan oluşan hem heterojen (ölçülen özelliğe yüksek düzeyde ve düşük düzeyde sahip bireyler) hem de küçük (5-10-15 birey) bir gruba uygulanır. Ön pilot uygulamasındaki asıl amaç katılımcıların maddelere ne yanıt verecekleri değil, maddelerin okunurluğu, ifadeler, kelimeler ve varsa şekil/görsellerin uygunluğu gibi dilsel ve şekilsel anlaşılırlıktır. Bu aşamada ölçeğin ne kadar sürede yanıtlandığı da kontrol edilerek yanıtlama süresi formun yönergesine eklenmelidir. Yine aynı maddeyi grubun tamamının doğru-yanlış yapması ya da aynı tepki kategorisini işaretlemesinin kontrol edilmesi gerekir. Bu bilgi daha sonraki analizlerde maddenin yanıtlarında varyans olmama ihtimalini gösterebilir.

7. Ölçek maddelerinin düzeltilmesi ve pilot uygulama için grubun belirlenmesi

Ön pilot uygulamasından elde edilen bilgiler doğrultusunda taslak formda gerekli düzeltmeler yapılır ve pilot uygulama için evreni temsil edecek şekilde mümkünse seçkisiz örnekleme yöntemleriyle uygulama yapılacak grup belirlenir. Eğer seçkisiz örnekleme yapılamıyorsa dikkat edilmesi gereken en önemli nokta ölçülen özellik açısından örneklemin heterojen olmasıdır. Diğer bir ifadeyle özelliğe orta düzeyde sahip olanların yanında hem yüksek hem de düşük düzeyde sahip olabileceği düşünülen gruplara da ulaşılmalıdır.

Grubun kaç bireyden oluşacağı alanyazında farklı ölçütlerle belirlenmektedir. Thorndike (1982), pilot uygulama için gruptaki birey sayısının kaç olması gerektiği madde sayısına bağlı olsa da grubun en az 100 bireyden oluşması gerektiğini belirtmiştir. Comrey ve Lee (1992) ise KTK’de örneklem sayısının 100 olmasının zayıf olduğunu belirterek, yeterli örneklem büyüklüğünün 200 veya üzerinde olmasını önermiştir. Madde sayısına dayalı olarak ise madde sayısının en az iki, beş ya da on katı olması gerektiğini belirten kaynaklar da bulunmaktadır (P. Kline, 1994; Nunnally ve Bernstein, 1994). Arrindell ve Van der Ende (1985) ise olası faktör sayısının 20 katı örneklem büyüklüğü önermiştir. MTK’de ise örneklem büyüklüğünün en az 300 olması, parametre sayısı arttıkça bu değerin de artması model-veri uyumunun sağlanması açısından oldukça önemlidir (De Ayala, 2009).

8. Pilot uygulamanın yapılması

Ölçeğin taslak formu belirlenen örnekleme uygulanır. Bu uygulamada hataları en aza indirebilmek için ses, ışık, ısı, oturma düzeni vb. açısından uygun ortamın hazırlanması, yönergenin açık ve anlaşılır olması, dezavantajlı bireyler için uygulama kolaylığının (yazı puntosu, okuyucu desteği vb.) sağlanması gibi gerekli önlemlerin alınması, mümkünse katılımcıların motivasyonlarının sağlanması gerekir. Bunun için araştırmanın önemi, katılımcıların gerçek performanslarının araştırma sonuçlarını etkileyeceği, istenirse araştırma tamamlandığında sonuçların paylaşılabileceği vb. bilgiler katılımcılarla paylaşılmalıdır. Bu gibi durumların ölçek puanlarının geçerlik ve güvenirliğine katkı sağlayacağı unutulmamalıdır.

9. Maddelerin ve ölçeğin istatistiklerinin hesaplanması, boyutlara karar verilmesi ve yapının test edilmesi

Bu aşamaya geçmeden önce verilerin incelenmesi ve temizlenmesi önemlidir. Ölçeğin tüm maddelerine aynı ya da örüntü oluşturacak şekilde yanıt veren katılımcılar analize dahil edilmemelidir. Benzer şekilde kontrol maddesine göre de katılımcılar analizden çıkarılmalıdır. Veriler düzenlenirken kayıp verilerle nasıl başa çıkılacağı da yine bu aşamada değerlendirilir.

Pilot uygulamadan elde edilen verilerde madde ve test istatistikleri incelenerek bazı maddeler seçilebilir, düzeltilebilir ya da tamamen ölçekten çıkarılabilir. Madde güçlükleri, madde ayırt edicilikleri, test güçlüğü, test ayırt ediciliği, toplam puanların ortalaması, standart sapması, çarpıklık ve basıklık katsayıları hesaplanır. Bu değerlerin her biri birer geçerlik kanıtı olarak sunulmakla birlikte tek başına yeterli değildir. Yapıyı keşfetme aşamasındayken açımlayıcı faktör analizi (AFA) yapılarak faktör sayısına karar verilir ve faktörlerdeki maddelerin katkıları (faktör yükleri) incelenir. AFA ile ilgili bilgiler ve örnek uygulamalar bu kitabın ilgili bölümünde verilmiştir. Alanyazına göre ve uzmanlar tarafından belirlenen bir yapının doğrulanması bekleniyorsa doğrulayıcı faktör analizi (DFA) yapılabilir. Burada dikkat edilmesi gereken en önemli kısım verinin yapısına göre analizlerde kullanılacak korelasyon matrisinin hesaplanma yönteminin değişmesidir. İki kategorili verilerde tetrakorik korelasyon matrisi, üç ve dört kategorili verilerde polikorik korelasyon matrisi, beş ve üzerinde yanıt kategorisi olan verilerde Pearson momentler çarpımı korelasyon matrisi kullanılmalıdır. Farklı veri yapılarında hesaplanacak korelasyonlar için kaynak kitaplar daha ayrıntılı incelenebilir (Cohen, 2013).

Ölçeğin yapısı belirlendikten sonra alınacak toplam puanlara (yalnız alt boyutlara ilişkin toplam puanlara veya genel bir toplam puana) göre betimsel istatistikler hesaplanır. Burada en sık karşılaşılan hatalardan biri ölçekten toplam puan alınabileceği kuramsal ve istatistiksel olarak kanıtlanmadan doğrudan maddelerden alınan puanlar toplanarak istatistikleri incelemektir. Eğer bir ölçek yalnız alt boyutlara göre kullanılıyor ise faktör analizi dışındaki geçerlik ve güvenirlik kanıtları her boyut için ayrı ayrı incelenmelidir.

Ölçekten alınan puanların yorumlanması için faktör yüklerinin ağırlıklarına göre belirlenen “Faktör Puanı” hesaplanması gerekir. Bunun dışında ağırlıklandırma kullanmaksızın bir ölçme aracının maddelerine verilen yanıtların toplanmasıyla elde edilecek bir ölçek toplam puanının hesaplanabilmesi için (a) ölçme aracının tek boyutlu bir yapıda olması gerekir. Tek boyutlu olmayan bir ölçme aracında toplam puan alınabilmesi için ise (b) AFA’da ölçme aracının döndürme öncesi başat bir faktörünün bulunması, bu faktörün açıklanan varyans oranının dikkate alınacak büyüklükte olması (Büyüköztürk, 2020) ve ilk iki özdeğerin oranının 3’ten büyük olması (c) ikinci düzey DFA’da model-veri uyumunun sağlanması ya da (d) faktörler arasındaki korelasyon katsayılarının yaklaşık 0,30’den büyük ve çoklu bağlantı problemi olmaması açısından da 0,90’dan küçük olması gerekir (Tabachnick ve Fidell, 2013).

Yukarıda bahsedilen geçerlik kanıtlarına ek olarak yapı ve ölçüt geçerlikleri için kanıt toplanmalıdır. Örneğin geliştirilen araç ile arasında pozitif ya da negatif yönde korelasyon bulunduğunu alanyazından bilinen bir ölçek kullanılarak beklenen sonuç ortaya konulduğunda yapı geçerliği kanıtı olarak kullanılabilir. Yine ölçülen özellik açısından iki ayrık uç gruplarda var olan farklılaşma ölçekle ortaya konabiliyor ise bu bulgu yapı geçerliği kanıtı olarak ele alınabilir. Ölçüt geçerliği kanıtı için ise geliştirilen ölçek ile aynı anda ya da daha önce ortaya çıkmış bir ölçütün puanları ile (uygunluk geçerliği) ya da sonra ortaya çıkacak bir ölçütün puanları ile (yordama geçerliği) arasındaki korelasyon kullanılabilir. Aynı zamanda alt gruplardan (cinsiyet, dil, coğrafi bölge, sosyoekonmik düzey vb.) elde edilen ölçümlerin gruba ait olma özelliğine göre değişip değişmediği ölçme değişmezliği çalışması yapılarak incelenebilir. Değişmezlik sonuçları da yapı geçerliği kanıtı olarak sunulabilir.

Güvenirlik için ölçeğin yapısına uygun olarak farklı güvenirlik katsayıları (Cronbach alfa, KR20-21, McDonald’s omega, tabakalı alfa, test tekrar test, iki yarı güvenirliği vb.) hesaplanabilir. Fakat burada dikkat edilmesi gereken nokta ölçeğin yapısı ve verilerin türüne göre uygun güvenirlik yönteminin seçilmesidir. Örneğin test birden çok boyuttan oluşuyorsa ve boyutlar toplanarak tek bir puan alınamıyorsa tek bir Cronbach alfa hesaplanması yanlış olacaktır, bunun yerine tabakalı alfa hesaplanabilir. Veri türü iki kategorili (1-0) ise KR-20/21, kısmi puanlama yapılarak ikiden çok kategoriden oluşan veri türlerinde ise Cronbach alfa katsayısı hesaplanabilir. Eğer katılımcıları puanlayan birden fazla birey var ise puanlamalardaki uyumlar (uyuşma yüzdesi, Kendall’ın konkordans, Cohen’in kappa, Fleiss’in kappa, Krippendorf katsayıları vb) incelenebilir.

Ölçek geliştirme aşamasındaki analizler Klasik Test Kuramı baz alınarak açıklanmıştır. Madde Tepki Kuramı ve Genellenebilirlik Kuramı ile ilgili yapılabilecek çalışmalar bu kitabın ilgili bölümlerinde ayrıntılı olarak verilmiştir.

10. Ölçeğin standartlaştırma çalışmalarının yapılması

Elde edilen ölçeğin beklentileri yeterince karşılayıp karşılamadığının, maddeler çıkarıldıktan sonra geçerlik ve güvenirlik kanıtlarında iyileşmeler gözlendiğinin raporlanabilmesi için ölçek yeni bir örneklem grubuna uygulanır. Bu aşamada elde edilen sonuçlarla grubun ölçülen özellikle ilgili düzeyini belirlemede kullanılabilecek kesme puanlarının belirlenmesi için standart belirleme çalışmaları yapılabilir. Standart belirleme çalışması yapılmamış bir ölçme aracından elde edilen ölçümler katılımcıları gruplara ayırmada tek başına yeterli değildir. Elde edilen ölçümler en genel anlamda alınan puanlar arttıkça özelliğe daha yüksek düzeyde sahip olunduğunun bir göstergesi olarak kullanılır. Standart belirleme çalışmaları için alanyazında yer alan ilgili kaynaklar incelenebilir.

11. Ölçeğin kullanım kılavuzunun hazırlanması (Raporlaştırma)

Bir ölçek geliştirme süreci tamamlandığında yapılan tüm geçerlik ve güvenirlik çalışmalarının, ölçeğin kullanım amacından elde edilen sonuçlara, sonuçların nasıl kullanılacağından kimlerin yorumlayacağına kadar tüm ayrıntılar raporlanmalıdır. Unutulmamalıdır ki bir ölçme aracının geliştirilme amacı dışında kullanılması geçerlik ve güvenirlik kanıtlarının hedef grup için yeniden elde edilmesini gerektirmektedir.

1.3 Ölçme Araçlarının Geliştirilmesi: Başarı Testi Geliştirme

Ölçülen özelliğin türüne göre testler, tipik ve maksimum performans testleri olarak ayrılmaktadır. Zihinsel öğrenmelerin ölçülmesinde kullanılan maksimum performans testlerinde, öğrencilerin bilişsel olarak öğrendiklerini ortaya koyabilmelerini sağlayan uyarıcılara en yüksek performanslarıyla tepki vermeleri beklenir. Bu tepkiler tutum, ilgi gibi tipik bir durumu değil, öğrenmenin maksimum düzeyini ortaya çıkarmayı hedefler. Maksimum performans testleri başarı testleri, zekâ testleri, yetenek testleri gibi farklılaşabilmektedir. Bu bölümün konusu ise başarı testleridir. Başarı testi, bilişsel alanın ölçülmesinde kullanılan maddelerden oluşan ölçme araçlarına verilen genel bir ad olarak düşünülebilir.

Başarı testleri, öğrencilerin belli bir öğretim faaliyeti sonucunda ne öğrendikleri ve hangi düzeyde öğrendiklerini ölçmek için kullanılır. Bu testler öğrencilerin belli bir konu ya da ünitedeki öğrenme eksikliklerini (öğrenmeyi izleme) ya da öğrenme düzeylerini belirlemede (erişiyi izleme) sıklıkla karşımıza çıkmaktadır. Buradaki odak nokta ise öğrencilerin öğretim hedefine ulaşma derecesinin belirlenmesi, diğer bir ifadeyle başarı düzeyidir. Bu düzeye ilişkin bilgiye, öğrencilere uygulanan başarı testlerinden elde edilen puanların yorumlanmasıyla ulaşılmaktadır. Bu yorumların doğruluğu, geçerliği ve güvenirliği yüksek bir başarı testine ve dolayısıyla en uygun madde türüne karar verilerek maddelerin oluşturulmasına bağlıdır.

Başarı testleri, geliştirilmesinde yer alan bireylerin uzmanlığına göre öğretmen yapımı testler ve standart testler olarak sınıflandırılır. Standart testleri öğretmen yapımı testlerden ayıran özellikler; uzmanlar tarafından geliştirilmesi, norm gruplarının çıkarılması, standardizasyon çalışmalarının yapılması, eşdeğer formlarının hazırlanması gibi test geliştirme süreçlerini içermesidir (Grolound, 1971). Hem uzman ya da ölçme kuruluşları tarafından hazırlanan standart testlerin hem de öğretmenler tarafından sınıf içinde kullanılmak üzere hazırlanan testlerin amacı öğrenci başarıları hakkında doğru kararlar verebilmektir. Bu nedenle başarı testlerinin hazırlanma ve geliştirilme sürecinde dikkatle izlenmesi gereken aşamalar bulunmaktadır.

Aşağıdaki örnekte bir araştırmacının başarı testi geliştirme sürecinde karşılaştığı yanlış durumlardan bahsedilmiş, daha sonra bu durumlarda gözden kaçırılan kısımlar açıklanmıştır. İzlenmesi gereken doğru süreç ise “Başarı Testi Geliştirme Aşamaları” başlığı altında verilmiştir.

Örnek 3.1
Bir test şirketinde uzman olarak çalışan Deniz, özel bir okula öğrenci alımını sağlamak için tanıma-yerleştirme amacıyla kullanılacak bir başarı testi hazırlayacaktır.
     1. İlgili kaynak kitaplarda yer alan sorulardan bir kısmını alan uzmanlarıyla birlikte seçmiştir.
     2. Tamamı çoktan seçmeli maddelerden oluşan bu formu doğrudan öğrencilere uygulamıştır.
    3. Öğrencilerin doğru/yanlış sayılarına göre testten aldıkları toplam puanı hesaplamış, bellirli bir puanın üzerinde alanları “başarılı” olarak nitelendirmiştir.
Deniz bu çalışmayı yaparken neleri gözden kaçırmıştır?

Deniz’in çalışmasında olduğu gibi birçok araştırmacı benzer durumlarla karşılaşmaktadır. Bu örnek durumlar aşağıda sırasıyla incelenmiştir.

Durum 1 “İlgili kaynak kitaplarda yer alan sorulardan bir kısmını alan uzmanlarıyla birlikte seçmiştir.”

Hangi amaçla hazırlanırsa hazırlansın bir başarı testinde ölçülmesi gereken konular/kazanımlar/özellikler (neyin ölçüleceği) maddeler yazılmadan/seçilmeden önce ortaya konulmalıdır. Konu başlığı aynı olsa bile öğrenme düzeyi farklılaşabileceği için hazır testlerin ya da maddelerin doğrudan kullanılması geçerlik açısından uygun değildir. Bu nedenle öğrencilerin öğrenme düzeylerine ve kapsam geçerliğine dikkat edilecek şekilde maddelerin yazılması önemlidir.

Durum 2 “Tamamı çoktan seçmeli maddelerden oluşan bu formu doğrudan öğrencilere uygulamıştır.”

Hazırlanan ölçme aracında konu kapsamının geniş ve aracın uygulanacağı grubun büyük olduğu durumlarda yalnızca çoktan seçmeli madde türü kullanılabileceği gibi kazanımlara ve bu kazanımların taksonomideki düzeyine göre farklı madde türlerinin kullanılması da geçerliği arttıracaktır. Hangi madde türlerinin kullanılması gerektiği hem kazanımlara hem de uzman görüşlerine göre belirlenmelidir. Buradaki diğer sorun testin kapsam geçerliği için belirtke tablosunun hazırlanıp hazırlanmadığıdır. Testin neyi ölçeceğinin açıkça ortaya konmaması testten elde edilecek puanların yanlış yorumlanmasına yol açacaktır. Ayrıca bu formun doğrudan öğrencilere uygulanarak özellikle ön-pilot ya da pilot çalışma aşamalarının atlanması, geçerlik ve güvenirliği tehlikeye düşürecektir. Bu durumun ihlâl edilmesindeki tek gerekçe test güvenliği olabilir. Maddelerin daha önce öğrenciler tarafından görülmesi, öğrenciler arasında dağılması vb. sorunların önüne geçebilmek için madde istatistiklerinin uzmanlar tarafından kestirilmesi gibi uygulamalar ele alınabilir.

Durum 3 “Öğrencilerin doğru/yanlış sayılarına göre testten aldıkları toplam puanı hesaplamış, belli bir puanın üzerinde alanları “başarılı” olarak nitelendirmiştir.”

Yalnızca ölçeklerin değil başarı testlerinin de yapısının istatistiksel yöntemlerle belirlenmesi toplam puanın nasıl elde edileceğinin sunulması açısından önemlidir. Ayrıca şans başarısının incelenerek düzeltme formülü kullanıp kullanılmayacağının da testin amacına göre belirlenmesi gerekmektedir. Uygulama öncesi puanlama anahtarı hazırlandı mı? Öğrencileri başarılı olarak nitelendirmek için kullanılacak kesme puanı belirlendi mi? Belirlendiyse hangi yönteme başvuruldu? Tüm bu soruların yanıtları detaylı olarak raporlanmadığında başarı testinden elde edilen sonuçlara güvenilmesi mümkün değildir. Geçerli ve güvenilir ölçümler elde edebilmek için “Başarı Testi Geliştirme Aşamaları” takip edilmelidir.

1.3.1 Başarı Testi Geliştirme Aşamaları

Aşağıda başarı testi geliştirme aşamaları verilmiştir. Farklı kaynaklarda bu aşamaların sayıları değişmekle birlikte süreç genel olarak aynıdır. İdeal olan aşağıdaki tüm aşamalara dikkat edildiğinin kanıtlarla açıklanmasıdır. Yapılamayan ya da atlanan aşamaların nedeni ayrıntılı olarak açıklanmalıdır.

  1. Testin amacının belirlenmesi ve kuramsal altyapının incelenmesi
  2. Testin hazırlanmak istendiği alana, konuya ve hedef kitleye karar verilmesi
  3. Test kapsamının belirlenmesi (Belirtke tablosunun hazırlanması)
  4. Kullanılacak madde türüne karar verilmesi
  5. Maddelerin yazılması, madde havuzu ve puanlama anahtarının oluşturulması
  6. Madde havuzuna ilişkin uzman görüşünün alınması
  7. Testin deneme/taslak formunun oluşturulması ve ön pilot çalışmanın yapılması
  8. Test formunun düzeltilmesi, uygulama süresi ve uygulanacak gruba karar verilmesi
  9. Pilot uygulamanın yapılması
  10. Madde ve test istatistiklerinin hesaplanması
  11. İkinci uygulamanın yapılması ve testin standartlaştırılması
  12. Test kullanım kılavuzunun hazırlanması (Raporlaştırma)

1. Testin amacının belirlenmesi ve kuramsal altyapının incelenmesi

İlk olarak ölçülecek yapının (başarının) tanımlanması gerekir. Bu yapının alanyazında nasıl ele alındığı, başka değişkenlerle nasıl ilişkilendirildiği ve nasıl ölçüldüğü kuramsal olarak detaylı bir şekilde incelenmelidir. Ölçme amacının yanında değerlendirme sonuçlarının ne için kullanılacağına bağlı olarak da testin özellikleri değişebileceğinden, bu aşamada amacın net bir şekilde belirlenmesi gerekmektedir. Eğer geniş bir kitlenin başarı düzeyleri karşılaştırılacaksa ya da herhangi bir kuruma yerleştirme yapılacaksa standart testler geliştirilebilir. Öğretmen yapımı sınıf içinde uygulanan testlerde ise öğretmenin amacı öğrencilerin ön öğrenmelerini (hazır bulunuşluk düzeylerini) ya da birkaç konu/üniteden yola çıkarak öğrencilerin öğrenme düzeylerini belirlemek olabilir. Yine yapacağı ölçme ve değerlendirme işlemi sonucunu öğrenciye not ya da geri bildirim vermek için kullanabilir. Amacına göre değerlendirme türleri ve varsa daha spesifik amaçlar bu kısımda ayrıntılı olarak açıklanmalıdır.

2. Testin hazırlanmak istendiği alana, konuya ve hedef kitleye karar verilmesi

Testin geliştirilme amacı belirlendikten sonra testle ölçülecek konu alanının ayrıntılarıyla belirlenmesi gerekir. Bu süreçte ayrıca belirlenen alanın alt konularına ilişkin kazanımlarla birlikte testin uygulanacağı hedef kitleye karar verilmelidir. Başarı testlerinde konu kapsamına karar verme aşamasında test uygulamasının yapılacağı tarih baz alınmalıdır. Bu tarihe kadar işlenmesi gereken/beklenen konular teste dahil edilmelidir.

3. Test kapsamının belirlenmesi (Belirtke tablosunun hazırlanması)

Test geliştirmenin en önemli aşamalarından biri belirtke tablosunun hazırlanmasıdır. Test edilecek konu alanı tanımlandıktan sonra her bir yeterliliğin testteki önemini ve bilişsel seviyesini belirleyen belirtke tablosu oluşturulmalıdır. Belirtke tablosu, satırlarında çoğunlukla kazanımların, öğrenme alanlarının, konuların vb.; sütunlarında taksonomi düzeylerinin yer aldığını bir tablodur. Satır ve sütunların kesiştiği hücreler ise ilgili kazanımın hangi taksonomik düzeyde öğrenilmiş olduğunu belirtir. Dolayısıyla belirtke tablosuna göre hazırlanan bir maddenin de bu düzeyler baz alınarak oluşturulması beklenir. Maddeyi yanlış yanıtlayan bir öğrencinin sahip olduğu öğrenme düzeyinin maddenin ölçtüğü düzeye erişemediği yorumu yapılır.

Bu aşamada hangi taksonominin kullanılacağına da karar verilmelidir. Bloom, Haladyna, Marzano, SOLO, vb. taksonomiler incelenerek testin amacına en uygun olanı seçilmelidir. Belirtke tablosunda testle ölçülecek hedef davranış/kazanımlarla konular ve testteki maddelerin taksonominin düzeylerine göre dağılımı gösterilmektedir. Özellikle başarı testlerinde kapsam geçerliği kritik öneme sahip olduğundan bu aşamanın dikkatle yerine getirilmesi gerekmektedir. Şekil 1.2’deki ölçme ve değerlendirme dersine ilişkin örnek belirtke tablosunun bir kısmına yer verilmiştir.

Belirtke Tablosu Örneği

Şekil 1.2: Belirtke Tablosu Örneği

4. Kullanılacak madde türüne karar verilmesi

“Test” yalnızca çoktan seçmeli maddeleri değil tüm madde türlerini içeren bir ölçme aracıdır. Dolayısıyla farklı madde türlerinin birbirlerine üstünlüklerini ve sınırlılıklarını avantaja dönüştürmek için farklı türde maddelerin bir arada kullanılması önerilmektedir. Testte yer alacak madde türüne karar verirken yoklanacak davranışı ortaya çıkarabilecek en uygun madde türünün seçilmesine dikkat edilmelidir. Ayrıca yoklanacak davranışın öğrenilme düzeyi de göz önünde bulundurulmalıdır. Bloom Taksonomisine göre hatırlama ya da anlama düzeyindeki kazanımların ölçülmesinde çoktan seçmeli, boşluk doldurma ya da eşleştirmeli madde türleri kullanılabilirken üst düzey düşünme becerilerini ölçmek için açık uçlu madde türünün kullanılması gerekmektedir. Bu nedenle belirtke tablosunda kazanımların öğrenilme düzeylerinin doğru belirlenmiş olması önemlidir. Özellikle açık uçlu maddelerin yanıtlanmasının ve puanlanmasının uzun sürmesinin kullanışlılığı düşürmesi ve objektif puanlamanın zor olması nedeniyle büyük gruplarda yalnız açık uçlu maddelerden oluşan testlerle öğrenci başarısını ölçmek doğru bir yaklaşım olmayacaktır. Bu nedenle amacına uygun olan madde türlerinin kullanıldığı testler geliştirilmelidir.

5. Maddelerin yazılması, madde havuzu ve puanlama anahtarının oluşturulması

Her bir kazanıma ve taksonomideki düzeye uygun maddeler yazılırken, maddelerin öğrencilerin bireysel farklılıklarını ortaya çıkarmasına dikkat edilmelidir. Bu nedenle ölçülen özellik (başarı) açısından farklı güçlük ve yüksek ayırt edicilik düzeylerinde maddeler yazılmalıdır. Burada asıl önemli olan testteki maddelerin başarı düzeyi daha yüksek olanla daha düşük olanı (bilen ile bilmeyeni, öğrenen ile öğrenemeyeni) iyi bir şekilde ayırt edebilmesidir. Bir maddeyi herkesin doğru ya da herkesin yanlış yanıtlaması, diğer bir ifadeyle her öğrencinin maddeden aynı puanı alması istendik bir durum değildir. Her bir maddenin nasıl puanlanacağına ilişkin bilgiler de madde yazılırken eş zamanlı olarak hazırlanmalıdır. Çoktan seçmeli maddelerde doğru (1) - yanlış (0) şeklinde puanlama yapılabilirken açık uçlu maddelerde analitik ya da holistik rubriklerin hazırlanması gerekmektedir. Yine çoktan seçmeli maddelerin kısmi puanlanmasına olanak sağlayan farklı yöntemler de puanlamada kullanılabilir (U. Akbaş, Aydoğdu, Büyüköztürk ve Yıldırım Seheryeli, 2022; Pehlivan ve Kutlu, 2014).

Belirtke tablosuna uygun maddeler yazılırken testte kullanılması planlanan madde sayısının her davranışı yoklayacak madde sayısının üç katı kadar yazılması önerilmektedir (Turgut ve Baykul, 2021). Hem maddelerin hem de puanlama anahtarının oluşturulması sayesinde en kullanışlı madde havuzu hazırlanarak bu havuzdan en uygun maddelerin seçilmesi sağlanır.

Maddelerin bilimsel hatalardan uzak, açık ve net ifade edilmiş, ölçme ve değerlendirme teknikleri açısından uygun şekilde hazırlanmış olması gerekir. Madde türlerinin tamamının yazılmasında dikkat edilmesi gereken bazı temel özellikler bulunmaktadır. Öncelikle maddeler açık ve anlaşılır olmalı, herkes tarafından aynı şekilde anlaşılmalıdır. Madde dil bilgisi açısından Türkçe yazım kurallarına uygun bir şekilde yazılmalıdır. Bu bölümün örnek durumunda da detaylı bir şekilde bahsedildiği gibi maddeler, herhangi bir kaynaktan doğrudan alınmamalıdır. Çoktan seçmeli ve açık uçlu maddelerin yazımında kullanılabilecek kapsamlı bir kontrol listesi Ek-A’da verilmiştir. Ayrıca maddelerin diğer maddelerden bağımsız olarak yanıtlandırılabilir olması gerekmektedir. Eğer test, madde takımlarından oluşuyorsa bu durum ihlal edilebilir. Böyle bir durumda analiz yöntemlerinin değişeceği unutulmamalı ve madde takımları bir amaç doğrultusunda kullanılmalıdır. Madde takımları ile ilgili detaylı bilgiye bu kitabın “Çok Boyutlu Madde Tepki Kuramı’na Giriş” bölümünde yer verilmiştir.

6. Madde havuzuna ilişkin uzman görüşünün alınması

Maddeler yazıldıktan sonra bu maddelerin ölçülmek istenen amaca uygunluğu, güçlük düzeyi, bilenle bilmeyeni ayırt edebilme düzeyi, yazım ve dilbilgisi hatalarının olup olmadığı, uygulanacak hedef kitleye uygun olup olmadığı alan uzmanı, Türkçe dil uzmanı, ölçme ve değerlendirme uzmanı gibi farklı uzmanları içeren bir ekip tarafından kontrol edilmeli ve madde yazarının incelemesi için tüm düzeltmeler ve öneriler detaylı bir şekilde not edilmelidir. Mümkünse bu ekibin maddeler üzerinde birlikte çalışması tercih edilmelidir. Böylece ekipteki uzmanların beklentileri daha kolay anlaşılarak sonraki maddelerin yazımı ve düzeltmeleri kolaylaşabilir. Bu ekipteki uzmanların demografik bilgileri, hangi maddelerde nasıl düzeltmeler yapıldığı, hangi maddenin neden çıkarıldığı gibi bilgiler mutlaka raporlanmalıdır. Bu aşamada uzman görüşlerinin nasıl elde edildiğine dair nicel ve nitel bilgiler ile uyum indeksleri “Ölçek Geliştirme Aşamaları” başlığında bahsedilen katsayılarla hesaplanabilir. Bunun için “5. Olası boyut(lar) ve madde havuzuna ilişkin uzman görüşünün alınması” kısmı incelenebilir.

7. Testin deneme/taslak formunun oluşturulması ve ön pilot çalışmanın yapılması

Uzman görüşlerine göre madde havuzundaki düzeltilen maddelerle testin deneme formu oluşturulur. Deneme formu asıl uygulamadaki madde sayısı kadar olabileceği gibi birden fazla deneme formu hazırlanarak havuzdaki soruların test edilmesi de sağlanabilir. Formlar oluşturulurken testte birbirine yanıt oluşturabilecek maddelerin bir arada kullanımından kaçınılmalıdır. Yine özellikle çoktan seçmeli maddelerde arka arkaya aynı doğru yanıtın gelme sıklığı kontrol edilmelidir. Ayrıca testin yönergesi de bu aşamada hazır olmalıdır. Testin yönergesinde, testin amacına kısa ve net bir şekilde yer verilmeli ve testteki maddelerin puanlanması hakkında gerekli bilgiler sunulmalıdır. Yazılan maddelerin mümkünse küçük bir grupta ön pilot uygulaması yapılmalıdır. Burada dikkat edilmesi gereken nokta ön pilot uygulaması yapılacak grubun pilot uygulama yapılacak gruba benzer özelliklerde olmasıdır (Turgut ve Baykul, 2021). Bu aşamada maddelerin anlaşılırlığının tespiti ön planda olduğundan hem sınıf içi yapılacak testlerde hem de geniş kitlelere uygulanacak standart testlerde en az 5-10 bireyden oluşan bir grup kullanılmalıdır. Ancak hem sınıf içi öğretmen yapımı testlerde hem de geniş kitlelere uygulanacak standart testlerde test güvenliği nedeniyle ön pilot uygulaması yapılamadığı durumlarda yalnız uzman (diğer zümre öğretmenleri, uzmanlar vb.) görüşleri alınarak taslak form oluşturulabilir.

8. Test formunun düzeltilmesi, uygulama süresi ve uygulanacak gruba karar verilmesi

Ön pilot uygulaması sonrasında test formu gerekli düzeltmeler yapılarak mutlaka güncellenmelidir. Başarı testleri maksimum performansı ölçmeyi amaçladığından uygulama süresi oldukça önemlidir. Sürenin az olduğu ve maddelerin tamamına ulaşılması beklenmeyen testler hız testleri olarak adlandırılmaktadır. Fakat eğitimde amaç öğrencilerin ne kadar kısa sürede en fazla doğru yanıtı verdikleri değil, her maddeyi görmelerini sağlayacak şekilde öğrenme düzeylerinin belirlenmesidir. Bu tür testler güç testi olarak adlandırılmaktadır. Testin amacına göre bu süreye karar verilmelidir. Bu yüzden hazırlanan test formunun özelliklerine göre (madde sayısı, amaç, uygulanacak örneklem) zaman sınırlamasının belirlenmesi gerekmektedir. Ayrıca maddelerin test içinde kolaydan zora ya da konuların öğrenilme sırasına göre yerleştirilmesi öğrenci motivasyonunu artıran bir etki yaratacaktır. Pilot uygulama için grubun özellikleri ve kaç bireyden oluşacağına ilişkin bilgiler “Ölçek Geliştirme Aşamaları” başlığının “7. Ölçek maddelerinin düzeltilmesi ve pilot uygulama için grubun belirlenmesi” kısmında verilmiştir.

9. Pilot uygulamanın yapılması

Testin yapısının belirlenmesi ve hem madde hem de test istatistiklerinin hesaplanması amacıyla yapılan pilot uygulamayla maddeler hakkında bilgi edinilerek, geçerliği ve güvenirliği düşük maddeler tespit edilerek teste nihai hâli verilmektedir. Bu uygulama sırasında hataları en aza indirebilmek için ses, ışık, ısı, oturma düzeni vb. açısından uygun ortamın hazırlanması, yönergenin açık ve anlaşılır olması, dezavantajlı bireyler için uygulama kolaylığının (yazı puntosu, okuyucu desteği vb.) sağlanması gibi gerekli önlemlerin alınması, mümkünse katılımcıların motivasyonlarının sağlanması gerekmektedir. Bu gibi durumların test puanlarının geçerliği ve güvenirliğine katkı sağlayacağı unutulmamalıdır.

10. Madde ve test istatistiklerinin hesaplanması

Bu aşama için öncelikle “Ölçek Geliştirme Aşamaları” başlığının “9. Maddelerin ve ölçeğin istatistiklerinin hesaplanması, boyutlara karar verilmesi” kısmı incelenmelidir. Ölçek geliştirmeden farklı olarak başarı testlerinde her bir hedef davranış/kazanım için yazılan maddelerden en iyi çalışan (orta güçlük düzeyinde ve ayırt ediciliği yüksek) maddenin seçilmesi önerilmektedir. Ayrıca çoktan seçmeli testlerde çeldirici analizlerinin yapılarak çeldiricilerin ne düzeyde çalıştığı belirlenmeli, iyi çalışan çeldiriciler kullanılmalıdır. Maddeler düzenlenirken ve çıkarılırken kapsam ve yapı geçerliğini tehlikeye düşürmeden seçim yapılmasına dikkat edilmelidir. Başarı testlerinde de kuramsal ve istatistiksel kanıtlara başvurmadan yalnız doğru yanlış yanıt sayısına göre toplam puanın alınıyor olması, yapılan en yaygın hatalardandır. Eğer test birden fazla boyuta sahipse geçerlik ve güvenirlik kanıtları her boyut için ayrı ayrı incelenmelidir. Güvenirlik, yapı geçerliği, ölçüt geçerliği ve ölçme değişmezliği kanıtları için ölçek geliştirme aşamalarında belirtilen benzer çalışmalar yapılabilir. Başarı testi geliştirme aşamasındaki analizler de ölçek geliştirmedeki gibi Klasik Test Kuramı baz alınarak açıklanmıştır. Madde Tepki Kuramı ve Genellenebilirlik Kuramı ile ilgili yapılabilecek çalışmalar bu kitabın ilgili bölümlerinde ayrıntılı olarak verilmiştir.

11. Testin standartlaştırma çalışmalarının yapılması

İlk uygulama sonucu teste doğrudan ya da düzeltilerek alınan maddelerle teste son hâli verilir. Nihai maddelerle oluşturulan testten elde edilen ölçümlerin geçerlik ve güvenirliklerinin yükselip yükselmediği, test istatistiklerinin beklentilere uygun olup olmadığı ve maddelerin yeterince çalışıp çalışmadığını (orta güçlük düzeyinde ve ayırt ediciliği yüksek) kontrol etmek amacıyla test, hedef kitleden seçilen yeni bir örneklem grubuna uygulanır. Bu aşamada elde edilen sonuçlar kullanılarak grubun başarısını belirlemede kullanılabilecek kesme puanlarının belirlenmesi için standart belirleme çalışmaları yapılarak hedef kitleyi değerlendirmede kullanılacak normlar oluşturulur. Standart belirleme işlemleri için alanyazındaki ilgili kaynaklar incelenebilir (Cizek, 2001; Erkuş ve Selvi, 2019; Hambleton, Pitoniak ve Copella, 2012).

12. Testin kullanım kılavuzunun hazırlanması (Raporlaştırma)

Bu kısım için gerekli bilgiler diğer ölçme araçları için benzerdir. Bu nedenle “Ölçek Geliştirme Aşamaları” başlığının “11. Ölçeğin kullanım kılavuzunun hazırlanması (Raporlaştırma)” kısmı incelenmelidir.

1.4 Ölçme Araçlarının Geliştirilmesi: Rubrik Geliştirme

Ölçülen bir özelliğin bireylerde var olma derecesini belirlemek üzere izlenebilecek iki farklı yol vardır. Birincisi, ölçülen özelliğe görece en yüksek düzeyde sahip olandan en düşük düzeyde sahip olana doğru puanların sıralanması, karşılaştırılması (bağıl/norm dayanaklı); ikincisi ise belirli kriterleri gerçekleştirmelerine göre bireylerin sahip olduğu özelliğin düzeylerinin belirlenmesi (mutlak/ ölçüt dayanaklı). Bu yollardan ilkinde bireylerin puanları diğerlerinin puanlarıyla kıyaslanarak bir karara varılırken; ikincisinde ise her bireyin kriterleri gerçekleştirme durumuna göre performansı ya da başarısı belirlenir. Özellikle üst düzey becerilerin ölçülmeye çalışıldığı durumlarda bireylerin sergilediği performansların ya da ortaya çıkardığı ürünlerin aynı olmasını beklemek mümkün değildir. Her bireyin bir diğerine üstün ya da zayıf olduğu kısımlar bulunmaktadır. Bu durum, bireylerin ürün ya da performanslarının birbiriyle kıyaslamasında sorunlar yaşanmasına neden olabilir. Örneğin hikâye yazma becerisinin ölçülmeye çalışıldığı bir durumda; bir öğrenci çok okunaklı yazmış, hikâye örüntüsünü güzel kurmuş ancak yaratıcılığı zayıf olabilir; diğer öğrenci ise çok okunaklı yazmasa da hem yaratıcı hem de hikâye örüntüsünü çok güzel kurmuş olabilir. Bu iki öğrenciden hangisinin yazma becerisinin daha yüksek olduğu söyleyenebilir? Bir öğretmen yaratıcılığın daha önemli olduğunu söylerken bir diğeri yazı güzelliğinin bu yaş grubunda daha ön planda olması gerektiğini savunabilir. Böyle bir durumda hangi başlıkların eğitim hedeflerine hizmet ettiğinin ortaya konularak puanlama yapılması ve ölçütlerin belirlenerek tüm öğrencilerin aynı ölçütlere göre puanlanması geçerlik ve güvenirliğe pozitif katkı sağlayacaktır. İşte böyle durumlarda dereceli puanlama anahtarları, diğer bir ifadeyle rubrikler kullanılmaktadır.

Açık uçlu maddelerin, performans görevlerinin, projelerin, portfolyoların ya da gözlemlerin puanlanmasında rubrikler kullanılabilmektedir. Rubriklerde, ölçülen özelliğe ilişkin öğrenci performansı mükemmel olandan zayıf olana doğru sıralanarak her bir ölçüte ait performanstan ne beklenildiği açıkça belirtilir ve bu performansın hangi yeterlik derecesinde gerçekleştirildiği ortaya konur.

Rubrikler göreve ya da ürüne özgü (öğrencinin yazdığı bir hikâye, performans görevi vb.) olabileceği gibi genel bir özelliğe özgü (sunum becerisi, araştırma becerisi, yazma becerisi vb.) de hazırlanabilir. Her iki türün kullanımında da avantaj ve dezavantajlar bulunmaktadır. Göreve özgü rubriklerin hazırlanması ve puanlanması, performansların daha net belirtilebilmesi nedeniyle görece kolaydır. Bu rubriklerde eğer performans için ipucu veren tanımlar yer alıyorsa öğrencilerle paylaşılmaması tercih edilebilir. Her görev için ayrı ayrı rubrik hazırlanması gerekliliği bu rubriklerin sınırlılıklarından biridir. Eğer iyi hazırlanmamış bir rubrik kullanılırsa öğrencinin bu rubrikte yer almayan iyi performansı, olduğundan daha kötü puanlanabilir. Genel rubriklerin ise hazırlanması göreve özgü rubriklere göre daha zor olmasına rağmen birkaç görev ya da performansın puanlanmasında tekrarlı olarak kullanılabilmesi üstün yanıdır. Rubrikler öğrencilerle birlikte hazırlandığında öğrenme sürecine rehberlik etmesi ve öğrencilerin kendi performanslarının nasıl değerlendirileceğini bilmesi, bu performanslarının düzenlenmesine ve geliştirilmesine katkı sağlamaktadır. Öğrencilerin öz değerlendirme yaparak performanslarını iyileştirmelerini sağlayacak ölçütleri ve tanımları görmeleri öğrenmeyi olumlu yönde desteklemektedir. Bu nedenle ölçütlerin öğrencilerle birlikte oluşturulması önerilmektedir. Ancak öğrencilerin her görevde ne yapması gerektiğini bilmesi durumunda, tek başına yaratıcı bir performans sergileyememesi ihtimali olduğu unutulmamalıdır.

Rubrikler holistik ve analitik rubrik olarak da sınıflandırılabilir. Ölçülen özelliği alt ölçütlere ayırmadan genel olarak puan vermek istendiğinde holistik rubrikler, ölçülen özelliğin birden fazla alt ölçütü olduğunda ve bu ölçütlere ayrı ayrı puan verileceğinde analitik rubrikler kullanılmaktadır. Her iki tür rubriğin kullanımının avantajları ve dezavantajları bulunmaktadır. Şekil 1.3’te holistik rubrik örneği olarak PISA 2022 Matematik Okuryazarlığı Yeterlik Düzeyleri verilmiştir.

Holistik Rubrik Örneği

Şekil 1.3: Holistik Rubrik Örneği

Analitik rubrik öğretmenlerin, hem öğrencilerini yansız bir şekilde tanımasını hem de öğrencilerin doğrudan geri bildirim almasını sağlar. Bu nedenle değerlendirme amacına bağlı olarak not vermeden yalnızca performansı tanımlamak için de kullanılabilir. Ayrıca biçimlendirici değerlendirme için oldukça kullanışlıdır. Not vermek istendiğinde ve genel bir puana ihtiyaç duyulduğunda (istatistiksel analizlerle desteklenerek) her bir ölçütten alınan puanlar (eğer gerekiyorsa ağırlıklı olarak) toplanabilir. Hem öğrencilerin performansını puanlamak hem de puanlayıcılar arası güvenirliği sağlamak holistik rubriklere göre oldukça zaman almaktadır. Holistik rubrikler ise pratik olarak özetleyici bilgiye ihtiyaç duyulduğunda ve performans hakkında genel bir bilgi sağlanması istendiğinde sıklıkla tercih edilir. Dolayısıyla analitik rubrikler holistik rubriklere göre tek bir ölçüt bazında öğrencilerin bireysel farklılıklarını daha ayrıntılı ortaya koyma olanağı sağlamaktadır. Şekil 1.4’te analitik rubrik örneği olarak Yıldırım Seheryeli ve Tan (2019) tarafından geliştirilen hikâye yazma becerisi puanlama anahtarının bir kısmı verilmiştir.

Analitik Rubrik Örneği

Şekil 1.4: Analitik Rubrik Örneği

Hangi rubrik türünün kullanılacağı öğretmenin ya da değerlendirmeyi yapacak olan bireyin amacına bağlıdır. Öğrenciler hakkında doğru kararlar verebilmek amacıyla kullanılan rubriklerin iyi hazırlanmış olması gerekmektedir. Rubriklerde öğrencinin performansı, yargılanmadan doğrudan ilgili açıklama (performans tanımı) ile eşlenir. Bu nedenle iyi bir rubrik hazırlandığında ölçütler ve bu ölçütlere ilişkin performans tanımları olası öğrenci performansları kümesi ile birebir eşlenebilmelidir. Burada dikkat edilmesi gereken iki önemli konu uygun ölçütlerin belirlenmesi ve bu ölçütlere göre iyi yazılmış performans tanımlarıdır.

Aşağıdaki örnekte bir araştırmacının karşılaştığı yanlış durumlardan bahsedilmiş, daha sonra bu durumlarda gözden kaçırılan kısımlar açıklanmıştır. İzlenmesi gereken doğru süreç ise “Rubrik Geliştirme Aşamaları” ile verilmiştir.

Örnek 4.1
Doğa, çevrim içi yürüttüğü derslerinden birinde puanlamanın öneminden bahsetmek için öğrencilerinin Türk kahvesi yapabilme becerilerini ölçmek istemiştir. Bunun için öğrencilerine Türk kahvesi yaparak fotoğraflarını paylaşma görevi vermiştir. Puanlama kriterleri olarak “Köpüklü olma”, “Sıcaklık”, “Şeker oranı”, “Tabakta temiz görüntü”, “Sunum” başlıklarını belirlemiştir.
     1. İnternette yaptığı araştırma sonucunda bulduğu bu ölçütlerin her birinin “3: İyi - 2: Orta - 1: Kötü şeklinde puanlandığı bir puanlama anahtarını kullanmaya karar vermiştir.
     2. Bu araçla puanlama yaparken bir öğrencisinin tabak kullanmadığı için performansını gözleyememiş ve “1:Kötü” derecesini seçmiştir.
     3. Akademik başarısı yüksek bazı öğrencilerinin ise heyecanlanmasını normal karşılayarak görev esnasında gözlediği performansından yüksek puanlama yapmıştır.
     4. Bir öğrencisinin, ikiden daha yüksek olduğunu düşündüğü performansına ise en yakın olan iki puanı vermiştir. Doğa bu süreçte neleri gözden kaçırmıştır?
Doğa bu süreçte neleri gözden kaçırmıştır?

Doğa’nın yaşadığı bu süreçte olduğu gibi birçok araştırmacı benzer sorunlarla karşılaşmaktadır. Bu örnek durumlar aşağıda sırasıyla incelenmiştir.

Durum 1 “İnternette yaptığı araştırma sonucunda bulduğu, ölçütlerin her birinin “3: İyi - 2: Orta - 1: Kötü” şeklinde puanlandığı bir puanlama anahtarını kullanmaya karar vermiştir.” Özellikle internette öğretmenlerin birbiriyle paylaşımda bulunduğu sitelerde doğru ölçme araçları olabileceği gibi adı yanlış ifade edilmiş birçok ölçme aracına da rastlanmaktadır. Bu nedenle ölçme araçlarının seçilmesi daha da önem kazanmaktadır. En sık rastlanan hatalardan biri puanlamada bir derece olduğunda adının rubrik olarak görülmesidir. Bu örnekte de ölçütler 1 ile 3 arasında derecelendirilmiştir fakat bu ölçme aracı bir dereceleme ölçeğidir.1 Rubrikleri, dereceleme ölçeklerinden ayıran en önemli fark, derecelerden alınabilecek her bir puan için öğrenciden nasıl bir performans beklendiğinin de iyi tanımlanmış olmasıdır. Örneğin “Sıcaklık” ölçütünde herhangi bir performans tanımı yer almadığında “3: Sıcak, 2: Ilık, 1: Soğuk” şeklinde düşünülerek puanlanabileceği gibi “3: İçilebilir sıcaklıkta, “2: Çok sıcak, soğuması beklenerek içilebilir, 1: Çok soğuk, içmek için uygun değil” şeklinde de puanlanabilir. Bu farklı algıyı ortadan kaldırmak için rubriklerde (özellikle analitik rubriklerde) derecelerdeki performans tanımlarının çok iyi açıklanmış olması gerekmektedir. Bu açıklamaların aynı şekilde anlaşılması sağlandığı ölçüde puanlayıcı ve puanlama güvenirliği de sağlanacaktır.

Durum 2 “Bu araçla puanlama yaparken bir öğrencisinin tabak kullanmadığı için performansını gözleyememiş ve “1: Kötü” derecesini seçmiştir.” Bu durum ya öğrenciye verilen görevin yönergesindeki eksiklikten ya da açıkça belirtilen performansın öğrencinin öğrenme düzeyine uygun olmamasından kaynaklanabilir. Yönergede tabak ile getirilmesi gerektiği vurgulanmış olsaydı ya da puanlama ölçütleri öğrencilere görevle birlikte verilseydi böyle bir durumla karşılaşılma ihtimali azalırdı. Yine belirtilen performanslar öğrenme düzeyi ile örtüşmediğinde de rubrik ile puanlanamayan, eşlenemeyen performanslar bulunabilir. Böyle bir durumda puanlama aracındaki performans tanımları olası davranış evrenine ne kadar yakın tasarlanırsa öğrenci hakkında verilecek karar o kadar doğru olacaktır. Eşlenemeyen performanslar için rubrikler güncellenerek performans tanımları eklenebilir. Bu performans tanımlarıyla bereber tüm öğrenciler için yapılan eşlemelerin yeniden gözden geçirilmesi unutulmamalıdır. Ayrıntılar için “Rubrik Geliştirme Aşamaları”na bakınız.

Durum 3 “Akademik başarısı yüksek bazı öğrencilerinin ise heyecanlanmasını normal karşılayarak görev esnasında gözlediği performansından yüksek puanlama yapmıştır.”

Puanlama yaparken öğrenci performansı dışındaki özelliklerin de puanlamaya dahil edilmesi geçerliği tehlikeye düşürmektedir. Burada ölçmenin amacı bu göreve ait performans yerine öğrencinin genel akademik başarısı olduğunda puanlamada yanlılık söz konusu olacaktır. Bu nedenle puanlamada rubrik kullanılması, birden fazla puanlayıcının aynı performansları gözlemleyerek puan vermesi, puanlayıcıların eğitilmesi vb. yöntemler tercih edilebilir.

Durum 4 “Bir öğrencisinin, ikiden daha yüksek olduğunu düşündüğü performansına ise en yakın olan iki puanı vermiştir.” Bu durum ii’de bahsedilen ile oldukça benzerdir. Bir öğretmen için yakın puanlama 2: Orta iken başka bir öğretmen için 3: İyi seçeneği olabilir. Bu sorunla karşılaşmamak için performans tanımlarının çok iyi hazırlanmış olması gerekmektedir. Özellikle sınıf içinde hiç beklenmedik ve rubrikte yer almayan bir performans ile karşılaşıldığında rubrik güncellenerek puanlamaya devam edilmesi önerilebilir. Burada güncellenen ölçüte ilişkin tüm puanlamaların yeniden gözden geçirilmesi gerektiği unutulmamalıdır.

1.4.1 Rubrik Geliştirme Aşamaları

Aşağıda rubrik geliştirme aşamaları verilmiştir. Farklı kaynaklarda bu aşamaların sayıları değişmekle birlikte süreç genel olarak aynıdır. İdeal olan, aşağıdaki tüm aşamalara dikkat edilmesidir. Yapılamayan ya da atlanan aşamaların ise nedeni ayrıntılı olarak açıklanmalıdır.

  1. Rubriğin kullanım amacının belirlenmesi
  2. Rubrik türüne karar verilmesi
  3. Öğrencinin performansının puanlanacağı başlıkların/ölçütlerin yazılması
  4. Öğrenciden beklenen en yüksek ve en düşük performanslara ilişkin tanımların yazılması
  5. Performans derecelerinin sayısı ile derecelerin niteleyicilerine karar verilmesi
  6. Ara dereceler için performans tanımlarının yazılması ve taslak formun oluşturulması
  7. Hazırlanan taslak form için uzman görüşü alınması ve görüşlere göre düzeltilmesi
  8. Rubriğin deneme/taslak formunun oluşturulması ve ön pilot uygulamasının yapılması
  9. Ön pilot uygulama sonuçlarının en az üç puanlayıcı tarafından puanlanması
  10. Taslak formun düzeltilmesi, pilot uygulama için grubun belirlenmesi ve pilot uygulamanın yapılması
  11. Rubriğe ilişkin istatistiklerinin hesaplanması
  12. Rubriğin standartlaştırma çalışmasının yapılması
  13. Rubriğin kullanım kılavuzunun hazırlanması (Raporlaştırma)

1. Rubriğin kullanım amacının belirlenmesi

Rubrik hazırlamak zor olduğu gibi puanlamak için kullanmak da zaman alıcı olabilmektedir. Bu nedenle rubriğin neden kullanılacağının belirlenmesi hem geçerlik ve güvenirlik hem de kullanışlılık açısından önemlidir. Üst düzey becerileri ölçmek için çoktan seçmeli test kullanmak geçerlik açısından uygun olmadığı gibi öğrencilerin dersteki bilgileri hatırlamaları ya da tekrar etmeleri için verilen bir görevde rubrik kullanmak da kullanışlılık açısından uygun değildir. Bu nedenle öncelikle ölçmek istenilen özelliğin rubrik kullanılarak ölçülmesi gerektiği net olmalıdır. Yine puanlamanın kimin tarafından yapılacağı da bu aşamada belirlenmelidir: Öğretmen, öğrencinin kendisi, akranı ya da ebeveyni puanlama yapabilir.

Örneğin, öğrencilerimizin hikâye yazma becerilerini rubrik kullanarak puanlamak istediğimizi düşünelim. Aşağıdaki aşamalardan bazıları bu örnek üzerinden anlatılmıştır.

2. Rubrik türüne karar verilmesi

Rubriğin kullanım amacı belirlendikten sonra rubriğin göreve ya da ürüne özgü mü yoksa genel bir özelliğe özgü mü hazırlanacağı belirlenmelidir. “Hikâye yazma becerilerini rubrik kullanarak puanlamak” örneğinde her hikâye için ayrı puanlama anahtarı hazırlamak yerine bu rubriği her hikâyede kullanmak isteyelim. Bu durumda genel bir özelliği ölçmeye yönelik bir puanlama anahtarı hazırlamamız gerekmektedir. Buna ek olarak rubriğin holistik mi yoksa analitik mi olacağına da bu aşamada karar verilmelidir. Bunun için yanıtlanması gereken soru şudur: “Ölçülen özelliği alt parçalara/başlıklara/ölçütlere ayırarak mı puanlarım; yoksa özelliği alt parçalara ayırmaya gerek olmadan genel olarak mı puanlarım?” Bu sorunun yanıtında alt başlıklar ya da ölçütler yer alıyorsa analitik, genel olarak puanlama yapılacaksa holistik rubrik kullanılması uygun olacaktır. Örneğimizde ise yanıtlamamız gereken soru şöyledir: “Öğrencilerin hikayelerini puanlarken genel olarak mı puanlama yaparım yoksa puanlama yaptığım alt başlıklar var mı?” Bu soruya hazırlama aşamasında birlikte çalıştığımız öğretmenlerimiz alt başlıklar olduğunu belirttiği için analitik rubrik kullanılması uygun görülmüştür. Yine de örnek olması açısından holistik rubrik için de performans tanımları verilmiştir. Unutulmamalıdır ki rubrikle puanlama yapıldığında öğrencilerin performanslarındaki farklılaşmaların puanlarla ya da tanımlarla ortaya konabilmesi gerekir. Herkesin aynı puanı aldığı ya da aynı performans tanımı ile eşlendiği bir rubrik amaca hizmet etmiyor demektir. Böyle bir durumda rubrikte ölçütler ya da dereceler arttırılarak daha ayrıntılı tanımlar eklenmelidir.

3. Öğrencinin performansının puanlanacağı başlıkların/ölçütlerin yazılması

Rubrik türüne karar verdikten sonra puan verilecek olan başlıklar ya da ölçütler yazılmalıdır. Örneğin sınıf öğretmenleri “Hikâye yazma becerilerini analitik rubrik kullanarak puanlamak” için “Düzen”, “Yazım-Noktalama”, “İçerik ve Anlatım” gibi ölçütler belirlemiştir. Bu ölçütlerde performans tanımları yazılabileceği gibi bu ölçütler daha ayrıntılı alt ölçütlere ayrılarak da tanımlar yazılabilir. Örneğin “Düzen” başlığı, “Kağıt kenarındaki boşluklar” ve “Metin düzeni” şeklinde iki alt ölçüte de ayrılabilir. Bu ölçütler tamamen rubriğin hazırlanma amacına ve puanlamada herkes tarafından aynı şekilde anlaşılabilecek biçimde ifade edilmesine bağlıdır. Eğer başta belirlenemiyorsa ön-pilot sonrasında da bu aşama güncellenebilir. Öğrencilerden gelecek yanıtlar doğrultusunda ve performans farklılaştıkça ölçütler azaltılıp arttırılabilir. Holistik rubrikte ise yine bu başlıkların belirlenmesine ihtiyaç duyulur fakat her başlık ayrı ayrı puanlanmaz. Genel olarak bir puan verilir ya da genel bir performans tanımı yapılır.

4. Öğrenciden beklenen en yüksek ve en düşük performanslara ilişkin tanımların yazılması

Ölçütler belirlendikten sonra ya da genel performans tanımı yapılacağında en yüksek ve en düşük puanların hangi performansa verileceğinin belirlenmesi gerekir. Burada performans tanımı yazılırken puanlamayı yapacak bireylerin tanımları farklı anlamasını engellemek için “bazen, kısmen, ara sıra, nadiren, az, çok, biraz,…” gibi göreceli ifadelerin kullanılmasından kaçınılmalıdır. Örneğin analitik rubrikte “Düzen” ölçütünün “Metin düzeni” alt ölçütünde ve “İçerik ve Anlatım” ölçütünün “Başlatıcı olay ve amaç” alt ölçütünde öğrenciden beklenen en yüksek performans ve en düşük performans aşağıdaki gibi belirtilmiştir.

Alt Ölçütler

En yüksek performans

3: Üstün

En düşük performans

0: Performans yok

Metin Düzeni Paragraf başı, satır çizgisi takibi, harf büyüklüğündeki uyum ve kelimeler arasındaki boşluklar uygun şekilde yapılmıştır. Bu 4 kriterden hiç biri uygun yapılmamıştır.
Başlatıcı olay ve amaç Hikâyenin amacına göre bir başlatıcı olay ayrıntılı olarak yazılmıştır. Başlatıcı bir olay yazılmamıştır.

Benzer en yüksek ve en düşük performans tanımları holistik rubrikte de yer almalıdır. Örneğin en yüksek performans için “Metin düzenine tüm metin boyunca dikkat edilmiştir; Yazım yanlışı bulunmamaktadır, noktama işaretleri düzgün kullanılmıştır; hikâye anlatımında giriş-gelişme-sonuç bölümlerine yer verilmiştir.” şeklinde genel bir performans tanımı kullanılabilir. En düşük performansta ise yazılan hikâyede dört konuya da dikkat edilmemiş olması yer alabilir. Bu bütüncül bakış açısı nedeniyle görüleceği gibi holistik rubrik analitik rubrikten daha az ayrıntılı bilgi vermektedir. Ölçülen özellik holistik rubrik için uygun olduğunda ise puanlama kolaylığı mutlaka göz önünde bulundurulmalıdır.

Bu bütüncül bakış açısı nedeniyle görüleceği gibi holistik rubrik analitik rubrikten daha az ayrıntılı bilgi vermektedir. Ölçülen özellik holistik rubrik için uygun olduğunda ise puanlama kolaylığı mutlaka göz önünde bulundurulmalıdır.

5. Performans derecelerinin sayısı ile derecelerin niteleyicilerine karar verilmesi

En yüksek ve en düşük performans tanımları yapıldıktan sonra rubrikte kaç derece olacağı ve bu derecelerin niteleyicilerine karar verilmelidir. 0 ile 3 arasında yapılacak dört derece için “0: Performans yok; 1: Geliştirilmeli; 2: Kabul edilebilir; 3: Üstün”, 1 ile 5 arasında yapılacak beş derece için “1: Gelişime açık; 2: Orta; 3: İyi; 4: Çok iyi; 5: Mükemmel” şeklinde niteleyiciler kullanılabilir. Burada önemli olan rakamların birer puan değil performans sıraları olduğudur. Bu hiyerarşik sıralamaların her birinde performans tanımlarının birbirinden net bir şekilde ayırt edilebiliyor olması gerekir. Puanlamayı yapan birey 3 ya da 4 derecesini işaretlemede kafa karışıklığı yaşamamalıdır. Yine kaç derece kullanılacağı en yüksek ve düşük performanslar arasındaki farklılaşmayı ortaya çıkaracak şekilde belirlenmelidir. Genellikle rubriklerde 0 puan ya da performansın olmadığı kısım belirtilmemektedir. Eğer bu durumda da puanlama yapılırken puanlayıcılar arasında karar vermede sorun yaşanacağı düşünülüyorsa rubrikte belirtilmesi gerekmektedir. Bu dereceler daha sonra toplanarak puanlama için kullanılabileceği gibi ağırlıkları farklı olacak şekilde de puanlama yapılabilir. Örneğin 5 ölçüt ve 0-3 arasındaki derecelerde performans tanımları için en yüksek 15 en düşük 0 alınabileceği gibi her ölçüt 4 ile çarpılarak 60 ile 0 arasında da puanlama yapılabilir ya da ilk ölçüt 30, diğerleri 15 üzerinden de puanlanabilir. Bu durum rubriğin kullanım amacı ve rubrik hazırlayan kişinin önem verdiği ölçüte göre değişebilir. Holistik rubriklerde dereceler, ilgili performans tanımının yanında verildiğinden yine bu dereceler puanlama için de kullanılabilir. En yüksek performans tanımı tam puan, ara dereceler kısmî puan, en düşük performans tanımı ise en düşük puanı alabilir. 15 üzerinden puanlanan ve dört derecesi bulunan bir holistik rubrikte “tam puan 15, kısmî puanlar sırasıyla 10 ve 5, en düşük puan ise sıfır” olacak şekilde puanlanabilir. Yine bu puanlar performansın önemine göre öğretmenler ya da uzmanlar tarafından belirlenebilir. Sınıf içinde rubrik kullanımında dikkat edilmesi gereken konulardan biri puanlamadan daha çok performans tanımlarının öğrencilere geri bildirim vermesi için kullanılmasıdır. yalnız puan verildiğinde öğrenciler performanslarını iyileştirmek için neler yapmaları gerektiğini net olarak göremezler. Puan yerine her ölçütte hangi performans tanımını gerçekleştirdiği ile ilgili bilgi alan öğrenci hem hangi performanslardan yüksek puan aldığını hem de daha iyisi için ne yapması gerektiğini rubrik sayesinde görebilir. Özellikle niteleyicilerin “kötü, beklenen performansın altında, düşük düzeyde, …” gibi motivasyon kırıcı ifadelerden uzak olacak şekilde tercih edilmesi öğrencilerin doğru geri bildirim alabilmeleri için de önemlidir.

6. Ara dereceler için performans tanımlarının yazılması ve taslak formun oluşturulması

Bu aşama için en düşük ve en yüksek performanslar arasındaki derecelerde yer alan performans tanımlarının açık ve net olması yine belirsizlik içeren kelime ve ifadelerden uzak olacak şekilde yazılması önemlidir. Örneğin en yüksek performans tanımı “Hikâyenin amacına göre bir başlatıcı olay ayrıntılı olarak yazılmıştır.” olduğunda bu performansın düşük olduğu olası öğrenci yanıtlarının neler olabileceği düşünülmelidir. İstenen performansta iki önemli vurgu vardır: “Amaca uygun başlatıcı olay” ve “Olayın ayrıntı verilerek yazılması”. Dolayısıyla olası öğrenci performansları şu şekilde olabilir: - Başlatıcı olay yazılmıştır ama amaca uygun olmayabilir; - başlatıcı olay yazılmıştır ama ayrıntılı olarak anlatılmamıştır. En düşük performans ise bir önceki aşamada tanımlandığı gibi öğrencinin başlatıcı bir olay yazmamış olmasıdır. En sonda ise bu ihtimaller göz önünde bulundurularak performanslar en yüksekten en düşüğe doğru sıralanmalıdır. Benzer şekilde “Metin düzeni” alt ölçütünde öğrenciden beklenen en yüksek performans “Paragraf başı, satır çizgisi takibi, harf büyüklüğündeki uyum ve kelimeler arasındaki boşluklar uygun şekilde yapılmıştır.” şeklinde yazılmıştı. Burada ise öğrenciden beklenen performansta dört farklı vurgu yer almaktadır: Paragraf başı, satır çizgisi takibi, harf büyüklüğündeki uyum ve kelimeler arasındaki boşluklar. Öğretmenler buradaki vurgunun dördünün de aynı öneme sahip olduğunu belirtmeleri sonucu performans sıralamasında bu dört beklentinin kaç tanesini karşıladıkları üzerinden sıralama yapılmıştır. Bu iki örnek sonucu aşağıdaki satırlar elde edilmiştir.

Alt Ölçütler 3: Üstün 2: Kabul edilebilir 1: Geliştirilmeli 0: Performans gözlenmedi
Metin Düzeni Paragraf başı, satır çizgisi takibi, harf büyüklüğündeki uyum ve kelimeler arasındaki boşluklar uygun şekilde yapılmıştır. Bu 4 kriterden 3 ya da 2 tanesini uygun şekilde yapmıştır. Bu 4 kriterden 1 tanesini uygun şekilde yapmıştır. Bu 4 kriterden hiç biri uygun yapılmamıştır.
Başlatıcı olay ve amaç Hikâyenin amacına göre bir başlatıcı olay ayrıntılı olarak yazılmıştır. Hikâyenin amacına göre bir başlatıcı olay yazılmıştır, ayrıntı verilmemiştir. Başlatıcı olay amaca uygun olacak şekilde yazılmamıştır. Başatıcı bir olay yazılmamıştır.

Bu çalışma her ölçüt/alt ölçüt için yapıldığında ölçüt sayısı ve derece sayısının çarpımı kadar hücrede performans tanımlarının yer aldığı bir tablo oluşacaktır. Bu tablo analitik dereceli puanlama anahtarının taslak formudur. Holistik rubrikte ise en yüksek ve en düşük performans tanımları bir önceki aşamada belirtilmişti. Burada olası öğrenci performansları kısmî performanslar olarak değerlendirilmiştir: Öğrenci; metin düzenine dikkati, yazım yanlışı, noktalama işaretleri kullanımı, hikâye anlatımında giriş-gelişme-sonuç bölümlerinin yer alması vurgularından - yalnız birine ya da - iki tanesine ya da - üç tanesine dikkat etmemiş olabilir. Hikâye anlatımı öğretmenlere göre daha önemli olduğundan bu vurguya dikkat eden performans daha yüksek performans olarak kabul edilmiştir. Bu durumda aşağıdaki gibi bir holistik rubriğe ulaşılmıştır.

Düzeyler Performans Tanımları
Tam Puan
  • Metin düzenine tüm metin boyunca dikkat edilmiştir;

  • yazım yanlışı bulunmamaktadır;

  • noktama işaretleri düzgün kullanılmıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümlerine yer verilmiştir.

Kısmî Puan
  • Metin düzenine dikkat edilmemiştir;

  • yazım yanlışı bulunmamaktadır;

  • noktama işaretleri düzgün kullanılmıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümlerine yer verilmiştir.

ya da

  • Metin düzenine dikkat edilmiştir;

  • yazım yanlışı bulunmaktadır;

  • noktama işaretleri düzgün kullanılmıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümlerine yer verilmiştir.

ya da

  • Metin düzenine tüm metin boyunca dikkat edilmiştir;

  • yazım yanlışı bulunmamaktadır;

  • noktama işaretleri düzgün kullanılmamıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümlerine yer verilmiştir.

Kısmî Puan
  • Metin düzenine dikkat edilmemiştir;

  • Yazım yanlışı bulunmaktadır;

  • noktama işaretleri düzgün kullanılmıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümlerine yer verilmiştir.

ya da

  • Metin düzenine dikkat edilmemiştir;

  • yazım yanlışı bulunmamaktadır;

  • noktama işaretleri düzgün kullanılmamıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümlerine yer verilmiştir.

ya da

  • Metin düzenine dikkat edilmiştir;

  • Yazım yanlışı bulunmaktadır;

  • noktama işaretleri düzgün kullanılmamıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümlerine yer verilmiştir.

Kısmî Puan
  • Metin düzenine dikkat edilmemiştir;

  • yazım yanlışı bulunmaktadır;

  • noktama işaretleri düzgün kullanılmamıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümlerine yer verilmiştir.

Kısmî Puan
  • Metin düzenine dikkat edilmemiştir;

  • yazım yanlışı bulunmamaktadır;

  • noktama işaretleri düzgün kullanılmıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümlerinden birine yer verilmemiştir.

ya da

  • Metin düzenine dikkat edilmiştir;

  • yazım yanlışı bulunmaktadır;

  • noktama işaretleri düzgün kullanılmıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümlerinden birine yer verilmemiştir.

ya da

  • Metin düzenine dikkat edilmiştir;

  • yazım yanlışı bulunmamaktadır;

  • noktama işaretleri düzgün kullanılmamıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümlerinden birine yer verilmemiştir.

Sıfır Puan
  • Metin düzenine dikkat edilmemiştir;

  • yazım yanlışı bulunmaktadır;

  • noktama işaretleri düzgün kullanılmamıştır;

  • hikâye anlatımında giriş-gelişme-sonuç bölümleri yer almamaktadır.

Bu holistik rubrikte dikkat edilmesi gereken en önemli kısım açıkta olası öğrenci performansının kalmamasıdır. Olası performans evreninin rubriğin tüm kısmî puanlarında yer alması beklenir. Burada aynı puanı alacak olan performanslar “ya da” şeklinde aynı hücreye yazılmıştır. Öğretmenlere ya da uzmanlara göre farklı olduğu düşünülen performanslar yeni kısmî puan satırı eklenerek çoğaltılmıştır. Dikkat edilmesi gereken bir diğer nokta ise özellikle hikâye anlatımında akıştaki anlam kaybı ile ilgili herhangi bir bilginin puanlamaya dahil edilmemesidir ya da ana karakter, başlatıcı olay gibi hikâye unsurlarının yer almamasıdır. Analitik rubrik ile puanlanması gereken bir özelliğin ya da performansın, holistik rubrikler kullanılarak puanlanması öğrenci performansı hakkında bilgi kaybı yaşanması ihtimali nedeniyle önerilmemektedir.

7. Hazırlanan taslak form için uzman görüşü alınması ve görüşlere göre düzeltilmesi

Hazırlanan taslak form uzman görüşüne sunularak hem ölçütler ve performans dereceleri hem de performans tanımlarının uygunluğu hakkında geri bildirim alınır. Uzmanlar belirlenirken hem ölçülen özelliğe hem de rubrik kullanımına aşina olan bireylerden oluşacak şekilde seçilir. Alınan geri bildirimlere göre gerekli düzeltmeler yapılarak rubrik ön pilot için hazırlanır. Burada uzmanların demografik bilgileri, hangi ölçütlerde nasıl düzeltmeler yapıldığı, performans tanımlarında yapılan değişiklikler mutlaka raporlanmalıdır.
Uzman görüşlerinin nasıl elde edildiğine dair nicel ve nitel bilgiler ya da aralarındaki uyum indeksleri “Ölçek Geliştirme Aşamaları” başlığında bahsedilen katsayılarla hesaplanabilir. Bunun için “5. Olası boyut(lar) ve madde havuzuna ilişkin uzman görüşünün alınması” kısmı incelenebilir.

8. Rubriğin deneme/taslak formunun oluşturulması ve ön pilot uygulamasının yapılması

Taslak form için uygulamanın nasıl yapılacağına ilişkin yönerge ölçek geliştirme aşamasındaki gibi bu aşamada düzenlenir. Formu uygulayacak olan birey katılımcıdan farklı ise (çocuklar için anne/baba formu, akran değerlendirme formu vb.) hem uygulayıcı için hem puanlayıcı için ayrı yönergeler düzenlenmelidir. Hazırlanan taslak form uygulanacak olan asıl örneklem ile benzer özelliklerdeki öğrencilerden oluşan küçük (5-10 birey) bir gruba uygulanır. Ön pilot uygulamasındaki asıl amaç rubrikteki performans tanımlarının uygulanan grup tarafından anlaşılırlığı, ifadelerin, kelimelerin ve varsa şekil/görsellerin uygunluğu gibi dilsel ve şekilsel anlaşılırlıktır. Bir diğer amaç ise öğrencilerin farklı performanslarını elde ederek rubrikteki performans tanımlarının uygunluğunun belirlenmesidir.

9. Ön pilot uygulama sonuçlarının en az üç puanlayıcı tarafından puanlanması

Ön pilot uygulama sonucu elde edilen performanslar en az üç puanlayıcı tarafından puanlanarak hazırlanan rubrik ile öğrencilerin performanlarındaki farklılaşmanın doğru olarak yansıtılabilmesi için gerekli düzenlemeler yapılır. Burada üç puanlayıcı kullanılması olası varyansın ortaya çıkması için asgari sayıdır. Yine öğrencilerin performanslarında puanlanamayan kısım olup olmadığı, açıkta performans kalıp kalmadığı da bu aşamada kontrol edilmelidir.

10. Taslak formun düzeltilmesi, pilot uygulama için grubun belirlenmesi ve Pilot uygulamanın yapılması

Yapılan düzeltmeler sonrasında taslak formun uygulanacağı asıl grup ile benzer özelliklerde, ölçülen özelliğe farklı düzeylerde sahip olması beklenen bir grup belirlenmelidir. Yine burada puanlayıcı sayısının da arttırılması puanlamadaki uyumun belirlenmesi için önemlidir. Bu gruptan elde edilen bilgiler geçerlik ve güvenirlik kanıtlarının sunulmasında kullanılacaktır. Bu nedenle hangi kuram temel alınarak analizler gerçekleştirilecekse ilgili kurama uygun bir örneklem büyüklüğü belirlenmesi önemlidir. Bunun için “Ölçek Geliştirme Aşamaları” başlığının “7.Ölçek maddelerinin düzeltilmesi ve pilot uygulama için grubun belirlenmesi” kısmı incelenmelidir.

11. Rubriğe ilişkin istatistiklerinin hesaplanması

Bu aşama için de öncelikle “Ölçek Geliştirme Aşamaları” başlığının “9. Maddelerin ve ölçeğin istatistiklerinin hesaplanması, boyutlara karar verilmesi” kısmı incelenmelidir. Farklı olarak rubriklerde mutlaka puanlama ve puanlayıcı güvenirlikleri için de kanıt sunulması gerekir. Bu kanıtlar için hangi istatistiklerin nasıl hesaplanacağı alanyazından incelenebilir. Puanlayıcılar arasında uyum gözlenirse rubrikten elde edilen puanlar doğrudan kullanılabilir. yalnız bir puanlayıcının puanlamaları öğrencilerin değerlendirilmesinde kullabileceği gibi puanlayıcıların ortalama puanlarının alınması, ya da ortak bir puan üretilmesi (örn; Temel Bileşenler Analizi) gibi farklı yöntemler amaca göre seçilebilir. Puanlayıcılar arasında uyum gözlenmediği durumlarda puanlamayı yapan kişilerin yeniden eğitilerek puanlamanın baştan yapılması önerilir. Eğer uyum gözlenmemeye devam ederse rubrikteki performans tanımlarının yazılması aşamasına geri dönülmesi gerekir.

12. Rubriğin standartlaştırma çalışmasının yapılması

Bu aşama için hem “Ölçek Geliştirme Aşamaları” bölümündeki “10. Ölçeğin standartlaştırma çalışmalarının yapılması”, hem de “Başarı Testi Geliştirme Aşamaları” bölümündeki “8. Testin standartlaştırma çalışmalarının yapılması” kısımları incelenmelidir. Kullanılan rubriğin yapısına göre uygun olan yöntemler tercih edilmelidir.

13. Rubriğin kullanım kılavuzunun hazırlanması (Raporlaştırma)

Son aşama için gerekli bilgiler de diğer ölçme araçları için benzerdir. Bu nedenle “Ölçek Geliştirme Aşamaları” başlığının “11. Ölçeğin kullanım kılavuzunun hazırlanması (Raporlaştırma)” kısmı incelenmelidir.

1.5 Ölçme Araçlarının Uyarlanması

Ölçme aracına karar verme sürecinde bahsedildiği gibi herhangi bir psikolojik özelliği ya da yapıyı amacımıza uygun bir şekilde minimum hata ile ölçmek istediğimizde bir ölçme aracı arayışına gireriz. Özellikle aynı dil ve kültürde benzer demografik özelliklere sahip gruplar üzerinde geliştirilmiş, mümkünse güncel bir ölçek arayışımız her zaman olumlu bir şekilde sonuçlanmayabilir. Bazen bulduğumuzu düşündüğümüz ölçme aracının aynı dil ve kültürde farklı yaş gruplarına ya da farklı dil veya kültürde benzer özellikteki gruplara uygulandığına rastlayabiliriz. Özellikle farklı dilde geliştirilmiş bir ölçme aracını kullanmak istediğimizde çeviri işlemi yetersiz kalmakta, kültürel açıdan uyumluluğun ve yapısal eşdeğerliğinin de sağlanması gerekmektedir. Bu nedenle bu süreç çeviri yerine uyarlama olarak adlandırılmaktadır. Bir ölçme aracı bir dilden başka bir dile çevrildiğinde, ölçme aracının farklı dillerde kullanılan formlarının birbirinin eşdeğeri olarak düşünülemeyeceği uzun yıllardır bilinmektedir (Angoff ve Cook, 1988; Hambleton, 2005; S. G. Sireci, Foster, Robin ve Olsen, 1997). İki formun eşdeğer olması, dil fark etmeksizin aynı kuramsal altyapıya sahip aynı özelliğin aynı psikometrik sonuçlarla ortaya konulabilmesi demektir. Bu nedenle bir ölçme aracının farklı bir dile iyi bir şekilde çevrilmesi geçerlik ve güvenirlik kanıtları için tek başına yeterli değildir. Burada asıl önemli olan iki farklı dildeki formların birbirine eşdeğer olması ve bunun da ampirik olarak doğrulanmasıdır. Bu konuda geliştirilen yöntemlerin güçlü ve zayıf yönleri ise hala tartışılmaktadır (Hambleton ve Patsula, 1998). Çünkü bir ölçme aracı aynı ya da farklı dil ve kültürdeki farklı gruplarda aynı psikolojik yapıyı ölçmeyebilir. Şüphesiz bir ölçme aracını uyarlamanın yeniden geliştirmeye göre daha ekonomik olduğunun düşünülmesi, kültürler-arası ya da gruplar-arası bir karşılaştırma yapma imkânı sağlaması gibi nedenlerden dolayı uyarlama çalışmaları oldukça fazla tercih edilmektedir. Halbuki hem geliştirme hem de uyarlamanın kendi içinde zorlaşan ya da kolaylaşan yönleri bulunmaktadır. Uyarlama çalışmalarında, orijinal ve uyarlanan ölçme araçlarıyla aynı psikolojik yapıların ölçüldüğüne ilişkin geçerlik ve güvenirlik kanıtları birlikte sunulmalıdır.

Aşağıdaki örnekte uyarlama sürecinde yapılan yanlış bir durumdan bahsedilmiş, daha sonra bu yanlış adımlarda gözden kaçırılan kısımlar açıklanmıştır. İzlenmesi gereken süreç ise “Ölçme Aracı Uyarlama Aşamaları” başlığı altında verilmiştir.

Örnek 5.1
Irmak, alanyazın incelemesine göre ölçmek istediği yapıyı ölçen farklı dil ve kültürde geliştirilen bir ölçeğe rastlamış ve bu ölçeği uyarlamaya karar vermiştir. Uyarlama sürecinde,
     1. ölçek maddelerini Türkçe’ye çevirmiş ve veri toplamaya başlamıştır.
     2. Tek bir gruptan elde ettiği veriyi kullanarak AFA ve DFA ile geçerlik kanıtlarını sunmuştur.
     3. Elde ettiği sonuçlara göre ölçekten üç madde çıkararak uyarlama çalışmasını tamamlamıştır.
Irmak çalışmasını yaparken neleri gözden kaçırmıştır?

Irmak’ın çalışmasında olduğu gibi birçok araştırmacı benzer sorunlarla karşılaşabilmektedir. Bu örnek durumlar aşağıda sırasıyla incelenmiştir.

Durum 1 “ölçek maddelerini Türkçeye çevirmiş ve veri toplamaya başlamıştır.”

Öncelikle Irmak’ın ölçme aracı uyarlamasının amacını ve neden alan yazındaki bu ölçeği seçtiğini, geliştirmek yerine neden uyarlamayı tercih ettiğini detaylı bir şekilde açıkladığını varsayıyoruz. Irmak’ın yalnız Türkçeye çevirerek ölçme aracını kullanamayacağına daha önce değinilmişti. Aynı zamanda çeviri ve geri çeviri süreçlerinde, alanlarında uzman olan bireylerin yer alması ve bu bireylerin ölçülecek yapı hakkında da donanımlı olması gerekmektedir. Burada asıl önemli olan nokta “dilsel eşdeğerlik” kanıtlarına ilişkin yapılan uygulamaların eksik olmasıdır. Ayrıntılar için “Ölçme Aracı Uyarlama Aşamaları”nı inceleyiniz.

Durum 2 “Tek bir gruptan elde ettiği veriyi kullanarak AFA ve DFA ile geçerlik kanıtlarını sunmuştur.”

Alan yazın incelendiğinde yapı geçerliği için istatistiksel kanıtlarda AFA ve DFA ile yapının ve boyutların ortaya konulması gerektiğine ilişkin açıklamalara sıklıkla rastlanmaktadır. Fakat burada asıl dikkat edilmesi gereken nokta bu iki uygulamanın aynı verilere uygulanmaması gerektiğidir. Hem AFA hem DFA yapmak için aynı gruptan toplanılan veriyi iki farklı parçaya bölmek de uygun değildir. Çünkü AFA sonucu madde çıkarıldığında ya da test formunun şekilsel olarak yapısı değiştirildiğinde bile yapının aynı kaldığını söylemek mümkün olmayacaktır. Dolayısıyla DFA’da test edilen yapının aynı yapı olduğu iddia edilemeyecektir. Genellikle AFA, kuramsal olarak var olan bir yapının ampirik olarak keşfedilmesinde, DFA ise ampirik olarak kanıtlanmış ya da rasyonel olarak ortaya konulmuş bir yapının yeniden toplanan veriler üzerinden doğrulanmasında kullanılmaktadır. Bu nedenle özellikle uyarlama çalışmalarında diğer geçerlik kanıtlarına ek olarak yalnız DFA yapılmasında herhangi bir sakınca görülmemektedir. Ancak madde ekleme çıkarma yapıldığında ya da DFA ile yapı doğrulanamadığında orijinal ölçme aracını geliştirenlerden izin alınarak AFA ile geçerlik kanıtları sunulabilir.

Durum 3 “Elde ettiği sonuçlara göre ölçekten üç madde çıkararak uyarlama çalışmasını tamamlamıştır.”

Genellikle uyarlama çalışmalarında orijinal ölçekteki yapı DFA ile doğrulanmaya çalışılır fakat bunun mümkün olmadığı durumlarla da karşılaşılabilir. Yapı doğrulanmamış ise yine orijinal ölçme aracını geliştirenlerden izin alınarak uyarlanan kültürde yapının yeni baştan keşfedilmesi gerekir. Bunun için AFA yapılması uygundur. AFA sonucuna göre madde çıkarma işlemi yapılabilir. Unutulmamalıdır ki, uyarlama aşamasında yapılan tüm çalışmalar ve orijinal ölçme aracından farklı olarak yapılan değişikliklerin tamamı gerekçeleriyle birlikte ölçme aracını geliştiren yazarlara bildirilmelidir. Ayrıntılar için “Ölçme Aracı Uyarlama Aşamaları”nı inceleyiniz.

1.5.1 Ölçme Aracı Uyarlama Aşamaları

Aşağıda ölçme aracı uyarlama süreci yedi aşamada verilmiştir. Farklı kaynaklarda bu aşamaların sayıları değişmekle birlikte süreç genel olarak aynıdır. İdeal olan aşağıdaki tüm aşamalara dikkat edildiğinin kanıtlarla belirtilmesidir. Yapılamayan ya da atlanan aşamaların nedeni ayrıntılı olarak verilmelidir.

  1. Orijinal ölçme aracının geçerlik ve güvenirlik kanıtlarının incelenmesi
  2. Orijinal yazarlardan izin alınması ve dilsel eşdeğerliğin sağlanması
  3. Ön pilot uygulamasının yapılması
  4. Pilot uygulama için grubun belirlenmesi ve pilot uygulamanın yapılması
  5. Maddelerin ve ölçme aracının istatistiklerinin hesaplanması, yapının doğrulanması
  6. Ölçme aracının standartlaştırma çalışmalarının yapılması
  7. Uyarlanan ölçme aracının kullanım kılavuzunun hazırlanması (Raporlaştırma)

1. Orijinal ölçme aracının geçerlik ve güvenirlik kanıtlarının incelenmesi

Uyarlama çalışmalarına başlamadan önce orijinal ölçme aracının geçerlik ve güvenirlik kanıtları detaylı bir şekilde incelenmelidir. Hangi ölçme kuramının temel alındığı, geçerlik ve güvenirlik kanıtlarının nasıl elde edildiği ve sunulduğu listelenmelidir. Uyarlama çalışmasında elde edilen geçerlik ve güvenirlik kanıtlarına sadık kalınmalıdır. Orijinal ölçme aracında yer almayan kanıtlar var ise uyarlama çalışması mümkünse bu eksiklikler giderilerek yapılmalıdır. Örneğin; MTK ile kanıtların raporlandığı bir ölçme aracı için yalnız KTK’ye dayalı geçerlik ve güvenirlik kanıtları verilmesi yeterli değildir. Yine orijinal ölçme aracının kanıtlarında yalnız madde güçlüğü ya da ayırt ediciliği, gruplar arasındaki farklar gibi kanıtlar kullanılmış olsa da uyarlama çalışmasında yapıyı keşfetmeye ya da doğrulamaya yönelik kanıtlar (AFA, DFA, YEM,…) da sunulmalıdır. Uyarlama çalışmasında veri toplamaya başlamadan önce kullanılacak tüm geçerlik ve güvenirlik kanıtlarına karar verilmelidir.

2. Orijinal yazarlardan izin alınması ve dilsel eşdeğerliğin sağlanması

Öncelikle uyarlanmaya karar verilen ölçme aracı için orijinal yazarlardan izin alınması gerekir. Uyarlama izni alındıktan sonra sürece başlanmalıdır. Bu izne ilişkin kanıtlar da çalışmanın eklerinde sunulmalıdır. Daha sonra ölçme aracı her iki dili, kültürü ve ölçülecek yapıyı da iyi bilen birkaç uzman tarafından bağımsız olarak kaynak dilden hedef dile çevrilir. Aracın çeviri formunun gözden geçirilmesinin ardından orijinal formdaki maddelerin çeviri formundaki maddeler ile eşdeğer olup olmadığının sınanması gerekir (Hambleton, 2005). En yaygın kullanılan yöntem “ileri ve geri çeviri”dir. Öncelikle ölçme aracı kaynak dilden hedef dile uyarlanır ve sonrasında uyarlanan formun uygun olup olmadığı başka çevirmenlerce değerlendirilir. Ardından geri çeviri yapılarak aracın hedef dilden kaynak dile geri çevrilmesi sağlanır. Yine başka çevirmenlerce geri çevrilen form ile orijinal formun eşdeğerliği değerlendirilir. Mümkünse orijinal yazarlardan da geri çeviri yapılmış formun incelenmesi istenebilir. Bu yargısal sürecin ardından her iki dili de iyi bilen ve her iki kültürü de tanıyan bireylerden oluşan bir gruba aracın hem orijinal hem de çeviri formu uygulanır. Elde edilen veriler için korelasyon, bağımlı gruplar için t testi gibi yöntemler uygulanarak grupların ölçülen özellikler açısından benzer olduğuna ilişkin kanıtlar sunulur. Ancak bu bireylerin her iki dilde de yeterliklerinin eşit olduğunun varsayılması bu yöntemin en önemli eksikliğidir (Stephen G. Sireci, 2005). Tek grup uygulaması yorgunluk, motivasyon eksikliği ve maddelere aşinalık gibi birçok sınırlılığa sahip olabileceği için elde edilen sonuçlar yorumlanırken bu sınırlılıklar dikkate alınmalıdır. Dilsel eşdeğerlik sağlandıktan sonra ön pilot için taslak form hazırlanır. Burada yönergelerin uygunluğu da değerlendirilmelidir.

3. Ön pilot uygulamasının yapılması

Dilsel eşdeğerlik aşamasından sonraki aşamalar, ölçek geliştirme aşamalarına benzer şekilde sürdürülebilir. Ön pilot uygulama için grubun özellikleri ve kaç bireyden oluşacağına ilişkin bilgiler “Ölçek Geliştirme Aşamaları” başlığının “Ölçeğin deneme/taslak formunun oluşturulması ve ön pilot uygulamasının yapılması” kısmında verilmiştir. Ölçek geliştirmeden farklı olarak burada dikkat edilmesi gereken nokta; ön uygulamanın orijinal ölçme aracının uygulamasındaki benzer gruba ve benzer uygulama şartlarında yapılması gerektiğidir.

4. Pilot uygulama için grubun belirlenmesi ve pilot uygulamanın yapılması

Ön pilot uygulama sonrasında pilot uygulama için orijinal ölçme aracının uygulandığı gruba benzer demografik özelliklere (yaş, cinsiyet, eğitim vb.) sahip bir grup seçilir. Pilot uygulama için grubun özellikleri ve kaç bireyden oluşacağına ilişkin bilgiler “Ölçek Geliştirme Aşamaları” başlığının “7. Ölçek maddelerinin düzeltilmesi ve pilot uygulama için grubun belirlenmesi” kısmında verilmiştir.

5. Maddelerin ve ölçme aracının istatistiklerinin hesaplanması, yapının doğrulanması

Uyarlaması yapılan ölçme aracının türüne göre ilgili bölümlerdeki geçerlik ve güvenirlik kanıtları elde edilmelidir. Örneğin bir ölçek uyarlanıyorsa yapı geçerliği kanıtları, bir başarı testi uyarlanıyorsa kapsam geçerliği ile birlikte yapı geçerliği kanıtları sunulmalıdır. Uyarlama çalışmalarında yapı geçerliğinin en önemli kanıtı, yapının doğrulanması ve kurulan model-veri uyumunun sağlanması (DFA ile) ya da yapı doğrulanmadığında, madde eklenmesi ya da çıkarılması durumlarında yapının yeniden keşfedilmesidir (AFA ile). Bu aşama için de öncelikle “Ölçek Geliştirme Aşamaları” ve “Başarı Testi Geliştirme Aşamaları” başlıklarının ilgili bölümleri incelenmelidir. Aynı zamanda alt gruplardan (cinsiyet, dil, coğrafi bölge, sosyoekonomik düzey vb.) elde edilen ölçümlerin gruba ait olma özelliğine göre değişip değişmediği ölçme değişmezliği çalışması yapılarak incelenebilir. Ölçülen özellik açısından aynı yetenek düzeyindeki bireylerin aynı puanı alması beklenir. Alt gruplara göre bir farklılaşma beklenmez. Bu nedenle özellikle kültürlerarası karşılaştırma amacı taşıyan çalışmalarda ölçme değişmezliğinin sağlanması önemlidir. Değişmezlik sonuçları da yapı geçerliği kanıtı olarak sunulabilir. Ölçme değişmezliği için alanyazındaki ilgili kaynaklar incelenebilir. Burada AFA ve DFA dışında ölçüt geçerliği, ıraksak-yakınsak geçerlik gibi geçerlik kanıtları da sunulabilir.

6. Ölçme aracının standartlaştırma çalışmalarının yapılması

Uyarlaması yapılan ölçme aracının orijinal raporunda standart belirleme/norm çalışması kanıtları olsa bile uyarlama çalışması yapıldıktan sonra da yeniden standart belirleme çalışmasının yapılması gerekir. Orijinal ölçeğin düşük/orta/yüksek gibi puanlara ayrılırken kullanılan kesme puanları da hedef kültür/grup için yeniden elde edilmelidir. Standart belirleme işlemleri için alan yazındaki ilgili kaynaklar incelenebilir.

7. Uyarlanan ölçme aracının kullanım kılavuzunun hazırlanması (Raporlaştırma)

Uyarlama sürecinin tüm aşamalarının yer aldığı detaylı bir kılavuzun hazırlanması uyarlanan ölçme aracını kullanacak bireylere yol gösterici olacaktır. Bu kısım için gerekli bilgiler de benzerdir. Bu nedenle “Ölçek Geliştirme Aşamaları” başlığının “11. Ölçeğin kullanım kılavuzunun hazırlanması (Raporlaştırma)” kısmı incelenmelidir. Bu raporda ölçme aracının orijinali ile uyarlanan hâlinin psikometrik özellikleri karşılaştırılarak bu özelliklerin benzer olduğu, benzer olmayan kısımların ise nedenleri açıklanabilir. Burada özellikle ölçeklerin yapısı ile ilgili karşılaştırmalara yer verilmelidir. Orijinal ve uyarlanan formların geçerlik ve güvenirlik kanıtları, maddelerin psikometrik özellikleri, uygulama yapılan grupların yaş, cinsiyet vb. demografik özellikler açısından benzer olduğu, en önemlisi de puan dağılımları ve puanların yorumlanması detaylı bir şekilde verilmelidir. Bir ölçme aracının uyarlama amacı dışında kullanılmasının, geçerlik ve güvenirlik kanıtlarının hedef grup için yeniden elde edilmesini gerektirdiği unutulmamalıdır.

  • Bölüm atıf bilgisi: Yıldırım-Seheryeli M., & Gören, S. (2025). Ölçme aracı seçme, geliştirme ve uyarlama. N. Güler, B. Atar & K. Atalay-Kabasakal (Ed.), R ile psikometri içinde. Pegem Akademi.

Appendix

1.5.2 Ek-A: Çoktan seçmeli ve açık uçlu madde yazımında kullanılabilecek kontrol listesi

Kaynaklar

Akbaş, U., Aydoğdu, Ş., Büyüköztürk, Ş. ve Yıldırım Seheryeli, M. (2022). Değişen seçenekli çoktan seçmeli maddelerin uygulanmasını sağlayan sınav sisteminin geliştirilmesi. 8. Uluslararası Eğitimde ve Psikolojide Ölçme ve Değerlendirme Kongresi içinde. İzmir: Ege Üniversitesi. https://epodder.org/wp-content/uploads/2023/01/cmeep-2022.pdf adresinden erişildi.
Angoff, W. ve Cook, L. L. (1988). Equating the scores of the Prueba de Aptitud Academic and the Scholastic Aptitude Test. ETS Research Report Series, 1988(1), i-18. https://doi.org/10.1002/j.2330-8516.1988.tb00259.x adresinden erişildi.
Arrindell, W. ve Van der Ende, J. (1985). An empirical test of the utility of the observations-to-variables ratio in factor and components analysis. Applied Psychological Measurement, 9(2), 165-178.
Association, A. E. R., Association, A. P. ve Measurement in Education, N. C. on. (2014). Standards for educational and psychological testing. American Educational Research Association.
Bilir, B., Akbaş, U. ve Darıca, N. (2022). Okul Öncesi öğretmenlerine yönelik inovatif düşünme eğilimi ölçeğinin geliştirilmesi. Eğitim Teknolojisi Kuram ve Uygulama, 13(1), 233-253.
Bollen, K. A. (1989). Structural equations with latent variables. John Wiley & Sons, Inc.
Büyüköztürk, Ş. (2005). Anket Geliştirme. Türk Eğitim Bilimleri Dergisi, 3(2), 133-151. https://dergipark.org.tr/tr/pub/tebd/issue/26124/275190 adresinden erişildi.
Büyüköztürk, Ş. (2020). Veri analizi el kitabı (28.Baskı bs.). Ankara: Pegem Akademi.
Cizek, G. J. (2001). Setting performance standards. Concepts, methods, and perspectives, 2001.
Cohen, P. &. W., Jacob & Cohen. (2013). Applied multiple regression/correlation analysis for the behavioral sciences. Routledge.
Comrey, A. L. ve Lee, H. B. (1992). A first course in factor analysis (2nd ed). Lawrence Erlbaum Associates, Inc.
Costello, A. B. ve Osborne, J. W. (2005). Best practices in exploratory factor analysis: Four recommendations for getting the most from your analysis. Practical Assessment, Research & Evaluation, 10, 1-9.
Crocker, L. ve Algina, J. (2006). Introduction to Classical and Modern Test Theory. Cengage Learning.
De Ayala, R. J. (2009). The theory and practice of item response theory (Methodology in the social sciences). Guildford Press.
Ding, L., Velicer, W. F. ve Harlow, L. L. (1995). Effects of estimation methods, number of indicators per factor, and improper solutions on structural equation modeling fit indices. Structural Equation Modeling, 2(2), 119-144.
Erkuş, A. ve Selvi, H. (2019). Ölçek uyarlama ve "norm" geliştirme. Pegem Akademi.
Grolound, N. E. (1971). Measurement and evaluation in teaching. The Macmillan.
Hambleton, R. K. (2005). Issues, designs, and technical guidelines for adapting tests into multiple languages and cultures. R. K. Hambleton, P. F. Merenda ve C. D. Spielberger (Ed.), Adapting educational and psychological tests for cross-cultural assessment içinde. Lawrence Erlbaum Associates.
Hambleton, R. K. ve Patsula, L. (1998). Adapting tests for use in multiple languages and cultures. Social indicators research, 45, 153-171.
Hambleton, R. K., Pitoniak, M. J. ve Copella, J. M. (2012). Essential steps in setting performance standards on educational tests and strategies for assessing the reliability of results. Setting performance standards içinde (ss. 47-76). Routledge.
Kline, P. (1994). An easy guide to factor analysis. Routledge.
Nunnally, J. C. ve Bernstein, I. H. (1994). Psychometric theory. McGraw-Hill series in psychology. McGraw-Hill Companies,Incorporated.
Pehlivan, E. B. ve Kutlu, Ö. (2014). Türkçe test maddelerinde yanıtlama davranışlarının incelenmesi. Eğitimde ve Psikolojide Ölçme ve Değerlendirme Dergisi, 5(1), 61-71. http://dx.doi.org/10.21031/epod.20130 adresinden erişildi.
Sireci, Stephen G. (2005). Using bilinguals to evaluate the comparability of different language versions of a test. Adapting educational and psychological tests for cross-cultural assessment içinde (ss. 117-138).
Sireci, S. G., Foster, D. F., Robin, F. ve Olsen, J. (1997). Comparing dual-language versions of an international computerized-adaptive certification exam.
Tabachnick, B. G. ve Fidell, L. S. (2013). Using multivariate statistics (C. 6). Pearson Education.
Thorndike, R. L. (1982). Educational measurement: Theory and practice. The improvement of measurement in education and psychology, 3-13.
Turgut, F. ve Baykul, Y. (2021). Eğitimde ve psikolojide ölçme. Pegem Akademi Yayınları.
Yeşilyurt, S. ve Çapraz, C. (2018). Ölçek geliştirme çalışmalarında kullanılan kapsam geçerliği için bir yol haritası. Erzincan Üniversitesi Eğitim Fakültesi Dergisi, 20(1), 251-264.
Yıldırım Seheryeli, M. ve Tan, Ş. (2019). Examination of the reliability of the measurements regarding the written expression skills according to different test theories. Journal of Measurement and Evaluation in Education and Psychology, 10(3), 327-347.
Yurdugül, H. (2005). Ölçek geliştirme çalışmalarında kapsam geçerliği için kapsam geçerlik indekslerinin kullanılması. XIV. Ulusal Eğitim Bilimleri Kongresi içinde. Denizli, Türkiye: Pamukkale Üniversitesi Eğitim Fakültesi.
Zwick, W. R. ve Velicer, W. F. (1986). Comparison of five rules for determining the number of components to retain. Psychological Bulletin, 99(3), 432-442.

  1. Dereceleme ölçekleri özellikle duyuşsal alanın ölçülmesinde kullanılabildiği gibi bir görevin puanlanmasında, öğrencilerin bazı ölçütleri ne derece karşıladıklarının belirlenmesinde de kullanılabilmektedir. Bu örnekte duyuşsal alanın dışındaki örnekler için yorumda bulunulmuştur.↩︎