EXAMINATION OF SCORING RELIABILITY ACCORDING TO GENERALIZABILITY THEORY IN CHECKLIST, ANALYTIC RUBRIC AND RATING SCALES

KONTROL LİSTESİ, ANALİTİK RUBRİK VE DERECELEME ÖLÇEKLERİNDE PUANLAYICI GÜVENİRLİĞİNİN GENELLENEBİLİRLİK KURAMINA GÖRE İNCELENMESİ

EXAMINATION OF SCORING RELIABILITY ACCORDING TO GENERALIZABILITY THEORY IN CHECKLIST, ANALYTIC RUBRIC AND RATING SCALES

 
Author : Mehtap AKTAŞ  , Devrim ALICI  
Type :
Printing Year : 8
Number : 29
Page : 991-1010
DOI Number: :
Cite : Mehtap AKTAŞ , Devrim ALICI, (8). EXAMINATION OF SCORING RELIABILITY ACCORDING TO GENERALIZABILITY THEORY IN CHECKLIST, ANALYTIC RUBRIC AND RATING SCALES. International Journal Of Eurasia Social Sciences, 29, p. 991-1010. Doi: .
    


Summary
The aim of this research is to examine the inter-rater reliability in the context of G theory when the same performance tasks are rated by different raters with the help of a checklist, rating scale and analytical rubric. To this end, a checklist, rating scale and analytic rubric were prepared to rate the story-writing skills of fifth grade students. Six stories selected from the stories written by the 5th grade students of the primary school were rated 45 different raters with three different scoring keys at intervals of 10-15 days. 100 samples each were drawn with 2, 3, 5 and 10 raters from 45 raters participating in the study. For the 400 samples obtained, reliability between the raters was calculated according to G theory. For the 100 samples obtained for each case, the median and standard error were calculated. When the median values of the reliability estimates are examined, the median values increase as the number of raters and the number of categories increase, except for the median of the reliability of the raters that the 5 raters make using the checklist; it was observed that the standard errors obtained decreased as the number of raters increased. It has been determined that the lowest standard error values are obtained in the case of 10 raters. When the number of raters was 5 and the number of category was 2, it was determined that the reliability estimation gave the highest value.

Keywords
Generalizability theory, inter-rater reliability, checklist, rating scale, analytic rubric.

Abstract
Bu araştırmanın amacı, aynı performans görevlerinin farklı sayıda puanlayıcı tarafından kontrol listesi, dereceleme ölçeği ve analitik rubrik yardımıyla puanlanması durumunda, puanlayıcılar arası güvenirliklerinin G kuramı çerçevesinde incelenmesidir. Bu amaç doğrultusunda, 5. sınıf düzeyindeki öğrencilerin hikâye yazma becerilerini puanlamak amacıyla, kontrol listesi, dereceleme ölçeği ve analitik rubrik hazırlanmıştır. İlköğretim 5. sınıf öğrencilerine yazdırılan hikâyeler arasından seçilen 6 hikâye 45 puanlayıcıya üç farklı puanlama anahtarı ile 10-15 gün aralıklarla puanlattırılmıştır. Araştırmaya katılan 45 puanlayıcı içerisinden 2, 3, 5 ve 10 puanlayıcılı 100’er örneklem çekilmiştir. Elde edilen 400 örneklem için G kuramı’na göre puanlayıcılar arası güvenirlikleri hesaplanmıştır. Elde edilen 1200 hesaplamanın her bir durum için elde edilen 100 örneklemi için ortancaları ve standart hataları hesaplanmıştır. Güvenirlik kestirimlerinin ortanca değerleri incelendiğinde, 5 puanlayıcının kontrol listesi kullanarak yaptıkları puanlamaların güvenirliklerinin ortanca değeri hariç olmak üzere, puanlayıcı sayısı ve aynı zamanda kullanılan ölçeğin kategori sayısı arttıkça ortanca değerlerinin de arttığı; elde edilen standart hataların, puanlayıcı sayısı arttıkça azaldığı gözlenmiştir. En düşük standart hata değerlerinin, 10 puanlayıcı olması durumunda elde edildiği saptanmıştır. Puanlayıcı sayısı 5 ve kategori sayısı 2 olduğunda, güvenirlik kestiriminin en yüksek değeri verdiği belirlenmiştir.

Keywords
puanlayıcılar arası güvenirlik, kontrol listesi, dereceleme ölçeği, analitik rubrik.