|
Author
|
:
Özlem Bezek Güre
|
|
Type |
:
|
Printing Year |
:
|
Number |
:
|
Page |
:
|
DOI Number: |
:
|
Cite : |
Özlem Bezek Güre , (). CLASSIFICATION OF STUDENTS' SCHOOL DROPOUT CASES USING THE RANDOM FOREST METHOD. International Journal Of Eurasia Social Sciences, , p. . Doi: .
|
|
Summary
Yüksek öğrenim kurumları ülkelerin ekonomik ve sosyal yönden gelişimlerinin bir göstergesi olarak kabul edilmektedir. Çeşitli sebeplerden dolayı yüksek öğrenim kurumlarından ayrılan öğrencilerin eğitimlerini yarıda bırakmaları veya başarısızlıkları kurumların itibarlarını etkiledikleri gibi öğrenciler, aileler ve genel olarak toplum için önemli bir sorun teşkil etmektedir. Bu sebeple kurumdan ayrılma riski bulunan öğrencileri tahminlemek önemli görülmektedir. Bu çalışmada birinci olarak, eğitsel veri madenciliği yöntemleri arasında yer alan Random Forest yöntemi kullanılarak yüksek öğrenim kurumlarından okulu terk etme riski taşıyan öğrencileri tahmin etmek amaçlanmıştır. İkinci olarak ise kullanılan yöntemin örneklem büyüklüğüne göre sınıflama performansını karşılaştırmak hedeflenmiştir. Bu amaçla; Kaggle veri tabanında yer alan yüksek öğrenimde öğrenim gören öğrencilerin akademik başarısızlığını ve okulu bırakma durumunu azaltılması amacıyla oluşturulan veri seti kullanılmıştır. Söz konusu veri seti öğrencinin kayıt bilgileri, demografik ve sosyoekonomik durumunu gösteren verileri içermektedir. Veri seti biri bağımlı değişken olmak üzere 37 değişken ile 4424 örnekten oluşmaktadır. Veri setinden 500, 1000, 2000, 3000 ve 4000 örneklem büyüklüğünde rastgele örnekler çekilmiştir. Analizler açık kaynak kodlu Phyton tabanlı bir program kullanılarak yapılmıştır. Çalışmada, yöntemin sınıflama performanslarını ölçmek amacıyla AUC, accuracy, F1, precision ve recall ölçüleri kullanılmıştır. Performans kriterleri olarak; AUC: 0,961, accuracy: 0,880, F1:0,876, precision: 0,877 ve recall:0,880 olarak bulunmuştur. Analiz sonuçlarına göre; yöntemin 4000 örneklem boyutunda daha başarılı sınıflama performansı gösterdiği görülmektedir. Ayrıca çalışmada örneklem boyutu arttıkça sınıflama başarısının arttığı belirlenmiştir. Yönteme göre en önemli görülen değişkenler sırasıyla "Öğretim programı üniteleri 2. dönem (not)", "Öğretim programı üniteleri 2. dönem (onaylı)", "Öğretim programı üniteleri 1. dönem (onaylı)", "Öğretim programı üniteleri 1. dönem (not)", "Öğretim programı üniteleri 2. dönem (değerlendirmeler)" olarak belirlenmiştir. Öğrenci okulu bırakma durumu ve başarısızlığı ile ilgili farklı veri madenciliği yöntemlerinin farklı koşullar altındaki durumlarının incelenmesi önerilmektedir.
Keywords
Okulu bırakma, yüksek öğrenim, rastgele orman, eğitsel veri madenciliği.
Abstract
Higher education institutions are considered as an indicator of the economic and social development of countries. The failure or failure of students who leave higher education institutions for various reasons not only affects the reputation of the institutions, but also poses a significant problem for students, families and society in general. For this reason, it is considered important to predict students who are at risk of leaving the institution. First of all, this study aims to predict students at risk of dropping out of higher education institutions by using the Random Forest method, which is among the educational data mining methods. Secondly, it was aimed to compare the classification performance of the method used according to the sample size. To this end; The data set created in the Kaggle database to reduce academic failure and school dropout of students studying in higher education was used. The data set in question includes data showing the student's registration information, demographic and socioeconomic status. The data set consists of 4424 samples with 37 variables, one of which is the dependent variable. Random samples with sample sizes of 500, 1000, 2000, 3000 and 4000 were drawn from the data set. Analyzes were made using an open source Python-based program. In the study, AUC, accuracy, F1, precision and recall measurements were used to measure the classification performance of the method. As performance criteria; It was found to be AUC: 0.961, accuracy: 0.880, F1: 0.876, precision: 0.877 and recall: 0.880. According to the analysis results; It is seen that the method shows more successful classification performance with a sample size of 4000. In addition, it was determined in the study that the classification success increased as the sample size increased. The most important variables according to the method are respectively "Curriculum units 2nd semester (grade)", "Curriculum units 2nd semester (approved)", "Curriculum units 1st semester (approved)", "Curriculum units 1st semester (grade)", "Curriculum units 2nd semester (evaluations)". It is recommended to examine the situations of different data mining methods under different conditions regarding student dropout and failure.
Keywords
Dropout risks, high education, random forest, educational data mining