Diperbarui tanggal 12/06/2021

Analisis Butir Soal

author/editor: Edi Elisa / kategori Asesmen dan Evaluasi Pembelajaran / tanggal diterbitkan 12 Juni 2021 / dikunjungi: 12.93rb kali

Setelah soal ditulis oleh guru dalam bentuk kartu soal, tidak serta merta guru bisa menggunakan soal tersebut untuk mengukur kemampuan peserta didik. Soal tersebut harus diuji ketepatannya, dalam bahasa evaluasi disebut dengan “valid”. Validitas diartikan sebagai ketepatan alat ukur untuk mengukur apa yang hendak diukur. Sebagai contoh: pisau, silet, gunting, gergaji, gergaji mesin semua itu adalah alat pemotong, dari sekian alat pemotong tersebut manakah yang paling tepat kita gunakan untuk memotong rambut? Alat potong yang paling tepat tersebutlah dinamakan valid. Untuk itu, agar memenuhi syarat sebagai instrumen yang baik guru harus melakukan uji validitas. Uji validitas tahap pertama ini disebut dengan uji validitas “logik" atau “teoritik”. Validitas logik ini meliputi validitas konstraka (construc validity) dan validitas isi (conten validity).

Validitas konstrak adalah validitas untuk mengetahui ketepatan hasil ukur dengan sasaran ukur (Cronbach dan Meehl, 1955). Validitas konstruk atau bangun pengertian berkenaan dengan kesanggupan alat penilaian untuk mengukur pengertian-pengertian yang mengandung dalam materi yang diukurnya. Pengertian yang terkandung dalam konsep hasil belajar, sikap, minat motivasi dan lain-lain harus jelas. Ini berarti kosep yang hendak diukur harus dikembangkan indikator-indikatornya.. Misalnya hasil belajar, maka konsepnya adalah hasil yang dicapai oleh peserta didik setelah peserta didik yang bersangkutan mengalami suatu proses belajar dalam jangka waktu tertentu. Sedangkan definisi operasionalnya adalah total skor yang diperoleh peserta didik dari hasil menjawab tes yang diberikan. Tes yang diberikan kepada peserta didik mengukur tingkat kemampuan peserta didik dalam menguasai materi pelajaran yang telah disajikan.

Validitas isi berkenaan dengan kesanggupan alat penilaian dalam mengukur isi yang seharusnya. Artinya, alat ukur tersebut mampu mengungkapkan isi suatu konsep atau variabel yang hendak diukur. Sebelum membuat kisi-kisi soal terlebuh dahulu penulis melakukan analisis kurikulum dan analisis buku pelajaran. Analisis kurikulum bertujuan untuk menentukan jumlah/bobot/proporsi soal masing-masing pokok bahasan/sub pokok bahasan yang nantinya digunakan untuk membuat kisi-kisi tes. Kalau pada analisis kurikulum yang digunakan untuk menentukan bobot soal adalah alokasi waktu, maka dalam analisis buku pelajaran yang digunakan adalah jumlah halaman tiap pokok bahasan. Pada prinsipnya kedua analisis tersebut mempunyai tujuan yang sama yaitu untuk menentukan bobot soal. Selain melakukan analisis kurikulum dan analisis buku pelajaran untuk menentukan bobot soal, validitas isi juga bisa ditentukan dengan cara meminta masukan dari teman sejawat, senior, praktisi yang sering disebut ahli/pakar (expert judgemen). Ahli tersebut akan melakukan analisis (telaah) secara kualitatif terhadap butir soal. Telaah dimulai dari definisi konseptual, definisi operasional, indikator, sampai dengan butir istrumen. Telaah terhadap butir soal secara kualititif ditinjau dari tiga hal, yaitu segi materi (berkaitan dengan substansi keilmuan yang ditanyakan dalam soal serta tingkat kemampuan yang sesuai dengan soal), isi konstruksi (berkaitan dengan teknik penulisan soal), dan editorial/bahasa (berkaitan dengan keseluruhan format dan keajegan editorial dari soal yang satu ke soal yang lain). Perbaikan butir soal dilakukan berdasarkan catatan-catatan yang diberikan oleh para ahli.

Validitas isi butir soal yang menggunakan penilaian rater dengan teknik moderator atau panel bisa dihitung dengan menggunakan formula dari Gregory (2000) maupun formula Lawshe (1975). Setelah menentukan tujuan pengukuran sampai pada penentuan validitas logik, butir soal yang tersusun disebut dengan alat ukur sementara (lihat Gambar 1, Tahap-1). Disebut sementara karena belum diuji lapangan atau empirik. Uji lapangan ini untuk menentukan validitas empirik, koefisien reliabilitas, daya beda (DP), indeks kesukaran (IK), maupun efektivitas pengecoh. Semua langkah langkah diistilahkan dengan analisi butir soal secara klasik. Untuk tes yang bersifat dikotomi (pilihan ganda), kelima unsur tersebut harus dicari, sedangkan untuk tes yang bersifat politomi (esai, angket, dll) yang perlu dicari hanya validitas dan koefisien reliabilitas.

a. Validitas Empirik

Validitas empirik terdiri dari dua bagian, yaitu validitas ramalan (predictive) dan validitas kesaman (concurrent). Dalam validitas predictive yang diutamakan bukan isi, melainkan kreterianya, apakah penilaian tersebut dapat dugunakan untuk meramalkan suatu ciri, prilaku atau kreteria tertentu yang diinginkan. Misalnya apakah terdapat hubungan yang positif antara hasil tes UN peserta didik dengan dengan IPK ketika kuliah dikemudian hari. Validitas concurrent artinya membuat tes yang memiliki persamaan dengan tes sejenis yang telah ada atau yang telah dibakukan. Pendapat lain mengatakan bahwa validitas kesamaan merupakan hasil pengukuran sesuai dengan pengalaman yang ada saat ini. Untuk menentukan validitas kesamaan suatu tes adalah dengan cara mengkorelasikan hasil tes yang dibuat dengan tes sejenis yang telah baku. Tes baku untuk bidang studi yang ada di sekolah memang sangat langka, sehingga untuk menentukan validitas kesamaan tidak bisa dilakukan. Untuk mengatasi kelemahan ini uji validitas kesamaan bisa dilakukan dengan cara mengkorelasikan skor tiap butir soal dengan skor total, validitas inilah yang sering disebut dengan validitas butir tes. Untuk menentukan koefisien validitas biasanya menggunakan korelasi point biserial untuk tes yang bersifat dikotomi (benar salah) dan korelasi product moment untuk tes yang bersifat politomi.

b. Koefisien Reliabilitas

Reliabilitas alat penilaian pada hakikatnya menguji keajegan alat ukur tersebut apabila diberikan berulangkali pada objek yang sama. Ada beberapa jenis reliabilitas, yaitu: Koefisien ekivalen atau pararel atau tes setara atau tes sejajar dihitung dengan korelasi product moment. Metode pararel di mana tes mempunyai kesamaan tujuan, tingkat kesukaran, dan susunan tetapi memiliki butir-butir soal yang berbeda. Dua jenis tes yang berbeda tetapi memiliki bobot yang sama diberikan kepada testee yang sama (double test, double trial method). Koefisien stabilitas atau test retest, dapat dihitung dengan korelasi product moment, dengan cara memberikan sebuah tes kepada testee yang sama pada waktu yang hampir bersaman, kemudian hasinya dikorelasikan (single test, double trial method). Koefisien konsistensi internal, subuah tes diberikan kepada testee (single test, single trial method). Hasilnya bisa dibelah menjadi dua (split half) sert formula yang digunakan bisa Flanagan, Spearman-Brown, Rulon, Raju. Apabila tidak dibelah dua dihitung dengan rumus koefisien alpha-cronbach untuk tes bersifat politomi, kuder-richardson (KR) di mana KR20 untuk heterogen, sedangakan KR21 untuk homogen, serta formula Hoyt untuk reliabilitas inter rater.

c. Daya Beda

Pengertian daya pembeda (DP) dari sebuah butir soal adalah menyatakan seberapa jauh kemampuan butir soal tersebut mampu membedakan antara testee yang mengetahui jawabannya dengan benar dengan testee yang tidak dapat menjawab soal tersebut (testee yang menjawab salah). Dengan kata lain daya pembeda butir soal adalah kemampuan butir soal itu untuk membedakan antara testee yang yang pandai atau berkemampuan tinggi dengan testee yang berkemampuan rendah. Derajat daya pembeda (DP) suatu butir soal dinyatakan denagan indeks diskriminan yang bernilai -1,00 sampai dengan 1,00. Apabila indeks diskriminasi soal makin mendekati nilai 1,00 ini berarti daya pembeda soal tersebut akan semakin baik, begitu juga sebaliknya, jika indeks diskriminasi suatu soal mendekati nilai 0,00 maka daya pembeda soal tersebut sangat jelek. Indeks diskriminasi butir soal bernilai negatif (antara 0,00 sampai -1,00) ini berarti kelompok testee kurang mampu banyak yang menjawab benar, sebaliknya banyak testee yang pintar menjawab salah. Sedangkan jika suatu butir soal memiliki indek diskriminasi 0,00 berarti bahwa soal tersebut tidak memiliki daya pembeda, artinya baik peserta didik pandai maupun yang kurang mampu menjawab benar soal tersebut.

d. Indek Kesukaran

Tingkat kesukaran dapat dipandang sebagai kesanggupan atau kemampuan peserta didik menjawab tes yang diberikan. Bisa juga dikatakan bahwa tingkat kesukaran adalah bilangan yang menunjukkan proporsi peserta tes yang menjawab betul butir soal yang diberikan. Sedangkan tingkat kesukaran perangkat tes adalah bilangan yng menunjukakn rata-rata proporsi testee yang dapat menjawab seluruh tes tersebut. Tingkat kesukaran suatu butir soal dinyatakan dengan bilangan yang disebut dengan indeks Kesukaran (difficulty indexs). Indeks kesukaran berkisar antara nilai 0,00 sampai dengan 1,00. Soal dengan indeks kesukaran 0,00 berarti butir soal tersebut terlalu sukar, sebaliknya indeks kesukaran soal mendekati 1,00 berarti soal tersebut terlalu mudah.

e. Analisis Pengecoh

Menganalisis fungsi pengecoh (distractor) dikenal dengan istilah menganalisis pola penyebaran jawaban butir soal pada soal bentuk pilihan ganda. Pola tersebut diperoleh dengan menghitung banyaknya testee yang memilih pilihan jawaban butir soal atau yang tidak memilih pilihan manapun (blank). Dari pola penyebaran jawaban butir soal dapat ditentukan apakah pengecoh berfungsi dengan baik atau tidak. Suatu pengecoh dapat dikatakan berfungsi dengan baik jika paling sedikit dipilih oleh 5% pengikut tes.