Bisakah AI Membantu Guru Dengan Penilaian?

Pertanyaan abadi ketika teknologi meningkat adalah sejauh mana ia akan mengubah — atau menggantikan — pekerjaan yang secara tradisional dilakukan oleh manusia. Dari checkout mandiri di toko kelontong hingga kemampuan AI untuk mendeteksi penyakit serius pada pemindaian medis, pekerja di semua area mendapati diri mereka bekerja bersama alat yang dapat melakukan sebagian dari pekerjaan mereka. Dengan meningkatnya ketersediaan alat AI di ruang kelas yang dipercepat oleh pandemi dan tidak menunjukkan tanda-tanda pelambatan, pengajaran telah menjadi bidang lain di mana pekerjaan profesional dibagi dengan alat seperti AI.

Kami bertanya-tanya tentang peran AI dalam satu praktik pengajaran khusus: menilai pembelajaran siswa. Dengan waktu yang dibutuhkan untuk menilai dan memberikan umpan balik pada tugas siswa menghalangi banyak guru menulis untuk menugaskan tugas menulis yang lebih panjang, dan dengan waktu penyelesaian yang lama sebagian besar siswa menunggu untuk menerima nilai dan umpan balik, ada penghematan waktu dan potensi pembelajaran yang signifikan dalam kelas bantuan AI pekerjaan siswa. Kemudian lagi, kami bertanya-tanya, dapatkah sistem penilaian dan umpan balik AI benar-benar membantu siswa sebanyak yang dapat dilakukan guru?

“Guru memiliki kemampuan untuk mengatakan, ‘Apa yang kamu coba katakan padaku? Karena aku tidak mengerti.’ AI sedang mencoba untuk memperbaiki proses penulisan dan format—memperbaiki apa yang sudah ada, bukan mencoba memahami apa yang ingin mereka katakan.”

Kami baru-baru ini menyelesaikan evaluasi platform yang dilengkapi AI di mana siswa sekolah menengah dapat menyusun, mengirimkan, dan merevisi esai argumentatif sebagai tanggapan atas permintaan penulisan yang telah dikurasi sebelumnya. Setiap kali siswa mengklik ‘kirim’, mereka menerima skor berbasis dimensi penguasaan (skor 1–4) dalam empat domain penulisan (Klaim & Fokus, Dukungan & Bukti, Organisasi, Bahasa & Gaya) dan komentar selaras dimensi yang menawarkan observasi dan saran untuk perbaikan—semua dihasilkan oleh AI secara instan setelah siswa mengirimkan.

Untuk membandingkan skor dan umpan balik AI dengan yang diberikan oleh guru sebenarnya, kami menyelenggarakan pertemuan langsung dari 16 guru menulis sekolah menengah yang telah menggunakan platform tersebut dengan siswa mereka selama tahun ajaran 2021–22. Setelah melakukan kalibrasi bersama pada rubrik proyek untuk memastikan pemahaman dan penerapan skor dan saran yang andal, kami menugaskan setiap guru 10 esai acak (bukan dari siswa mereka sendiri) untuk dinilai dan diberikan umpan balik. Ini menghasilkan total 160 esai yang dinilai guru, yang dapat kami bandingkan langsung dengan skor dan umpan balik yang diberikan AI pada esai yang sama.

Bagaimana skor guru mirip atau berbeda dari skor yang diberikan oleh AI?

Rata-rata, kami menemukan bahwa guru menilai esai lebih rendah daripada AI, dengan perbedaan yang signifikan di setiap dimensi kecuali untuk Klaim & Fokus. Dalam hal skor keseluruhan di keempat dimensi (minimal 4, maksimal 16), skor rata-rata guru pada 160 esai ini adalah 7,6, sedangkan skor rata-rata AI pada kumpulan makalah yang sama adalah 8,8. Dalam hal dimensi tertentu, Gambar 1 menunjukkan dalam dimensi Klaim & Fokus dan Dukungan & Bukti bahwa guru dan AI cenderung setuju pada esai dengan skor tinggi (4) dan rendah (1), tetapi mereka tidak setuju di tengah, dengan guru lebih mungkin memberi skor esai 2 dan AI lebih mungkin memberi skor 3. Di sisi lain, dalam dimensi Organisasi dan Bahasa & Gaya, guru jauh lebih mungkin memberi skor esai pada 1 atau 2, sedangkan AI skor tersebar di 1 sampai 4, dengan lebih banyak esai di 3 atau bahkan 4.

Gambar 1: Skor Guru vs AI dalam Empat Dimensi Penulisan Argumentatif (n = 160 esai)

Bagaimana komentar tertulis guru mirip atau berbeda dari yang diberikan oleh AI?

Selama pertemuan kami dengan 16 guru, kami memberi mereka kesempatan untuk mendiskusikan skor dan umpan balik yang telah mereka berikan pada 10 esai mereka. Bahkan sebelum merenungkan esai khusus mereka, pengamatan umum yang kami dengar adalah bahwa ketika mereka menggunakan program di kelas mereka sendiri pada tahun sebelumnya, mereka perlu membantu sebagian besar siswa mereka membaca dan menafsirkan komentar yang diberikan AI. Misalnya, dalam banyak kasus, mereka melaporkan siswa akan membaca komentar tetapi tidak yakin apa yang diminta untuk dilakukan untuk memperbaiki tulisan mereka. Oleh karena itu, satu perbedaan langsung yang muncul, menurut para guru, adalah kemampuan mereka untuk menyampaikan komentar mereka ke dalam bahasa yang sesuai dengan perkembangan yang sesuai dengan kebutuhan dan kemampuan siswa mereka.

Artikel Terkait

“Sebagai refleksi, kami membahas betapa bagusnya AI, bahkan dalam komentar/umpan balik. Anak-anak yang muncul sekarang terbiasa dengan umpan balik yang lebih langsung dan jujur. Ini tidak selalu tentang membelai ego tetapi tentang memperbaiki masalah. Jadi kami tidak tidak selalu membutuhkan dua bintang untuk satu permintaan. Terkadang kita perlu langsung ke intinya.”

Perbedaan lain yang muncul adalah fokus guru pada esai secara keseluruhan—aliran, suara, apakah itu hanya ringkasan atau membangun argumen, apakah bukti cocok dengan argumen atau apakah semuanya masuk akal secara keseluruhan. Kecenderungan bagi guru untuk mendapat skor 2 dalam domain Klaim & Fokus dan Dukungan & Bukti yang berfokus pada argumen, menurut mereka, adalah karena kemampuan mereka untuk melihat keseluruhan esai—yang sebenarnya tidak dapat dilihat oleh AI ini karena banyak AI dilatih pada tingkat kalimat daripada panduan seluruh esai.

Penilaian guru yang lebih keras terhadap Organisasi juga berasal dari kemampuan mereka, tidak seperti AI, untuk memahami seluruh urutan dan aliran esai. Guru berbagi, misalnya, bahwa AI dapat menemukan kata transisi atau membimbing siswa untuk menggunakan lebih banyak kata transisi dan akan menilai penggunaan kata transisi sebagai bukti organisasi yang baik, sedangkan mereka, sebagai guru, dapat melihat apakah transisi benar-benar mengalir atau tidak. hanya dicolokkan ke dalam serangkaian kalimat yang tidak koheren. Dalam domain Bahasa & Gaya, guru sekali lagi menunjukkan cara AI lebih mudah untuk dibodohi, seperti dengan memasukkan rangkaian kosakata yang tampaknya canggih—yang akan mengesankan AI tetapi guru akan melihatnya sebagai rangkaian kata yang benar. tidak menambahkan sampai kalimat atau ide.

Bisakah AI membantu guru dalam penilaian?

Menilai pekerjaan siswa dengan baik adalah komponen pengajaran yang memakan waktu dan sangat penting, terutama ketika siswa sedang belajar menulis. Siswa membutuhkan latihan yang mantap dengan umpan balik yang cepat untuk menjadi penulis yang percaya diri dan solid, tetapi sebagian besar guru tidak memiliki waktu perencanaan dan penilaian dan mengajar terlalu banyak siswa untuk dapat menugaskan tulisan rutin atau panjang dan untuk mempertahankan kemiripan pekerjaan-kehidupan keseimbangan atau berkelanjutan dalam karir mereka.

Janji AI untuk meringankan sebagian dari beban ini berpotensi cukup signifikan. Meskipun temuan awal kami dalam penelitian ini menunjukkan bahwa guru dan AI mendekati penilaian dengan cara yang sedikit berbeda, kami percaya bahwa jika sistem AI dapat dilatih untuk melihat esai secara lebih holistik seperti yang dilakukan guru dan menyusun bahasa umpan balik dengan cara yang lebih sesuai untuk perkembangan dan kontekstual. cara bagi siswa untuk memproses komentar secara mandiri, ada potensi nyata bagi AI untuk membantu guru dalam penilaian. Kami yakin peningkatan AI di bidang ini adalah pengejaran yang bermanfaat, baik untuk mengurangi beban penilaian guru dan, sebagai hasilnya, untuk memastikan siswa mendapatkan lebih banyak kesempatan untuk menulis berpasangan dengan umpan balik langsung dan bermanfaat untuk berkembang sebagai penulis.

Leave a Reply

Your email address will not be published. Required fields are marked *