จับการโกงด้วย AI ในราคา 42 เซนต์ต่อนักศึกษา 1 คน: การทดลองสอบปากเปล่าด้วย AI ของอาจารย์ NYU
(aisparkup.com)การทดลองสอบปากเปล่าด้วย AI ของอาจารย์ NYU
พื้นหลัง
- ข้อจำกัดของการประเมินงานแบบดั้งเดิมในยุค AI: นักศึกษาสามารถใช้ AI ทำงานมอบหมายได้อย่างสมบูรณ์ แต่กลับเผยให้เห็นว่าเข้าใจจริงไม่มากพอ
- ศาสตราจารย์ Panos Ipeirotis (คณะบริหารธุรกิจ Stern แห่ง NYU): ทดลองแนวคิดสวนทาง ใช้ AI รับมือการโกงด้วย AI
ภาพรวมการทดลอง
- รายวิชา: การจัดการผลิตภัณฑ์ AI/ML
- ผู้เข้าร่วม: นักศึกษา 36 คน
- วิธีการ: ใช้เอเจนต์เสียง AI ของ ElevenLabs สำหรับการสอบปากเปล่า
- เนื้อหา: คำถามเกี่ยวกับโปรเจกต์ของนักศึกษา + คำถามจากกรณีศึกษาในชั้นเรียน
- ระยะเวลา: 9 วัน เฉลี่ย 25 นาทีต่อนักศึกษา 1 คน
- ค่าใช้จ่ายรวม: 15 ดอลลาร์ (42 เซนต์ต่อนักศึกษา 1 คน)
- Claude: 8 ดอลลาร์, Gemini: 2 ดอลลาร์, OpenAI: 30 เซนต์, ElevenLabs: 5 ดอลลาร์
เปรียบเทียบต้นทุน
- การสอบด้วย AI: 15 ดอลลาร์
- การตรวจโดยมนุษย์: 750 ดอลลาร์ (36 คน × 25 นาที × ผู้ประเมิน 2 คน × 25 ดอลลาร์/ชั่วโมง)
- ข้อดี: ทำให้การสอบปากเปล่าเป็นไปได้จริงในชั้นเรียนขนาดใหญ่
ปัญหาในช่วงแรก
- น้ำเสียงของเอเจนต์: รู้สึกว่าเข้มงวดและหยิ่ง (นักศึกษาบ่นว่า "เหมือนโดนตะคอก")
- ปัญหาพฤติกรรม: ถามหลายคำถามพร้อมกัน, เปลี่ยนคำถามใหม่เมื่อมีการถามซ้ำ, ขัดจังหวะเร็วเกินไป
- อคติจากความสุ่ม: แม้สั่งให้ "สุ่มเลือก" ก็ยังเอนเอียงไปที่บางกรณี (Zillow 88%)
- สาเหตุ: สะท้อนอคติของมนุษย์ที่มีอยู่ในข้อมูลฝึกของ LLM
วิธีให้คะแนน
- วิธีการ: ใช้แนวคิด "Council of LLMs" ของ Andrej Karpathy
- Claude, Gemini, ChatGPT ประเมินอย่างอิสระ → ตรวจทานกันเอง → ปรับแก้
- ผลลัพธ์: ช่วงแรกคะแนนต่างกันมาก (Gemini 17 คะแนน vs Claude 13.4 คะแนน) แต่หลังตรวจทาน 60% ของผลลัพธ์ต่างกันไม่เกิน 1 คะแนน
- คุณภาพของฟีดแบ็ก: AI ดีกว่ามนุษย์ (สรุปแบบมีโครงสร้าง + อ้างคำพูดโดยตรง)
ข้อค้นพบ
- ช่องว่างตามหัวข้อ: หัวข้อ "การทดลอง" อ่อนที่สุด (เฉลี่ย 1.94/4 คะแนน) → อาจารย์ยอมรับว่าเป็นปัญหาด้านการสอน (ละเลย A/B testing)
- ระยะเวลาสอบกับผลการเรียน: ไม่สัมพันธ์กัน (คนที่ใช้เวลาเพียง 9 นาทีได้คะแนนสูงสุด ส่วนคนที่ใช้เวลา 64 นาทีได้ผลลัพธ์ระดับธรรมดา)
การประเมินจากนักศึกษา
- ความชอบรูปแบบ AI: 13% (น้อยกว่าคนที่ชอบมนุษย์ 2 เท่า)
- ความเครียด: สูงขึ้น 83%
- ความยุติธรรม: 70% เห็นด้วยว่าวัดความเข้าใจจริงได้ (เป็นหัวข้อที่ได้คะแนนประเมินสูงสุด)
สรุป
- การสอบปากเปล่าด้วย AI: ขยายสเกลได้ ราคาถูก และยุติธรรม
- ข้อดี: สร้างคำถามใหม่ทุกครั้งได้ (ไม่มีปัญหาข้อสอบรั่ว), ใช้ฝึกซ้อมได้
- ความย้อนแย้ง: ใช้ AI แก้ปัญหาการโกงด้วย AI
- แสดงให้เห็นถึงความเป็นไปได้ในการเปลี่ยนรูปแบบการประเมินการศึกษา พร้อมเผยข้อจำกัดไปด้วย
ยังไม่มีความคิดเห็น