การทดลองสอบปากเปล่าด้วย AI ของอาจารย์ NYU

พื้นหลัง

  • ข้อจำกัดของการประเมินงานแบบดั้งเดิมในยุค AI: นักศึกษาสามารถใช้ AI ทำงานมอบหมายได้อย่างสมบูรณ์ แต่กลับเผยให้เห็นว่าเข้าใจจริงไม่มากพอ
  • ศาสตราจารย์ Panos Ipeirotis (คณะบริหารธุรกิจ Stern แห่ง NYU): ทดลองแนวคิดสวนทาง ใช้ AI รับมือการโกงด้วย AI

ภาพรวมการทดลอง

  • รายวิชา: การจัดการผลิตภัณฑ์ AI/ML
  • ผู้เข้าร่วม: นักศึกษา 36 คน
  • วิธีการ: ใช้เอเจนต์เสียง AI ของ ElevenLabs สำหรับการสอบปากเปล่า
  • เนื้อหา: คำถามเกี่ยวกับโปรเจกต์ของนักศึกษา + คำถามจากกรณีศึกษาในชั้นเรียน
  • ระยะเวลา: 9 วัน เฉลี่ย 25 นาทีต่อนักศึกษา 1 คน
  • ค่าใช้จ่ายรวม: 15 ดอลลาร์ (42 เซนต์ต่อนักศึกษา 1 คน)
    • Claude: 8 ดอลลาร์, Gemini: 2 ดอลลาร์, OpenAI: 30 เซนต์, ElevenLabs: 5 ดอลลาร์

เปรียบเทียบต้นทุน

  • การสอบด้วย AI: 15 ดอลลาร์
  • การตรวจโดยมนุษย์: 750 ดอลลาร์ (36 คน × 25 นาที × ผู้ประเมิน 2 คน × 25 ดอลลาร์/ชั่วโมง)
  • ข้อดี: ทำให้การสอบปากเปล่าเป็นไปได้จริงในชั้นเรียนขนาดใหญ่

ปัญหาในช่วงแรก

  • น้ำเสียงของเอเจนต์: รู้สึกว่าเข้มงวดและหยิ่ง (นักศึกษาบ่นว่า "เหมือนโดนตะคอก")
  • ปัญหาพฤติกรรม: ถามหลายคำถามพร้อมกัน, เปลี่ยนคำถามใหม่เมื่อมีการถามซ้ำ, ขัดจังหวะเร็วเกินไป
  • อคติจากความสุ่ม: แม้สั่งให้ "สุ่มเลือก" ก็ยังเอนเอียงไปที่บางกรณี (Zillow 88%)
    • สาเหตุ: สะท้อนอคติของมนุษย์ที่มีอยู่ในข้อมูลฝึกของ LLM

วิธีให้คะแนน

  • วิธีการ: ใช้แนวคิด "Council of LLMs" ของ Andrej Karpathy
    • Claude, Gemini, ChatGPT ประเมินอย่างอิสระ → ตรวจทานกันเอง → ปรับแก้
  • ผลลัพธ์: ช่วงแรกคะแนนต่างกันมาก (Gemini 17 คะแนน vs Claude 13.4 คะแนน) แต่หลังตรวจทาน 60% ของผลลัพธ์ต่างกันไม่เกิน 1 คะแนน
  • คุณภาพของฟีดแบ็ก: AI ดีกว่ามนุษย์ (สรุปแบบมีโครงสร้าง + อ้างคำพูดโดยตรง)

ข้อค้นพบ

  • ช่องว่างตามหัวข้อ: หัวข้อ "การทดลอง" อ่อนที่สุด (เฉลี่ย 1.94/4 คะแนน) → อาจารย์ยอมรับว่าเป็นปัญหาด้านการสอน (ละเลย A/B testing)
  • ระยะเวลาสอบกับผลการเรียน: ไม่สัมพันธ์กัน (คนที่ใช้เวลาเพียง 9 นาทีได้คะแนนสูงสุด ส่วนคนที่ใช้เวลา 64 นาทีได้ผลลัพธ์ระดับธรรมดา)

การประเมินจากนักศึกษา

  • ความชอบรูปแบบ AI: 13% (น้อยกว่าคนที่ชอบมนุษย์ 2 เท่า)
  • ความเครียด: สูงขึ้น 83%
  • ความยุติธรรม: 70% เห็นด้วยว่าวัดความเข้าใจจริงได้ (เป็นหัวข้อที่ได้คะแนนประเมินสูงสุด)

สรุป

  • การสอบปากเปล่าด้วย AI: ขยายสเกลได้ ราคาถูก และยุติธรรม
  • ข้อดี: สร้างคำถามใหม่ทุกครั้งได้ (ไม่มีปัญหาข้อสอบรั่ว), ใช้ฝึกซ้อมได้
  • ความย้อนแย้ง: ใช้ AI แก้ปัญหาการโกงด้วย AI
  • แสดงให้เห็นถึงความเป็นไปได้ในการเปลี่ยนรูปแบบการประเมินการศึกษา พร้อมเผยข้อจำกัดไปด้วย

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น