จับการโกงด้วย AI ในราคา 42 เซนต์ต่อนักศึกษา 1 คน: การทดลองสอบปากเปล่าด้วย AI ของอาจารย์ NYU

(aisparkup.com)

11 คะแนน โดย davespark 2026-01-08 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

การทดลองสอบปากเปล่าด้วย AI ของอาจารย์ NYU

พื้นหลัง

ข้อจำกัดของการประเมินงานแบบดั้งเดิมในยุค AI: นักศึกษาสามารถใช้ AI ทำงานมอบหมายได้อย่างสมบูรณ์ แต่กลับเผยให้เห็นว่าเข้าใจจริงไม่มากพอ
ศาสตราจารย์ Panos Ipeirotis (คณะบริหารธุรกิจ Stern แห่ง NYU): ทดลองแนวคิดสวนทาง ใช้ AI รับมือการโกงด้วย AI

ภาพรวมการทดลอง

รายวิชา: การจัดการผลิตภัณฑ์ AI/ML
ผู้เข้าร่วม: นักศึกษา 36 คน
วิธีการ: ใช้เอเจนต์เสียง AI ของ ElevenLabs สำหรับการสอบปากเปล่า
เนื้อหา: คำถามเกี่ยวกับโปรเจกต์ของนักศึกษา + คำถามจากกรณีศึกษาในชั้นเรียน
ระยะเวลา: 9 วัน เฉลี่ย 25 นาทีต่อนักศึกษา 1 คน
ค่าใช้จ่ายรวม: 15 ดอลลาร์ (42 เซนต์ต่อนักศึกษา 1 คน)
- Claude: 8 ดอลลาร์, Gemini: 2 ดอลลาร์, OpenAI: 30 เซนต์, ElevenLabs: 5 ดอลลาร์

เปรียบเทียบต้นทุน

การสอบด้วย AI: 15 ดอลลาร์
การตรวจโดยมนุษย์: 750 ดอลลาร์ (36 คน × 25 นาที × ผู้ประเมิน 2 คน × 25 ดอลลาร์/ชั่วโมง)
ข้อดี: ทำให้การสอบปากเปล่าเป็นไปได้จริงในชั้นเรียนขนาดใหญ่

ปัญหาในช่วงแรก

น้ำเสียงของเอเจนต์: รู้สึกว่าเข้มงวดและหยิ่ง (นักศึกษาบ่นว่า "เหมือนโดนตะคอก")
ปัญหาพฤติกรรม: ถามหลายคำถามพร้อมกัน, เปลี่ยนคำถามใหม่เมื่อมีการถามซ้ำ, ขัดจังหวะเร็วเกินไป
อคติจากความสุ่ม: แม้สั่งให้ "สุ่มเลือก" ก็ยังเอนเอียงไปที่บางกรณี (Zillow 88%)
- สาเหตุ: สะท้อนอคติของมนุษย์ที่มีอยู่ในข้อมูลฝึกของ LLM

วิธีให้คะแนน

วิธีการ: ใช้แนวคิด "Council of LLMs" ของ Andrej Karpathy
- Claude, Gemini, ChatGPT ประเมินอย่างอิสระ → ตรวจทานกันเอง → ปรับแก้
ผลลัพธ์: ช่วงแรกคะแนนต่างกันมาก (Gemini 17 คะแนน vs Claude 13.4 คะแนน) แต่หลังตรวจทาน 60% ของผลลัพธ์ต่างกันไม่เกิน 1 คะแนน
คุณภาพของฟีดแบ็ก: AI ดีกว่ามนุษย์ (สรุปแบบมีโครงสร้าง + อ้างคำพูดโดยตรง)

ข้อค้นพบ

ช่องว่างตามหัวข้อ: หัวข้อ "การทดลอง" อ่อนที่สุด (เฉลี่ย 1.94/4 คะแนน) → อาจารย์ยอมรับว่าเป็นปัญหาด้านการสอน (ละเลย A/B testing)
ระยะเวลาสอบกับผลการเรียน: ไม่สัมพันธ์กัน (คนที่ใช้เวลาเพียง 9 นาทีได้คะแนนสูงสุด ส่วนคนที่ใช้เวลา 64 นาทีได้ผลลัพธ์ระดับธรรมดา)

การประเมินจากนักศึกษา

ความชอบรูปแบบ AI: 13% (น้อยกว่าคนที่ชอบมนุษย์ 2 เท่า)
ความเครียด: สูงขึ้น 83%
ความยุติธรรม: 70% เห็นด้วยว่าวัดความเข้าใจจริงได้ (เป็นหัวข้อที่ได้คะแนนประเมินสูงสุด)

สรุป

การสอบปากเปล่าด้วย AI: ขยายสเกลได้ ราคาถูก และยุติธรรม
ข้อดี: สร้างคำถามใหม่ทุกครั้งได้ (ไม่มีปัญหาข้อสอบรั่ว), ใช้ฝึกซ้อมได้
ความย้อนแย้ง: ใช้ AI แก้ปัญหาการโกงด้วย AI
แสดงให้เห็นถึงความเป็นไปได้ในการเปลี่ยนรูปแบบการประเมินการศึกษา พร้อมเผยข้อจำกัดไปด้วย

บทความที่เกี่ยวข้อง