- เมื่อ โมเดลภาษาขนาดใหญ่ (LLM) แพร่หลาย จนการบ้านและการสอบแบบเดิมไม่สามารถวัดความเข้าใจในการเรียนรู้ได้อีกต่อไป คณาจารย์จึงทดลองนำ เสียง AI ของ ElevenLabs มาใช้จัดสอบปากเปล่าแบบเรียลไทม์
- การสอบประกอบด้วย 2 ส่วนคือการอธิบายโปรเจกต์และการถามกรณีศึกษา โดยนักศึกษาต้องอธิบายให้ AI ฟังด้วยตนเองถึง เหตุผลเบื้องหลังการตัดสินใจและกระบวนการคิด
- ใช้โมเดลทั้ง Claude·Gemini·ChatGPT ให้คะแนนแบบสภาร่วม เพื่อเพิ่มความสม่ำเสมอและคุณภาพของฟีดแบ็ก พร้อมทั้งเผยให้เห็น หัวข้ออ่อนของการเรียนจริง (การออกแบบการทดลอง)
- ประเมินนักศึกษา 36 คนใน 9 วัน ใช้เวลาเฉลี่ยคนละ 25 นาที และมี ค่าใช้จ่ายต่อนักศึกษา 0.42 ดอลลาร์ ซึ่งต่ำมาก
- การสอบปากเปล่าด้วย AI อาจกลายเป็น รูปแบบการสอบใหม่ที่ขยายการประเมินแบบเน้นความเข้าใจได้จริง
การมองเห็นปัญหาและที่มาของการนำการสอบปากเปล่ามาใช้
- คุณภาพของงานที่นักศึกษาส่งสูงผิดปกติ จนเกิด ข้อสงสัยว่าเขียนด้วย AI และเมื่อตั้งคำถามแบบสุ่มก็พบหลายกรณีที่ไม่สามารถอธิบายได้ด้วยตนเอง
- ด้วย การเข้าถึง LLM ความน่าเชื่อถือของการบ้านและการสอบแบบเดิมจึงพังทลายลง และการสอบปากเปล่าซึ่งประเมินการคิดแบบเรียลไทม์ได้ก็กลายเป็นทางเลือก
- แต่การสอบปากเปล่ามีข้อจำกัดคือ ไม่สามารถดำเนินการในวงกว้างได้ จึงนำ เอเจนต์เสียง AI มาใช้เพื่อแก้ปัญหานี้
โครงสร้างเอเจนต์เสียงบนพื้นฐาน ElevenLabs
- ใช้ ElevenLabs Conversational AI เพื่อรวมองค์ประกอบที่ซับซ้อนอย่าง การรู้จำเสียง การสังเคราะห์เสียง และการจัดการเทิร์นสนทนา เข้าไว้ด้วยกัน
- ใช้ ตัวแปรแบบไดนามิก ส่งชื่อและข้อมูลโปรเจกต์ของนักศึกษา และใช้ โครงสร้างเวิร์กโฟลว์ แยกเอเจนต์สำหรับการยืนยันตัวตน โปรเจกต์ และคำถามกรณีศึกษา
- เอเจนต์ยืนยันตัวตน: ตรวจสอบรหัสนักศึกษา
- เอเจนต์โปรเจกต์: ถามจากเอกสารที่ส่ง
- เอเจนต์กรณีศึกษา: สุ่มเลือกกรณีแล้วตั้งคำถาม
- การแยกเป็นเอเจนต์ขนาดเล็กหลายตัวช่วยให้ ป้องกันการหลุดประเด็นของบทสนทนา และ ดีบักได้ง่าย
การดำเนินการสอบและผลลัพธ์เชิงตัวเลข
- ดำเนินการกับนักศึกษารวม 36 คน เป็นเวลา 9 วัน ใช้เวลาเฉลี่ย 25 นาที (สั้นสุด 9 นาที~ยาวสุด 64 นาที)
- มี การแลกเปลี่ยนข้อความเฉลี่ย 65 ครั้ง และ ค่าใช้จ่ายรวม 15 ดอลลาร์ (0.42 ดอลลาร์ต่อนักศึกษา)
- ผลการให้คะแนนของ LLM 89% ตรงกันภายใน 1 คะแนน และ การสอบที่สั้นที่สุด (9 นาที) ได้คะแนนสูงสุดที่ 19/20
- เมื่อเทียบกับการให้คะแนนโดยมนุษย์ สามารถ ลดต้นทุนได้มากกว่า 50 เท่า และทำให้การประเมิน การบันทึก และการให้ฟีดแบ็กแบบเรียลไทม์เป็นอัตโนมัติได้
บทเรียนจากการลองผิดลองถูกและมาตรการปรับปรุง
- ฟีดแบ็กจากนักศึกษาว่า โทนเสียงกดดันเกินไป → วางแผนทดสอบเสียงหลายแบบด้วย A/B test
- ปัญหา คำถามทับซ้อนสะสมกัน → เพิ่มกฎว่า “ถามครั้งละหนึ่งคำถาม”
- ความหมายเปลี่ยนเมื่อถามซ้ำ → ระบุให้ “ทวนประโยคเดิมแบบตรงตัว”
- มีเวลาให้คิดไม่พอ → ขยายเวลารอเป็น 10 วินาที
- การสุ่มเลือกกรณีศึกษาล้มเหลว → แก้ที่ระดับโค้ดด้วยการแมปเลขสุ่ม
การให้คะแนนแบบสภา LLM (council grading)
- Claude·Gemini·ChatGPT ให้คะแนนอย่างอิสระก่อน แล้วจึงตรวจทานและแก้ไขร่วมกัน
- ในรอบแรกอัตราความไม่ตรงกันของคะแนนสูง แต่หลังการหารือรอบสอง อัตราที่ตรงกันภายใน 1 คะแนน ดีขึ้นจาก 62% → 85%
- Gemini ปรับลดลงเฉลี่ย 2 คะแนน ขณะที่ Claude·OpenAI มีความสม่ำเสมอระหว่างกันสูง
- ในหัวข้อ การออกแบบการทดลอง ความไม่ตรงกันของคะแนนสูงที่สุด ซึ่งวิเคราะห์ว่าเกิดจากความกำกวมในคำตอบของนักศึกษา
- การให้คะแนนด้วย AI เข้มงวดกว่ามนุษย์แต่ยุติธรรม และฟีดแบ็กก็ เฉพาะเจาะจงและชี้นำการลงมือทำ ได้ดี
ข้อค้นพบทางการศึกษาและการวินิจฉัย
- ในการวิเคราะห์ผลสัมฤทธิ์รายหัวข้อ พบว่า คะแนนเฉลี่ยด้านการออกแบบการทดลอง 1.94/4 ต่ำที่สุด
- 0 คะแนน 8%, 1 คะแนน 19%, 2 คะแนน 42%, 4 คะแนน 0%
- พบว่าเกิดจาก การอธิบาย A/B test ในชั้นเรียนไม่เพียงพอ ทำให้เห็นความจำเป็นที่คณาจารย์ต้องปรับปรุงการสอน
- ไม่มีความสัมพันธ์ระหว่างเวลาสอบกับคะแนน (r=-0.03) และคำตอบที่สั้น ชัดเจน มีแนวโน้มสัมพันธ์กับคะแนนที่สูงกว่า
การป้องกันการทุจริตและความโปร่งใส
- บังคับให้นักศึกษาใช้ เว็บแคมและบันทึกเสียง เพื่อป้องกันความช่วยเหลือจากภายนอก
- ดำเนินการสอบด้วย แนวทางที่เปิดเผยต่อสาธารณะ ในด้านโครงสร้างการสอบและประเภทของคำถาม จึงตัดความเสี่ยงจากข้อสอบรั่วไหล
- นักศึกษาสามารถ ฝึกซ้อมซ้ำได้ภายใต้โครงสร้างเดียวกัน ซึ่งช่วยเสริมผลการเรียนรู้จริง
ปฏิกิริยาของนักศึกษา
- มีเพียง 13% ที่ชอบการสอบปากเปล่าด้วย AI, 57% ชอบการสอบข้อเขียนแบบดั้งเดิม และ 83% ตอบว่ารู้สึกเครียดมากกว่า
- อย่างไรก็ตาม 70% ยอมรับว่าวัดความเข้าใจจริงได้ดี แสดงว่าความน่าเชื่อถือของการประเมินอยู่ในระดับสูง
- ความยืดหยุ่นในการ เข้าสอบได้เองตามเวลาและสถานที่ที่สะดวก ได้รับการประเมินในเชิงบวก
- สิ่งที่อยากให้ปรับปรุงคือ ลดความเร็ว ใช้เสียงที่สงบขึ้น และถามทีละคำถาม
แผนการปรับปรุงในอนาคต
- ปรับความเร็วและเพิ่มความหลากหลายของเสียง, ใช้คำถามแบบ RAG จากงานที่นักศึกษาส่ง, แจกจ่ายกรณีศึกษาด้วย random seed ที่ระบุชัดเจน
- เตรียมเพิ่ม ตัวกระตุ้นให้มนุษย์เข้าตรวจทานเมื่อคะแนนของ LLM ไม่ตรงกัน
- เสริมการเข้าถึง: โหมดฝึกซ้อม เวลาเพิ่มเติม และช่องทางทางเลือก
บทสรุป: การประเมินแบบเน้นความเข้าใจที่ขยายได้ด้วย AI
- การบ้านและการสอบข้อเขียนหมดประสิทธิภาพในยุค LLM จึงจำเป็นต้องเปลี่ยนไปสู่การประเมินการคิดแบบเรียลไทม์
- การสอบปากเปล่าด้วย AI วัดได้ทั้ง ความเข้าใจ การตัดสินใจ และการคิดสดเฉพาะหน้า พร้อมเป็น รูปแบบการประเมินใหม่ที่รองรับการดำเนินการในวงกว้าง
- สามารถ เสริมการเรียนรู้ผ่านการฝึกซ้ำ ได้โดยไม่ต้องกังวลเรื่องข้อสอบรั่ว
- “Fight fire with fire” — นวัตกรรมการประเมินที่ใช้ AI แก้ปัญหาที่ AI เป็นผู้ก่อขึ้น
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
รู้สึกว่าข้อมูลและข้อสรุปที่ยกมาในบทความไม่สอดคล้องกัน
แม้นักศึกษาจะได้คุยกับ AI แล้ว พวกเขาก็ยังคงชอบ ข้อสอบข้อเขียน มากกว่า
มหาวิทยาลัยดำเนินการสอบข้อเขียนพร้อมป้องกันการโกงมาหลายร้อยปีแล้ว และหลังโควิดก็หันมาใช้การประเมินออนไลน์ที่เหมือน ‘วงล้อทรงเหลี่ยม’ แต่จริง ๆ แล้วอยากเปรียบเทียบว่าการกลับไปใช้วงล้อกลมน่าจะดีกว่า
ยังไม่ได้ตรวจสอบ ความแม่นยำของการประเมินโดย LLM เลย สุดท้ายจึงให้ความรู้สึกเหมือนตั้งข้อสรุปไว้ก่อนแล้วค่อยหาข้อมูลมาใส่
คำว่า ‘Take-home exam จบแล้ว’ เป็นข้อเท็จจริงที่เห็นได้ชัด ไม่ใช่ผลจากการทดลอง
ทุกวันนี้แม้อยู่คนเดียวก็ โกง ได้ง่ายมาก
อีกทั้งแต่ละสาขาวิชาก็ควรมีวิธีประเมินต่างกัน และสาขาใหม่อย่างวิทยาการคอมพิวเตอร์ก็ยังมี ความเป็นผู้ใหญ่ของระบบประเมิน ไม่มากพอ
สุดท้าย ความชอบของนักศึกษาไม่ใช่เกณฑ์ตัดสินคุณภาพของการสอบ
ในชีวิตจริงมักมีสถานการณ์ที่ต้อง อธิบายเหตุผลเบื้องหลังการตัดสินใจ ของตัวเองต่อหน้าคนอื่น
ก็เข้าใจได้ว่าคนรุ่นที่มีประสบการณ์แบบเผชิญหน้าน้อยลงในช่วงโควิดจะกลัวการพูด แต่การ ฝึกเอาชนะความกังวล แบบนี้อาจช่วยได้ด้วยซ้ำ
เพราะ ความเสี่ยงในการโกงของ Take-home exam สูงขึ้น การสอบปากเปล่าอาจไม่สมบูรณ์แบบ แต่ก็อาจเป็นทางเลือกที่ดีกว่า
เมื่อก่อนข้อสอบทุกอย่างแทบไม่มีช่องให้ AI เข้ามาเกี่ยวข้องเลย
เขียนด้วยปากกาด้วยลายมือ และสอบใน ยิมที่มีผู้คุมสอบเฝ้าดูอยู่
การโกงเท่ากับถูกไล่ออก และจากคนหลายพันมีแค่ 1% ที่เรียนจบ
พอได้ยินว่าตอนนี้จะเปลี่ยนข้อสอบให้เข้ากับ AI ก็รู้สึกเหมือนบ้ากันไปแล้ว ทั้งที่เรามีทางแก้อยู่แล้ว
สุดท้ายมันเป็นโครงสร้างที่โยนความรับผิดชอบให้นักศึกษาอย่างเดียว และปัญหาจริงคือ ความขี้เกียจของอาจารย์ กับ การนำข้อสอบเดิมกลับมาใช้ซ้ำ
ทางแก้จริง ๆ คือออกโจทย์ใหม่ทุกครั้งและออกข้อสอบให้หลากหลาย
ผมกลับคิดว่าการสอบบน คอมพิวเตอร์ที่มหาวิทยาลัยจัดให้พร้อมสภาพแวดล้อมการพัฒนา น่าจะดีกว่า
ถ้าเป็นจริง การหาวิธี ขยายการสอบปากเปล่าให้รองรับคนจำนวนมาก ก็มีความหมาย
ไม่จำเป็นต้องหมกมุ่นกับ การขยายขนาด มากขนาดนั้น
มหาวิทยาลัยมีเงินอยู่แล้ว ก็ให้อาจารย์สอบปากเปล่าเองไปเลย
ในระดับบัณฑิตศึกษาที่เยอรมนีก็มีการสอบปากเปล่ากันมากและมันก็ใช้ได้ผลดี
การพึ่ง AI ดูเหมือนเป็นสัญลักษณ์ของความขี้เกียจ
AI เหมาะกับงานซ้ำ ๆ แต่ใน สถานการณ์เชิงเผชิญหน้า ยังเชื่อถือได้ยาก
ตอนเรียนปริญญาตรีผมก็เคยสอบ ปากเปล่า แต่การเปลี่ยนท่าทีของอาจารย์ทำให้ความตึงเครียดรุนแรงมาก
เลยสงสัยว่า AI จะสร้างแรงกดดันทางอารมณ์แบบนั้นได้หรือไม่
สำหรับผมกลับเป็นว่าแค่ ความผิดพลาดเล็ก ๆ ของ AI ก็ชวนหงุดหงิดแล้ว
แต่ผมมักสมองขาวโพลนในสถานการณ์แบบนั้นและพูดอะไรไม่ออกเลย ทรมานมาก
เมื่อก่อนในกระบวนการจ้างงานเราเคยให้ งาน Take-home แล้วพบว่าผู้สมัครบางคนอธิบายโค้ดที่ตัวเองส่งมาไม่ได้
พอมี LLM แล้ว แรงยั่วยวนให้ ใช้ AI เขียนแทน ยิ่งมากขึ้นมาก
แต่สิ่งที่เราต้องประเมินคือ ความสามารถในการแก้ปัญหาและการสื่อสาร ของผู้สมัคร
การสัมภาษณ์ที่อนุญาตให้ใช้ LLM สุดท้ายก็กลายเป็น “การทดสอบความชำนาญในการใช้ AI”
แม้ผมจะไม่เห็นด้วยกับวิธีในบทความ แต่การมองเห็นปัญหานั้นเองก็สมจริง
ขั้นต่อไปอาจเป็นสถานการณ์ที่ AI ใช้ AI ที่ตอบด้วยเสียง มาแทนตัวเองก็ได้
สุดท้ายมนุษย์คงต้องกลับมาเป็นศูนย์กลางอีกครั้ง
ต่อไปก็จะยิ่งแนบเนียนขึ้นด้วย แว่นตาอัจฉริยะ, ไมโครโฟน bone-conduction และอย่างอื่น
สุดท้ายคนที่ได้รับผลเสียกลับเป็นนักศึกษาที่ซื่อสัตย์แต่ มีความวิตกกังวลทางสังคม
น่าจะดีถ้ามี การสอบปากเปล่าจำลองแบบสมัครใจ ระหว่างภาคเรียน
นักศึกษาจะได้คุ้นกับรูปแบบและปรับตัวกับน้ำเสียงได้
ที่บอกว่านักศึกษา 36 คนทำให้การสอบปากเปล่าเป็นไปไม่ได้ก็น่าแปลกใจ
การฝึกซ้ำแบบนี้ต่างหากคือรูปแบบของการเรียนรู้ที่แท้จริง
ขอรับเงินคืน $25 ดีกว่าและ ไม่เอา LLM มาสอบแทนเด็ดขาด
ถ้าสุ่มสอบเพียงนักศึกษาบางส่วน ก็อาจสร้างได้ทั้ง แรงจูงใจ และ ความรู้สึกท้อแท้ ไปพร้อมกัน
ต่อให้สอบคุย 10 นาทีเฉพาะกับนักศึกษากลุ่มท็อปก็ยังทำได้สบาย
แค่คิดว่าต้องถูกแอปเสียง AI ซักถามก็สยองแล้ว
ถ้าจะคงวิธีแบบนี้ไว้จริง อาจถึงขั้นต้องมี โมเดลการศึกษาแบบไม่มีการประเมิน แทน
คำพูดที่ถ้าเป็นมนุษย์ผมไม่มีวันพูด ก็กลับพูดออกมาได้ง่ายมาก
ผมนี่แหละคือ ผู้เขียนโพสต์บล็อกนั้น
เราแค่ลองอะไรใหม่ ๆ ในวิชา AI ของเรา
ไม่ได้พยายามล้มเลิกข้อสอบข้อเขียน แต่เพิ่ม การสอบปากเปล่าเป็นอีกหนึ่งเครื่องมือ
จุดประสงค์คือเพื่อเช็กว่านักศึกษา เข้าใจงานของตัวเองจริงหรือไม่ ในโปรเจกต์ทีม
นักศึกษาที่ได้คะแนนสอบปากเปล่าต่ำก็ตามคาดว่ามีความเข้าใจโปรเจกต์ต่ำ
ถ้ามีระดับ 36 คนก็ยังสัมภาษณ์เองได้ แต่ถ้าเกิน 100 คนจะยาก
ที่สำคัญคือมีงานวิจัยบอกว่า AI ไม่เหนื่อย จึงให้การประเมินได้สม่ำเสมอ นั่นจึงเป็นเหตุผลที่ผมเชื่อถือมัน
มันไม่ต่างจาก ใช้รถยกในยิม
ถ้าเป็นวิชาง่าย ๆ ระดับ MBA อาจพอได้ แต่ใน วิชาที่ต้องใช้วิจารณญาณละเอียดอ่อน AI ไม่ยุติธรรม
ถ้าเป็นการสอบเช็กแบบง่าย ๆ อย่างนี้ สู้ไปทำ ข้อสอบปรนัยที่คีออสก์ ยังดีกว่า
สมัยของพวกเรา การสอบทุกอย่างเป็นแบบปากเปล่าหมด
การสอบใหญ่ใช้เวลาถึงสองวัน แต่ศาสตราจารย์กับผู้ช่วยสอนก็จัด เซสชันปีละ 6 ครั้ง
เหตุผลหนึ่งคือ ความต่างในการตีความเรื่องความยุติธรรมทางวัฒนธรรม
ในสภาพแวดล้อมที่หลากหลายมาก การสอบปากเปล่าอาจก่อให้เกิด ข้อถกเถียงเรื่องอคติ ได้
ถ้ามีตัวเลือกให้ใช้ AI ตรวจข้อสอบในราคา $5 แล้วเอา 20 ชั่วโมงไปไถโทรศัพท์ ได้ พวกเขาก็คงเลือกแบบนั้น