2 คะแนน โดย GN⁺ 2026-01-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อ โมเดลภาษาขนาดใหญ่ (LLM) แพร่หลาย จนการบ้านและการสอบแบบเดิมไม่สามารถวัดความเข้าใจในการเรียนรู้ได้อีกต่อไป คณาจารย์จึงทดลองนำ เสียง AI ของ ElevenLabs มาใช้จัดสอบปากเปล่าแบบเรียลไทม์
  • การสอบประกอบด้วย 2 ส่วนคือการอธิบายโปรเจกต์และการถามกรณีศึกษา โดยนักศึกษาต้องอธิบายให้ AI ฟังด้วยตนเองถึง เหตุผลเบื้องหลังการตัดสินใจและกระบวนการคิด
  • ใช้โมเดลทั้ง Claude·Gemini·ChatGPT ให้คะแนนแบบสภาร่วม เพื่อเพิ่มความสม่ำเสมอและคุณภาพของฟีดแบ็ก พร้อมทั้งเผยให้เห็น หัวข้ออ่อนของการเรียนจริง (การออกแบบการทดลอง)
  • ประเมินนักศึกษา 36 คนใน 9 วัน ใช้เวลาเฉลี่ยคนละ 25 นาที และมี ค่าใช้จ่ายต่อนักศึกษา 0.42 ดอลลาร์ ซึ่งต่ำมาก
  • การสอบปากเปล่าด้วย AI อาจกลายเป็น รูปแบบการสอบใหม่ที่ขยายการประเมินแบบเน้นความเข้าใจได้จริง

การมองเห็นปัญหาและที่มาของการนำการสอบปากเปล่ามาใช้

  • คุณภาพของงานที่นักศึกษาส่งสูงผิดปกติ จนเกิด ข้อสงสัยว่าเขียนด้วย AI และเมื่อตั้งคำถามแบบสุ่มก็พบหลายกรณีที่ไม่สามารถอธิบายได้ด้วยตนเอง
  • ด้วย การเข้าถึง LLM ความน่าเชื่อถือของการบ้านและการสอบแบบเดิมจึงพังทลายลง และการสอบปากเปล่าซึ่งประเมินการคิดแบบเรียลไทม์ได้ก็กลายเป็นทางเลือก
  • แต่การสอบปากเปล่ามีข้อจำกัดคือ ไม่สามารถดำเนินการในวงกว้างได้ จึงนำ เอเจนต์เสียง AI มาใช้เพื่อแก้ปัญหานี้

โครงสร้างเอเจนต์เสียงบนพื้นฐาน ElevenLabs

  • ใช้ ElevenLabs Conversational AI เพื่อรวมองค์ประกอบที่ซับซ้อนอย่าง การรู้จำเสียง การสังเคราะห์เสียง และการจัดการเทิร์นสนทนา เข้าไว้ด้วยกัน
  • ใช้ ตัวแปรแบบไดนามิก ส่งชื่อและข้อมูลโปรเจกต์ของนักศึกษา และใช้ โครงสร้างเวิร์กโฟลว์ แยกเอเจนต์สำหรับการยืนยันตัวตน โปรเจกต์ และคำถามกรณีศึกษา
    • เอเจนต์ยืนยันตัวตน: ตรวจสอบรหัสนักศึกษา
    • เอเจนต์โปรเจกต์: ถามจากเอกสารที่ส่ง
    • เอเจนต์กรณีศึกษา: สุ่มเลือกกรณีแล้วตั้งคำถาม
  • การแยกเป็นเอเจนต์ขนาดเล็กหลายตัวช่วยให้ ป้องกันการหลุดประเด็นของบทสนทนา และ ดีบักได้ง่าย

การดำเนินการสอบและผลลัพธ์เชิงตัวเลข

  • ดำเนินการกับนักศึกษารวม 36 คน เป็นเวลา 9 วัน ใช้เวลาเฉลี่ย 25 นาที (สั้นสุด 9 นาที~ยาวสุด 64 นาที)
  • มี การแลกเปลี่ยนข้อความเฉลี่ย 65 ครั้ง และ ค่าใช้จ่ายรวม 15 ดอลลาร์ (0.42 ดอลลาร์ต่อนักศึกษา)
  • ผลการให้คะแนนของ LLM 89% ตรงกันภายใน 1 คะแนน และ การสอบที่สั้นที่สุด (9 นาที) ได้คะแนนสูงสุดที่ 19/20
  • เมื่อเทียบกับการให้คะแนนโดยมนุษย์ สามารถ ลดต้นทุนได้มากกว่า 50 เท่า และทำให้การประเมิน การบันทึก และการให้ฟีดแบ็กแบบเรียลไทม์เป็นอัตโนมัติได้

บทเรียนจากการลองผิดลองถูกและมาตรการปรับปรุง

  • ฟีดแบ็กจากนักศึกษาว่า โทนเสียงกดดันเกินไป → วางแผนทดสอบเสียงหลายแบบด้วย A/B test
  • ปัญหา คำถามทับซ้อนสะสมกัน → เพิ่มกฎว่า “ถามครั้งละหนึ่งคำถาม”
  • ความหมายเปลี่ยนเมื่อถามซ้ำ → ระบุให้ “ทวนประโยคเดิมแบบตรงตัว”
  • มีเวลาให้คิดไม่พอ → ขยายเวลารอเป็น 10 วินาที
  • การสุ่มเลือกกรณีศึกษาล้มเหลว → แก้ที่ระดับโค้ดด้วยการแมปเลขสุ่ม

การให้คะแนนแบบสภา LLM (council grading)

  • Claude·Gemini·ChatGPT ให้คะแนนอย่างอิสระก่อน แล้วจึงตรวจทานและแก้ไขร่วมกัน
  • ในรอบแรกอัตราความไม่ตรงกันของคะแนนสูง แต่หลังการหารือรอบสอง อัตราที่ตรงกันภายใน 1 คะแนน ดีขึ้นจาก 62% → 85%
  • Gemini ปรับลดลงเฉลี่ย 2 คะแนน ขณะที่ Claude·OpenAI มีความสม่ำเสมอระหว่างกันสูง
  • ในหัวข้อ การออกแบบการทดลอง ความไม่ตรงกันของคะแนนสูงที่สุด ซึ่งวิเคราะห์ว่าเกิดจากความกำกวมในคำตอบของนักศึกษา
  • การให้คะแนนด้วย AI เข้มงวดกว่ามนุษย์แต่ยุติธรรม และฟีดแบ็กก็ เฉพาะเจาะจงและชี้นำการลงมือทำ ได้ดี

ข้อค้นพบทางการศึกษาและการวินิจฉัย

  • ในการวิเคราะห์ผลสัมฤทธิ์รายหัวข้อ พบว่า คะแนนเฉลี่ยด้านการออกแบบการทดลอง 1.94/4 ต่ำที่สุด
    • 0 คะแนน 8%, 1 คะแนน 19%, 2 คะแนน 42%, 4 คะแนน 0%
  • พบว่าเกิดจาก การอธิบาย A/B test ในชั้นเรียนไม่เพียงพอ ทำให้เห็นความจำเป็นที่คณาจารย์ต้องปรับปรุงการสอน
  • ไม่มีความสัมพันธ์ระหว่างเวลาสอบกับคะแนน (r=-0.03) และคำตอบที่สั้น ชัดเจน มีแนวโน้มสัมพันธ์กับคะแนนที่สูงกว่า

การป้องกันการทุจริตและความโปร่งใส

  • บังคับให้นักศึกษาใช้ เว็บแคมและบันทึกเสียง เพื่อป้องกันความช่วยเหลือจากภายนอก
  • ดำเนินการสอบด้วย แนวทางที่เปิดเผยต่อสาธารณะ ในด้านโครงสร้างการสอบและประเภทของคำถาม จึงตัดความเสี่ยงจากข้อสอบรั่วไหล
  • นักศึกษาสามารถ ฝึกซ้อมซ้ำได้ภายใต้โครงสร้างเดียวกัน ซึ่งช่วยเสริมผลการเรียนรู้จริง

ปฏิกิริยาของนักศึกษา

  • มีเพียง 13% ที่ชอบการสอบปากเปล่าด้วย AI, 57% ชอบการสอบข้อเขียนแบบดั้งเดิม และ 83% ตอบว่ารู้สึกเครียดมากกว่า
  • อย่างไรก็ตาม 70% ยอมรับว่าวัดความเข้าใจจริงได้ดี แสดงว่าความน่าเชื่อถือของการประเมินอยู่ในระดับสูง
  • ความยืดหยุ่นในการ เข้าสอบได้เองตามเวลาและสถานที่ที่สะดวก ได้รับการประเมินในเชิงบวก
  • สิ่งที่อยากให้ปรับปรุงคือ ลดความเร็ว ใช้เสียงที่สงบขึ้น และถามทีละคำถาม

แผนการปรับปรุงในอนาคต

  • ปรับความเร็วและเพิ่มความหลากหลายของเสียง, ใช้คำถามแบบ RAG จากงานที่นักศึกษาส่ง, แจกจ่ายกรณีศึกษาด้วย random seed ที่ระบุชัดเจน
  • เตรียมเพิ่ม ตัวกระตุ้นให้มนุษย์เข้าตรวจทานเมื่อคะแนนของ LLM ไม่ตรงกัน
  • เสริมการเข้าถึง: โหมดฝึกซ้อม เวลาเพิ่มเติม และช่องทางทางเลือก

บทสรุป: การประเมินแบบเน้นความเข้าใจที่ขยายได้ด้วย AI

  • การบ้านและการสอบข้อเขียนหมดประสิทธิภาพในยุค LLM จึงจำเป็นต้องเปลี่ยนไปสู่การประเมินการคิดแบบเรียลไทม์
  • การสอบปากเปล่าด้วย AI วัดได้ทั้ง ความเข้าใจ การตัดสินใจ และการคิดสดเฉพาะหน้า พร้อมเป็น รูปแบบการประเมินใหม่ที่รองรับการดำเนินการในวงกว้าง
  • สามารถ เสริมการเรียนรู้ผ่านการฝึกซ้ำ ได้โดยไม่ต้องกังวลเรื่องข้อสอบรั่ว
  • “Fight fire with fire” — นวัตกรรมการประเมินที่ใช้ AI แก้ปัญหาที่ AI เป็นผู้ก่อขึ้น

1 ความคิดเห็น

 
GN⁺ 2026-01-05
ความคิดเห็นจาก Hacker News
  • รู้สึกว่าข้อมูลและข้อสรุปที่ยกมาในบทความไม่สอดคล้องกัน
    แม้นักศึกษาจะได้คุยกับ AI แล้ว พวกเขาก็ยังคงชอบ ข้อสอบข้อเขียน มากกว่า
    มหาวิทยาลัยดำเนินการสอบข้อเขียนพร้อมป้องกันการโกงมาหลายร้อยปีแล้ว และหลังโควิดก็หันมาใช้การประเมินออนไลน์ที่เหมือน ‘วงล้อทรงเหลี่ยม’ แต่จริง ๆ แล้วอยากเปรียบเทียบว่าการกลับไปใช้วงล้อกลมน่าจะดีกว่า

    • น่าแปลกที่ผลการทดลองออกมาไม่ดีอย่างชัดเจน แต่ผู้เขียนกลับอ้างว่า “ประสบความสำเร็จอย่างมาก”
      ยังไม่ได้ตรวจสอบ ความแม่นยำของการประเมินโดย LLM เลย สุดท้ายจึงให้ความรู้สึกเหมือนตั้งข้อสรุปไว้ก่อนแล้วค่อยหาข้อมูลมาใส่
    • ประโยคที่ยกมานั้นไม่ใช่ข้อสรุป แต่เป็นเพียงคำกล่าวอ้าง
      คำว่า ‘Take-home exam จบแล้ว’ เป็นข้อเท็จจริงที่เห็นได้ชัด ไม่ใช่ผลจากการทดลอง
      ทุกวันนี้แม้อยู่คนเดียวก็ โกง ได้ง่ายมาก
      อีกทั้งแต่ละสาขาวิชาก็ควรมีวิธีประเมินต่างกัน และสาขาใหม่อย่างวิทยาการคอมพิวเตอร์ก็ยังมี ความเป็นผู้ใหญ่ของระบบประเมิน ไม่มากพอ
      สุดท้าย ความชอบของนักศึกษาไม่ใช่เกณฑ์ตัดสินคุณภาพของการสอบ
    • ที่นักศึกษาชอบข้อสอบข้อเขียน ไม่ได้แปลว่านั่นคือทางเลือกที่ดีที่สุด
      ในชีวิตจริงมักมีสถานการณ์ที่ต้อง อธิบายเหตุผลเบื้องหลังการตัดสินใจ ของตัวเองต่อหน้าคนอื่น
      ก็เข้าใจได้ว่าคนรุ่นที่มีประสบการณ์แบบเผชิญหน้าน้อยลงในช่วงโควิดจะกลัวการพูด แต่การ ฝึกเอาชนะความกังวล แบบนี้อาจช่วยได้ด้วยซ้ำ
    • ในการเรียนออนไลน์ การสอบข้อเขียนทำได้ยาก
      เพราะ ความเสี่ยงในการโกงของ Take-home exam สูงขึ้น การสอบปากเปล่าอาจไม่สมบูรณ์แบบ แต่ก็อาจเป็นทางเลือกที่ดีกว่า
    • การ แข่งกันระหว่างการโกงกับการเฝ้าจับผิด ระหว่างนักเรียนกับครูเป็นเรื่องที่ดำเนินต่อเนื่องมาหลายร้อยปีแล้ว
  • เมื่อก่อนข้อสอบทุกอย่างแทบไม่มีช่องให้ AI เข้ามาเกี่ยวข้องเลย
    เขียนด้วยปากกาด้วยลายมือ และสอบใน ยิมที่มีผู้คุมสอบเฝ้าดูอยู่
    การโกงเท่ากับถูกไล่ออก และจากคนหลายพันมีแค่ 1% ที่เรียนจบ
    พอได้ยินว่าตอนนี้จะเปลี่ยนข้อสอบให้เข้ากับ AI ก็รู้สึกเหมือนบ้ากันไปแล้ว ทั้งที่เรามีทางแก้อยู่แล้ว

    • ระบบที่นักศึกษา 99% ตกไม่ใช่เรื่องน่าภูมิใจ
      สุดท้ายมันเป็นโครงสร้างที่โยนความรับผิดชอบให้นักศึกษาอย่างเดียว และปัญหาจริงคือ ความขี้เกียจของอาจารย์ กับ การนำข้อสอบเดิมกลับมาใช้ซ้ำ
      ทางแก้จริง ๆ คือออกโจทย์ใหม่ทุกครั้งและออกข้อสอบให้หลากหลาย
    • ก็สงสัยว่าการให้เขียนโค้ด C++ ด้วยมือเป็นวิธีประเมินที่ดีที่สุดจริงหรือไม่
      ผมกลับคิดว่าการสอบบน คอมพิวเตอร์ที่มหาวิทยาลัยจัดให้พร้อมสภาพแวดล้อมการพัฒนา น่าจะดีกว่า
    • ก็มีคนบอกว่าการสอบปากเปล่าดีกว่าสำหรับวินิจฉัยความเข้าใจ
      ถ้าเป็นจริง การหาวิธี ขยายการสอบปากเปล่าให้รองรับคนจำนวนมาก ก็มีความหมาย
    • อัตราตก 99% ฟังไม่น่าเชื่อ มหาวิทยาลัยแบบนั้นควรปิดไปเถอะ
  • ไม่จำเป็นต้องหมกมุ่นกับ การขยายขนาด มากขนาดนั้น
    มหาวิทยาลัยมีเงินอยู่แล้ว ก็ให้อาจารย์สอบปากเปล่าเองไปเลย
    ในระดับบัณฑิตศึกษาที่เยอรมนีก็มีการสอบปากเปล่ากันมากและมันก็ใช้ได้ผลดี

    • ในยุโรป การสอบปากเปล่าเป็นเรื่องปกติ เช่น Matura หรือการป้องกันวิทยานิพนธ์ปริญญาเอก
      การพึ่ง AI ดูเหมือนเป็นสัญลักษณ์ของความขี้เกียจ
      AI เหมาะกับงานซ้ำ ๆ แต่ใน สถานการณ์เชิงเผชิญหน้า ยังเชื่อถือได้ยาก
  • ตอนเรียนปริญญาตรีผมก็เคยสอบ ปากเปล่า แต่การเปลี่ยนท่าทีของอาจารย์ทำให้ความตึงเครียดรุนแรงมาก
    เลยสงสัยว่า AI จะสร้างแรงกดดันทางอารมณ์แบบนั้นได้หรือไม่
    สำหรับผมกลับเป็นว่าแค่ ความผิดพลาดเล็ก ๆ ของ AI ก็ชวนหงุดหงิดแล้ว

    • ที่อิตาลี การสอบทุกอย่างตั้งแต่ประถมถึงมหาวิทยาลัยมีส่วนของการสอบปากเปล่า
      แต่ผมมักสมองขาวโพลนในสถานการณ์แบบนั้นและพูดอะไรไม่ออกเลย ทรมานมาก
  • เมื่อก่อนในกระบวนการจ้างงานเราเคยให้ งาน Take-home แล้วพบว่าผู้สมัครบางคนอธิบายโค้ดที่ตัวเองส่งมาไม่ได้
    พอมี LLM แล้ว แรงยั่วยวนให้ ใช้ AI เขียนแทน ยิ่งมากขึ้นมาก
    แต่สิ่งที่เราต้องประเมินคือ ความสามารถในการแก้ปัญหาและการสื่อสาร ของผู้สมัคร
    การสัมภาษณ์ที่อนุญาตให้ใช้ LLM สุดท้ายก็กลายเป็น “การทดสอบความชำนาญในการใช้ AI”
    แม้ผมจะไม่เห็นด้วยกับวิธีในบทความ แต่การมองเห็นปัญหานั้นเองก็สมจริง

    • คำว่า “synthetic pronouns” น่าสนใจดี
  • ขั้นต่อไปอาจเป็นสถานการณ์ที่ AI ใช้ AI ที่ตอบด้วยเสียง มาแทนตัวเองก็ได้
    สุดท้ายมนุษย์คงต้องกลับมาเป็นศูนย์กลางอีกครั้ง

    • ตอนนี้แค่ teleprompter ก็พอจะใช้หลอกได้แล้ว
      ต่อไปก็จะยิ่งแนบเนียนขึ้นด้วย แว่นตาอัจฉริยะ, ไมโครโฟน bone-conduction และอย่างอื่น
      สุดท้ายคนที่ได้รับผลเสียกลับเป็นนักศึกษาที่ซื่อสัตย์แต่ มีความวิตกกังวลทางสังคม
    • ถ้าพื้นที่สอบเต็มไปด้วย ตู้โทรศัพท์หลายสิบตู้ ก็คงน่ากลัวยิ่งกว่าคอกกั้นในออฟฟิศอีก
  • น่าจะดีถ้ามี การสอบปากเปล่าจำลองแบบสมัครใจ ระหว่างภาคเรียน
    นักศึกษาจะได้คุ้นกับรูปแบบและปรับตัวกับน้ำเสียงได้
    ที่บอกว่านักศึกษา 36 คนทำให้การสอบปากเปล่าเป็นไปไม่ได้ก็น่าแปลกใจ

    • อย่างที่กล่าวไว้ช่วงท้ายบทความ AI สร้างคำถามใหม่ทุกครั้ง จึงใช้ซ้อมได้โดยไม่ต้องกังวลเรื่องข้อสอบรั่ว
      การฝึกซ้ำแบบนี้ต่างหากคือรูปแบบของการเรียนรู้ที่แท้จริง
    • ถ้าผู้ช่วยสอนได้ค่าแรงชั่วโมงละ $25 การสอบปากเปล่าก็ทำได้สบาย
      ขอรับเงินคืน $25 ดีกว่าและ ไม่เอา LLM มาสอบแทนเด็ดขาด
    • ที่ Charles University ในปราก ก็มีการสอบปากเปล่ากับนักศึกษามากกว่า 200 คน
    • มันขึ้นอยู่กับความลึกและความถี่ของการสอบปากเปล่า
      ถ้าสุ่มสอบเพียงนักศึกษาบางส่วน ก็อาจสร้างได้ทั้ง แรงจูงใจ และ ความรู้สึกท้อแท้ ไปพร้อมกัน
    • สุดท้ายแนวคิดนี้ก็คือพยายามประหยัดเงินด้วยการ แทนที่การสอบด้วยแชตบอต
      ต่อให้สอบคุย 10 นาทีเฉพาะกับนักศึกษากลุ่มท็อปก็ยังทำได้สบาย
  • แค่คิดว่าต้องถูกแอปเสียง AI ซักถามก็สยองแล้ว
    ถ้าจะคงวิธีแบบนี้ไว้จริง อาจถึงขั้นต้องมี โมเดลการศึกษาแบบไม่มีการประเมิน แทน

    • สุดท้ายการกลับไปใช้ การสอบลายมือ อาจเป็นทางออกที่สมจริงที่สุดก็ได้
    • ไม่นานมานี้ผมก็เพิ่งเจอ สัมภาษณ์โดย AI และพบว่าโกหก AI แล้วไม่รู้สึกผิดเลย
      คำพูดที่ถ้าเป็นมนุษย์ผมไม่มีวันพูด ก็กลับพูดออกมาได้ง่ายมาก
    • ถ้าการสอบหายไปหมด แรงจูงใจในการเรียนก็จะไม่อยู่
  • ผมนี่แหละคือ ผู้เขียนโพสต์บล็อกนั้น
    เราแค่ลองอะไรใหม่ ๆ ในวิชา AI ของเรา
    ไม่ได้พยายามล้มเลิกข้อสอบข้อเขียน แต่เพิ่ม การสอบปากเปล่าเป็นอีกหนึ่งเครื่องมือ
    จุดประสงค์คือเพื่อเช็กว่านักศึกษา เข้าใจงานของตัวเองจริงหรือไม่ ในโปรเจกต์ทีม
    นักศึกษาที่ได้คะแนนสอบปากเปล่าต่ำก็ตามคาดว่ามีความเข้าใจโปรเจกต์ต่ำ
    ถ้ามีระดับ 36 คนก็ยังสัมภาษณ์เองได้ แต่ถ้าเกิน 100 คนจะยาก
    ที่สำคัญคือมีงานวิจัยบอกว่า AI ไม่เหนื่อย จึงให้การประเมินได้สม่ำเสมอ นั่นจึงเป็นเหตุผลที่ผมเชื่อถือมัน

    • มีคนบอกว่าการอนุญาตให้ใช้ LLM เป็นเรื่องธรรมดา แต่ผมไม่เห็นด้วย
      มันไม่ต่างจาก ใช้รถยกในยิม
      ถ้าเป็นวิชาง่าย ๆ ระดับ MBA อาจพอได้ แต่ใน วิชาที่ต้องใช้วิจารณญาณละเอียดอ่อน AI ไม่ยุติธรรม
      ถ้าเป็นการสอบเช็กแบบง่าย ๆ อย่างนี้ สู้ไปทำ ข้อสอบปรนัยที่คีออสก์ ยังดีกว่า
  • สมัยของพวกเรา การสอบทุกอย่างเป็นแบบปากเปล่าหมด
    การสอบใหญ่ใช้เวลาถึงสองวัน แต่ศาสตราจารย์กับผู้ช่วยสอนก็จัด เซสชันปีละ 6 ครั้ง

    • ตอนเรียนปริญญาตรีและโทสาขาฟิสิกส์ ผมก็มีการสอบปากเปล่าเป็นพื้นฐาน แต่พอถึงปริญญาเอกมันหายไป
      เหตุผลหนึ่งคือ ความต่างในการตีความเรื่องความยุติธรรมทางวัฒนธรรม
      ในสภาพแวดล้อมที่หลากหลายมาก การสอบปากเปล่าอาจก่อให้เกิด ข้อถกเถียงเรื่องอคติ ได้
    • สุดท้ายอาจารย์ก็เป็นมนุษย์
      ถ้ามีตัวเลือกให้ใช้ AI ตรวจข้อสอบในราคา $5 แล้วเอา 20 ชั่วโมงไปไถโทรศัพท์ ได้ พวกเขาก็คงเลือกแบบนั้น