1 คะแนน โดย GN⁺ 1 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อ LLM ถูกใช้ทั้งในการสร้างและประเมินเรซูเม่ โมเดลประเมินก็เกิด การชอบผลงานที่ตัวเองสร้าง มากกว่า กลายเป็นอคติรูปแบบใหม่ในการคัดกรองผู้สมัครงาน
  • งานวิจัยนี้เปรียบเทียบและประเมินเรซูเม่เชิงสวนทางข้อเท็จจริงที่สร้างโดย LLM หลายตัว เช่น GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 โดยอิงจาก เรซูเม่ที่มนุษย์เขียน 2,245 ฉบับ ซึ่งเก็บรวบรวมไว้ก่อนการแพร่หลายของ generative AI
  • ในโมเดลส่วนใหญ่พบ การชอบผลงานของตนเองแบบ LLM-vs-Human อย่างชัดเจน โดยอคติการชอบผลงานของตนเองเมื่อเทียบกับเรซูเม่ที่มนุษย์เขียนในโมเดลเชิงพาณิชย์และโอเพนซอร์สหลักอยู่ในช่วง 67%~82%
  • ในการจำลองกระบวนการสรรหาสำหรับ 24 กลุ่มอาชีพ ผู้สมัครที่ใช้ LLM เดียวกับ LLM ที่ใช้ประเมินมีโอกาสถูกคัดเป็น ผู้เข้ารอบสุดท้าย สูงกว่าผู้สมัครที่มีคุณสมบัติเท่ากันแต่ส่งเรซูเม่ที่มนุษย์เขียนประมาณ 23%~60%
  • System prompting ที่สั่งให้มองข้ามแหล่งที่มาและโฟกัสที่เนื้อหา รวมถึงการทำ ensemble แบบเสียงข้างมาก ช่วยลดการชอบผลงานของตนเองแบบ LLM-vs-Human ได้ใน LLM ที่ทดสอบทั้งหมดราว 17%~63%

อคติแบบใหม่ที่ AI สร้างขึ้นในการประเมินผู้สมัครงาน

  • เมื่อโมเดลภาษาขนาดใหญ่ (LLM) ถูกใช้ทั้งในการสร้างและประเมินคอนเทนต์ การชอบผลงานของตนเอง (self-preference) ซึ่งหมายถึงการให้คะแนนผลงานที่โมเดลเดียวกันสร้างไว้สูงกว่า กำลังกลายเป็นอคติรูปแบบใหม่ในกระบวนการตัดสินใจ เช่น การจ้างงาน
  • ในการสรรหาบุคลากร โครงสร้างที่ผู้สมัครใช้ LLM เขียนหรือขัดเกลาเรซูเม่ ขณะที่นายจ้างใช้เครื่องมือคล้ายกันในการคัดกรองหรือจัดอันดับเรซูเม่ มีมากขึ้นเรื่อย ๆ ทำให้ ปฏิสัมพันธ์แบบ AI-AI สามารถส่งผลต่อผลลัพธ์การประเมินจริงได้
  • ต่างจากการถกเถียงเรื่องความเป็นธรรมในอดีตที่มักเน้นการเลือกปฏิบัติตามคุณลักษณะทางประชากรศาสตร์ การชอบผลงานของตนเองเป็นอคติที่เกิดขึ้นภายในจากความสัมพันธ์ระหว่างโมเดลประเมินกับโมเดลสร้าง
  • อคตินี้อาจทำงานในทางที่เป็นประโยชน์ต่อผู้สมัครที่ใช้โมเดลเดียวกับ LLM ที่ใช้ประเมิน แม้จะมีความสามารถเท่ากัน และทำให้ผู้ที่ใช้เครื่องมืออื่นหรือไม่ใช้ AI เสียเปรียบ
  • การคัดกรองเรซูเม่เป็น คอขวดขั้นต้น ที่ใช้ลดผู้สมัครจำนวนมากให้เหลือเข้าสู่ขั้นสัมภาษณ์และประเมินที่มีจำกัด ดังนั้นการตัดสินผิดพลาดในขั้นต้นจึงอาจส่งผลต่อองค์ประกอบของกลุ่มผู้สมัครและการกระจายโอกาสในการจ้างงานในขั้นต่อ ๆ ไปอย่างต่อเนื่อง

การออกแบบการทดลองและวิธีวัดผล

  • การทดลองอิงจาก เรซูเม่ที่มนุษย์เขียน 2,245 ฉบับ ซึ่งเก็บจากแพลตฟอร์มเขียนเรซูเม่มืออาชีพ และใช้ข้อมูลจากช่วงก่อนที่ generative AI จะถูกใช้อย่างแพร่หลาย
  • สำหรับเรซูเม่แต่ละฉบับ มีการสร้างเวอร์ชันเชิงสวนทางข้อเท็จจริง (counterfactual) ด้วย LLM รุ่นใหม่หลายตัว โดยออกแบบให้คุณสมบัติ ประสบการณ์ และภูมิหลังของผู้สมัครคนเดิมคงเดิม ต่างกันเพียงวิธีการนำเสนอ
  • โมเดลที่ใช้ ได้แก่ GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
  • LLM ที่ใช้ประเมินจะทำการเปรียบเทียบแบบเป็นคู่เพื่อเลือกเรซูเม่ที่แข็งแกร่งกว่าระหว่างเรซูเม่สองฉบับของผู้สมัครคนเดียวกัน โดยสิ่งที่ต่างกันมีเพียงแหล่งที่มาของเรซูเม่
  • การชอบผลงานของตนเองแบ่งได้เป็น 2 รูปแบบ
    • การชอบผลงานของตนเองแบบ LLM-vs-Human

      • หมายถึงแนวโน้มที่ LLM ผู้ประเมินจะชอบเรซูเม่ที่ตัวเองสร้างมากกว่าเรซูเม่ที่มนุษย์เขียนซึ่งมีคุณภาพเทียบเท่ากัน
    • การชอบผลงานของตนเองแบบ LLM-vs-LLM

      • หมายถึงแนวโน้มที่ LLM ผู้ประเมินจะชอบเรซูเม่ที่ตัวเองสร้างมากกว่าเรซูเม่ที่ LLM ตัวอื่นสร้าง
      • ในบริบทนี้ LLM ผู้ประเมินทำงานคล้ายตัวจำแนกแบบไบนารี และใช้เกณฑ์จากงานวิจัยด้านความเป็นธรรมคือ statistical parity และ equal opportunity เพื่อวัดอคติ
      • อคติการชอบผลงานของตนเองบนฐานของ statistical parity นิยามจากความต่างระหว่างความน่าจะเป็นที่เรซูเม่ซึ่งสร้างโดย LLM ผู้ประเมินจะถูกเลือก กับความน่าจะเป็นที่เรซูเม่ซึ่งสร้างโดยมนุษย์หรือ LLM ตัวอื่นจะถูกเลือก
      • Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
      • โดยที่ S = 1 หมายถึงเรซูเม่ที่สร้างโดย LLM ผู้ประเมิน f และ S = 0 หมายถึงเรซูเม่ที่สร้างโดยมนุษย์หรือ LLM ตัวอื่น
      • Y'_f = 1 หมายถึง LLM ผู้ประเมิน f เลือกเรซูเม่นั้นว่าเป็นเรซูเม่ที่แข็งแกร่งกว่า
      • อย่างไรก็ตาม ต้องระมัดระวังในการตีความความต่างของ statistical parity ว่าเป็นอคติโดยตรง
      • ความต่างนั้นอาจเกิดจากการชอบผลงานของตนเองก็ได้ แต่ก็อาจเกิดจากความแตกต่างด้าน คุณภาพของเนื้อหา เช่น การสื่อสารข้อมูลเดียวกันได้ชัดเจน สม่ำเสมอ และลื่นไหลกว่า
      • ในที่นี้ คุณภาพของเนื้อหาไม่ได้หมายถึงความต่างด้านคุณสมบัติหรือภูมิหลังของผู้สมัคร แต่หมายถึงความชัดเจน ความสม่ำเสมอ ความลื่นไหล และการจัดโครงสร้างในการถ่ายทอดข้อมูลเดียวกัน

ผลเชิงประจักษ์สำคัญ

  • ในโมเดลส่วนใหญ่พบ การชอบผลงานของตนเองแบบ LLM-vs-Human อย่างรุนแรงและสม่ำเสมอ
  • โมเดลขนาดใหญ่กว่า เช่น GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B และ LLaMA 3.3-70B แสดงอคติที่รุนแรงเกิน 65% แม้หลังควบคุมคุณภาพของเนื้อหาแล้ว
  • สำหรับ GPT-4o การชอบผลงานของตนเองแบบ LLM-vs-Human สูงเกิน 80% และในภาพรวมของโมเดลเชิงพาณิชย์และโอเพนซอร์สหลัก อคติการชอบผลงานของตนเองต่อเรซูเม่ที่มนุษย์เขียนอยู่ในช่วง 67%~82%
  • การชอบผลงานของตนเองแบบ LLM-vs-LLM มีความแตกต่างระหว่างโมเดลมากกว่า
    • DeepSeek-V3 แสดงอคติรุนแรงที่สุดในเงื่อนไขนี้ โดยชอบผลลัพธ์ของตัวเอง 69% เมื่อเทียบกับ LLaMA 3.3-70B
    • DeepSeek-V3 ยังชอบผลลัพธ์ของตัวเอง 28% เมื่อเทียบกับ GPT-4o
    • GPT-4o และ LLaMA 3.3-70B ไม่ได้แสดงการชอบผลงานของตนเองอย่างสม่ำเสมอเมื่อประเมินคอนเทนต์ที่สร้างโดยโมเดลอื่น
  • การประเมินอาจได้รับอิทธิพลไม่ใช่จากคุณสมบัติที่แท้จริงของผู้สมัคร แต่จากความสอดคล้องระหว่างสไตล์การสร้างของเรซูเม่กับ LLM ที่ใช้ประเมิน
  • อคตินี้อาจมอบข้อได้เปรียบที่ไม่เป็นธรรมแก่ผู้สมัครที่เข้าถึงเทคโนโลยีการสร้างบางแบบหรือใช้บางโมเดล และทำให้ผู้สมัครคนอื่นเสียเปรียบ

ผลกระทบในกระบวนการสรรหาบุคลากร

  • มีการจำลองกระบวนการสรรหาที่สมจริงสำหรับ 24 กลุ่มอาชีพ เพื่อวัดผลกระทบเชิงปฏิบัติการของการชอบผลงานของตนเองต่อผลลัพธ์การคัดเลือกผู้สมัคร
  • ผู้สมัครที่ใช้ LLM เดียวกับ LLM ที่ใช้ในการประเมินมีโอกาสถูกคัดเข้า shortlist สูงกว่าผู้สมัครที่มีคุณสมบัติเท่ากันและส่งเรซูเม่ที่มนุษย์เขียนประมาณ 23%~60%
  • ผลเสียเปรียบเด่นชัดที่สุดพบใน สายงานธุรกิจ เช่น บัญชี การขาย และการเงิน
  • ในสายงานเกษตร ศิลปะ และยานยนต์ ผลเสียเปรียบดังกล่าวเด่นชัดน้อยกว่า
  • หากข้อได้เปรียบแบบเดิมเกิดซ้ำตลอดหลายรอบการจ้างงาน อาจเกิด lock-in effect ที่ทำให้รูปแบบเรซูเม่ซึ่ง LLM หลักชื่นชอบค่อย ๆ ฝังแน่นอยู่ในกลุ่มผู้สมัคร
  • lock-in effect นี้อาจลดความหลากหลายของการคัดเลือกผู้สมัคร และขยายความไม่เท่าเทียมในการกระจายโอกาสในการประเมิน
  • เนื่องจากกระบวนการสรรหามีขีดจำกัดด้านความจุในขั้นถัดไป เช่น การสัมภาษณ์และการประเมิน การเกิด false negative ในขั้นคัดเรซูเม่จึงอาจตัดผู้สมัครที่มีคุณสมบัติเหมาะสมออกอย่างไม่อาจย้อนคืนได้ ขณะที่ false positive จะใช้ทรัพยากรการประเมินที่มีจำกัดไปโดยไม่จำเป็น

กลยุทธ์ลดผลกระทบและนัยด้านความเป็นธรรม

  • การรู้จำผลงานของตนเอง (self-recognition) ถูกเสนอเป็นกลไกสำคัญของการชอบผลงานของตนเอง
    • self-recognition หมายถึงความสามารถของโมเดลในการระบุโดยนัยว่าคอนเทนต์นั้นตัวเองเป็นผู้สร้าง
    • งานวิจัยก่อนหน้านี้พบว่า LLM เช่น GPT-4 และ LLaMA 2 มีความสามารถด้าน self-recognition อย่างมีนัยสำคัญ และมีความสัมพันธ์เชิงบวกสูงระหว่างความสามารถนี้กับขนาดของอคติการชอบผลงานของตนเอง
  • มีการเสนอแนวทางลดผลกระทบอย่างง่าย 2 วิธี
    • System prompting

      • สั่งโมเดลอย่างชัดเจนให้มองข้ามแหล่งที่มาของเรซูเม่และโฟกัสเฉพาะเนื้อหาสาระที่แท้จริง
    • Ensemble แบบเสียงข้างมาก

      • ผสานโมเดลประเมินเข้ากับโมเดลขนาดเล็กกว่าที่มีความสามารถในการรู้จำผลงานของตนเองต่ำกว่า เพื่อลดทอนอคติของ LLM ตัวเดียว
      • ใน LLM ที่ทดสอบทั้งหมด มาตรการเหล่านี้ช่วยลดการชอบผลงานของตนเองแบบ LLM-vs-Human ได้ในเชิงสัมพัทธ์ 17%~63%
      • ในหลายกรณี เพียงการแทรกแซงอย่างง่ายที่มุ่งเป้าไปที่ความสามารถในการรู้จำผลงานของตนเอง ก็สามารถลดอคติได้มากกว่า 50%
      • แม้อคติการชอบผลงานของตนเองจะแพร่หลายและส่งผลจริงต่อผลลัพธ์การจ้างงาน แต่มันไม่ใช่คุณลักษณะที่ตายตัว และสามารถลดลงได้อย่างมากด้วยการออกแบบระบบ
      • กรอบความเป็นธรรมสำหรับการจ้างงานที่ขับเคลื่อนด้วย AI ต้องครอบคลุมไม่เพียงการเลือกปฏิบัติตามคุณลักษณะที่ได้รับการคุ้มครอง แต่รวมถึง อคติจากปฏิสัมพันธ์ ที่เกิดจากการปฏิสัมพันธ์ระหว่างระบบ AI ที่ใช้ในการสร้างและประเมินด้วย
      • การกำกับดูแล AI และการออกแบบการปฏิบัติการอย่างรับผิดชอบในองค์กร ต้องพิจารณาไม่ใช่แค่ข้อมูลนำเข้าและคุณลักษณะที่ได้รับการคุ้มครอง แต่รวมถึงว่าโมเดลใดเป็นผู้สร้างเอกสารของผู้สมัคร และโมเดลใดเป็นผู้ประเมินเอกสารนั้น

1 ความคิดเห็น

 
GN⁺ 1 시간 전
ความคิดเห็นใน Hacker News
  • ถ้ายกสิ่งที่เขียนไว้ใน LinkedIn มาแบบตรงตัว หากอ่านเปเปอร์ถูกต้องแล้ว งานนี้ไม่ได้แสดงให้เห็นจริง ๆ ว่า LLM ชอบเรซูเม่ที่ตัวเองสร้าง
    วิธีที่ใช้จริงดูเหมือนจะเป็นการลบบทสรุประดับผู้บริหารออกจากเรซูเม่ที่คนเขียน แล้วให้ LLM เขียนบทสรุประดับผู้บริหารขึ้นใหม่จากเรซูเม่ส่วนที่เหลือ จากนั้นให้ LLM อีกตัวประเมินเฉพาะบทสรุปนั้นโดยไม่เห็นเรซูเม่ส่วนอื่น
    ต่อให้เชื่อว่าการออกแบบนี้จับผลในโลกจริงได้ ก็มีโอกาสสูงที่จะพูดเกินผลกระทบอย่างมาก ผู้เขียนมีเหตุผลรองรับการออกแบบนี้อยู่ แต่ยังดูไม่เพียงพอ: https://news.ycombinator.com/item?id=47987256#47987727

    • มันอาจเป็นโฆษณาให้ ใช้ LLM มากขึ้น ก็ได้ เหมือนที่อุตสาหกรรมชีส น้ำมัน หรือจันทน์เทศมีองค์กรประชาสัมพันธ์ LLM ก็มีองค์กรลักษณะคล้ายสมาคมหรือคอนซอร์เทียม และมีโอกาสสูงที่จะสนับสนุนงานวิจัยแบบนี้เพื่อกระตุ้น FOMO
      กลายเป็นวงจรวนที่ HR ใช้ LLM เลยทำให้ผู้สมัครต้องใช้ด้วย แล้วต่อมาก็เพราะผู้สมัครที่ดีใช้ LLM HR เลยต้องใช้ตามอีก
  • แม้จะเป็นประสบการณ์จากตัวอย่างเดียว แต่ตอนหางานใหม่หลังถูกเลย์ออฟ เรซูเม่ที่ทำเองให้ผลตอบรับไม่ค่อยดีเมื่อเทียบกับประสบการณ์
    ลองให้ ChatGPT วิเคราะห์เรซูเม่และให้คะแนนเล่น ๆ แล้วให้มันแก้จนคะแนนออกมาสูงที่สุด หลังจากนั้นตรวจข้อเท็จจริงและปรับแก้อีกทีค่อยส่งออกไป ปรากฏว่า อัตราการได้รับการตอบกลับ ดีขึ้นมากเมื่อเทียบกับก่อนหน้า
    จะเป็นเพราะสภาพตลาดหรือช่วงเวลาก็ได้ แต่สุดท้ายก็ยังต้องผ่านสัมภาษณ์เพื่อพิสูจน์ความสามารถเหมือนเดิม อย่างน้อยมันก็ดูเหมือนช่วยให้ข้ามด่านแรกได้

    • ภรรยาของผมก็คล้ายกัน เธอขัดเกลาโปรไฟล์ LinkedIn และเรซูเม่ด้วยการใส่ตัวชี้วัด คีย์เวิร์ด และผลงานอย่างละเอียด แต่แทบไม่ได้รับการติดต่อจากรีครูตเตอร์หรือการตอบกลับใบสมัครอยู่หลายเดือนเกือบปี
      หลังจากนั้นจึงใช้ความช่วยเหลือจาก ChatGPT 5.x แม้จะรู้สึกกังขากับการแก้ไขที่แนะนำเพราะเป็นสำนวนแบบ AI ที่ดูคล้าย ๆ กันไปหมด แต่ไม่กี่วันต่อมาก็เริ่มมีรีครูตเตอร์ติดต่อและกระบวนการสมัครเดินหน้า
      เมื่อ LLM แทรกอยู่ทุกจุดของกระบวนการจ้างงาน ดูเหมือนว่าถ้าไม่ได้ให้ LLM ช่วยเขียนเรซูเม่ ความยากก็เพิ่มขึ้นแล้ว LLM ที่ตรวจเรซูเม่อาจให้คะแนนโปรไฟล์ต่ำลงถ้ามันไม่ได้ใช้ภาษาแบบเดียวกันหรือไม่กระตุ้นนิวรอนที่ถูกต้อง
    • ช่วงหางานล่าสุดผมก็ทำคล้ายกัน ให้มันช่วยดูว่ารายการต่าง ๆ อ่านลื่นไหม แล้วมันก็เสนอการแก้ไขมาเยอะมาก บางอย่างก็เอาไปใช้ แต่ยังไม่แน่ใจว่าช่วยผลการสมัครได้มากแค่ไหน
    • มีบริการที่ทำงานลักษณะนี้ให้กับ LinkedIn และเรซูเม่ด้วย และผมเคยได้ผลลัพธ์ที่ค่อนข้างดีจากมัน
    • หลังทำแบบนั้นแล้วก็กลับมาตัดทอนและแก้ไขอีกทีให้ฟังดูเหมือนคนเขียนมากขึ้น
    • HR อาจจะให้คะแนนบวกเพิ่มเพราะ รู้วิธีใช้ AI ก็ได้
  • ฟังดูเป็นเรื่องที่เข้าท่าตามสัญชาตญาณ เนื้อหาที่โมเดลสร้างย่อมได้รับอิทธิพลจากข้อมูลฝึก ดังนั้นเมื่ออ่านกลับอีกครั้ง มันก็อาจสอดคล้องกับการกระจายของข้อมูลฝึกชุดเดียวกันและถูกประเมินในทางบวก
    เหมือนคนบอกว่า “ช่วยทำเรซูเม่ให้ดูเป็นมืออาชีพขึ้น” แล้วอีกไม่กี่วัน LLM ก็พูดในรายงาน HR ว่า “เรซูเม่นี้เป็นมืออาชีพมากจริง ๆ”
    เพราะอย่างนี้นโยบายส่วนตัวที่ใช้คนละตระกูล LLM สำหรับการสร้างโค้ดกับการรีวิวโค้ดจึงดูมีเหตุผล คือเพื่อหลีกเลี่ยงการ ให้ตรวจการบ้านของตัวเอง

    • แถมมันยังไม่ใช่ในแบบที่มนุษย์ตีความได้ง่ายด้วย เคยมีงานวิจัยที่สั่งให้ LLM ตัวหนึ่งประพฤติตัวในรูปแบบหนึ่งแล้วพิมพ์ตัวเลขสุ่มออกมา จากนั้นเอาตัวเลขนั้นไปแปะให้ LLM อีกอินสแตนซ์หนึ่งดู แล้วมันก็เริ่มประพฤติตัวแบบเดียวกัน
      จำลิงก์ไม่ได้แล้ว แต่ผมว่ามันน่าสนใจมาก
  • เรากำลังสอดแทรกตัวกลางอีกตัวหนึ่งเข้ามาระหว่างผู้คนโดยไม่มีการยินยอม และมันดูมีปัญหาเมื่อโมเดลกลายเป็น คนกลางตัดสิน ว่าใครจะได้หรือไม่ได้งาน

    • มันอาจสร้าง โอกาสในการทำอาร์บิทราจ ขนาดใหญ่ให้กับคนที่ไม่ใช้ LLM
      ถ้าแผนก HR คัดเรซูเม่ด้วย ChatGPT สุดท้ายก็จะลงเอยด้วยการรับคนที่ทำเรซูเม่ด้วย ChatGPT ผมไม่อยากใช้ตรรกะแบบทางลาดลื่น แต่มีลางสังหรณ์ว่าคุณภาพขององค์กรอาจแย่ลงอย่างรวดเร็ว
      ในทางกลับกัน ผมเป็นทั้งช่างซ่อมและผู้รับเหมาช่วง งานแทบทั้งหมดเข้ามาทางโทรศัพท์ ข้อความ อีเมลครั้งคราว และการแนะนำต่อที่เชื่อถือได้ ผมไม่ได้แตะเรซูเม่แบบดั้งเดิมมาเกิน 8 ปีแล้ว
      ถ้าเริ่มสื่อสารกับใครสักคนแล้วรู้สึกเหมือนคุยกับคอมพิวเตอร์ นั่นเป็นสัญญาณให้ผมไปหาลูกค้ารายอื่นทันที ถ้าเขายังไม่ยอมสละเวลามาสื่อสารกับผมโดยตรง แล้วผมจะไปทุ่มแรงงานจริงหลายร้อยชั่วโมงเพื่อเขาได้อย่างไร
    • มักมีคำตอบแนวว่า “ก็แค่ใช้โมเดลที่ใคร ๆ ใช้ได้” แต่ AI ก็น่าจะยังถูกจำกัดด้วยทรัพยากรและแรงจูงใจด้านกำไรต่อไป
      สุดท้ายคนจนก็อาจมีเรซูเม่ที่แย่กว่าคนรวย และถ้าโมเดลที่คั่นกลางมีสิทธิ์ตัดสินขั้นสุดท้าย ก็อาจแทบไม่มีทางหลีกเลี่ยงเรื่องนี้ได้
    • ทันทีที่ผู้จัดการฝ่ายจ้างงานไม่ได้อ่านเรซูเม่เองแล้วปล่อยให้มีอาชีพอย่าง รีครูตเตอร์ มาแทรก เกมนี้ก็จบไปนานแล้ว
    • แต่ก่อน HR ก็ทำหน้าที่นั้นอยู่แล้ว ดังนั้นในทางปฏิบัติก็มีคนกลางอยู่ระหว่างคนจริง ๆ มาโดยตลอด HR ส่วนใหญ่มักไม่ได้สนใจตัวเรซูเม่เอง แค่ดูว่าตรงกับเช็กลิสต์หรือไม่
    • ตอนที่ทุกคนต้องสร้างบัญชี LinkedIn กันนั่นแหละ เรื่องนี้ก็เกิดขึ้นไปแล้ว
  • ในสายเทคโนโลยี เรซูเม่ท้ายที่สุด หรืออาจจะตอนนี้เลย ก็อาจกลายเป็นสิ่งที่ ล้าสมัย ไปแล้ว อัตราส่วนสัญญาณต่อสัญญาณรบกวนต่ำเกินไปจนคุณค่าของการคัดกรองแทบไม่เหลือ
    แม้แต่สัญญาณที่ค่อนข้างแรงอย่าง GPA ใบรับรอง หรือบทบาทงานก่อนหน้า ก็ยังเชื่อมโยงกับผลการสัมภาษณ์คัดกรองรอบแรกได้ไม่ดีนัก
    เพราะฉะนั้นสิ่งที่วงการต้องการอย่างมากคือคอนซอร์เทียมด้านการสอบ แทนที่จะเดาความสามารถจากชื่อมหาวิทยาลัย บริษัทเทคโนโลยีรายใหญ่ควรร่วมกันสร้างข้อสอบมาตรฐานตามสาขา แล้วให้คะแนนนั้นกลายเป็นเรซูเม่ นักพัฒนาจะได้ไปโฟกัสกับการเพิ่มคะแนนแทนงานจิปาถะอย่างการเขียนเรซูเม่และการคัดกรองซ้ำ ๆ

    • ระบบแบบนั้นก็สุดท้ายอาจถูกเล่นเกมได้อยู่ดี เหมือนที่มีการติวเพื่อ LeetCode เพื่อตอบคำถามสัมภาษณ์แบบซิลิคอนแวลลีย์ การเรียนเพื่อทำงานจะกลายเป็นเรียนเพื่อสอบ แล้วต่อด้วยเรียนเพื่อสอบคัดเลือกก่อนสอบอีกที
    • บางทีการจับสลากอาจดีกว่าด้วยซ้ำ ประโยชน์ใช้สอยน่าจะใกล้เคียงกันแต่เรียบง่ายกว่ามาก
      ที่จริงแล้วใบรับรอง “สำหรับองค์กร” ต่าง ๆ ก็ทำหน้าที่แบบนั้นอยู่แล้วไม่ใช่หรือ
    • ตัว ข้อสอบมาตรฐาน ตามสาขาเองก็เป็นปัญหาที่ยากมหาศาล ต่อให้ไม่นับแรงจูงใจในการโกงแบบโจ่งแจ้ง การสอบมาตรฐานก็มักสะท้อนความเข้าใจในเนื้อหาได้ไม่ดี
      เท่ากับกำลังบอกว่า LeetCode เป็นเครื่องมือจ้างงานที่มีประสิทธิภาพ ซึ่งสมควรถูกวิจารณ์อย่างมาก
    • การออกแบบข้อสอบวิทยาการคอมพิวเตอร์เป็นเรื่องยาก LeetCode ง่ายเกินไป และแทบจะทดสอบแค่ความรู้ด้านอัลกอริทึมพื้นฐานที่แทบไม่มีประโยชน์กับการพัฒนาซอฟต์แวร์ทั่วไป
  • เรื่องนี้อาจนำไปสู่ เกมเดาเชิงชั้นเชิง ที่ค่อนข้างน่าสนใจ ถ้าคุณสมัครงานกับบริษัทหนึ่งและรู้ว่าบริษัทนั้นใช้ระบบติดตามผู้สมัครแบบใด และระบบนั้นใช้ตัวกรองจากผู้ให้บริการโมเดลเจ้าไหน ก็ควรเขียนเรซูเม่เวอร์ชันที่จะส่งให้บริษัทนั้นด้วยโมเดลเดียวกัน

    • เป็นข้อสังเกตที่ดี เวอร์ชันอนาคตอีกมากมายคงกลายเป็น สงครามสะสมอาวุธ LLM ในที่สุด
  • ดูเหมือนทั้งอุตสาหกรรมกำลังใช้ ตัวประเมินอัตโนมัติ กันอยู่ คือให้อินสแตนซ์ของเอเจนต์ให้คะแนนผลลัพธ์ของเอเจนต์อีกที
    เจตนาคล้ายกับการฝึกสร้างภาพด้วยโครงข่ายประสาทแบบปรปักษ์โดยตัด human labeler ออกไป ดังนั้นทีมต่าง ๆ ก็จะเริ่มใช้คะแนนของตัวประเมินอัตโนมัติเป็นตัวชี้วัดหลักในการปรับให้เหมาะที่สุด และสุดท้ายก็คงไม่น่าแปลกใจถ้าเอเจนต์ให้คะแนนสูงสุดกับคอนเทนต์ที่มันสร้างเอง

  • ผมลองรัน qwen/qwen3-v1-30b แบบโลคัลแล้วป้อนเรซูเม่ของตัวเองที่เขียนโดยมนุษย์ 100% พร้อมสั่งว่า “ช่วยทำเรซูเม่นี้ให้ดูเป็นมืออาชีพขึ้น”
    มันสร้าง bullet point สุดอลังการออกมา และประโยคว่า “เชี่ยวชาญด้านการทำแบบจำลองข้อมูลทั้งองค์กร และทำงานเพิ่มประสิทธิภาพต้นทุนขายทั่วฐานลูกค้าทั้งหมด” ถูกเปลี่ยนเป็น “เชี่ยวชาญด้านการทำแบบจำลองข้อมูลทั้งองค์กรและการเพิ่มประสิทธิภาพประสิทธิผล โดยขับเคลื่อน การลดต้นทุนแบบเกิดซ้ำมากกว่า 5 ล้านดอลลาร์ ทั่วทั้งฐานลูกค้า”
    ตัวเลขมากกว่า 5 ล้านดอลลาร์ฟังดูเท่มาก และเรซูเม่คอร์ปัสก็ดูจะเน้นตัวชี้วัดจริง แต่เรื่องนี้ไม่เป็นความจริง และผมก็ไม่เคยขอให้มันแต่งตัวเลขขึ้นมา
    ทั้งที่ในเรซูเม่มีแค่ตำแหน่ง SDE ช่วงปี 1996~1998 แต่มันยังเสก “University of California, Berkeley ปริญญาตรีสาขาวิทยาการคอมพิวเตอร์ | 1996–1998” ขึ้นมาจากอากาศอีกด้วย

    • ใช่ ปัญหาการแต่งเรื่องจะยิ่งทำให้เรื่องนี้หนักขึ้น
      บางคนก็จะคอยแก้ อาการหลอน พวกนั้น ซึ่งในกรณีนั้นก็แค่เสียเวลาของผู้สมัคร
      แต่บางคนก็จะไม่แก้ และในกรณีนั้น อย่างดีที่สุดคือผู้สมัครกับผู้สัมภาษณ์มาพบความผิดพลาดกันทีหลังและเสียเวลากันทั้งคู่ ส่วนกรณีเลวร้ายที่สุดคือมีการจ้างคนที่ไม่มีความสามารถทำงานจริง ผลลัพธ์จะเละเทะและไร้ประสิทธิภาพสำหรับทุกฝ่าย
  • เป็นหัวข้อที่ตรงจังหวะสำหรับผมมาก เรซูเม่ของผมยาวไปถึง 7 หน้าแล้ว และได้ยินจากทุกที่ว่าห้ามเกิน 2 หน้า ก็เลยให้ Gemini ช่วยเขียนใหม่
    Gemini ชอบทำให้ทุกอย่างดูเกินจริงเลยเสียเวลาไปพอสมควร แต่ก็พอใจกับผลลัพธ์มาก
    แต่รีครูตเตอร์กลุ่มแรก ๆ ที่ผมส่งให้กลับชอบเรซูเม่แบบเดิม 7 หน้ามากกว่า ดูเหมือนพวกเขายังใช้ AI ไม่มากพอ

  • LLM มักตัดสินอย่างสม่ำเสมอว่า คอนเทนต์ที่ LLM เขียนนั้นดี
    ถ้าให้ LLM เขียนเอกสารออกแบบ แล้วรอจนได้งานที่แย่มากจริง ๆ ค่อยส่งให้ LLM อื่น ๆ ขอ feedback ปกติพวกมันก็มักจะพูดในแง่ดี
    ในทางกลับกัน ถ้าส่งเอกสารที่เขียนดีมากไป แม้สมมติฐานจะแน่นหนา พวกมันกลับมักชี้จุดอ่อนออกมาได้มากกว่า ควรมีใครสักคนเอาเรื่องนี้ไปศึกษาจริงจัง
    ชัดเจนว่า LLM มีคุณค่ามาก แต่ปรากฏการณ์นี้เผยให้เห็นจุดอ่อนที่น่าสนใจมากและยังไม่ชัดว่าผลกระทบจะกว้างไปถึงไหน
    LLM น่าจะมีอคติอย่างมากต่อโค้ดที่มันเขียนเองด้วย ถ้าเอาโค้ดที่ได้รับการยอมรับอย่างกว้างขวางว่าเขียนดี เช่น Redis ไปให้มันช่วยวิจารณ์ มันก็น่าจะจับผิดได้เยอะ และหลายข้ออาจผิดสนิท
    ในทางกลับกัน ถ้าเอารีโปที่สร้างโดย LLM ซึ่งชัดเจนว่าคุณภาพแย่ไปให้โมเดลเดียวกัน มันจะตอบสนองคล้ายกรณีเอกสารออกแบบหรือไม่ มันปฏิบัติต่อภาษาธรรมชาติกับโค้ดต่างกันไหม หรือมีปัญหาแบบเดียวกัน ใครเคยลองบ้างก็น่าสนใจ