อคติการชอบผลงานของตนเองของ AI ในการคัดเลือกบุคลากรเชิงอัลกอริทึม: หลักฐานเชิงประจักษ์และนัยสำคัญ

(arxiv.org)

1 คะแนน โดย GN⁺ 1 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อ LLM ถูกใช้ทั้งในการสร้างและประเมินเรซูเม่ โมเดลประเมินก็เกิด การชอบผลงานที่ตัวเองสร้าง มากกว่า กลายเป็นอคติรูปแบบใหม่ในการคัดกรองผู้สมัครงาน
งานวิจัยนี้เปรียบเทียบและประเมินเรซูเม่เชิงสวนทางข้อเท็จจริงที่สร้างโดย LLM หลายตัว เช่น GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 โดยอิงจาก เรซูเม่ที่มนุษย์เขียน 2,245 ฉบับ ซึ่งเก็บรวบรวมไว้ก่อนการแพร่หลายของ generative AI
ในโมเดลส่วนใหญ่พบ การชอบผลงานของตนเองแบบ LLM-vs-Human อย่างชัดเจน โดยอคติการชอบผลงานของตนเองเมื่อเทียบกับเรซูเม่ที่มนุษย์เขียนในโมเดลเชิงพาณิชย์และโอเพนซอร์สหลักอยู่ในช่วง 67%~82%
ในการจำลองกระบวนการสรรหาสำหรับ 24 กลุ่มอาชีพ ผู้สมัครที่ใช้ LLM เดียวกับ LLM ที่ใช้ประเมินมีโอกาสถูกคัดเป็น ผู้เข้ารอบสุดท้าย สูงกว่าผู้สมัครที่มีคุณสมบัติเท่ากันแต่ส่งเรซูเม่ที่มนุษย์เขียนประมาณ 23%~60%
System prompting ที่สั่งให้มองข้ามแหล่งที่มาและโฟกัสที่เนื้อหา รวมถึงการทำ ensemble แบบเสียงข้างมาก ช่วยลดการชอบผลงานของตนเองแบบ LLM-vs-Human ได้ใน LLM ที่ทดสอบทั้งหมดราว 17%~63%

อคติแบบใหม่ที่ AI สร้างขึ้นในการประเมินผู้สมัครงาน

เมื่อโมเดลภาษาขนาดใหญ่ (LLM) ถูกใช้ทั้งในการสร้างและประเมินคอนเทนต์ การชอบผลงานของตนเอง (self-preference) ซึ่งหมายถึงการให้คะแนนผลงานที่โมเดลเดียวกันสร้างไว้สูงกว่า กำลังกลายเป็นอคติรูปแบบใหม่ในกระบวนการตัดสินใจ เช่น การจ้างงาน
ในการสรรหาบุคลากร โครงสร้างที่ผู้สมัครใช้ LLM เขียนหรือขัดเกลาเรซูเม่ ขณะที่นายจ้างใช้เครื่องมือคล้ายกันในการคัดกรองหรือจัดอันดับเรซูเม่ มีมากขึ้นเรื่อย ๆ ทำให้ ปฏิสัมพันธ์แบบ AI-AI สามารถส่งผลต่อผลลัพธ์การประเมินจริงได้
ต่างจากการถกเถียงเรื่องความเป็นธรรมในอดีตที่มักเน้นการเลือกปฏิบัติตามคุณลักษณะทางประชากรศาสตร์ การชอบผลงานของตนเองเป็นอคติที่เกิดขึ้นภายในจากความสัมพันธ์ระหว่างโมเดลประเมินกับโมเดลสร้าง
อคตินี้อาจทำงานในทางที่เป็นประโยชน์ต่อผู้สมัครที่ใช้โมเดลเดียวกับ LLM ที่ใช้ประเมิน แม้จะมีความสามารถเท่ากัน และทำให้ผู้ที่ใช้เครื่องมืออื่นหรือไม่ใช้ AI เสียเปรียบ
การคัดกรองเรซูเม่เป็น คอขวดขั้นต้น ที่ใช้ลดผู้สมัครจำนวนมากให้เหลือเข้าสู่ขั้นสัมภาษณ์และประเมินที่มีจำกัด ดังนั้นการตัดสินผิดพลาดในขั้นต้นจึงอาจส่งผลต่อองค์ประกอบของกลุ่มผู้สมัครและการกระจายโอกาสในการจ้างงานในขั้นต่อ ๆ ไปอย่างต่อเนื่อง

การออกแบบการทดลองและวิธีวัดผล

การทดลองอิงจาก เรซูเม่ที่มนุษย์เขียน 2,245 ฉบับ ซึ่งเก็บจากแพลตฟอร์มเขียนเรซูเม่มืออาชีพ และใช้ข้อมูลจากช่วงก่อนที่ generative AI จะถูกใช้อย่างแพร่หลาย
สำหรับเรซูเม่แต่ละฉบับ มีการสร้างเวอร์ชันเชิงสวนทางข้อเท็จจริง (counterfactual) ด้วย LLM รุ่นใหม่หลายตัว โดยออกแบบให้คุณสมบัติ ประสบการณ์ และภูมิหลังของผู้สมัครคนเดิมคงเดิม ต่างกันเพียงวิธีการนำเสนอ
โมเดลที่ใช้ ได้แก่ GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
LLM ที่ใช้ประเมินจะทำการเปรียบเทียบแบบเป็นคู่เพื่อเลือกเรซูเม่ที่แข็งแกร่งกว่าระหว่างเรซูเม่สองฉบับของผู้สมัครคนเดียวกัน โดยสิ่งที่ต่างกันมีเพียงแหล่งที่มาของเรซูเม่
การชอบผลงานของตนเองแบ่งได้เป็น 2 รูปแบบ
- การชอบผลงานของตนเองแบบ LLM-vs-Human
  - หมายถึงแนวโน้มที่ LLM ผู้ประเมินจะชอบเรซูเม่ที่ตัวเองสร้างมากกว่าเรซูเม่ที่มนุษย์เขียนซึ่งมีคุณภาพเทียบเท่ากัน
- การชอบผลงานของตนเองแบบ LLM-vs-LLM
  - หมายถึงแนวโน้มที่ LLM ผู้ประเมินจะชอบเรซูเม่ที่ตัวเองสร้างมากกว่าเรซูเม่ที่ LLM ตัวอื่นสร้าง
  - ในบริบทนี้ LLM ผู้ประเมินทำงานคล้ายตัวจำแนกแบบไบนารี และใช้เกณฑ์จากงานวิจัยด้านความเป็นธรรมคือ statistical parity และ equal opportunity เพื่อวัดอคติ
  - อคติการชอบผลงานของตนเองบนฐานของ statistical parity นิยามจากความต่างระหว่างความน่าจะเป็นที่เรซูเม่ซึ่งสร้างโดย LLM ผู้ประเมินจะถูกเลือก กับความน่าจะเป็นที่เรซูเม่ซึ่งสร้างโดยมนุษย์หรือ LLM ตัวอื่นจะถูกเลือก
  - Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)
  - โดยที่ S = 1 หมายถึงเรซูเม่ที่สร้างโดย LLM ผู้ประเมิน f และ S = 0 หมายถึงเรซูเม่ที่สร้างโดยมนุษย์หรือ LLM ตัวอื่น
  - Y'_f = 1 หมายถึง LLM ผู้ประเมิน f เลือกเรซูเม่นั้นว่าเป็นเรซูเม่ที่แข็งแกร่งกว่า
  - อย่างไรก็ตาม ต้องระมัดระวังในการตีความความต่างของ statistical parity ว่าเป็นอคติโดยตรง
  - ความต่างนั้นอาจเกิดจากการชอบผลงานของตนเองก็ได้ แต่ก็อาจเกิดจากความแตกต่างด้าน คุณภาพของเนื้อหา เช่น การสื่อสารข้อมูลเดียวกันได้ชัดเจน สม่ำเสมอ และลื่นไหลกว่า
  - ในที่นี้ คุณภาพของเนื้อหาไม่ได้หมายถึงความต่างด้านคุณสมบัติหรือภูมิหลังของผู้สมัคร แต่หมายถึงความชัดเจน ความสม่ำเสมอ ความลื่นไหล และการจัดโครงสร้างในการถ่ายทอดข้อมูลเดียวกัน

ผลเชิงประจักษ์สำคัญ

ในโมเดลส่วนใหญ่พบ การชอบผลงานของตนเองแบบ LLM-vs-Human อย่างรุนแรงและสม่ำเสมอ
โมเดลขนาดใหญ่กว่า เช่น GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B และ LLaMA 3.3-70B แสดงอคติที่รุนแรงเกิน 65% แม้หลังควบคุมคุณภาพของเนื้อหาแล้ว
สำหรับ GPT-4o การชอบผลงานของตนเองแบบ LLM-vs-Human สูงเกิน 80% และในภาพรวมของโมเดลเชิงพาณิชย์และโอเพนซอร์สหลัก อคติการชอบผลงานของตนเองต่อเรซูเม่ที่มนุษย์เขียนอยู่ในช่วง 67%~82%
การชอบผลงานของตนเองแบบ LLM-vs-LLM มีความแตกต่างระหว่างโมเดลมากกว่า
- DeepSeek-V3 แสดงอคติรุนแรงที่สุดในเงื่อนไขนี้ โดยชอบผลลัพธ์ของตัวเอง 69% เมื่อเทียบกับ LLaMA 3.3-70B
- DeepSeek-V3 ยังชอบผลลัพธ์ของตัวเอง 28% เมื่อเทียบกับ GPT-4o
- GPT-4o และ LLaMA 3.3-70B ไม่ได้แสดงการชอบผลงานของตนเองอย่างสม่ำเสมอเมื่อประเมินคอนเทนต์ที่สร้างโดยโมเดลอื่น
การประเมินอาจได้รับอิทธิพลไม่ใช่จากคุณสมบัติที่แท้จริงของผู้สมัคร แต่จากความสอดคล้องระหว่างสไตล์การสร้างของเรซูเม่กับ LLM ที่ใช้ประเมิน
อคตินี้อาจมอบข้อได้เปรียบที่ไม่เป็นธรรมแก่ผู้สมัครที่เข้าถึงเทคโนโลยีการสร้างบางแบบหรือใช้บางโมเดล และทำให้ผู้สมัครคนอื่นเสียเปรียบ

ผลกระทบในกระบวนการสรรหาบุคลากร

มีการจำลองกระบวนการสรรหาที่สมจริงสำหรับ 24 กลุ่มอาชีพ เพื่อวัดผลกระทบเชิงปฏิบัติการของการชอบผลงานของตนเองต่อผลลัพธ์การคัดเลือกผู้สมัคร
ผู้สมัครที่ใช้ LLM เดียวกับ LLM ที่ใช้ในการประเมินมีโอกาสถูกคัดเข้า shortlist สูงกว่าผู้สมัครที่มีคุณสมบัติเท่ากันและส่งเรซูเม่ที่มนุษย์เขียนประมาณ 23%~60%
ผลเสียเปรียบเด่นชัดที่สุดพบใน สายงานธุรกิจ เช่น บัญชี การขาย และการเงิน
ในสายงานเกษตร ศิลปะ และยานยนต์ ผลเสียเปรียบดังกล่าวเด่นชัดน้อยกว่า
หากข้อได้เปรียบแบบเดิมเกิดซ้ำตลอดหลายรอบการจ้างงาน อาจเกิด lock-in effect ที่ทำให้รูปแบบเรซูเม่ซึ่ง LLM หลักชื่นชอบค่อย ๆ ฝังแน่นอยู่ในกลุ่มผู้สมัคร
lock-in effect นี้อาจลดความหลากหลายของการคัดเลือกผู้สมัคร และขยายความไม่เท่าเทียมในการกระจายโอกาสในการประเมิน
เนื่องจากกระบวนการสรรหามีขีดจำกัดด้านความจุในขั้นถัดไป เช่น การสัมภาษณ์และการประเมิน การเกิด false negative ในขั้นคัดเรซูเม่จึงอาจตัดผู้สมัครที่มีคุณสมบัติเหมาะสมออกอย่างไม่อาจย้อนคืนได้ ขณะที่ false positive จะใช้ทรัพยากรการประเมินที่มีจำกัดไปโดยไม่จำเป็น

กลยุทธ์ลดผลกระทบและนัยด้านความเป็นธรรม

การรู้จำผลงานของตนเอง (self-recognition) ถูกเสนอเป็นกลไกสำคัญของการชอบผลงานของตนเอง
- self-recognition หมายถึงความสามารถของโมเดลในการระบุโดยนัยว่าคอนเทนต์นั้นตัวเองเป็นผู้สร้าง
- งานวิจัยก่อนหน้านี้พบว่า LLM เช่น GPT-4 และ LLaMA 2 มีความสามารถด้าน self-recognition อย่างมีนัยสำคัญ และมีความสัมพันธ์เชิงบวกสูงระหว่างความสามารถนี้กับขนาดของอคติการชอบผลงานของตนเอง
มีการเสนอแนวทางลดผลกระทบอย่างง่าย 2 วิธี
- System prompting
  - สั่งโมเดลอย่างชัดเจนให้มองข้ามแหล่งที่มาของเรซูเม่และโฟกัสเฉพาะเนื้อหาสาระที่แท้จริง
- Ensemble แบบเสียงข้างมาก
  - ผสานโมเดลประเมินเข้ากับโมเดลขนาดเล็กกว่าที่มีความสามารถในการรู้จำผลงานของตนเองต่ำกว่า เพื่อลดทอนอคติของ LLM ตัวเดียว
  - ใน LLM ที่ทดสอบทั้งหมด มาตรการเหล่านี้ช่วยลดการชอบผลงานของตนเองแบบ LLM-vs-Human ได้ในเชิงสัมพัทธ์ 17%~63%
  - ในหลายกรณี เพียงการแทรกแซงอย่างง่ายที่มุ่งเป้าไปที่ความสามารถในการรู้จำผลงานของตนเอง ก็สามารถลดอคติได้มากกว่า 50%
  - แม้อคติการชอบผลงานของตนเองจะแพร่หลายและส่งผลจริงต่อผลลัพธ์การจ้างงาน แต่มันไม่ใช่คุณลักษณะที่ตายตัว และสามารถลดลงได้อย่างมากด้วยการออกแบบระบบ
  - กรอบความเป็นธรรมสำหรับการจ้างงานที่ขับเคลื่อนด้วย AI ต้องครอบคลุมไม่เพียงการเลือกปฏิบัติตามคุณลักษณะที่ได้รับการคุ้มครอง แต่รวมถึง อคติจากปฏิสัมพันธ์ ที่เกิดจากการปฏิสัมพันธ์ระหว่างระบบ AI ที่ใช้ในการสร้างและประเมินด้วย
  - การกำกับดูแล AI และการออกแบบการปฏิบัติการอย่างรับผิดชอบในองค์กร ต้องพิจารณาไม่ใช่แค่ข้อมูลนำเข้าและคุณลักษณะที่ได้รับการคุ้มครอง แต่รวมถึงว่าโมเดลใดเป็นผู้สร้างเอกสารของผู้สมัคร และโมเดลใดเป็นผู้ประเมินเอกสารนั้น

1 ความคิดเห็น

GN⁺ 1 시간 전

ความคิดเห็นใน Hacker News

ถ้ายกสิ่งที่เขียนไว้ใน LinkedIn มาแบบตรงตัว หากอ่านเปเปอร์ถูกต้องแล้ว งานนี้ไม่ได้แสดงให้เห็นจริง ๆ ว่า LLM ชอบเรซูเม่ที่ตัวเองสร้าง
วิธีที่ใช้จริงดูเหมือนจะเป็นการลบบทสรุประดับผู้บริหารออกจากเรซูเม่ที่คนเขียน แล้วให้ LLM เขียนบทสรุประดับผู้บริหารขึ้นใหม่จากเรซูเม่ส่วนที่เหลือ จากนั้นให้ LLM อีกตัวประเมินเฉพาะบทสรุปนั้นโดยไม่เห็นเรซูเม่ส่วนอื่น
ต่อให้เชื่อว่าการออกแบบนี้จับผลในโลกจริงได้ ก็มีโอกาสสูงที่จะพูดเกินผลกระทบอย่างมาก ผู้เขียนมีเหตุผลรองรับการออกแบบนี้อยู่ แต่ยังดูไม่เพียงพอ: https://news.ycombinator.com/item?id=47987256#47987727
- มันอาจเป็นโฆษณาให้ ใช้ LLM มากขึ้น ก็ได้ เหมือนที่อุตสาหกรรมชีส น้ำมัน หรือจันทน์เทศมีองค์กรประชาสัมพันธ์ LLM ก็มีองค์กรลักษณะคล้ายสมาคมหรือคอนซอร์เทียม และมีโอกาสสูงที่จะสนับสนุนงานวิจัยแบบนี้เพื่อกระตุ้น FOMO
  กลายเป็นวงจรวนที่ HR ใช้ LLM เลยทำให้ผู้สมัครต้องใช้ด้วย แล้วต่อมาก็เพราะผู้สมัครที่ดีใช้ LLM HR เลยต้องใช้ตามอีก
แม้จะเป็นประสบการณ์จากตัวอย่างเดียว แต่ตอนหางานใหม่หลังถูกเลย์ออฟ เรซูเม่ที่ทำเองให้ผลตอบรับไม่ค่อยดีเมื่อเทียบกับประสบการณ์
ลองให้ ChatGPT วิเคราะห์เรซูเม่และให้คะแนนเล่น ๆ แล้วให้มันแก้จนคะแนนออกมาสูงที่สุด หลังจากนั้นตรวจข้อเท็จจริงและปรับแก้อีกทีค่อยส่งออกไป ปรากฏว่า อัตราการได้รับการตอบกลับ ดีขึ้นมากเมื่อเทียบกับก่อนหน้า
จะเป็นเพราะสภาพตลาดหรือช่วงเวลาก็ได้ แต่สุดท้ายก็ยังต้องผ่านสัมภาษณ์เพื่อพิสูจน์ความสามารถเหมือนเดิม อย่างน้อยมันก็ดูเหมือนช่วยให้ข้ามด่านแรกได้
- ภรรยาของผมก็คล้ายกัน เธอขัดเกลาโปรไฟล์ LinkedIn และเรซูเม่ด้วยการใส่ตัวชี้วัด คีย์เวิร์ด และผลงานอย่างละเอียด แต่แทบไม่ได้รับการติดต่อจากรีครูตเตอร์หรือการตอบกลับใบสมัครอยู่หลายเดือนเกือบปี
  หลังจากนั้นจึงใช้ความช่วยเหลือจาก ChatGPT 5.x แม้จะรู้สึกกังขากับการแก้ไขที่แนะนำเพราะเป็นสำนวนแบบ AI ที่ดูคล้าย ๆ กันไปหมด แต่ไม่กี่วันต่อมาก็เริ่มมีรีครูตเตอร์ติดต่อและกระบวนการสมัครเดินหน้า
  เมื่อ LLM แทรกอยู่ทุกจุดของกระบวนการจ้างงาน ดูเหมือนว่าถ้าไม่ได้ให้ LLM ช่วยเขียนเรซูเม่ ความยากก็เพิ่มขึ้นแล้ว LLM ที่ตรวจเรซูเม่อาจให้คะแนนโปรไฟล์ต่ำลงถ้ามันไม่ได้ใช้ภาษาแบบเดียวกันหรือไม่กระตุ้นนิวรอนที่ถูกต้อง
- ช่วงหางานล่าสุดผมก็ทำคล้ายกัน ให้มันช่วยดูว่ารายการต่าง ๆ อ่านลื่นไหม แล้วมันก็เสนอการแก้ไขมาเยอะมาก บางอย่างก็เอาไปใช้ แต่ยังไม่แน่ใจว่าช่วยผลการสมัครได้มากแค่ไหน
- มีบริการที่ทำงานลักษณะนี้ให้กับ LinkedIn และเรซูเม่ด้วย และผมเคยได้ผลลัพธ์ที่ค่อนข้างดีจากมัน
- หลังทำแบบนั้นแล้วก็กลับมาตัดทอนและแก้ไขอีกทีให้ฟังดูเหมือนคนเขียนมากขึ้น
- HR อาจจะให้คะแนนบวกเพิ่มเพราะ รู้วิธีใช้ AI ก็ได้
ฟังดูเป็นเรื่องที่เข้าท่าตามสัญชาตญาณ เนื้อหาที่โมเดลสร้างย่อมได้รับอิทธิพลจากข้อมูลฝึก ดังนั้นเมื่ออ่านกลับอีกครั้ง มันก็อาจสอดคล้องกับการกระจายของข้อมูลฝึกชุดเดียวกันและถูกประเมินในทางบวก
เหมือนคนบอกว่า “ช่วยทำเรซูเม่ให้ดูเป็นมืออาชีพขึ้น” แล้วอีกไม่กี่วัน LLM ก็พูดในรายงาน HR ว่า “เรซูเม่นี้เป็นมืออาชีพมากจริง ๆ”
เพราะอย่างนี้นโยบายส่วนตัวที่ใช้คนละตระกูล LLM สำหรับการสร้างโค้ดกับการรีวิวโค้ดจึงดูมีเหตุผล คือเพื่อหลีกเลี่ยงการ ให้ตรวจการบ้านของตัวเอง
- แถมมันยังไม่ใช่ในแบบที่มนุษย์ตีความได้ง่ายด้วย เคยมีงานวิจัยที่สั่งให้ LLM ตัวหนึ่งประพฤติตัวในรูปแบบหนึ่งแล้วพิมพ์ตัวเลขสุ่มออกมา จากนั้นเอาตัวเลขนั้นไปแปะให้ LLM อีกอินสแตนซ์หนึ่งดู แล้วมันก็เริ่มประพฤติตัวแบบเดียวกัน
  จำลิงก์ไม่ได้แล้ว แต่ผมว่ามันน่าสนใจมาก
เรากำลังสอดแทรกตัวกลางอีกตัวหนึ่งเข้ามาระหว่างผู้คนโดยไม่มีการยินยอม และมันดูมีปัญหาเมื่อโมเดลกลายเป็น คนกลางตัดสิน ว่าใครจะได้หรือไม่ได้งาน
- มันอาจสร้าง โอกาสในการทำอาร์บิทราจ ขนาดใหญ่ให้กับคนที่ไม่ใช้ LLM
  ถ้าแผนก HR คัดเรซูเม่ด้วย ChatGPT สุดท้ายก็จะลงเอยด้วยการรับคนที่ทำเรซูเม่ด้วย ChatGPT ผมไม่อยากใช้ตรรกะแบบทางลาดลื่น แต่มีลางสังหรณ์ว่าคุณภาพขององค์กรอาจแย่ลงอย่างรวดเร็ว
  ในทางกลับกัน ผมเป็นทั้งช่างซ่อมและผู้รับเหมาช่วง งานแทบทั้งหมดเข้ามาทางโทรศัพท์ ข้อความ อีเมลครั้งคราว และการแนะนำต่อที่เชื่อถือได้ ผมไม่ได้แตะเรซูเม่แบบดั้งเดิมมาเกิน 8 ปีแล้ว
  ถ้าเริ่มสื่อสารกับใครสักคนแล้วรู้สึกเหมือนคุยกับคอมพิวเตอร์ นั่นเป็นสัญญาณให้ผมไปหาลูกค้ารายอื่นทันที ถ้าเขายังไม่ยอมสละเวลามาสื่อสารกับผมโดยตรง แล้วผมจะไปทุ่มแรงงานจริงหลายร้อยชั่วโมงเพื่อเขาได้อย่างไร
- มักมีคำตอบแนวว่า “ก็แค่ใช้โมเดลที่ใคร ๆ ใช้ได้” แต่ AI ก็น่าจะยังถูกจำกัดด้วยทรัพยากรและแรงจูงใจด้านกำไรต่อไป
  สุดท้ายคนจนก็อาจมีเรซูเม่ที่แย่กว่าคนรวย และถ้าโมเดลที่คั่นกลางมีสิทธิ์ตัดสินขั้นสุดท้าย ก็อาจแทบไม่มีทางหลีกเลี่ยงเรื่องนี้ได้
- ทันทีที่ผู้จัดการฝ่ายจ้างงานไม่ได้อ่านเรซูเม่เองแล้วปล่อยให้มีอาชีพอย่าง รีครูตเตอร์ มาแทรก เกมนี้ก็จบไปนานแล้ว
- แต่ก่อน HR ก็ทำหน้าที่นั้นอยู่แล้ว ดังนั้นในทางปฏิบัติก็มีคนกลางอยู่ระหว่างคนจริง ๆ มาโดยตลอด HR ส่วนใหญ่มักไม่ได้สนใจตัวเรซูเม่เอง แค่ดูว่าตรงกับเช็กลิสต์หรือไม่
- ตอนที่ทุกคนต้องสร้างบัญชี LinkedIn กันนั่นแหละ เรื่องนี้ก็เกิดขึ้นไปแล้ว
ในสายเทคโนโลยี เรซูเม่ท้ายที่สุด หรืออาจจะตอนนี้เลย ก็อาจกลายเป็นสิ่งที่ ล้าสมัย ไปแล้ว อัตราส่วนสัญญาณต่อสัญญาณรบกวนต่ำเกินไปจนคุณค่าของการคัดกรองแทบไม่เหลือ
แม้แต่สัญญาณที่ค่อนข้างแรงอย่าง GPA ใบรับรอง หรือบทบาทงานก่อนหน้า ก็ยังเชื่อมโยงกับผลการสัมภาษณ์คัดกรองรอบแรกได้ไม่ดีนัก
เพราะฉะนั้นสิ่งที่วงการต้องการอย่างมากคือคอนซอร์เทียมด้านการสอบ แทนที่จะเดาความสามารถจากชื่อมหาวิทยาลัย บริษัทเทคโนโลยีรายใหญ่ควรร่วมกันสร้างข้อสอบมาตรฐานตามสาขา แล้วให้คะแนนนั้นกลายเป็นเรซูเม่ นักพัฒนาจะได้ไปโฟกัสกับการเพิ่มคะแนนแทนงานจิปาถะอย่างการเขียนเรซูเม่และการคัดกรองซ้ำ ๆ
- ระบบแบบนั้นก็สุดท้ายอาจถูกเล่นเกมได้อยู่ดี เหมือนที่มีการติวเพื่อ LeetCode เพื่อตอบคำถามสัมภาษณ์แบบซิลิคอนแวลลีย์ การเรียนเพื่อทำงานจะกลายเป็นเรียนเพื่อสอบ แล้วต่อด้วยเรียนเพื่อสอบคัดเลือกก่อนสอบอีกที
- บางทีการจับสลากอาจดีกว่าด้วยซ้ำ ประโยชน์ใช้สอยน่าจะใกล้เคียงกันแต่เรียบง่ายกว่ามาก
  ที่จริงแล้วใบรับรอง “สำหรับองค์กร” ต่าง ๆ ก็ทำหน้าที่แบบนั้นอยู่แล้วไม่ใช่หรือ
- ตัว ข้อสอบมาตรฐาน ตามสาขาเองก็เป็นปัญหาที่ยากมหาศาล ต่อให้ไม่นับแรงจูงใจในการโกงแบบโจ่งแจ้ง การสอบมาตรฐานก็มักสะท้อนความเข้าใจในเนื้อหาได้ไม่ดี
  เท่ากับกำลังบอกว่า LeetCode เป็นเครื่องมือจ้างงานที่มีประสิทธิภาพ ซึ่งสมควรถูกวิจารณ์อย่างมาก
- การออกแบบข้อสอบวิทยาการคอมพิวเตอร์เป็นเรื่องยาก LeetCode ง่ายเกินไป และแทบจะทดสอบแค่ความรู้ด้านอัลกอริทึมพื้นฐานที่แทบไม่มีประโยชน์กับการพัฒนาซอฟต์แวร์ทั่วไป
เรื่องนี้อาจนำไปสู่ เกมเดาเชิงชั้นเชิง ที่ค่อนข้างน่าสนใจ ถ้าคุณสมัครงานกับบริษัทหนึ่งและรู้ว่าบริษัทนั้นใช้ระบบติดตามผู้สมัครแบบใด และระบบนั้นใช้ตัวกรองจากผู้ให้บริการโมเดลเจ้าไหน ก็ควรเขียนเรซูเม่เวอร์ชันที่จะส่งให้บริษัทนั้นด้วยโมเดลเดียวกัน
- เป็นข้อสังเกตที่ดี เวอร์ชันอนาคตอีกมากมายคงกลายเป็น สงครามสะสมอาวุธ LLM ในที่สุด
ดูเหมือนทั้งอุตสาหกรรมกำลังใช้ ตัวประเมินอัตโนมัติ กันอยู่ คือให้อินสแตนซ์ของเอเจนต์ให้คะแนนผลลัพธ์ของเอเจนต์อีกที
เจตนาคล้ายกับการฝึกสร้างภาพด้วยโครงข่ายประสาทแบบปรปักษ์โดยตัด human labeler ออกไป ดังนั้นทีมต่าง ๆ ก็จะเริ่มใช้คะแนนของตัวประเมินอัตโนมัติเป็นตัวชี้วัดหลักในการปรับให้เหมาะที่สุด และสุดท้ายก็คงไม่น่าแปลกใจถ้าเอเจนต์ให้คะแนนสูงสุดกับคอนเทนต์ที่มันสร้างเอง
ผมลองรัน qwen/qwen3-v1-30b แบบโลคัลแล้วป้อนเรซูเม่ของตัวเองที่เขียนโดยมนุษย์ 100% พร้อมสั่งว่า “ช่วยทำเรซูเม่นี้ให้ดูเป็นมืออาชีพขึ้น”
มันสร้าง bullet point สุดอลังการออกมา และประโยคว่า “เชี่ยวชาญด้านการทำแบบจำลองข้อมูลทั้งองค์กร และทำงานเพิ่มประสิทธิภาพต้นทุนขายทั่วฐานลูกค้าทั้งหมด” ถูกเปลี่ยนเป็น “เชี่ยวชาญด้านการทำแบบจำลองข้อมูลทั้งองค์กรและการเพิ่มประสิทธิภาพประสิทธิผล โดยขับเคลื่อน การลดต้นทุนแบบเกิดซ้ำมากกว่า 5 ล้านดอลลาร์ ทั่วทั้งฐานลูกค้า”
ตัวเลขมากกว่า 5 ล้านดอลลาร์ฟังดูเท่มาก และเรซูเม่คอร์ปัสก็ดูจะเน้นตัวชี้วัดจริง แต่เรื่องนี้ไม่เป็นความจริง และผมก็ไม่เคยขอให้มันแต่งตัวเลขขึ้นมา
ทั้งที่ในเรซูเม่มีแค่ตำแหน่ง SDE ช่วงปี 1996~1998 แต่มันยังเสก “University of California, Berkeley ปริญญาตรีสาขาวิทยาการคอมพิวเตอร์ | 1996–1998” ขึ้นมาจากอากาศอีกด้วย
- ใช่ ปัญหาการแต่งเรื่องจะยิ่งทำให้เรื่องนี้หนักขึ้น
  บางคนก็จะคอยแก้ อาการหลอน พวกนั้น ซึ่งในกรณีนั้นก็แค่เสียเวลาของผู้สมัคร
  แต่บางคนก็จะไม่แก้ และในกรณีนั้น อย่างดีที่สุดคือผู้สมัครกับผู้สัมภาษณ์มาพบความผิดพลาดกันทีหลังและเสียเวลากันทั้งคู่ ส่วนกรณีเลวร้ายที่สุดคือมีการจ้างคนที่ไม่มีความสามารถทำงานจริง ผลลัพธ์จะเละเทะและไร้ประสิทธิภาพสำหรับทุกฝ่าย
เป็นหัวข้อที่ตรงจังหวะสำหรับผมมาก เรซูเม่ของผมยาวไปถึง 7 หน้าแล้ว และได้ยินจากทุกที่ว่าห้ามเกิน 2 หน้า ก็เลยให้ Gemini ช่วยเขียนใหม่
Gemini ชอบทำให้ทุกอย่างดูเกินจริงเลยเสียเวลาไปพอสมควร แต่ก็พอใจกับผลลัพธ์มาก
แต่รีครูตเตอร์กลุ่มแรก ๆ ที่ผมส่งให้กลับชอบเรซูเม่แบบเดิม 7 หน้ามากกว่า ดูเหมือนพวกเขายังใช้ AI ไม่มากพอ
LLM มักตัดสินอย่างสม่ำเสมอว่า คอนเทนต์ที่ LLM เขียนนั้นดี
ถ้าให้ LLM เขียนเอกสารออกแบบ แล้วรอจนได้งานที่แย่มากจริง ๆ ค่อยส่งให้ LLM อื่น ๆ ขอ feedback ปกติพวกมันก็มักจะพูดในแง่ดี
ในทางกลับกัน ถ้าส่งเอกสารที่เขียนดีมากไป แม้สมมติฐานจะแน่นหนา พวกมันกลับมักชี้จุดอ่อนออกมาได้มากกว่า ควรมีใครสักคนเอาเรื่องนี้ไปศึกษาจริงจัง
ชัดเจนว่า LLM มีคุณค่ามาก แต่ปรากฏการณ์นี้เผยให้เห็นจุดอ่อนที่น่าสนใจมากและยังไม่ชัดว่าผลกระทบจะกว้างไปถึงไหน
LLM น่าจะมีอคติอย่างมากต่อโค้ดที่มันเขียนเองด้วย ถ้าเอาโค้ดที่ได้รับการยอมรับอย่างกว้างขวางว่าเขียนดี เช่น Redis ไปให้มันช่วยวิจารณ์ มันก็น่าจะจับผิดได้เยอะ และหลายข้ออาจผิดสนิท
ในทางกลับกัน ถ้าเอารีโปที่สร้างโดย LLM ซึ่งชัดเจนว่าคุณภาพแย่ไปให้โมเดลเดียวกัน มันจะตอบสนองคล้ายกรณีเอกสารออกแบบหรือไม่ มันปฏิบัติต่อภาษาธรรมชาติกับโค้ดต่างกันไหม หรือมีปัญหาแบบเดียวกัน ใครเคยลองบ้างก็น่าสนใจ

อคติการชอบผลงานของตนเองของ AI ในการคัดเลือกบุคลากรเชิงอัลกอริทึม: หลักฐานเชิงประจักษ์และนัยสำคัญ

อคติแบบใหม่ที่ AI สร้างขึ้นในการประเมินผู้สมัครงาน

การออกแบบการทดลองและวิธีวัดผล

การชอบผลงานของตนเองแบบ LLM-vs-Human

การชอบผลงานของตนเองแบบ LLM-vs-LLM

ผลเชิงประจักษ์สำคัญ

ผลกระทบในกระบวนการสรรหาบุคลากร

กลยุทธ์ลดผลกระทบและนัยด้านความเป็นธรรม

System prompting

Ensemble แบบเสียงข้างมาก

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นใน Hacker News