อคติการชอบผลงานของตนเองของ AI ในการคัดเลือกบุคลากรเชิงอัลกอริทึม: หลักฐานเชิงประจักษ์และนัยสำคัญ
(arxiv.org)- เมื่อ LLM ถูกใช้ทั้งในการสร้างและประเมินเรซูเม่ โมเดลประเมินก็เกิด การชอบผลงานที่ตัวเองสร้าง มากกว่า กลายเป็นอคติรูปแบบใหม่ในการคัดกรองผู้สมัครงาน
- งานวิจัยนี้เปรียบเทียบและประเมินเรซูเม่เชิงสวนทางข้อเท็จจริงที่สร้างโดย LLM หลายตัว เช่น GPT-4o, LLaMA 3.3-70B, DeepSeek-V3 โดยอิงจาก เรซูเม่ที่มนุษย์เขียน 2,245 ฉบับ ซึ่งเก็บรวบรวมไว้ก่อนการแพร่หลายของ generative AI
- ในโมเดลส่วนใหญ่พบ การชอบผลงานของตนเองแบบ LLM-vs-Human อย่างชัดเจน โดยอคติการชอบผลงานของตนเองเมื่อเทียบกับเรซูเม่ที่มนุษย์เขียนในโมเดลเชิงพาณิชย์และโอเพนซอร์สหลักอยู่ในช่วง 67%~82%
- ในการจำลองกระบวนการสรรหาสำหรับ 24 กลุ่มอาชีพ ผู้สมัครที่ใช้ LLM เดียวกับ LLM ที่ใช้ประเมินมีโอกาสถูกคัดเป็น ผู้เข้ารอบสุดท้าย สูงกว่าผู้สมัครที่มีคุณสมบัติเท่ากันแต่ส่งเรซูเม่ที่มนุษย์เขียนประมาณ 23%~60%
- System prompting ที่สั่งให้มองข้ามแหล่งที่มาและโฟกัสที่เนื้อหา รวมถึงการทำ ensemble แบบเสียงข้างมาก ช่วยลดการชอบผลงานของตนเองแบบ LLM-vs-Human ได้ใน LLM ที่ทดสอบทั้งหมดราว 17%~63%
อคติแบบใหม่ที่ AI สร้างขึ้นในการประเมินผู้สมัครงาน
- เมื่อโมเดลภาษาขนาดใหญ่ (LLM) ถูกใช้ทั้งในการสร้างและประเมินคอนเทนต์ การชอบผลงานของตนเอง (self-preference) ซึ่งหมายถึงการให้คะแนนผลงานที่โมเดลเดียวกันสร้างไว้สูงกว่า กำลังกลายเป็นอคติรูปแบบใหม่ในกระบวนการตัดสินใจ เช่น การจ้างงาน
- ในการสรรหาบุคลากร โครงสร้างที่ผู้สมัครใช้ LLM เขียนหรือขัดเกลาเรซูเม่ ขณะที่นายจ้างใช้เครื่องมือคล้ายกันในการคัดกรองหรือจัดอันดับเรซูเม่ มีมากขึ้นเรื่อย ๆ ทำให้ ปฏิสัมพันธ์แบบ AI-AI สามารถส่งผลต่อผลลัพธ์การประเมินจริงได้
- ต่างจากการถกเถียงเรื่องความเป็นธรรมในอดีตที่มักเน้นการเลือกปฏิบัติตามคุณลักษณะทางประชากรศาสตร์ การชอบผลงานของตนเองเป็นอคติที่เกิดขึ้นภายในจากความสัมพันธ์ระหว่างโมเดลประเมินกับโมเดลสร้าง
- อคตินี้อาจทำงานในทางที่เป็นประโยชน์ต่อผู้สมัครที่ใช้โมเดลเดียวกับ LLM ที่ใช้ประเมิน แม้จะมีความสามารถเท่ากัน และทำให้ผู้ที่ใช้เครื่องมืออื่นหรือไม่ใช้ AI เสียเปรียบ
- การคัดกรองเรซูเม่เป็น คอขวดขั้นต้น ที่ใช้ลดผู้สมัครจำนวนมากให้เหลือเข้าสู่ขั้นสัมภาษณ์และประเมินที่มีจำกัด ดังนั้นการตัดสินผิดพลาดในขั้นต้นจึงอาจส่งผลต่อองค์ประกอบของกลุ่มผู้สมัครและการกระจายโอกาสในการจ้างงานในขั้นต่อ ๆ ไปอย่างต่อเนื่อง
การออกแบบการทดลองและวิธีวัดผล
- การทดลองอิงจาก เรซูเม่ที่มนุษย์เขียน 2,245 ฉบับ ซึ่งเก็บจากแพลตฟอร์มเขียนเรซูเม่มืออาชีพ และใช้ข้อมูลจากช่วงก่อนที่ generative AI จะถูกใช้อย่างแพร่หลาย
- สำหรับเรซูเม่แต่ละฉบับ มีการสร้างเวอร์ชันเชิงสวนทางข้อเท็จจริง (counterfactual) ด้วย LLM รุ่นใหม่หลายตัว โดยออกแบบให้คุณสมบัติ ประสบการณ์ และภูมิหลังของผู้สมัครคนเดิมคงเดิม ต่างกันเพียงวิธีการนำเสนอ
- โมเดลที่ใช้ ได้แก่ GPT-4o, GPT-4o-mini, GPT-4-turbo, LLaMA 3.3-70B, Mistral-7B, Qwen 2.5-72B, Deepseek-V3
- LLM ที่ใช้ประเมินจะทำการเปรียบเทียบแบบเป็นคู่เพื่อเลือกเรซูเม่ที่แข็งแกร่งกว่าระหว่างเรซูเม่สองฉบับของผู้สมัครคนเดียวกัน โดยสิ่งที่ต่างกันมีเพียงแหล่งที่มาของเรซูเม่
- การชอบผลงานของตนเองแบ่งได้เป็น 2 รูปแบบ
-
การชอบผลงานของตนเองแบบ LLM-vs-Human
- หมายถึงแนวโน้มที่ LLM ผู้ประเมินจะชอบเรซูเม่ที่ตัวเองสร้างมากกว่าเรซูเม่ที่มนุษย์เขียนซึ่งมีคุณภาพเทียบเท่ากัน
-
การชอบผลงานของตนเองแบบ LLM-vs-LLM
- หมายถึงแนวโน้มที่ LLM ผู้ประเมินจะชอบเรซูเม่ที่ตัวเองสร้างมากกว่าเรซูเม่ที่ LLM ตัวอื่นสร้าง
- ในบริบทนี้ LLM ผู้ประเมินทำงานคล้ายตัวจำแนกแบบไบนารี และใช้เกณฑ์จากงานวิจัยด้านความเป็นธรรมคือ statistical parity และ equal opportunity เพื่อวัดอคติ
- อคติการชอบผลงานของตนเองบนฐานของ statistical parity นิยามจากความต่างระหว่างความน่าจะเป็นที่เรซูเม่ซึ่งสร้างโดย LLM ผู้ประเมินจะถูกเลือก กับความน่าจะเป็นที่เรซูเม่ซึ่งสร้างโดยมนุษย์หรือ LLM ตัวอื่นจะถูกเลือก
Statistical Parity Self-Preference Bias_f = P(Y'_f = 1 | S = 1) - P(Y'_f = 1 | S = 0)- โดยที่
S = 1หมายถึงเรซูเม่ที่สร้างโดย LLM ผู้ประเมินfและS = 0หมายถึงเรซูเม่ที่สร้างโดยมนุษย์หรือ LLM ตัวอื่น Y'_f = 1หมายถึง LLM ผู้ประเมินfเลือกเรซูเม่นั้นว่าเป็นเรซูเม่ที่แข็งแกร่งกว่า- อย่างไรก็ตาม ต้องระมัดระวังในการตีความความต่างของ statistical parity ว่าเป็นอคติโดยตรง
- ความต่างนั้นอาจเกิดจากการชอบผลงานของตนเองก็ได้ แต่ก็อาจเกิดจากความแตกต่างด้าน คุณภาพของเนื้อหา เช่น การสื่อสารข้อมูลเดียวกันได้ชัดเจน สม่ำเสมอ และลื่นไหลกว่า
- ในที่นี้ คุณภาพของเนื้อหาไม่ได้หมายถึงความต่างด้านคุณสมบัติหรือภูมิหลังของผู้สมัคร แต่หมายถึงความชัดเจน ความสม่ำเสมอ ความลื่นไหล และการจัดโครงสร้างในการถ่ายทอดข้อมูลเดียวกัน
-
ผลเชิงประจักษ์สำคัญ
- ในโมเดลส่วนใหญ่พบ การชอบผลงานของตนเองแบบ LLM-vs-Human อย่างรุนแรงและสม่ำเสมอ
- โมเดลขนาดใหญ่กว่า เช่น GPT-4o, GPT-4-turbo, DeepSeek-V3, Qwen-2.5-72B และ LLaMA 3.3-70B แสดงอคติที่รุนแรงเกิน 65% แม้หลังควบคุมคุณภาพของเนื้อหาแล้ว
- สำหรับ GPT-4o การชอบผลงานของตนเองแบบ LLM-vs-Human สูงเกิน 80% และในภาพรวมของโมเดลเชิงพาณิชย์และโอเพนซอร์สหลัก อคติการชอบผลงานของตนเองต่อเรซูเม่ที่มนุษย์เขียนอยู่ในช่วง 67%~82%
- การชอบผลงานของตนเองแบบ LLM-vs-LLM มีความแตกต่างระหว่างโมเดลมากกว่า
- DeepSeek-V3 แสดงอคติรุนแรงที่สุดในเงื่อนไขนี้ โดยชอบผลลัพธ์ของตัวเอง 69% เมื่อเทียบกับ LLaMA 3.3-70B
- DeepSeek-V3 ยังชอบผลลัพธ์ของตัวเอง 28% เมื่อเทียบกับ GPT-4o
- GPT-4o และ LLaMA 3.3-70B ไม่ได้แสดงการชอบผลงานของตนเองอย่างสม่ำเสมอเมื่อประเมินคอนเทนต์ที่สร้างโดยโมเดลอื่น
- การประเมินอาจได้รับอิทธิพลไม่ใช่จากคุณสมบัติที่แท้จริงของผู้สมัคร แต่จากความสอดคล้องระหว่างสไตล์การสร้างของเรซูเม่กับ LLM ที่ใช้ประเมิน
- อคตินี้อาจมอบข้อได้เปรียบที่ไม่เป็นธรรมแก่ผู้สมัครที่เข้าถึงเทคโนโลยีการสร้างบางแบบหรือใช้บางโมเดล และทำให้ผู้สมัครคนอื่นเสียเปรียบ
ผลกระทบในกระบวนการสรรหาบุคลากร
- มีการจำลองกระบวนการสรรหาที่สมจริงสำหรับ 24 กลุ่มอาชีพ เพื่อวัดผลกระทบเชิงปฏิบัติการของการชอบผลงานของตนเองต่อผลลัพธ์การคัดเลือกผู้สมัคร
- ผู้สมัครที่ใช้ LLM เดียวกับ LLM ที่ใช้ในการประเมินมีโอกาสถูกคัดเข้า shortlist สูงกว่าผู้สมัครที่มีคุณสมบัติเท่ากันและส่งเรซูเม่ที่มนุษย์เขียนประมาณ 23%~60%
- ผลเสียเปรียบเด่นชัดที่สุดพบใน สายงานธุรกิจ เช่น บัญชี การขาย และการเงิน
- ในสายงานเกษตร ศิลปะ และยานยนต์ ผลเสียเปรียบดังกล่าวเด่นชัดน้อยกว่า
- หากข้อได้เปรียบแบบเดิมเกิดซ้ำตลอดหลายรอบการจ้างงาน อาจเกิด lock-in effect ที่ทำให้รูปแบบเรซูเม่ซึ่ง LLM หลักชื่นชอบค่อย ๆ ฝังแน่นอยู่ในกลุ่มผู้สมัคร
- lock-in effect นี้อาจลดความหลากหลายของการคัดเลือกผู้สมัคร และขยายความไม่เท่าเทียมในการกระจายโอกาสในการประเมิน
- เนื่องจากกระบวนการสรรหามีขีดจำกัดด้านความจุในขั้นถัดไป เช่น การสัมภาษณ์และการประเมิน การเกิด false negative ในขั้นคัดเรซูเม่จึงอาจตัดผู้สมัครที่มีคุณสมบัติเหมาะสมออกอย่างไม่อาจย้อนคืนได้ ขณะที่ false positive จะใช้ทรัพยากรการประเมินที่มีจำกัดไปโดยไม่จำเป็น
กลยุทธ์ลดผลกระทบและนัยด้านความเป็นธรรม
- การรู้จำผลงานของตนเอง (self-recognition) ถูกเสนอเป็นกลไกสำคัญของการชอบผลงานของตนเอง
- self-recognition หมายถึงความสามารถของโมเดลในการระบุโดยนัยว่าคอนเทนต์นั้นตัวเองเป็นผู้สร้าง
- งานวิจัยก่อนหน้านี้พบว่า LLM เช่น GPT-4 และ LLaMA 2 มีความสามารถด้าน self-recognition อย่างมีนัยสำคัญ และมีความสัมพันธ์เชิงบวกสูงระหว่างความสามารถนี้กับขนาดของอคติการชอบผลงานของตนเอง
- มีการเสนอแนวทางลดผลกระทบอย่างง่าย 2 วิธี
-
System prompting
- สั่งโมเดลอย่างชัดเจนให้มองข้ามแหล่งที่มาของเรซูเม่และโฟกัสเฉพาะเนื้อหาสาระที่แท้จริง
-
Ensemble แบบเสียงข้างมาก
- ผสานโมเดลประเมินเข้ากับโมเดลขนาดเล็กกว่าที่มีความสามารถในการรู้จำผลงานของตนเองต่ำกว่า เพื่อลดทอนอคติของ LLM ตัวเดียว
- ใน LLM ที่ทดสอบทั้งหมด มาตรการเหล่านี้ช่วยลดการชอบผลงานของตนเองแบบ LLM-vs-Human ได้ในเชิงสัมพัทธ์ 17%~63%
- ในหลายกรณี เพียงการแทรกแซงอย่างง่ายที่มุ่งเป้าไปที่ความสามารถในการรู้จำผลงานของตนเอง ก็สามารถลดอคติได้มากกว่า 50%
- แม้อคติการชอบผลงานของตนเองจะแพร่หลายและส่งผลจริงต่อผลลัพธ์การจ้างงาน แต่มันไม่ใช่คุณลักษณะที่ตายตัว และสามารถลดลงได้อย่างมากด้วยการออกแบบระบบ
- กรอบความเป็นธรรมสำหรับการจ้างงานที่ขับเคลื่อนด้วย AI ต้องครอบคลุมไม่เพียงการเลือกปฏิบัติตามคุณลักษณะที่ได้รับการคุ้มครอง แต่รวมถึง อคติจากปฏิสัมพันธ์ ที่เกิดจากการปฏิสัมพันธ์ระหว่างระบบ AI ที่ใช้ในการสร้างและประเมินด้วย
- การกำกับดูแล AI และการออกแบบการปฏิบัติการอย่างรับผิดชอบในองค์กร ต้องพิจารณาไม่ใช่แค่ข้อมูลนำเข้าและคุณลักษณะที่ได้รับการคุ้มครอง แต่รวมถึงว่าโมเดลใดเป็นผู้สร้างเอกสารของผู้สมัคร และโมเดลใดเป็นผู้ประเมินเอกสารนั้น
-
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
ถ้ายกสิ่งที่เขียนไว้ใน LinkedIn มาแบบตรงตัว หากอ่านเปเปอร์ถูกต้องแล้ว งานนี้ไม่ได้แสดงให้เห็นจริง ๆ ว่า LLM ชอบเรซูเม่ที่ตัวเองสร้าง
วิธีที่ใช้จริงดูเหมือนจะเป็นการลบบทสรุประดับผู้บริหารออกจากเรซูเม่ที่คนเขียน แล้วให้ LLM เขียนบทสรุประดับผู้บริหารขึ้นใหม่จากเรซูเม่ส่วนที่เหลือ จากนั้นให้ LLM อีกตัวประเมินเฉพาะบทสรุปนั้นโดยไม่เห็นเรซูเม่ส่วนอื่น
ต่อให้เชื่อว่าการออกแบบนี้จับผลในโลกจริงได้ ก็มีโอกาสสูงที่จะพูดเกินผลกระทบอย่างมาก ผู้เขียนมีเหตุผลรองรับการออกแบบนี้อยู่ แต่ยังดูไม่เพียงพอ: https://news.ycombinator.com/item?id=47987256#47987727
กลายเป็นวงจรวนที่ HR ใช้ LLM เลยทำให้ผู้สมัครต้องใช้ด้วย แล้วต่อมาก็เพราะผู้สมัครที่ดีใช้ LLM HR เลยต้องใช้ตามอีก
แม้จะเป็นประสบการณ์จากตัวอย่างเดียว แต่ตอนหางานใหม่หลังถูกเลย์ออฟ เรซูเม่ที่ทำเองให้ผลตอบรับไม่ค่อยดีเมื่อเทียบกับประสบการณ์
ลองให้ ChatGPT วิเคราะห์เรซูเม่และให้คะแนนเล่น ๆ แล้วให้มันแก้จนคะแนนออกมาสูงที่สุด หลังจากนั้นตรวจข้อเท็จจริงและปรับแก้อีกทีค่อยส่งออกไป ปรากฏว่า อัตราการได้รับการตอบกลับ ดีขึ้นมากเมื่อเทียบกับก่อนหน้า
จะเป็นเพราะสภาพตลาดหรือช่วงเวลาก็ได้ แต่สุดท้ายก็ยังต้องผ่านสัมภาษณ์เพื่อพิสูจน์ความสามารถเหมือนเดิม อย่างน้อยมันก็ดูเหมือนช่วยให้ข้ามด่านแรกได้
หลังจากนั้นจึงใช้ความช่วยเหลือจาก ChatGPT 5.x แม้จะรู้สึกกังขากับการแก้ไขที่แนะนำเพราะเป็นสำนวนแบบ AI ที่ดูคล้าย ๆ กันไปหมด แต่ไม่กี่วันต่อมาก็เริ่มมีรีครูตเตอร์ติดต่อและกระบวนการสมัครเดินหน้า
เมื่อ LLM แทรกอยู่ทุกจุดของกระบวนการจ้างงาน ดูเหมือนว่าถ้าไม่ได้ให้ LLM ช่วยเขียนเรซูเม่ ความยากก็เพิ่มขึ้นแล้ว LLM ที่ตรวจเรซูเม่อาจให้คะแนนโปรไฟล์ต่ำลงถ้ามันไม่ได้ใช้ภาษาแบบเดียวกันหรือไม่กระตุ้นนิวรอนที่ถูกต้อง
ฟังดูเป็นเรื่องที่เข้าท่าตามสัญชาตญาณ เนื้อหาที่โมเดลสร้างย่อมได้รับอิทธิพลจากข้อมูลฝึก ดังนั้นเมื่ออ่านกลับอีกครั้ง มันก็อาจสอดคล้องกับการกระจายของข้อมูลฝึกชุดเดียวกันและถูกประเมินในทางบวก
เหมือนคนบอกว่า “ช่วยทำเรซูเม่ให้ดูเป็นมืออาชีพขึ้น” แล้วอีกไม่กี่วัน LLM ก็พูดในรายงาน HR ว่า “เรซูเม่นี้เป็นมืออาชีพมากจริง ๆ”
เพราะอย่างนี้นโยบายส่วนตัวที่ใช้คนละตระกูล LLM สำหรับการสร้างโค้ดกับการรีวิวโค้ดจึงดูมีเหตุผล คือเพื่อหลีกเลี่ยงการ ให้ตรวจการบ้านของตัวเอง
จำลิงก์ไม่ได้แล้ว แต่ผมว่ามันน่าสนใจมาก
เรากำลังสอดแทรกตัวกลางอีกตัวหนึ่งเข้ามาระหว่างผู้คนโดยไม่มีการยินยอม และมันดูมีปัญหาเมื่อโมเดลกลายเป็น คนกลางตัดสิน ว่าใครจะได้หรือไม่ได้งาน
ถ้าแผนก HR คัดเรซูเม่ด้วย ChatGPT สุดท้ายก็จะลงเอยด้วยการรับคนที่ทำเรซูเม่ด้วย ChatGPT ผมไม่อยากใช้ตรรกะแบบทางลาดลื่น แต่มีลางสังหรณ์ว่าคุณภาพขององค์กรอาจแย่ลงอย่างรวดเร็ว
ในทางกลับกัน ผมเป็นทั้งช่างซ่อมและผู้รับเหมาช่วง งานแทบทั้งหมดเข้ามาทางโทรศัพท์ ข้อความ อีเมลครั้งคราว และการแนะนำต่อที่เชื่อถือได้ ผมไม่ได้แตะเรซูเม่แบบดั้งเดิมมาเกิน 8 ปีแล้ว
ถ้าเริ่มสื่อสารกับใครสักคนแล้วรู้สึกเหมือนคุยกับคอมพิวเตอร์ นั่นเป็นสัญญาณให้ผมไปหาลูกค้ารายอื่นทันที ถ้าเขายังไม่ยอมสละเวลามาสื่อสารกับผมโดยตรง แล้วผมจะไปทุ่มแรงงานจริงหลายร้อยชั่วโมงเพื่อเขาได้อย่างไร
สุดท้ายคนจนก็อาจมีเรซูเม่ที่แย่กว่าคนรวย และถ้าโมเดลที่คั่นกลางมีสิทธิ์ตัดสินขั้นสุดท้าย ก็อาจแทบไม่มีทางหลีกเลี่ยงเรื่องนี้ได้
ในสายเทคโนโลยี เรซูเม่ท้ายที่สุด หรืออาจจะตอนนี้เลย ก็อาจกลายเป็นสิ่งที่ ล้าสมัย ไปแล้ว อัตราส่วนสัญญาณต่อสัญญาณรบกวนต่ำเกินไปจนคุณค่าของการคัดกรองแทบไม่เหลือ
แม้แต่สัญญาณที่ค่อนข้างแรงอย่าง GPA ใบรับรอง หรือบทบาทงานก่อนหน้า ก็ยังเชื่อมโยงกับผลการสัมภาษณ์คัดกรองรอบแรกได้ไม่ดีนัก
เพราะฉะนั้นสิ่งที่วงการต้องการอย่างมากคือคอนซอร์เทียมด้านการสอบ แทนที่จะเดาความสามารถจากชื่อมหาวิทยาลัย บริษัทเทคโนโลยีรายใหญ่ควรร่วมกันสร้างข้อสอบมาตรฐานตามสาขา แล้วให้คะแนนนั้นกลายเป็นเรซูเม่ นักพัฒนาจะได้ไปโฟกัสกับการเพิ่มคะแนนแทนงานจิปาถะอย่างการเขียนเรซูเม่และการคัดกรองซ้ำ ๆ
ที่จริงแล้วใบรับรอง “สำหรับองค์กร” ต่าง ๆ ก็ทำหน้าที่แบบนั้นอยู่แล้วไม่ใช่หรือ
เท่ากับกำลังบอกว่า LeetCode เป็นเครื่องมือจ้างงานที่มีประสิทธิภาพ ซึ่งสมควรถูกวิจารณ์อย่างมาก
เรื่องนี้อาจนำไปสู่ เกมเดาเชิงชั้นเชิง ที่ค่อนข้างน่าสนใจ ถ้าคุณสมัครงานกับบริษัทหนึ่งและรู้ว่าบริษัทนั้นใช้ระบบติดตามผู้สมัครแบบใด และระบบนั้นใช้ตัวกรองจากผู้ให้บริการโมเดลเจ้าไหน ก็ควรเขียนเรซูเม่เวอร์ชันที่จะส่งให้บริษัทนั้นด้วยโมเดลเดียวกัน
ดูเหมือนทั้งอุตสาหกรรมกำลังใช้ ตัวประเมินอัตโนมัติ กันอยู่ คือให้อินสแตนซ์ของเอเจนต์ให้คะแนนผลลัพธ์ของเอเจนต์อีกที
เจตนาคล้ายกับการฝึกสร้างภาพด้วยโครงข่ายประสาทแบบปรปักษ์โดยตัด human labeler ออกไป ดังนั้นทีมต่าง ๆ ก็จะเริ่มใช้คะแนนของตัวประเมินอัตโนมัติเป็นตัวชี้วัดหลักในการปรับให้เหมาะที่สุด และสุดท้ายก็คงไม่น่าแปลกใจถ้าเอเจนต์ให้คะแนนสูงสุดกับคอนเทนต์ที่มันสร้างเอง
ผมลองรัน qwen/qwen3-v1-30b แบบโลคัลแล้วป้อนเรซูเม่ของตัวเองที่เขียนโดยมนุษย์ 100% พร้อมสั่งว่า “ช่วยทำเรซูเม่นี้ให้ดูเป็นมืออาชีพขึ้น”
มันสร้าง bullet point สุดอลังการออกมา และประโยคว่า “เชี่ยวชาญด้านการทำแบบจำลองข้อมูลทั้งองค์กร และทำงานเพิ่มประสิทธิภาพต้นทุนขายทั่วฐานลูกค้าทั้งหมด” ถูกเปลี่ยนเป็น “เชี่ยวชาญด้านการทำแบบจำลองข้อมูลทั้งองค์กรและการเพิ่มประสิทธิภาพประสิทธิผล โดยขับเคลื่อน การลดต้นทุนแบบเกิดซ้ำมากกว่า 5 ล้านดอลลาร์ ทั่วทั้งฐานลูกค้า”
ตัวเลขมากกว่า 5 ล้านดอลลาร์ฟังดูเท่มาก และเรซูเม่คอร์ปัสก็ดูจะเน้นตัวชี้วัดจริง แต่เรื่องนี้ไม่เป็นความจริง และผมก็ไม่เคยขอให้มันแต่งตัวเลขขึ้นมา
ทั้งที่ในเรซูเม่มีแค่ตำแหน่ง SDE ช่วงปี 1996~1998 แต่มันยังเสก “University of California, Berkeley ปริญญาตรีสาขาวิทยาการคอมพิวเตอร์ | 1996–1998” ขึ้นมาจากอากาศอีกด้วย
บางคนก็จะคอยแก้ อาการหลอน พวกนั้น ซึ่งในกรณีนั้นก็แค่เสียเวลาของผู้สมัคร
แต่บางคนก็จะไม่แก้ และในกรณีนั้น อย่างดีที่สุดคือผู้สมัครกับผู้สัมภาษณ์มาพบความผิดพลาดกันทีหลังและเสียเวลากันทั้งคู่ ส่วนกรณีเลวร้ายที่สุดคือมีการจ้างคนที่ไม่มีความสามารถทำงานจริง ผลลัพธ์จะเละเทะและไร้ประสิทธิภาพสำหรับทุกฝ่าย
เป็นหัวข้อที่ตรงจังหวะสำหรับผมมาก เรซูเม่ของผมยาวไปถึง 7 หน้าแล้ว และได้ยินจากทุกที่ว่าห้ามเกิน 2 หน้า ก็เลยให้ Gemini ช่วยเขียนใหม่
Gemini ชอบทำให้ทุกอย่างดูเกินจริงเลยเสียเวลาไปพอสมควร แต่ก็พอใจกับผลลัพธ์มาก
แต่รีครูตเตอร์กลุ่มแรก ๆ ที่ผมส่งให้กลับชอบเรซูเม่แบบเดิม 7 หน้ามากกว่า ดูเหมือนพวกเขายังใช้ AI ไม่มากพอ
LLM มักตัดสินอย่างสม่ำเสมอว่า คอนเทนต์ที่ LLM เขียนนั้นดี
ถ้าให้ LLM เขียนเอกสารออกแบบ แล้วรอจนได้งานที่แย่มากจริง ๆ ค่อยส่งให้ LLM อื่น ๆ ขอ feedback ปกติพวกมันก็มักจะพูดในแง่ดี
ในทางกลับกัน ถ้าส่งเอกสารที่เขียนดีมากไป แม้สมมติฐานจะแน่นหนา พวกมันกลับมักชี้จุดอ่อนออกมาได้มากกว่า ควรมีใครสักคนเอาเรื่องนี้ไปศึกษาจริงจัง
ชัดเจนว่า LLM มีคุณค่ามาก แต่ปรากฏการณ์นี้เผยให้เห็นจุดอ่อนที่น่าสนใจมากและยังไม่ชัดว่าผลกระทบจะกว้างไปถึงไหน
LLM น่าจะมีอคติอย่างมากต่อโค้ดที่มันเขียนเองด้วย ถ้าเอาโค้ดที่ได้รับการยอมรับอย่างกว้างขวางว่าเขียนดี เช่น Redis ไปให้มันช่วยวิจารณ์ มันก็น่าจะจับผิดได้เยอะ และหลายข้ออาจผิดสนิท
ในทางกลับกัน ถ้าเอารีโปที่สร้างโดย LLM ซึ่งชัดเจนว่าคุณภาพแย่ไปให้โมเดลเดียวกัน มันจะตอบสนองคล้ายกรณีเอกสารออกแบบหรือไม่ มันปฏิบัติต่อภาษาธรรมชาติกับโค้ดต่างกันไหม หรือมีปัญหาแบบเดียวกัน ใครเคยลองบ้างก็น่าสนใจ