- เมื่อ 9 เดือนก่อน ผู้เขียนตัดสินใจว่า AI สามารถทำ การวิเคราะห์ความปลอดภัยของโค้ด ได้ดีพอในระดับที่แทนคนได้จริง จึงก่อตั้งสตาร์ตอัปขึ้นมา
- ช่วงแรกเมื่อเปลี่ยนจาก GPT-4o ไปเป็น Claude 3.5 sonnet พบว่าเกิด การพัฒนาเชิงคุณภาพครั้งใหญ่ ทั้งในการอธิบายช่องโหว่ด้านความปลอดภัยและการประเมินความรุนแรง
- แต่หลังจากนั้น โมเดลส่วนใหญ่รวมถึง Claude 3.6 และ 3.7 แทบไม่แสดงให้เห็นถึงการปรับปรุงที่มีนัยสำคัญจริง ๆ ทั้งในเบนช์มาร์กภายในหรือความสามารถในการตรวจจับบั๊ก
- การเพิ่มขึ้นของประสิทธิภาพส่วนใหญ่เกิดจากการปรับปรุงด้านวิศวกรรมทั่วไป ไม่ใช่จากตัวโมเดล AI เอง
- สตาร์ตอัปอื่น ๆ ก็มีประสบการณ์คล้ายกัน โดยส่วนใหญ่เจอกับวงจรแบบ ประกาศโมเดลใหม่ → ผลงานดีบนเบนช์มาร์ก → ประสิทธิภาพจริงเพิ่มขึ้นเพียงเล็กน้อย
- ผู้เขียนมองว่า ความก้าวหน้าของโมเดล AI ในปัจจุบัน ยังไม่ได้อยู่ในระดับที่มีความหมายในด้านประโยชน์เชิงเศรษฐกิจหรือความสามารถในการทำงานข้ามบริบท
ช่องว่างระหว่างเบนช์มาร์ก AI กับประสิทธิภาพจริง
- โมเดล AI อาจทำคะแนนได้ดีในการทดสอบ แต่ แทบไม่สะท้อนถึงความสามารถในการทำงานจริง
- เบนช์มาร์กส่วนใหญ่มุ่งไปที่ปัญหาสั้น ๆ และแยกขาดจากกัน จึงไม่เหมาะกับการใช้งานจริง
- ตัวอย่างเช่น โมเดล Claude มีปัญหาในการรักษาความจำระยะยาวจนถึงขั้นเล่นเกม Pokémon ให้จบไม่ได้
- เบนช์มาร์กอย่าง ‘Humanity’s Last Exam’ ดูเผิน ๆ อาจสำคัญ แต่ ไม่ได้ประเมินประโยชน์ใช้สอยจริงได้อย่างเหมาะสม
- ผู้เขียนระบุว่าต่อจากนี้จะเชื่อถือเฉพาะเบนช์มาร์กที่อิงการใช้งานจริงอย่าง Claude Plays Pokemon เมื่อต้องตัดสินประสิทธิภาพของ AI
ปัญหาความน่าเชื่อถือของห้องแล็บ AI
- ห้องแล็บ AI อยู่ท่ามกลางการแข่งขันระดับอารยธรรม และบางแห่งมีแรงจูงใจที่จะพูดเกินจริงเรื่องประสิทธิภาพหรือ เปิดเผยเฉพาะผลลัพธ์ที่ดีแบบเลือกสรร
- ในความเป็นจริง เบนช์มาร์กที่ OpenAI, Anthropic และรายอื่น ๆ ใช้ ส่วนใหญ่ตั้งอยู่บนชุดทดสอบที่เปิดเผยแล้ว จึงมีโอกาสถูกบิดเบือนได้
- นอกจากการประเมินที่กึ่งปิดอย่าง ARC-AGI แล้ว ผลลัพธ์แทบทั้งหมดอาจอยู่บนพื้นฐานของชุดข้อมูลที่โมเดลเคยฝึกมาแล้ว
- การตีความในแง่ดีที่สุดคือ ปัญหาอาจไม่ได้อยู่ที่ข้อจำกัดทางเทคนิค แต่อยู่ที่การโกงของมนุษย์
เหตุผลเชิงโครงสร้างที่เบนช์มาร์กไม่สะท้อนประโยชน์ใช้สอยจริง
- แบบทดสอบ IQ ของมนุษย์มีความสัมพันธ์กับความสำเร็จจริงหลายด้าน แต่เบนช์มาร์ก AI ไม่เป็นเช่นนั้น
- เบนช์มาร์ก AI ส่วนใหญ่ประกอบด้วย ปริศนาแบบแยกส่วน หรือ การแก้ปัญหาระยะสั้น
- AI ยังอ่อนแอมากต่อสิ่งที่ปัญหาในโลกจริงต้องการ เช่น ความจำ การรับรู้สถานการณ์ และการติดตามเป้าหมาย
- เบนช์มาร์กสะดวกต่อการพัฒนาและประเมินผล แต่ มีความเกี่ยวข้องต่ำกับความสามารถแบบองค์รวมในโลกจริง
โมเดล AI อาจฉลาด แต่ประสิทธิภาพถูกจำกัดด้วยปัญหา alignment
- บริษัทของผู้เขียนใช้ AI ในการตรวจสอบความปลอดภัยของโค้ดจริง แต่โมเดล เข้าใจบริบทของงานได้ไม่ดีนัก
- โมเดลไม่สามารถทำตามคำสั่งที่ให้รายงานเฉพาะปัญหาที่มีผลต่อบริการจริงได้ และมักแสดงคำเตือนที่ไม่จำเป็นออกมาบ่อยครั้ง
- เรื่องนี้เกิดขึ้นเพราะโมเดลถูก ฝึกให้ชอบตอบสนองในแบบที่ “ดูฉลาด”
- สำหรับการสนทนาอาจใช้งานได้ดี แต่เมื่อเอาไปประกอบใช้ในระบบ ความผิดพลาดจะสะสมจนกลายเป็นปัญหา
- ความพยายามที่จะแก้เพียงอาการภายนอกมีความเสี่ยงในระยะยาว และจำเป็นต้องแก้ปัญหา alignment ที่รากฐาน
ข้อคิดส่งท้ายและนัยต่อสังคม
- ปัจจุบัน AI มีประสิทธิภาพจริงต่ำกว่าความคาดหวังที่ถูกโหมเกินจริง และสิ่งนี้สอดคล้องกับ ‘ประสบการณ์ชีวิต’ ของผู้ใช้จำนวนมาก
- ก่อนที่ระบบ AI ที่ยังไม่ถูกจัดแนวอย่างเหมาะสมจะส่งผลกระทบต่อสังคมในวงกว้าง จำเป็นต้องมีความเข้าใจและการออกแบบที่ลึกซึ้งกว่านี้
- มากกว่าเบนช์มาร์กที่เน้นผลลัพธ์เพียงอย่างเดียว การประเมินเชิงคุณภาพที่สะท้อนสถานการณ์ใช้งานจริงมีความสำคัญกว่า
5 ความคิดเห็น
เห็นด้วยครับ ตอนนี้ผมใช้งาน
claude 3.7บน perplexity ได้ดีอยู่แล้ว แต่ช่วงหลังได้ลองใช้gemini 2.5ด้วย และรู้สึกได้จริง ๆ ว่าประสิทธิภาพดีมากขณะใช้งานช่วงนี้ทำไมมีแต่ข่าวแนวหนังสือพิมพ์เศรษฐกิจขึ้นมาแบบนี้
แต่ฉันชอบมากเลยนะ...
ช่วงนี้คงต้องใช้พาดหัวประมาณนี้แหละ ถึงจะเรียกกระแสได้สินะ
ความเห็นจาก Hacker News
แม่บอกว่า Paul Newman เคยมีปัญหาเรื่องแอลกอฮอล์ พอไปถาม ChatGPT ก็ได้รับคำตอบว่า Paul Newman ไม่ได้เป็นที่รู้จักว่ามีปัญหาเรื่องแอลกอฮอล์
ใน USAMO ล่าสุด โมเดล SOTA ทำคะแนนเฉลี่ยได้ 5% ซึ่งชวนให้คิดว่าโมเดล AI ไม่ได้แก้ปัญหาจริง ๆ แต่แค่จำผลลัพธ์ในอดีต
LLM มีแนวโน้มจะรายงานอะไรบางอย่างออกมา จึงมักพูดเกินจริง
การอ่านปฏิกิริยาต่อโพสต์นี้น่าสนใจ เพราะแสดงให้เห็นว่าปฏิกิริยาร่วมกันของพวกเรามีความหลากหลายมากและตั้งอยู่บนเกร็ดประสบการณ์ส่วนตัว
ประสบการณ์ส่วนตัวสอดคล้องกับความเห็นของผู้เขียน
การที่ผลลัพธ์เบนช์มาร์กดีขึ้น แต่การทำงานจริงแทบไม่ดีขึ้น สะท้อนธรรมชาติของ LLM
ช่วงสุดสัปดาห์ได้ใช้ gemini 2.5 และมันยอดเยี่ยมมาก
ต่อให้การพัฒนา LLM จะหยุดลงตอนนี้ เราก็คงยังค้นพบการใช้งานใหม่ ๆ ไปอีก 10 ปีข้างหน้า
ในฐานะคนที่ใช้ LLM และปลั๊กอินช่วยเขียนโค้ด รู้สึกว่า GPT/Claude แย่ลงในช่วง 12 เดือนที่ผ่านมา