ความก้าวหน้าของโมเดล AI ช่วงหลัง ๆ ให้ความรู้สึกว่าแทบจะไร้สาระเสียเป็นส่วนใหญ่

(lesswrong.com)

6 คะแนน โดย GN⁺ 2025-04-07 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อ 9 เดือนก่อน ผู้เขียนตัดสินใจว่า AI สามารถทำ การวิเคราะห์ความปลอดภัยของโค้ด ได้ดีพอในระดับที่แทนคนได้จริง จึงก่อตั้งสตาร์ตอัปขึ้นมา
ช่วงแรกเมื่อเปลี่ยนจาก GPT-4o ไปเป็น Claude 3.5 sonnet พบว่าเกิด การพัฒนาเชิงคุณภาพครั้งใหญ่ ทั้งในการอธิบายช่องโหว่ด้านความปลอดภัยและการประเมินความรุนแรง
แต่หลังจากนั้น โมเดลส่วนใหญ่รวมถึง Claude 3.6 และ 3.7 แทบไม่แสดงให้เห็นถึงการปรับปรุงที่มีนัยสำคัญจริง ๆ ทั้งในเบนช์มาร์กภายในหรือความสามารถในการตรวจจับบั๊ก
การเพิ่มขึ้นของประสิทธิภาพส่วนใหญ่เกิดจากการปรับปรุงด้านวิศวกรรมทั่วไป ไม่ใช่จากตัวโมเดล AI เอง
สตาร์ตอัปอื่น ๆ ก็มีประสบการณ์คล้ายกัน โดยส่วนใหญ่เจอกับวงจรแบบ ประกาศโมเดลใหม่ → ผลงานดีบนเบนช์มาร์ก → ประสิทธิภาพจริงเพิ่มขึ้นเพียงเล็กน้อย
ผู้เขียนมองว่า ความก้าวหน้าของโมเดล AI ในปัจจุบัน ยังไม่ได้อยู่ในระดับที่มีความหมายในด้านประโยชน์เชิงเศรษฐกิจหรือความสามารถในการทำงานข้ามบริบท

ช่องว่างระหว่างเบนช์มาร์ก AI กับประสิทธิภาพจริง

โมเดล AI อาจทำคะแนนได้ดีในการทดสอบ แต่ แทบไม่สะท้อนถึงความสามารถในการทำงานจริง
เบนช์มาร์กส่วนใหญ่มุ่งไปที่ปัญหาสั้น ๆ และแยกขาดจากกัน จึงไม่เหมาะกับการใช้งานจริง
ตัวอย่างเช่น โมเดล Claude มีปัญหาในการรักษาความจำระยะยาวจนถึงขั้นเล่นเกม Pokémon ให้จบไม่ได้
เบนช์มาร์กอย่าง ‘Humanity’s Last Exam’ ดูเผิน ๆ อาจสำคัญ แต่ ไม่ได้ประเมินประโยชน์ใช้สอยจริงได้อย่างเหมาะสม
ผู้เขียนระบุว่าต่อจากนี้จะเชื่อถือเฉพาะเบนช์มาร์กที่อิงการใช้งานจริงอย่าง Claude Plays Pokemon เมื่อต้องตัดสินประสิทธิภาพของ AI

ปัญหาความน่าเชื่อถือของห้องแล็บ AI

ห้องแล็บ AI อยู่ท่ามกลางการแข่งขันระดับอารยธรรม และบางแห่งมีแรงจูงใจที่จะพูดเกินจริงเรื่องประสิทธิภาพหรือ เปิดเผยเฉพาะผลลัพธ์ที่ดีแบบเลือกสรร
ในความเป็นจริง เบนช์มาร์กที่ OpenAI, Anthropic และรายอื่น ๆ ใช้ ส่วนใหญ่ตั้งอยู่บนชุดทดสอบที่เปิดเผยแล้ว จึงมีโอกาสถูกบิดเบือนได้
นอกจากการประเมินที่กึ่งปิดอย่าง ARC-AGI แล้ว ผลลัพธ์แทบทั้งหมดอาจอยู่บนพื้นฐานของชุดข้อมูลที่โมเดลเคยฝึกมาแล้ว
การตีความในแง่ดีที่สุดคือ ปัญหาอาจไม่ได้อยู่ที่ข้อจำกัดทางเทคนิค แต่อยู่ที่การโกงของมนุษย์

เหตุผลเชิงโครงสร้างที่เบนช์มาร์กไม่สะท้อนประโยชน์ใช้สอยจริง

แบบทดสอบ IQ ของมนุษย์มีความสัมพันธ์กับความสำเร็จจริงหลายด้าน แต่เบนช์มาร์ก AI ไม่เป็นเช่นนั้น
เบนช์มาร์ก AI ส่วนใหญ่ประกอบด้วย ปริศนาแบบแยกส่วน หรือ การแก้ปัญหาระยะสั้น
AI ยังอ่อนแอมากต่อสิ่งที่ปัญหาในโลกจริงต้องการ เช่น ความจำ การรับรู้สถานการณ์ และการติดตามเป้าหมาย
เบนช์มาร์กสะดวกต่อการพัฒนาและประเมินผล แต่ มีความเกี่ยวข้องต่ำกับความสามารถแบบองค์รวมในโลกจริง

โมเดล AI อาจฉลาด แต่ประสิทธิภาพถูกจำกัดด้วยปัญหา alignment

บริษัทของผู้เขียนใช้ AI ในการตรวจสอบความปลอดภัยของโค้ดจริง แต่โมเดล เข้าใจบริบทของงานได้ไม่ดีนัก
โมเดลไม่สามารถทำตามคำสั่งที่ให้รายงานเฉพาะปัญหาที่มีผลต่อบริการจริงได้ และมักแสดงคำเตือนที่ไม่จำเป็นออกมาบ่อยครั้ง
เรื่องนี้เกิดขึ้นเพราะโมเดลถูก ฝึกให้ชอบตอบสนองในแบบที่ “ดูฉลาด”
สำหรับการสนทนาอาจใช้งานได้ดี แต่เมื่อเอาไปประกอบใช้ในระบบ ความผิดพลาดจะสะสมจนกลายเป็นปัญหา
ความพยายามที่จะแก้เพียงอาการภายนอกมีความเสี่ยงในระยะยาว และจำเป็นต้องแก้ปัญหา alignment ที่รากฐาน

ข้อคิดส่งท้ายและนัยต่อสังคม

ปัจจุบัน AI มีประสิทธิภาพจริงต่ำกว่าความคาดหวังที่ถูกโหมเกินจริง และสิ่งนี้สอดคล้องกับ ‘ประสบการณ์ชีวิต’ ของผู้ใช้จำนวนมาก
ก่อนที่ระบบ AI ที่ยังไม่ถูกจัดแนวอย่างเหมาะสมจะส่งผลกระทบต่อสังคมในวงกว้าง จำเป็นต้องมีความเข้าใจและการออกแบบที่ลึกซึ้งกว่านี้
มากกว่าเบนช์มาร์กที่เน้นผลลัพธ์เพียงอย่างเดียว การประเมินเชิงคุณภาพที่สะท้อนสถานการณ์ใช้งานจริงมีความสำคัญกว่า

5 ความคิดเห็น

ifmkl 2025-04-08

เห็นด้วยครับ ตอนนี้ผมใช้งาน claude 3.7 บน perplexity ได้ดีอยู่แล้ว แต่ช่วงหลังได้ลองใช้ gemini 2.5 ด้วย และรู้สึกได้จริง ๆ ว่าประสิทธิภาพดีมากขณะใช้งาน

say8425 2025-04-07

ช่วงนี้ทำไมมีแต่ข่าวแนวหนังสือพิมพ์เศรษฐกิจขึ้นมาแบบนี้

sjisrich 2025-04-07

แต่ฉันชอบมากเลยนะ...

kandk 2025-04-07

ช่วงนี้คงต้องใช้พาดหัวประมาณนี้แหละ ถึงจะเรียกกระแสได้สินะ

GN⁺ 2025-04-07

ความเห็นจาก Hacker News

แม่บอกว่า Paul Newman เคยมีปัญหาเรื่องแอลกอฮอล์ พอไปถาม ChatGPT ก็ได้รับคำตอบว่า Paul Newman ไม่ได้เป็นที่รู้จักว่ามีปัญหาเรื่องแอลกอฮอล์
- ChatGPT อธิบายว่าเขาเป็นที่พูดถึงมากกว่าจากเส้นทางการแสดง งานการกุศล และความหลงใหลในการแข่งรถ
- แต่บนอินเทอร์เน็ตมีหลักฐานเกี่ยวกับปัญหาแอลกอฮอล์ของเขามากมาย รวมถึงคำให้การของภรรยาเขา Joanne Woodward
- เมื่อส่งคำตอบของ ChatGPT ไปให้แม่ แม่ก็หาที่มาอ้างอิงที่น่าเชื่อถือได้ภายใน 5 นาที
- ใช้ ChatGPT ทุกวัน แต่ก็ยังไม่เข้าใจว่าทำไมมันถึงผิดพลาดกับเรื่องง่าย ๆ แบบนี้ได้
- บทเรียนที่ได้คืออย่าไปตั้งข้อสงสัยกับความรู้เรื่องภาพยนตร์ของแม่
ใน USAMO ล่าสุด โมเดล SOTA ทำคะแนนเฉลี่ยได้ 5% ซึ่งชวนให้คิดว่าโมเดล AI ไม่ได้แก้ปัญหาจริง ๆ แต่แค่จำผลลัพธ์ในอดีต
- แม้จะมีผลลัพธ์แบบนี้ บริษัทต่าง ๆ ก็ไม่ได้เปิดเผยความพยายามในการลบข้อมูลข้อสอบออกจากชุดข้อมูลฝึก
LLM มีแนวโน้มจะรายงานอะไรบางอย่างออกมา จึงมักพูดเกินจริง
- มีแนวโน้มจะตอบคำถามว่า "ใช่"
- การแข่งขันของ LLM กำลังค่อย ๆ ดันคะแนนเบนช์มาร์กให้สูงขึ้น แต่การปรับปรุงเหล่านี้เป็นภาพลวงตา
- LLM มีแนวโน้มจะเห็นด้วย ซึ่งยังไม่ได้รับการแก้ไข
- การประเมินโมเดลในสถานการณ์แบบเอเจนต์เป็นเรื่องสำคัญ
การอ่านปฏิกิริยาต่อโพสต์นี้น่าสนใจ เพราะแสดงให้เห็นว่าปฏิกิริยาร่วมกันของพวกเรามีความหลากหลายมากและตั้งอยู่บนเกร็ดประสบการณ์ส่วนตัว
- บางคนจะถูก บางคนจะผิด และก็น่าสงสัยว่าลักษณะแบบไหนที่บ่งชี้ถึงความสามารถในการเลือกสิ่งที่ "ดีกว่า" เกี่ยวกับ AI
ประสบการณ์ส่วนตัวสอดคล้องกับความเห็นของผู้เขียน
- LLM ถูกฝึกให้ "ฟังดูฉลาด" ในการสนทนากับผู้ใช้ จึงมักเน้นย้ำประเด็นต่าง ๆ
- นี่สอดคล้องกับจุดประสงค์ของภาษาในสถานการณ์ส่วนใหญ่ และ LLM ก็ถูกฝึกด้วยภาษา
การที่ผลลัพธ์เบนช์มาร์กดีขึ้น แต่การทำงานจริงแทบไม่ดีขึ้น สะท้อนธรรมชาติของ LLM
- LLM เป็นระบบพยากรณ์ และเมื่อฝึกในโดเมนเฉพาะ ประสิทธิภาพในโดเมนนั้นก็จะดีขึ้น
- การฝึกคณิตศาสตร์ขั้นสูงไม่ได้ทำให้คาดหวังได้ว่าความสามารถด้านการเขียนโปรแกรมจะดีขึ้น
ช่วงสุดสัปดาห์ได้ใช้ gemini 2.5 และมันยอดเยี่ยมมาก
- ทั้งนี้ก็ขึ้นอยู่กับว่าจะใช้ทำอะไร และยังไม่แน่ชัดว่า LLM จะพาเราไปทางไหน
ต่อให้การพัฒนา LLM จะหยุดลงตอนนี้ เราก็คงยังค้นพบการใช้งานใหม่ ๆ ไปอีก 10 ปีข้างหน้า
- เทคโนโลยีพัฒนาเร็วเกินไปจนรู้สึกน่ากลัวกับผลลัพธ์ที่จะตามมา
- หวังว่าจะถึงจุดที่ผลตอบแทนลดลง แต่ก็ไม่ได้เชื่อว่าจะเป็นแบบนั้น
ในฐานะคนที่ใช้ LLM และปลั๊กอินช่วยเขียนโค้ด รู้สึกว่า GPT/Claude แย่ลงในช่วง 12 เดือนที่ผ่านมา
- คิดว่าโมเดลตอนนี้ "ดีพอแล้ว" และจากนี้ควรเห็นการปรับปรุงที่เครื่องมือและแอปพลิเคชันมากกว่า
- คิดว่า MCP เป็นก้าวที่ดีในทิศทางที่ถูกต้อง แต่โดยรวมแล้วยังมองอย่างสงสัยอยู่