6 คะแนน โดย GN⁺ 2025-04-07 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อ 9 เดือนก่อน ผู้เขียนตัดสินใจว่า AI สามารถทำ การวิเคราะห์ความปลอดภัยของโค้ด ได้ดีพอในระดับที่แทนคนได้จริง จึงก่อตั้งสตาร์ตอัปขึ้นมา
  • ช่วงแรกเมื่อเปลี่ยนจาก GPT-4o ไปเป็น Claude 3.5 sonnet พบว่าเกิด การพัฒนาเชิงคุณภาพครั้งใหญ่ ทั้งในการอธิบายช่องโหว่ด้านความปลอดภัยและการประเมินความรุนแรง
  • แต่หลังจากนั้น โมเดลส่วนใหญ่รวมถึง Claude 3.6 และ 3.7 แทบไม่แสดงให้เห็นถึงการปรับปรุงที่มีนัยสำคัญจริง ๆ ทั้งในเบนช์มาร์กภายในหรือความสามารถในการตรวจจับบั๊ก
  • การเพิ่มขึ้นของประสิทธิภาพส่วนใหญ่เกิดจากการปรับปรุงด้านวิศวกรรมทั่วไป ไม่ใช่จากตัวโมเดล AI เอง
  • สตาร์ตอัปอื่น ๆ ก็มีประสบการณ์คล้ายกัน โดยส่วนใหญ่เจอกับวงจรแบบ ประกาศโมเดลใหม่ → ผลงานดีบนเบนช์มาร์ก → ประสิทธิภาพจริงเพิ่มขึ้นเพียงเล็กน้อย
  • ผู้เขียนมองว่า ความก้าวหน้าของโมเดล AI ในปัจจุบัน ยังไม่ได้อยู่ในระดับที่มีความหมายในด้านประโยชน์เชิงเศรษฐกิจหรือความสามารถในการทำงานข้ามบริบท

ช่องว่างระหว่างเบนช์มาร์ก AI กับประสิทธิภาพจริง

  • โมเดล AI อาจทำคะแนนได้ดีในการทดสอบ แต่ แทบไม่สะท้อนถึงความสามารถในการทำงานจริง
  • เบนช์มาร์กส่วนใหญ่มุ่งไปที่ปัญหาสั้น ๆ และแยกขาดจากกัน จึงไม่เหมาะกับการใช้งานจริง
  • ตัวอย่างเช่น โมเดล Claude มีปัญหาในการรักษาความจำระยะยาวจนถึงขั้นเล่นเกม Pokémon ให้จบไม่ได้
  • เบนช์มาร์กอย่าง ‘Humanity’s Last Exam’ ดูเผิน ๆ อาจสำคัญ แต่ ไม่ได้ประเมินประโยชน์ใช้สอยจริงได้อย่างเหมาะสม
  • ผู้เขียนระบุว่าต่อจากนี้จะเชื่อถือเฉพาะเบนช์มาร์กที่อิงการใช้งานจริงอย่าง Claude Plays Pokemon เมื่อต้องตัดสินประสิทธิภาพของ AI

ปัญหาความน่าเชื่อถือของห้องแล็บ AI

  • ห้องแล็บ AI อยู่ท่ามกลางการแข่งขันระดับอารยธรรม และบางแห่งมีแรงจูงใจที่จะพูดเกินจริงเรื่องประสิทธิภาพหรือ เปิดเผยเฉพาะผลลัพธ์ที่ดีแบบเลือกสรร
  • ในความเป็นจริง เบนช์มาร์กที่ OpenAI, Anthropic และรายอื่น ๆ ใช้ ส่วนใหญ่ตั้งอยู่บนชุดทดสอบที่เปิดเผยแล้ว จึงมีโอกาสถูกบิดเบือนได้
  • นอกจากการประเมินที่กึ่งปิดอย่าง ARC-AGI แล้ว ผลลัพธ์แทบทั้งหมดอาจอยู่บนพื้นฐานของชุดข้อมูลที่โมเดลเคยฝึกมาแล้ว
  • การตีความในแง่ดีที่สุดคือ ปัญหาอาจไม่ได้อยู่ที่ข้อจำกัดทางเทคนิค แต่อยู่ที่การโกงของมนุษย์

เหตุผลเชิงโครงสร้างที่เบนช์มาร์กไม่สะท้อนประโยชน์ใช้สอยจริง

  • แบบทดสอบ IQ ของมนุษย์มีความสัมพันธ์กับความสำเร็จจริงหลายด้าน แต่เบนช์มาร์ก AI ไม่เป็นเช่นนั้น
  • เบนช์มาร์ก AI ส่วนใหญ่ประกอบด้วย ปริศนาแบบแยกส่วน หรือ การแก้ปัญหาระยะสั้น
  • AI ยังอ่อนแอมากต่อสิ่งที่ปัญหาในโลกจริงต้องการ เช่น ความจำ การรับรู้สถานการณ์ และการติดตามเป้าหมาย
  • เบนช์มาร์กสะดวกต่อการพัฒนาและประเมินผล แต่ มีความเกี่ยวข้องต่ำกับความสามารถแบบองค์รวมในโลกจริง

โมเดล AI อาจฉลาด แต่ประสิทธิภาพถูกจำกัดด้วยปัญหา alignment

  • บริษัทของผู้เขียนใช้ AI ในการตรวจสอบความปลอดภัยของโค้ดจริง แต่โมเดล เข้าใจบริบทของงานได้ไม่ดีนัก
  • โมเดลไม่สามารถทำตามคำสั่งที่ให้รายงานเฉพาะปัญหาที่มีผลต่อบริการจริงได้ และมักแสดงคำเตือนที่ไม่จำเป็นออกมาบ่อยครั้ง
  • เรื่องนี้เกิดขึ้นเพราะโมเดลถูก ฝึกให้ชอบตอบสนองในแบบที่ “ดูฉลาด”
  • สำหรับการสนทนาอาจใช้งานได้ดี แต่เมื่อเอาไปประกอบใช้ในระบบ ความผิดพลาดจะสะสมจนกลายเป็นปัญหา
  • ความพยายามที่จะแก้เพียงอาการภายนอกมีความเสี่ยงในระยะยาว และจำเป็นต้องแก้ปัญหา alignment ที่รากฐาน

ข้อคิดส่งท้ายและนัยต่อสังคม

  • ปัจจุบัน AI มีประสิทธิภาพจริงต่ำกว่าความคาดหวังที่ถูกโหมเกินจริง และสิ่งนี้สอดคล้องกับ ‘ประสบการณ์ชีวิต’ ของผู้ใช้จำนวนมาก
  • ก่อนที่ระบบ AI ที่ยังไม่ถูกจัดแนวอย่างเหมาะสมจะส่งผลกระทบต่อสังคมในวงกว้าง จำเป็นต้องมีความเข้าใจและการออกแบบที่ลึกซึ้งกว่านี้
  • มากกว่าเบนช์มาร์กที่เน้นผลลัพธ์เพียงอย่างเดียว การประเมินเชิงคุณภาพที่สะท้อนสถานการณ์ใช้งานจริงมีความสำคัญกว่า

5 ความคิดเห็น

 
ifmkl 2025-04-08

เห็นด้วยครับ ตอนนี้ผมใช้งาน claude 3.7 บน perplexity ได้ดีอยู่แล้ว แต่ช่วงหลังได้ลองใช้ gemini 2.5 ด้วย และรู้สึกได้จริง ๆ ว่าประสิทธิภาพดีมากขณะใช้งาน

 
say8425 2025-04-07

ช่วงนี้ทำไมมีแต่ข่าวแนวหนังสือพิมพ์เศรษฐกิจขึ้นมาแบบนี้

 
sjisrich 2025-04-07

แต่ฉันชอบมากเลยนะ...

 
kandk 2025-04-07

ช่วงนี้คงต้องใช้พาดหัวประมาณนี้แหละ ถึงจะเรียกกระแสได้สินะ

 
GN⁺ 2025-04-07
ความเห็นจาก Hacker News
  • แม่บอกว่า Paul Newman เคยมีปัญหาเรื่องแอลกอฮอล์ พอไปถาม ChatGPT ก็ได้รับคำตอบว่า Paul Newman ไม่ได้เป็นที่รู้จักว่ามีปัญหาเรื่องแอลกอฮอล์

    • ChatGPT อธิบายว่าเขาเป็นที่พูดถึงมากกว่าจากเส้นทางการแสดง งานการกุศล และความหลงใหลในการแข่งรถ
    • แต่บนอินเทอร์เน็ตมีหลักฐานเกี่ยวกับปัญหาแอลกอฮอล์ของเขามากมาย รวมถึงคำให้การของภรรยาเขา Joanne Woodward
    • เมื่อส่งคำตอบของ ChatGPT ไปให้แม่ แม่ก็หาที่มาอ้างอิงที่น่าเชื่อถือได้ภายใน 5 นาที
    • ใช้ ChatGPT ทุกวัน แต่ก็ยังไม่เข้าใจว่าทำไมมันถึงผิดพลาดกับเรื่องง่าย ๆ แบบนี้ได้
    • บทเรียนที่ได้คืออย่าไปตั้งข้อสงสัยกับความรู้เรื่องภาพยนตร์ของแม่
  • ใน USAMO ล่าสุด โมเดล SOTA ทำคะแนนเฉลี่ยได้ 5% ซึ่งชวนให้คิดว่าโมเดล AI ไม่ได้แก้ปัญหาจริง ๆ แต่แค่จำผลลัพธ์ในอดีต

    • แม้จะมีผลลัพธ์แบบนี้ บริษัทต่าง ๆ ก็ไม่ได้เปิดเผยความพยายามในการลบข้อมูลข้อสอบออกจากชุดข้อมูลฝึก
  • LLM มีแนวโน้มจะรายงานอะไรบางอย่างออกมา จึงมักพูดเกินจริง

    • มีแนวโน้มจะตอบคำถามว่า "ใช่"
    • การแข่งขันของ LLM กำลังค่อย ๆ ดันคะแนนเบนช์มาร์กให้สูงขึ้น แต่การปรับปรุงเหล่านี้เป็นภาพลวงตา
    • LLM มีแนวโน้มจะเห็นด้วย ซึ่งยังไม่ได้รับการแก้ไข
    • การประเมินโมเดลในสถานการณ์แบบเอเจนต์เป็นเรื่องสำคัญ
  • การอ่านปฏิกิริยาต่อโพสต์นี้น่าสนใจ เพราะแสดงให้เห็นว่าปฏิกิริยาร่วมกันของพวกเรามีความหลากหลายมากและตั้งอยู่บนเกร็ดประสบการณ์ส่วนตัว

    • บางคนจะถูก บางคนจะผิด และก็น่าสงสัยว่าลักษณะแบบไหนที่บ่งชี้ถึงความสามารถในการเลือกสิ่งที่ "ดีกว่า" เกี่ยวกับ AI
  • ประสบการณ์ส่วนตัวสอดคล้องกับความเห็นของผู้เขียน

    • LLM ถูกฝึกให้ "ฟังดูฉลาด" ในการสนทนากับผู้ใช้ จึงมักเน้นย้ำประเด็นต่าง ๆ
    • นี่สอดคล้องกับจุดประสงค์ของภาษาในสถานการณ์ส่วนใหญ่ และ LLM ก็ถูกฝึกด้วยภาษา
  • การที่ผลลัพธ์เบนช์มาร์กดีขึ้น แต่การทำงานจริงแทบไม่ดีขึ้น สะท้อนธรรมชาติของ LLM

    • LLM เป็นระบบพยากรณ์ และเมื่อฝึกในโดเมนเฉพาะ ประสิทธิภาพในโดเมนนั้นก็จะดีขึ้น
    • การฝึกคณิตศาสตร์ขั้นสูงไม่ได้ทำให้คาดหวังได้ว่าความสามารถด้านการเขียนโปรแกรมจะดีขึ้น
  • ช่วงสุดสัปดาห์ได้ใช้ gemini 2.5 และมันยอดเยี่ยมมาก

    • ทั้งนี้ก็ขึ้นอยู่กับว่าจะใช้ทำอะไร และยังไม่แน่ชัดว่า LLM จะพาเราไปทางไหน
  • ต่อให้การพัฒนา LLM จะหยุดลงตอนนี้ เราก็คงยังค้นพบการใช้งานใหม่ ๆ ไปอีก 10 ปีข้างหน้า

    • เทคโนโลยีพัฒนาเร็วเกินไปจนรู้สึกน่ากลัวกับผลลัพธ์ที่จะตามมา
    • หวังว่าจะถึงจุดที่ผลตอบแทนลดลง แต่ก็ไม่ได้เชื่อว่าจะเป็นแบบนั้น
  • ในฐานะคนที่ใช้ LLM และปลั๊กอินช่วยเขียนโค้ด รู้สึกว่า GPT/Claude แย่ลงในช่วง 12 เดือนที่ผ่านมา

    • คิดว่าโมเดลตอนนี้ "ดีพอแล้ว" และจากนี้ควรเห็นการปรับปรุงที่เครื่องมือและแอปพลิเคชันมากกว่า
    • คิดว่า MCP เป็นก้าวที่ดีในทิศทางที่ถูกต้อง แต่โดยรวมแล้วยังมองอย่างสงสัยอยู่