GPT-5: ล่าช้า เกินความคาดหวัง และไม่เป็นไปตามหวัง — และยังมีปัญหาที่ร้ายแรงกว่านั้น
(garymarcus.substack.com)- แม้จะมี GPT-5 ถูกคาดหวังสูง แต่หลังการเปิดตัวจริงแล้ว ความผิดหวังของชุมชน เพิ่มขึ้นอย่างมาก
- GPT-5 ไม่มีความแตกต่างเชิงปฏิบัติที่ชัดเจนจากโมเดลเดิม และในบาง benchmark ยังพบ การลดลงของประสิทธิภาพ
- งานวิจัยล่าสุดยังยืนยันว่า LLM ยังเผชิญ ข้อจำกัดในการทั่วไป (generalization) และ ปัญหา distribution shift อย่างรุนแรง
- การสูญเสีย ความเป็นผู้นำทางเทคโนโลยี ของ OpenAI การออกรกของบุคลากรสำคัญ และการไล่ตามจากคู่แข่ง ทำให้การรักษามูลค่าบริษัทดูไม่ชัดเจน
- ความเชื่อมั่นต่อการอ้างว่าบรรลุ AGI ตกต่ำลง และในวงการโดยรวมเกิดการรับรู้มากขึ้นถึงข้อจำกัดของแนวทาง “การขยายขนาดล้วนๆ”
การเปิดตัว GPT-5 และกระแสความคาดหวัง
- สุดท้ายแล้ว การเปิดตัว GPT-5 ซึ่ง OpenAI ริเริ่มประกาศมานานก็เกิดขึ้นในที่สุด
- ซีอีโอ Sam Altman ใช้การพูดที่เต็มไปด้วยความมั่นใจและภาพลักษณ์การตลาดอย่างแข็งขันก่อนและหลังการเปิดตัว
- อย่างไรก็ตามหลังการเปิดตัว GPT-5 ยกเว้น influencer บางรายแล้ว ความผิดหวัง ครองใจในชุมชนส่วนใหญ่
- ผู้ใช้จำนวนมาก ผิดหวังมาก กับโมเดลใหม่ และเกิดปรากฏการณ์ที่มีการรณรงค์ขอให้อาศัยเวอร์ชันเก่ากลับมา
- แตกต่างจากการตลาดและคำกล่าวของ Altman รีวิวหลังใช้งานจริงกลับชี้ไปทาง การประเมินเชิงลบชัดเจน
ปฏิกิริยาของชุมชนและสื่อ
- ในชุมชนต่างๆ เช่น OpenAI Reddit, Hacker News เป็นต้น ผู้ใช้ยกประเด็นปัญหาของ GPT-5 อย่างเข้มข้น เช่น ข้อผิดพลาด, hallucination (การสมมติข้อมูล)
- ใน benchmark ประสิทธิภาพสำคัญบางตัว GPT-5 ยังอ่อนกว่าคู่แข่งอย่าง Grok 4
- ฟีเจอร์ใหม่อย่างการ routing อัตโนมัติก็เปิดเผย ความสับสนและความไม่สมบูรณ์ อย่างชัดเจน
- ในสถานการณ์ที่ความคาดหวังของชุมชนพุ่งสูงขึ้น GPT-5 กลับสร้างความผิดหวังอย่างมาก
- ในการสำรวจ Polymarket วันเปิดตัว ความเชื่อมั่นต่อ ความเป็นผู้นำด้าน AI ของ OpenAI ลดลงจาก 75% เป็น 14% ภายในเวลา 1 ชั่วโมง
ข้อจำกัดเชิงโครงสร้าง: ปัญหาหมากรุก การเข้าใจภาพ และการอนุมาน
- ปัญหา ข้อผิดพลาดในการอนุมานพื้นฐานและการไม่ปฏิบัติตามกฎหมากรุก ที่ผู้เขียนและผู้เชี่ยวชาญหลายคนชี้ชัด ยังคงยังคงอยู่
- ในด้านการสร้างภาพและงานอื่นๆ ขีดจำกัดที่เห็นชัดคือความสัมพันธ์ ระหว่างส่วน-รวม และความสอดคล้องทางภาพ
- GPT-5 ยังทำผิดพลาดในระดับปัญหาที่คาดว่าแม้แต่ผู้เชี่ยวชาญด้านวิศวกรรมเครื่องกลและคนทั่วไปก็ไม่ควรทำผิดได้
- ในงานพื้นฐานอย่างการสรุปและการอ่านจับใจความก็มีรายงานข้อผิดพลาดจำนวนมาก
- GPT-5 แม้จะเป็นโมเดลที่มีการพัฒนาค่อยเป็นค่อยไปที่ดี แต่เมื่อเทียบกับปีที่แล้วก็แทบไม่เห็นการเปลี่ยนแปลงที่เด่นชัด
สถานการณ์และแนวโน้มปัจจุบันของ OpenAI
- GPT-5 ยังคงเป็นระดับการปรับปรุงแบบค่อยเป็นค่อยไปเมื่อเทียบกับรุ่นก่อน และข้อด้อยที่รุนแรงถูกซ้ำรอยอยู่
- ความเชื่อมั่นใน ความเป็นผู้นำทางเทคโนโลยี ของ OpenAI กำลังลดลงทั้งในตลาดและอุตสาหกรรม
- บุคลากรหลักจำนวนมากออกจากองค์กรไปก่อตั้งคู่แข่งหรือย้ายไปที่อื่น และมีการไล่ตามโดยเร็วจาก Anthropic, Google, Elon Musk
- ความกดดันด้านการลดราคา ปัญหาความเป็นไปได้ทางรายได้ และความเสื่อมโทรมของความสัมพันธ์กับ Microsoft ทำให้ความเสี่ยงเชิงโครงสร้างรุนแรงขึ้น
- การตั้งคำถามต่อความเป็นไปได้ของ AGI ที่อิง LLM และความเชื่อมั่นต่อ CEO Sam Altman ยังถดถอยลงต่อเนื่อง
ข้อจำกัดพื้นฐานของ LLM: generalization และ distribution shift
- งานวิจัยล่าสุดจาก Arizona State University พบว่าการอนุมานแบบ Chain of Thought ก็ล้มเหลวเมื่อออกนอก distribution ที่ใช้ฝึกแล้ว
- โครงสร้างที่เปราะบางต่อ distribution shift ซึ่งถูกชี้โดย Apple และผู้เล่นอื่นๆ มาก่อน ถูกพบเหมือนกันในโมเดลล่าสุด
- สิ่งนี้ชี้ให้เห็นว่ามันคือสาเหตุรากฐานที่ LLM ต้องเผชิญข้อจำกัดเชิงคุณภาพซ้ำๆ และไม่อาจแก้ได้ด้วยการเพิ่มพารามิเตอร์จำนวนมหาศาล
- กลยุทธ์การขยายขนาดที่ใช้จ่ายถึงระดับพันล้านดอลลาร์ยังพิสูจน์ได้ว่าแก้ปัญหาพื้นฐานไม่สำเร็จ
- ความตระหนักว่าจำเป็นต้องหา แนวทางใหม่ กำลังขยายตัว
ขอบเขตของ AI โดยรวมและข้อจำกัดของ ‘การขยายขนาด’
- การตลาดที่เกินจริงเกี่ยวกับ AGI การขับขี่อัตโนมัติ และ timeline ที่ฟุ้งเฟ้อแพร่หลาย
- benchmark ที่บิดเบือนผลลัพธ์ การประเมินแบบ black-box และความขาดความโปร่งใสยังคงรุนแรง
- หลายคนเริ่มตระหนักว่า คำว่า AGI ถูกใช้เป็นเครื่องมือล่อใจนักลงทุนและสาธารณะ
- คาดหวังเชิงบวกต่อ AI และการปลุกกระแสแบบเกินจริงเพิ่มขึ้นไปพร้อมกัน
- ความเป็นจริงคือแนวทาง การขยายขนาดล้วนๆ ได้ชนกำแพงตันแล้ว
ทางเลือกและข้อสรุป
- แม้ GPT-5 อาจถูกลง แต่ข้อจำกัดเชิงคุณภาพด้านหมากรุก การอนุมาน ภาพ และคณิตศาสตร์ยังคงอยู่
- โมเดลคู่แข่งเช่น Grok, Claude, Gemini ก็ยังคงทำผิดปัญหาเดียวกันแบบซ้ำๆ
- distribution shift ยังคงเป็นปัญหาที่แก้ไม่ได้จนถึงตอนนี้
- เริ่มมีการยืนยันว่าต้องการแนวทางใหม่ เช่น neurosymbolic AI และวิธีที่อิง world model
- ยืนยันอีกครั้งว่าการขยายขนาดล้วนๆ ไม่พอ ต้องอาศัย นวัตกรรมอัลกอริทึมแบบผสมผสาน เพื่อให้ AGI เกิดขึ้นจริง
ประเด็นต่อเนื่องและ PS
- ข้อค้นพบเกี่ยวกับข้อจำกัดของ LLM ในสัปดาห์นี้ยังชี้ว่ายังมีประเด็นทางวิทยาศาสตร์ร้ายแรงอีกประการที่อาจถูกเปิดเผย
- ได้รับการแจ้งไว้ว่าจะมีการแชร์เนื้อหาแยกต่างหากในโพสต์ถัดไป
สรุป
- ก่อนและหลังการเปิดตัว GPT-5 ได้มีการพูดคุยอย่างกว้างขวางเกี่ยวกับความคาดหวังและปฏิกิริยาของอุตสาหกรรมและชุมชน ขีดจำกัดเชิงโครงสร้างของ LLM อนาคตของ OpenAI และความเป็นจริงของกรอบ AGI
- โดยรวมเนื้อหานี้ให้สัญญาณสำคัญต่อผู้ปฏิบัติงานสตาร์ทอัปและ IT เกี่ยวกับข้อจำกัดที่จับต้องได้ของ LLM และ GPT-5, การลงทุน/ความคาดหวัง/ความผิดหวังของ AI, ประเด็นนวัตกรรม, และแนวโน้มการวิจัย
5 ความคิดเห็น
มันดูเป็นความมองโลกในแง่ร้ายมากเกินไป เข้าใจประเด็นที่กังวลได้ แต่การพัฒนาเทคโนโลยีก็ไม่จำเป็นต้องเพิ่มขึ้นอย่างต่อเนื่องเสมอไป
เพราะผู้เขียนโพสต์คือ Gary Marcus ที่ขึ้นชื่อว่ามักพูดแต่เรื่องไร้สาระอยู่เสมอ...
ถ้าทำแบบ Google ที่เงียบๆ แค่ทำ show&prove เงียบๆ ก็น่าจะไม่เลวร้ายขนาดนี้นะ ช่วงนี้มีคนเถียงกันไปหมดว่าเขาน่ากลัวเกินไป ว่ามันเหมือน ‘ดาวแห่งความตาย’ ว่าดูเหมือนทำระเบิดนิวเคลียร์ไปแล้ว นึกว่าเป็นผลจากการเอาเรื่องพวกนี้ไปยกย่องฮไพป์จนเกินไปจนได้เอง
นอกจากนี้การแสดงผล bench ในงานเปิดตัวก็มีความผิดพลาดที่น่าอายมาก ซึ่งก็ดูเหมือนว่าจะมีส่วนทำให้ความประทับใจโดยรวมดูไม่ดีลงไปอีก
ความคิดเห็นจาก Hacker News
ฉันยังเชื่อว่า GPT-5 คือกลยุทธ์การลดต้นทุนแบบใช้งานได้จริง เพราะ OpenAI เป็นบริษัทที่เน้นการเติบโตและต้องการครองฐานผู้ใช้ในผลิตภัณฑ์ที่ต้องใช้ GPU ถึงระดับหนึ่งพันล้านราย
ไม่มีใครพูดถึง GPT-5 Pro เลย แต่ฉันได้ลองเอง และพบว่ามันเหนือกว่า Grok 4 Heavy กับ Opus 4.1 อย่างชัดเจน
เป็นเทคโนโลยีล่าสุดจริง ๆ และถ้ารันโมเดลที่ประสิทธิภาพสูงสุด คนละผู้ใช้ต่อเดือนอาจถึงหลายพันดอลลาร์
เพราะฉะนั้นจึงมีการให้บริการแบบจำกัดเท่านั้น OpenAI ไม่ได้มุ่งตลาดประเภทนี้ แต่ยึดกลยุทธ์การเติบโตเพื่อสู้กับ Google
การไม่กล่าวถึงโมเดล Pro เลยทำให้ฉันไม่เชื่อความเห็นนี้เลย
ในความเห็นของฉัน การรับรู้ว่า GPT-5 Pro ดีกว่า o3-pro อย่างมีนัยสำคัญมากไม่ชัดเจน (หรืออาจไม่ต่างกันด้วยซ้ำ) มันช้ากว่าและคุณภาพผลลัพธ์ใกล้เคียงกัน
ฉันเช็กเครือข่ายของตัวเองแล้ว ไม่มีใครใช้ GPT-5 Pro เลย
ฉันเห็นด้วยกับความเห็นนี้ แต่ก็คิดว่ามีเจตนาดันโมเดลที่ดีกว่าออกสู่ตลาดกว้างขึ้น
ฉันเข้าใจว่า Pro model ใช้ผ่าน API ไม่ได้ ใช่ไหม?
เห็นด้วย
ฉันมักรู้สึกว่าบทความแบบนี้น่ารำคาญเป็นพิเศษ
แทนที่จะวิเคราะห์ด้วยตนเองว่า GPT-5 แย่ตรงไหนและเขียนสาเหตุอย่างตรงไปตรงมา มีแต่ไปขูดรีแอ็กชันจากโซเชียลมีเดียมา และขยายคำวิจารณ์ให้กลายเป็นเรื่อง 'สะเทือนใจ' หรือ 'โจมตีแบบหมิ่นประมาท' เพื่อโน้มน้าวความเห็นตัวเอง
มันเอนเอียงมากเกินไป ไม่ใช่จริยธรรมนักข่าว และก็ไม่ใช่การวิเคราะห์ต้นฉบับ
ดูเหมือนว่าข่าว AI โดยพื้นฐานขาดความอยากรู้อยากเห็น และโน้มเอียงไปเน้นการล้อเลียนหรือการดูถูกมากกว่า
Gary Marcus มีแนวโน้มวิเคราะห์ตื้นอยู่เสมอ
Gary Marcus มักอ้างเสมอว่า AI ไม่ได้ทำงานจริง และข้อที่เขา 'ถูก' นั้นแทบเป็นระดับโอกาสบังเอิญ
เป็นบล็อกโพสต์ที่พูดถึงว่า GPT-5 โอเวอร์โปรโมตหรือไม่ และได้รับการตอบรับแบบไหน
ฉันคิดว่าปัญหาจริงคือหาความเห็นที่แท้จริงยิ่งยากขึ้นเรื่อย ๆ
ในประสบการณ์ของฉัน "อัปเกรด" รอบนี้คือการลดระดับขนาดใหญ่สำหรับผู้ใช้ Plus
GPT-5 มีคุณภาพคำตอบแย่กว่า O3, ความพยายามในการคิดน้อยลง และไม่ได้ใช้เว็บค้นหาเหมือน O3
แม้เลือกตัวเลือก 'thinking' แล้วสั่งชัดเจนมาก ก็ยังไม่แก้ปัญหา
ตอนนี้ต้องใช้ Gemini ถึงจะได้เอาต์พุตคุณภาพใกล้เคียง
อีกทั้ง Custom GPTs (ข้อมูลที่เกี่ยวข้อง) ก็มีปัญหาเช่นกัน GPT ตราย่อยตรวจไวยากรณ์ที่ฉันปรับเองก็เพิกเฉยคำสั่งไม่ว่าจะเป็นโมเดลไหน
ตัวเลือก Deep research ก็แปลก เลือกแล้วก็ยังตอบเหมือนเดิม สั่งเพิ่มก็แทบไม่เปลี่ยน
Projects ก็เหมือนพังเช่นกัน
เหมือนจะตีตลาดไปที่ฟรีแพลน หรือใส่โฆษณาตั้งแต่ต้นปีหน้า หรือบังคับให้ย้ายไปแพ็กเกจ 200 ดอลลาร์
การ hallucinate (ข้อมูลหลอก) รุนแรงมาก
ชุมชน AI ต้องการผู้เชี่ยวชาญอิสระแบบ Gary Marcus เพิ่มขึ้น
เราควรรักษาความจริงใจและความโปร่งใสโดยไม่ให้การโอเวอร์ฮิปของอุตสาหกรรมหรือการเปลี่ยนเกณฑ์ภายใน (เช่น 'เราถึง AGI แล้ว' ฯลฯ) ดึงความคิดเราไปได้
ไม่ว่าชอบแนวเขาหรือไม่ Gary เคยชี้จุดอ่อนสำคัญของ AI ได้ตรงพอดี เช่น ขีดจำกัดของ scaling law และการให้เหตุผลที่แท้จริงไม่ถึงขั้นของ LLM รวมถึงการทั่วไปนอกการกระจายข้อมูล
วงการมักเริ่มด้วยการปฏิเสธก่อน แล้วเมื่อเวลาผ่านไป ถ้ามีสิ่งใหม่ (Prompt Chain, LLM อิง RL ฯลฯ) ก็ขายเป็นการค้นพบตัวเองเสมอ
กระแสที่เกินจริงต้องมีเสียงวิจารณ์เสมอ
ฉันคัดค้านอย่างแรง
ไม่ควรโยงข้อจำกัดหรือความเข้าใจผิดของ AI ส่วนใหญ่ไปที่ Marcus
สิ่งที่ GPT ต้องการการพัฒนาที่สำคัญที่สุดตอนนี้คือการ 'ยอมรับว่าถ้ารู้ไม่พอ'
วันนี้ฉันพยายามหาวิธีสร้าง NPC อัตโนมัติด้วย redscript ในโมดของ Cyberpunk 2077 และต้องค้นหาค่อนข้างยากมาก
ChatGPT 5 บอกว่ากำลัง 'รีเสิร์ช' แต่กลับคิด API ขึ้นมาเอง และแม้จะชี้หลายครั้งว่าข้อมูลไม่จริง มันก็ยังคง hallucinate ต่อไป
เสียเวลาไป 30 นาที ถ้ามันบอกตรง ๆ ว่าไม่รู้คงรู้ได้ภายใน 1 นาที
ต้องไม่เสแสร้งคิดว่ามันรู้ทุกอย่าง
เห็นด้วยมาก!
มันไม่สามารถ 'รู้อะไร' จริง ๆ ได้
เห็นด้วยเต็มที่ว่าจำเป็นมากที่ตัวโมเดลต้อง 'บอกว่าถ้าไม่รู้'
งานพัฒนานี้กำลังเกิดขึ้นจริง และมีในเอกสารทางการของ OpenAI
ความหมกมุ่นของเขาที่อยากให้เรื่องต่างๆ 'ถูกต้องเสมอ' ทำให้ความจริงที่แท้จริงไม่ชัด
การพูดถึงระบบ hybrid symbolic/transformer น่าสนใจมาก
ในโพสต์ที่ลิงก์มานี้มีตัวอย่างว่าเมื่อมอบการคำนวณทางคณิตศาสตร์ให้ Python ทำ ทำให้ Grok 4 ทำงานด้านคณิตศาสตร์ได้ดีขึ้น
ฉันอยากเห็นระบบที่ให้ symbolic เป็นหลัก หมายถึงคณิตศาสตร์แบบ 'hard' ทำแบบ symbolic และเฉพาะพื้นที่ที่ต้องการ reasoning เท่านั้นใช้ monad
ระบบนิวโร-ซิมโบลิกของ Aloe ทำคะแนน OpenAI deep research GAIA benchmark สูงกว่า 20 คะแนน
GPT-5 มีปัญหาเฉพาะตัวที่ไม่เคยเกิดใน GPT-4
ใน thread การสนทนา บางครั้งบริบทหายไปกะทันหัน หรือไม่เข้าใจคำตอบถัดไปอย่างถูกต้อง
รู้สึกเหมือนมี process เก็บ context แทรกเข้ามา และข้ามการสรุปใจความที่คุยมาจนถึงตรงนั้น
ถ้าเป็นจริง แปลว่า context ที่ใช้ได้จริงอาจเล็กลงมาก และปัญหานี้เกิดบ่อย
ขอให้มัน 'ทบทวนเนื้อหาสนทนาล่าสุด' แล้วจะดีขึ้นนิดหน่อย
ในกรณีฉัน คำตอบกลับสั้นลงมาก
'ผู้คนถูกหล่อหลอมให้คาดหวังปาฏิหาริย์ แต่ GPT-5 เป็นเพียงความก้าวหน้ารูปแบบ incremental'
ตอนนี้ข้อมูลฝึกที่เหลือไม่มากอีกแล้ว
การพัฒนา AI ทั้งหมดจากจุดนี้ไปขึ้นอยู่กับการปรับสถาปัตยกรรม
โมเดลล่าสุดทั้งหมดมีจุดสูงสุดเฉพาะที่สำหรับข้อมูลใหม่
งานวิจัยก่อนหน้าแสดงว่า การผสมผสานข้อมูลจริงที่ใส่ด้วยจุดประสงค์กับข้อมูลสังเคราะห์เป็นหลักใน training ของ frontier LLM ให้ผลดี
ฉันเคยพูดประเด็นนี้มาก่อนเมื่อสองปีก่อนที่นี่
จริง ๆ แล้วหมายความว่า GPT-5 ได้เรียนรู้ข้อมูลวิดีโอทั่วโลกทั้งหมดแล้วหรือยัง?
ข้อมูลฝึกใหม่ไม่ได้ถูกสร้างขึ้นทุกวันหรือ?
แม้ OpenAI จะทำโมเดลดีที่สุด แต่ชื่อ GPT-5 เองก็ถูกหุ้มด้วย hype ตั้งแต่ชุมชนและ OpenAI จนดูเหมือนว่าความล้มเหลวถูกวางไว้แล้ว
แทนที่จะหลีกเลี่ยง meme และโฆษณาเกินจริง เลือกแนวทาง incremental มากขึ้น คงจะเหมาะกว่า แต่ก็ทำให้นักลงทุน/การเล่าเรื่อง/การคงระบบนิเวศ AI ลำบาก
เราอาจถึงจุดสูงสุดแล้ว
Sam Altman เองก็มีส่วนช่วยสร้างและย้ำความคาดหวังเหล่านั้นอยู่เหมือนกัน
จะมีอะไรเกิดขึ้นเมื่อ AGI มาถึง แล้วคนจะสร้างเหตุผลแบบ 'ไม่ถึงเป้า' ขึ้นมาได้อย่างไร