6 คะแนน โดย GN⁺ 2025-08-11 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • แม้จะมี GPT-5 ถูกคาดหวังสูง แต่หลังการเปิดตัวจริงแล้ว ความผิดหวังของชุมชน เพิ่มขึ้นอย่างมาก
  • GPT-5 ไม่มีความแตกต่างเชิงปฏิบัติที่ชัดเจนจากโมเดลเดิม และในบาง benchmark ยังพบ การลดลงของประสิทธิภาพ
  • งานวิจัยล่าสุดยังยืนยันว่า LLM ยังเผชิญ ข้อจำกัดในการทั่วไป (generalization) และ ปัญหา distribution shift อย่างรุนแรง
  • การสูญเสีย ความเป็นผู้นำทางเทคโนโลยี ของ OpenAI การออกรกของบุคลากรสำคัญ และการไล่ตามจากคู่แข่ง ทำให้การรักษามูลค่าบริษัทดูไม่ชัดเจน
  • ความเชื่อมั่นต่อการอ้างว่าบรรลุ AGI ตกต่ำลง และในวงการโดยรวมเกิดการรับรู้มากขึ้นถึงข้อจำกัดของแนวทาง “การขยายขนาดล้วนๆ”

การเปิดตัว GPT-5 และกระแสความคาดหวัง

  • สุดท้ายแล้ว การเปิดตัว GPT-5 ซึ่ง OpenAI ริเริ่มประกาศมานานก็เกิดขึ้นในที่สุด
  • ซีอีโอ Sam Altman ใช้การพูดที่เต็มไปด้วยความมั่นใจและภาพลักษณ์การตลาดอย่างแข็งขันก่อนและหลังการเปิดตัว
  • อย่างไรก็ตามหลังการเปิดตัว GPT-5 ยกเว้น influencer บางรายแล้ว ความผิดหวัง ครองใจในชุมชนส่วนใหญ่
  • ผู้ใช้จำนวนมาก ผิดหวังมาก กับโมเดลใหม่ และเกิดปรากฏการณ์ที่มีการรณรงค์ขอให้อาศัยเวอร์ชันเก่ากลับมา
  • แตกต่างจากการตลาดและคำกล่าวของ Altman รีวิวหลังใช้งานจริงกลับชี้ไปทาง การประเมินเชิงลบชัดเจน

ปฏิกิริยาของชุมชนและสื่อ

  • ในชุมชนต่างๆ เช่น OpenAI Reddit, Hacker News เป็นต้น ผู้ใช้ยกประเด็นปัญหาของ GPT-5 อย่างเข้มข้น เช่น ข้อผิดพลาด, hallucination (การสมมติข้อมูล)
  • ใน benchmark ประสิทธิภาพสำคัญบางตัว GPT-5 ยังอ่อนกว่าคู่แข่งอย่าง Grok 4
  • ฟีเจอร์ใหม่อย่างการ routing อัตโนมัติก็เปิดเผย ความสับสนและความไม่สมบูรณ์ อย่างชัดเจน
  • ในสถานการณ์ที่ความคาดหวังของชุมชนพุ่งสูงขึ้น GPT-5 กลับสร้างความผิดหวังอย่างมาก
  • ในการสำรวจ Polymarket วันเปิดตัว ความเชื่อมั่นต่อ ความเป็นผู้นำด้าน AI ของ OpenAI ลดลงจาก 75% เป็น 14% ภายในเวลา 1 ชั่วโมง

ข้อจำกัดเชิงโครงสร้าง: ปัญหาหมากรุก การเข้าใจภาพ และการอนุมาน

  • ปัญหา ข้อผิดพลาดในการอนุมานพื้นฐานและการไม่ปฏิบัติตามกฎหมากรุก ที่ผู้เขียนและผู้เชี่ยวชาญหลายคนชี้ชัด ยังคงยังคงอยู่
  • ในด้านการสร้างภาพและงานอื่นๆ ขีดจำกัดที่เห็นชัดคือความสัมพันธ์ ระหว่างส่วน-รวม และความสอดคล้องทางภาพ
  • GPT-5 ยังทำผิดพลาดในระดับปัญหาที่คาดว่าแม้แต่ผู้เชี่ยวชาญด้านวิศวกรรมเครื่องกลและคนทั่วไปก็ไม่ควรทำผิดได้
  • ในงานพื้นฐานอย่างการสรุปและการอ่านจับใจความก็มีรายงานข้อผิดพลาดจำนวนมาก
  • GPT-5 แม้จะเป็นโมเดลที่มีการพัฒนาค่อยเป็นค่อยไปที่ดี แต่เมื่อเทียบกับปีที่แล้วก็แทบไม่เห็นการเปลี่ยนแปลงที่เด่นชัด

สถานการณ์และแนวโน้มปัจจุบันของ OpenAI

  • GPT-5 ยังคงเป็นระดับการปรับปรุงแบบค่อยเป็นค่อยไปเมื่อเทียบกับรุ่นก่อน และข้อด้อยที่รุนแรงถูกซ้ำรอยอยู่
  • ความเชื่อมั่นใน ความเป็นผู้นำทางเทคโนโลยี ของ OpenAI กำลังลดลงทั้งในตลาดและอุตสาหกรรม
  • บุคลากรหลักจำนวนมากออกจากองค์กรไปก่อตั้งคู่แข่งหรือย้ายไปที่อื่น และมีการไล่ตามโดยเร็วจาก Anthropic, Google, Elon Musk
  • ความกดดันด้านการลดราคา ปัญหาความเป็นไปได้ทางรายได้ และความเสื่อมโทรมของความสัมพันธ์กับ Microsoft ทำให้ความเสี่ยงเชิงโครงสร้างรุนแรงขึ้น
  • การตั้งคำถามต่อความเป็นไปได้ของ AGI ที่อิง LLM และความเชื่อมั่นต่อ CEO Sam Altman ยังถดถอยลงต่อเนื่อง

ข้อจำกัดพื้นฐานของ LLM: generalization และ distribution shift

  • งานวิจัยล่าสุดจาก Arizona State University พบว่าการอนุมานแบบ Chain of Thought ก็ล้มเหลวเมื่อออกนอก distribution ที่ใช้ฝึกแล้ว
  • โครงสร้างที่เปราะบางต่อ distribution shift ซึ่งถูกชี้โดย Apple และผู้เล่นอื่นๆ มาก่อน ถูกพบเหมือนกันในโมเดลล่าสุด
  • สิ่งนี้ชี้ให้เห็นว่ามันคือสาเหตุรากฐานที่ LLM ต้องเผชิญข้อจำกัดเชิงคุณภาพซ้ำๆ และไม่อาจแก้ได้ด้วยการเพิ่มพารามิเตอร์จำนวนมหาศาล
  • กลยุทธ์การขยายขนาดที่ใช้จ่ายถึงระดับพันล้านดอลลาร์ยังพิสูจน์ได้ว่าแก้ปัญหาพื้นฐานไม่สำเร็จ
  • ความตระหนักว่าจำเป็นต้องหา แนวทางใหม่ กำลังขยายตัว

ขอบเขตของ AI โดยรวมและข้อจำกัดของ ‘การขยายขนาด’

  • การตลาดที่เกินจริงเกี่ยวกับ AGI การขับขี่อัตโนมัติ และ timeline ที่ฟุ้งเฟ้อแพร่หลาย
  • benchmark ที่บิดเบือนผลลัพธ์ การประเมินแบบ black-box และความขาดความโปร่งใสยังคงรุนแรง
  • หลายคนเริ่มตระหนักว่า คำว่า AGI ถูกใช้เป็นเครื่องมือล่อใจนักลงทุนและสาธารณะ
  • คาดหวังเชิงบวกต่อ AI และการปลุกกระแสแบบเกินจริงเพิ่มขึ้นไปพร้อมกัน
  • ความเป็นจริงคือแนวทาง การขยายขนาดล้วนๆ ได้ชนกำแพงตันแล้ว

ทางเลือกและข้อสรุป

  • แม้ GPT-5 อาจถูกลง แต่ข้อจำกัดเชิงคุณภาพด้านหมากรุก การอนุมาน ภาพ และคณิตศาสตร์ยังคงอยู่
  • โมเดลคู่แข่งเช่น Grok, Claude, Gemini ก็ยังคงทำผิดปัญหาเดียวกันแบบซ้ำๆ
  • distribution shift ยังคงเป็นปัญหาที่แก้ไม่ได้จนถึงตอนนี้
  • เริ่มมีการยืนยันว่าต้องการแนวทางใหม่ เช่น neurosymbolic AI และวิธีที่อิง world model
  • ยืนยันอีกครั้งว่าการขยายขนาดล้วนๆ ไม่พอ ต้องอาศัย นวัตกรรมอัลกอริทึมแบบผสมผสาน เพื่อให้ AGI เกิดขึ้นจริง

ประเด็นต่อเนื่องและ PS

  • ข้อค้นพบเกี่ยวกับข้อจำกัดของ LLM ในสัปดาห์นี้ยังชี้ว่ายังมีประเด็นทางวิทยาศาสตร์ร้ายแรงอีกประการที่อาจถูกเปิดเผย
  • ได้รับการแจ้งไว้ว่าจะมีการแชร์เนื้อหาแยกต่างหากในโพสต์ถัดไป

สรุป

  • ก่อนและหลังการเปิดตัว GPT-5 ได้มีการพูดคุยอย่างกว้างขวางเกี่ยวกับความคาดหวังและปฏิกิริยาของอุตสาหกรรมและชุมชน ขีดจำกัดเชิงโครงสร้างของ LLM อนาคตของ OpenAI และความเป็นจริงของกรอบ AGI
  • โดยรวมเนื้อหานี้ให้สัญญาณสำคัญต่อผู้ปฏิบัติงานสตาร์ทอัปและ IT เกี่ยวกับข้อจำกัดที่จับต้องได้ของ LLM และ GPT-5, การลงทุน/ความคาดหวัง/ความผิดหวังของ AI, ประเด็นนวัตกรรม, และแนวโน้มการวิจัย

5 ความคิดเห็น

 
gnsdl116 2025-08-12

มันดูเป็นความมองโลกในแง่ร้ายมากเกินไป เข้าใจประเด็นที่กังวลได้ แต่การพัฒนาเทคโนโลยีก็ไม่จำเป็นต้องเพิ่มขึ้นอย่างต่อเนื่องเสมอไป

 
mammal 2025-08-11

เพราะผู้เขียนโพสต์คือ Gary Marcus ที่ขึ้นชื่อว่ามักพูดแต่เรื่องไร้สาระอยู่เสมอ...

 
dongho42 2025-08-11

ถ้าทำแบบ Google ที่เงียบๆ แค่ทำ show&prove เงียบๆ ก็น่าจะไม่เลวร้ายขนาดนี้นะ ช่วงนี้มีคนเถียงกันไปหมดว่าเขาน่ากลัวเกินไป ว่ามันเหมือน ‘ดาวแห่งความตาย’ ว่าดูเหมือนทำระเบิดนิวเคลียร์ไปแล้ว นึกว่าเป็นผลจากการเอาเรื่องพวกนี้ไปยกย่องฮไพป์จนเกินไปจนได้เอง

 
dongho42 2025-08-11

นอกจากนี้การแสดงผล bench ในงานเปิดตัวก็มีความผิดพลาดที่น่าอายมาก ซึ่งก็ดูเหมือนว่าจะมีส่วนทำให้ความประทับใจโดยรวมดูไม่ดีลงไปอีก

 
GN⁺ 2025-08-11
ความคิดเห็นจาก Hacker News
  • ฉันยังเชื่อว่า GPT-5 คือกลยุทธ์การลดต้นทุนแบบใช้งานได้จริง เพราะ OpenAI เป็นบริษัทที่เน้นการเติบโตและต้องการครองฐานผู้ใช้ในผลิตภัณฑ์ที่ต้องใช้ GPU ถึงระดับหนึ่งพันล้านราย

    • ไม่มีใครพูดถึง GPT-5 Pro เลย แต่ฉันได้ลองเอง และพบว่ามันเหนือกว่า Grok 4 Heavy กับ Opus 4.1 อย่างชัดเจน

    • เป็นเทคโนโลยีล่าสุดจริง ๆ และถ้ารันโมเดลที่ประสิทธิภาพสูงสุด คนละผู้ใช้ต่อเดือนอาจถึงหลายพันดอลลาร์

    • เพราะฉะนั้นจึงมีการให้บริการแบบจำกัดเท่านั้น OpenAI ไม่ได้มุ่งตลาดประเภทนี้ แต่ยึดกลยุทธ์การเติบโตเพื่อสู้กับ Google

    • การไม่กล่าวถึงโมเดล Pro เลยทำให้ฉันไม่เชื่อความเห็นนี้เลย

    • ในความเห็นของฉัน การรับรู้ว่า GPT-5 Pro ดีกว่า o3-pro อย่างมีนัยสำคัญมากไม่ชัดเจน (หรืออาจไม่ต่างกันด้วยซ้ำ) มันช้ากว่าและคุณภาพผลลัพธ์ใกล้เคียงกัน

      • ยังช้าและยังพลาดประเด็นสำคัญอยู่
      • แต่ในการเสนอแนวทางใหม่เพื่อแก้ปัญหา ดูเหมือนจะดีกว่าเล็กน้อย
      • ความประทับใจแรกของฉันคือ 5-pro มีความรู้มากกว่า o3-pro ประมาณ 0-2% และความคิดสร้างสรรค์หรือความคิดริเริ่มสูงกว่าอีกราว 5-10%
      • "โทน" หรือบุคลิกของโมเดลแทบเหมือนกันมาก
      • ในงานบางประเภท (ตรรกะเชิงรูปแบบ การวิเคราะห์ข้อมูล และงานวิเคราะห์สั้น ๆ) มันถึงขั้นเหนือมนุษย์ และเหนือ Grok หรือ Gemini ทุกเวอร์ชัน
      • แต่ในการเขียนโปรส/งานเขียนทั่วไป มันชัดเจนว่าต่ำกว่า Kimi K2 และ Deepseek R1
      • สิ่งที่น่าทึ่งที่สุดคือโมเดลที่เขียนโปรสภาษาอังกฤษชั้นยอดที่สุดมีต้นกำเนิดจากกลุ่มนักพัฒนาจีน ไม่ใช่แค่ไม่ใช้สไตล์ 'AI' ของ GPT และ Kimi อยู่ระดับเดียวกับกวีที่ตีพิมพ์จริง
    • ฉันเช็กเครือข่ายของตัวเองแล้ว ไม่มีใครใช้ GPT-5 Pro เลย

      • โดยเฉพาะอยากได้ feedback การเปรียบเทียบกับ o3 มากมาก
    • ฉันเห็นด้วยกับความเห็นนี้ แต่ก็คิดว่ามีเจตนาดันโมเดลที่ดีกว่าออกสู่ตลาดกว้างขึ้น

      • o3 ดีมาก แต่คนอีกมากมายก็ยังไม่เคยใช้
      • เมื่อถามเพื่อนที่ใช้ ChatGPT ทุกวันว่าเคยใช้ o3 มั้ย เขามักทำหน้าตงง
      • ดังนั้นฉันจึงคิดว่ามีเป้าหมายในการทำให้ reasoning model เข้าถึงผู้ใช้ทั่วไปมากขึ้น ซึ่งเป็นปัจจัยเพิ่มต้นทุนให้ OpenAI
      • แต่ด้วยชั้น routing ที่มีอยู่ ผู้ใช้พาวเวอร์ยูเซอร์ (ส่วนใหญ่คือคนใช้ HN) ยังประหยัดต้นทุนได้บ้าง
      • ส่วนผู้ใช้พาวเวอร์ยูเซอร์จะเรียนรู้การบังคับใช้ reasoning model ได้เร็วมาก
    • ฉันเข้าใจว่า Pro model ใช้ผ่าน API ไม่ได้ ใช่ไหม?

      • อยากรู้ว่าผ่าน Codex CLI ผูกกับซับสคริปชันแล้วใช้ได้ไหม
    • เห็นด้วย

      • อีกเหตุผลหนึ่งของการตัดสินใจนี้คือ สำหรับผู้ใช้ส่วนใหญ่ โมเดลเดิมก็เพียงพอแล้ว
      • ไม่เหมือนผู้ใช้ HN คนทั่วไป ผู้ใช้ทั่วไปไม่ค่อยสนใจเทคโนโลยีล่าสุดมากเท่า
  • ฉันมักรู้สึกว่าบทความแบบนี้น่ารำคาญเป็นพิเศษ

    • แทนที่จะวิเคราะห์ด้วยตนเองว่า GPT-5 แย่ตรงไหนและเขียนสาเหตุอย่างตรงไปตรงมา มีแต่ไปขูดรีแอ็กชันจากโซเชียลมีเดียมา และขยายคำวิจารณ์ให้กลายเป็นเรื่อง 'สะเทือนใจ' หรือ 'โจมตีแบบหมิ่นประมาท' เพื่อโน้มน้าวความเห็นตัวเอง

    • มันเอนเอียงมากเกินไป ไม่ใช่จริยธรรมนักข่าว และก็ไม่ใช่การวิเคราะห์ต้นฉบับ

    • ดูเหมือนว่าข่าว AI โดยพื้นฐานขาดความอยากรู้อยากเห็น และโน้มเอียงไปเน้นการล้อเลียนหรือการดูถูกมากกว่า

      • ฉันชอบ AI และอ่านงานที่จริงจังของผู้ที่มุมมองต่างจากฉันได้เสมอ
      • แต่บทความแบบนี้เป็นอีกประเภทหนึ่ง ไม่มีคุณค่าอะไรนอกจากการโจมตีฝ่ายตรงข้าม
      • ฉันมองว่าการ moderation ของ HN ไม่เลวร้าย โดยเฉพาะบทความที่ไม่มีความอยากรู้นี้ ควรจะหายไปจากหน้าแรก
    • Gary Marcus มีแนวโน้มวิเคราะห์ตื้นอยู่เสมอ

      • ความเห็นของเขาคล้ายคอลัมน์อธิบายหุ้นของ Jim Cramer พอสมควร
      • ถึงขั้นว่าถ้าไปรอบตัวแบบจริงจัง อาจเดิมพันกลยุทธ์ Reverse Gary Marcus ก็ได้
    • Gary Marcus มักอ้างเสมอว่า AI ไม่ได้ทำงานจริง และข้อที่เขา 'ถูก' นั้นแทบเป็นระดับโอกาสบังเอิญ

    • เป็นบล็อกโพสต์ที่พูดถึงว่า GPT-5 โอเวอร์โปรโมตหรือไม่ และได้รับการตอบรับแบบไหน

      • ซึ่งเป็นประเด็นที่ถูกต้องตามกฎอย่างยอมรับได้
      • เพราะเป็นบล็อกของ Gary Marcus อยู่แล้ว ย่อมมีอคติจากความเห็นเขาเอง ชัดเจนต่างจากบทความของ BBC
    • ฉันคิดว่าปัญหาจริงคือหาความเห็นที่แท้จริงยิ่งยากขึ้นเรื่อย ๆ

      • ในโลกออนไลน์คนส่วนใหญ่แค่รีแปลความเห็นคนอื่นและคุยวน ๆ อยู่มาก เนื้อหาง่าย ๆ และเสียงดังที่ไม่ลึกกลับล้นทุกที่
  • ในประสบการณ์ของฉัน "อัปเกรด" รอบนี้คือการลดระดับขนาดใหญ่สำหรับผู้ใช้ Plus

    • GPT-5 มีคุณภาพคำตอบแย่กว่า O3, ความพยายามในการคิดน้อยลง และไม่ได้ใช้เว็บค้นหาเหมือน O3

    • แม้เลือกตัวเลือก 'thinking' แล้วสั่งชัดเจนมาก ก็ยังไม่แก้ปัญหา

    • ตอนนี้ต้องใช้ Gemini ถึงจะได้เอาต์พุตคุณภาพใกล้เคียง

    • อีกทั้ง Custom GPTs (ข้อมูลที่เกี่ยวข้อง) ก็มีปัญหาเช่นกัน GPT ตราย่อยตรวจไวยากรณ์ที่ฉันปรับเองก็เพิกเฉยคำสั่งไม่ว่าจะเป็นโมเดลไหน

    • ตัวเลือก Deep research ก็แปลก เลือกแล้วก็ยังตอบเหมือนเดิม สั่งเพิ่มก็แทบไม่เปลี่ยน

    • Projects ก็เหมือนพังเช่นกัน

      • ไม่ได้ปฏิบัติตามคำสั่ง และตอบเป็นภาษาสเปนหรือเพิกเฉยต่อคำถามฉัน
      • บางครั้งเหมือนกำลังคุยกับตัวเอง พิมพ์อะไรก็ได้ก็ยังคงให้คำตอบผิด ๆ แบบเดิมๆ ในบางครั้งเป็นภาษาสเปน
    • เหมือนจะตีตลาดไปที่ฟรีแพลน หรือใส่โฆษณาตั้งแต่ต้นปีหน้า หรือบังคับให้ย้ายไปแพ็กเกจ 200 ดอลลาร์

      • ฉันคิดว่าในอนาคตคงไม่มีแพ็กเกจ 20 ดอลลาร์ที่ไม่มีโฆษณา
    • การ hallucinate (ข้อมูลหลอก) รุนแรงมาก

      • ทำให้ผิดหวังมาก
  • ชุมชน AI ต้องการผู้เชี่ยวชาญอิสระแบบ Gary Marcus เพิ่มขึ้น

    • เราควรรักษาความจริงใจและความโปร่งใสโดยไม่ให้การโอเวอร์ฮิปของอุตสาหกรรมหรือการเปลี่ยนเกณฑ์ภายใน (เช่น 'เราถึง AGI แล้ว' ฯลฯ) ดึงความคิดเราไปได้

    • ไม่ว่าชอบแนวเขาหรือไม่ Gary เคยชี้จุดอ่อนสำคัญของ AI ได้ตรงพอดี เช่น ขีดจำกัดของ scaling law และการให้เหตุผลที่แท้จริงไม่ถึงขั้นของ LLM รวมถึงการทั่วไปนอกการกระจายข้อมูล

    • วงการมักเริ่มด้วยการปฏิเสธก่อน แล้วเมื่อเวลาผ่านไป ถ้ามีสิ่งใหม่ (Prompt Chain, LLM อิง RL ฯลฯ) ก็ขายเป็นการค้นพบตัวเองเสมอ

    • กระแสที่เกินจริงต้องมีเสียงวิจารณ์เสมอ

      • เสียงที่ดังที่สุดในโลก LLM มักมาจากฝ่ายที่ได้ผลประโยชน์ทางเศรษฐกิจ
      • ฉันไม่ต่อต้าน AI แต่บรรยากาศที่ชักจูงว่าเศรษฐกิจทั้งระบบจะล้มเหลว/ว่างงานหมดเพราะเทคโนโลยีนี้มันตลกมาก (ปัญหาเศรษฐกิจที่แท้จริงมีเหตุผลอื่น ที่ผ่านมาคือการนำประเทศของแต่ละชาติ)
      • ถ้านวัตกรรมช้าลงได้บ้าง หวังว่าผลิตภัณฑ์ที่ฉันใช้จะหันกลับไปโฟกัสฟีเจอร์จริงหรือการแก้บั๊กแทนการฝัง AI แบบบังคับ ๆ
    • ฉันคัดค้านอย่างแรง

      • บทความนี้ใกล้เคียงกับการคัดลอกโพสต์บ่นบน Reddit โดยไม่ได้นำผลทดสอบเชิงตรง ๆ มา และพูดเฉพาะปัญหาในช่วง launch (เปิดตัวพร้อม 500 ล้านคน) เท่านั้น
      • ข้อวิจารณ์เหล่านี้มักพลาดจุดสำคัญของการเปิดตัว GPT-5 เพราะที่จริงแล้วนี่คือการเปิดตัว 'AI full product' ตัวแรก ก้าวจากการปรับโมเดลมาเป็นการวางภาพรวมการให้บริการจริง
      • จุดเด่นคือเร็วขึ้น ผสานยิ่งขึ้น และทำให้เกิดนวัตกรรมค่อยเป็นค่อยไป (ปฏิสัมพันธ์มัลติมอดัล การสร้างภาพ ฯลฯ) เป็นไปได้
      • โดยเฉพาะความก้าวหน้าใหญ่คือการคงบริบทยาวและรักษาเป้าหมายระยะยาว
      • Willison เองก็ยืนยันว่าใช้โค้ดเป็นงานหลัก และฉันก็รู้สึกว่าในงานเขียนโค้ดยาว/ซับซ้อน มันชัดเจนว่าเหนือ Claude และโมเดลยอดนิยมเดิมอย่าง o3-pro กับ Gemini
      • ความเร็วในการเขียนโค้ดเร็วกว่า o3-pro มาก
      • เหตุผลแบบ 'ผู้ใช้ Reddit ผูกพันกับ 4o เลยไม่ชอบ launch นี้ → oAI พัง' ดูอ่อนและไร้ความหมายมาก
    • ไม่ควรโยงข้อจำกัดหรือความเข้าใจผิดของ AI ส่วนใหญ่ไปที่ Marcus

      • ฉันไม่คิดว่ามาจากเขา
  • สิ่งที่ GPT ต้องการการพัฒนาที่สำคัญที่สุดตอนนี้คือการ 'ยอมรับว่าถ้ารู้ไม่พอ'

    • วันนี้ฉันพยายามหาวิธีสร้าง NPC อัตโนมัติด้วย redscript ในโมดของ Cyberpunk 2077 และต้องค้นหาค่อนข้างยากมาก

    • ChatGPT 5 บอกว่ากำลัง 'รีเสิร์ช' แต่กลับคิด API ขึ้นมาเอง และแม้จะชี้หลายครั้งว่าข้อมูลไม่จริง มันก็ยังคง hallucinate ต่อไป

    • เสียเวลาไป 30 นาที ถ้ามันบอกตรง ๆ ว่าไม่รู้คงรู้ได้ภายใน 1 นาที

    • ต้องไม่เสแสร้งคิดว่ามันรู้ทุกอย่าง

      • มันตอบเพียงตามคำตอบที่มีความน่าจะเป็นสูงสุดจากข้อมูลฝึก
      • ไม่อ้างอิงระบบความรู้ภายใน แต่เพียงสร้าง pattern ของภาษาเท่านั้น
      • การฝึกให้เน้นไอเดียบางอย่าง (เช่น โพรปากันดา ฯลฯ) ทำได้ แต่ก็ไม่สามารถอ้างอิงความรู้ได้ตรง ๆ
    • เห็นด้วยมาก!

      • มันเหมือนคนทำงานที่พูดด้วยความมั่นใจเต็มที่ ทำให้เราเชื่อได้ง่าย
      • แต่ความจริงมันพูดไม่จริงเกินคาด เป็นสถานการณ์ที่น่ารำคาญมาก
    • มันไม่สามารถ 'รู้อะไร' จริง ๆ ได้

      • ผลลัพธ์ทั้งหมดจึงใกล้เคียงกับ hallucination ที่อิง prompt
    • เห็นด้วยเต็มที่ว่าจำเป็นมากที่ตัวโมเดลต้อง 'บอกว่าถ้าไม่รู้'

      • ใน Frontier AI Lab ก็น่าจะมีการรีวิวและทดลองเรื่องนี้อยู่แล้ว
      • ถ้าปัญหานี้ไม่เกิดบ่อย อาจเป็นสัญญาณว่าขีดจำกัดของโมเดลค่อนข้างชัด
    • งานพัฒนานี้กำลังเกิดขึ้นจริง และมีในเอกสารทางการของ OpenAI

      • ลิงก์ที่เกี่ยวข้อง
      • ใน GPT-5 (ตัวเลือก 'thinking') โมเดลพยายามให้แสดงความไม่สมบูรณ์ ความไม่สามารถ และพฤติกรรมได้ตรงไปตรงมามากขึ้น เมื่อเจองานที่ทำไม่ได้ ข้อมูลไม่เพียงพอ หรือไม่มีเครื่องมือ
      • เช่น ใน CharXiv multimodal benchmark เมื่อทดสอบ prompt แบบไม่มีภาพ o3 ตอบอย่างมั่นใจต่อสิ่งที่ไม่อยู่จริงถึง 86.7%, ขณะที่ GPT-5 ลดลงเหลือ 9%
      • ในงานเขียนโค้ดที่ทำไม่ได้หรือเมื่อขาดทรัพยากรมัลติมอดัลอื่น ๆ GPT-5 reasoning ก็ยังทำผิดพลาดน้อยกว่า o3 อย่างชัดเจน
      • ในชุดบทสนทนายาวจากทราฟฟิกจริงของ ChatGPT, อัตรา deception ลดลงจาก 4.8% เป็น 2.1%
      • ยังต้องปรับปรุงเพิ่มอีก และงานวิจัยยังคงต่อเนื่อง ดูระบบ system card
  • ความหมกมุ่นของเขาที่อยากให้เรื่องต่างๆ 'ถูกต้องเสมอ' ทำให้ความจริงที่แท้จริงไม่ชัด

    • การพูดถึงระบบ hybrid symbolic/transformer น่าสนใจมาก

    • ในโพสต์ที่ลิงก์มานี้มีตัวอย่างว่าเมื่อมอบการคำนวณทางคณิตศาสตร์ให้ Python ทำ ทำให้ Grok 4 ทำงานด้านคณิตศาสตร์ได้ดีขึ้น

    • ฉันอยากเห็นระบบที่ให้ symbolic เป็นหลัก หมายถึงคณิตศาสตร์แบบ 'hard' ทำแบบ symbolic และเฉพาะพื้นที่ที่ต้องการ reasoning เท่านั้นใช้ monad

    • ระบบนิวโร-ซิมโบลิกของ Aloe ทำคะแนน OpenAI deep research GAIA benchmark สูงกว่า 20 คะแนน

      • แม้ Gary จะพูดมากและโอเวอร์ฮิป แต่เขาก็รู้จุดจำกัดของ LLM ได้ดี (aloe.inc)
  • GPT-5 มีปัญหาเฉพาะตัวที่ไม่เคยเกิดใน GPT-4

    • ใน thread การสนทนา บางครั้งบริบทหายไปกะทันหัน หรือไม่เข้าใจคำตอบถัดไปอย่างถูกต้อง

    • รู้สึกเหมือนมี process เก็บ context แทรกเข้ามา และข้ามการสรุปใจความที่คุยมาจนถึงตรงนั้น

    • ถ้าเป็นจริง แปลว่า context ที่ใช้ได้จริงอาจเล็กลงมาก และปัญหานี้เกิดบ่อย

    • ขอให้มัน 'ทบทวนเนื้อหาสนทนาล่าสุด' แล้วจะดีขึ้นนิดหน่อย

    • ในกรณีฉัน คำตอบกลับสั้นลงมาก

  • 'ผู้คนถูกหล่อหลอมให้คาดหวังปาฏิหาริย์ แต่ GPT-5 เป็นเพียงความก้าวหน้ารูปแบบ incremental'

    • ส่วนนี้เป็นเนื้อหาที่มีคุณค่าน่าเขียนลงในบทความได้เพียงอย่างเดียว
    • ผู้คนควรคาดหวังการพัฒนาทีละขั้นได้
    • ผู้ให้บริการไม่ควรสัญญาปาฏิหาริย์
    • การจัดการความคาดหวังเป็นเรื่องสำคัญ
    • ความก้าวหน้าแบบ incremental ก็เป็นความก้าวหน้าจริงอยู่ดี
    • แต่ฉันไม่เห็นด้วยกับความคิดว่าความคิดเห็นว่ารถ AGI จะออกจากช่วงท้ายของซีรีส์ GPT เสมอไป
  • ตอนนี้ข้อมูลฝึกที่เหลือไม่มากอีกแล้ว

    • การพัฒนา AI ทั้งหมดจากจุดนี้ไปขึ้นอยู่กับการปรับสถาปัตยกรรม

    • โมเดลล่าสุดทั้งหมดมีจุดสูงสุดเฉพาะที่สำหรับข้อมูลใหม่

    • งานวิจัยก่อนหน้าแสดงว่า การผสมผสานข้อมูลจริงที่ใส่ด้วยจุดประสงค์กับข้อมูลสังเคราะห์เป็นหลักใน training ของ frontier LLM ให้ผลดี

    • ฉันเคยพูดประเด็นนี้มาก่อนเมื่อสองปีก่อนที่นี่

      • ไม่มี 'second internet' ไหนที่มีคอนเทนต์คุณภาพสูงให้แย่งชิงอีกแล้ว
      • ข้อมูลเดิม ๆ ก็เริ่มถูกล็อกอย่างหนักขึ้นเรื่อย ๆ
    • จริง ๆ แล้วหมายความว่า GPT-5 ได้เรียนรู้ข้อมูลวิดีโอทั่วโลกทั้งหมดแล้วหรือยัง?

    • ข้อมูลฝึกใหม่ไม่ได้ถูกสร้างขึ้นทุกวันหรือ?

      • YouTube, Facebook, TikTok ฯลฯ
      • มนุษย์เป็นเครื่องจักรสร้างคอนเทนต์อยู่แล้ว
  • แม้ OpenAI จะทำโมเดลดีที่สุด แต่ชื่อ GPT-5 เองก็ถูกหุ้มด้วย hype ตั้งแต่ชุมชนและ OpenAI จนดูเหมือนว่าความล้มเหลวถูกวางไว้แล้ว

    • แทนที่จะหลีกเลี่ยง meme และโฆษณาเกินจริง เลือกแนวทาง incremental มากขึ้น คงจะเหมาะกว่า แต่ก็ทำให้นักลงทุน/การเล่าเรื่อง/การคงระบบนิเวศ AI ลำบาก

    • เราอาจถึงจุดสูงสุดแล้ว

    • Sam Altman เองก็มีส่วนช่วยสร้างและย้ำความคาดหวังเหล่านั้นอยู่เหมือนกัน

    • จะมีอะไรเกิดขึ้นเมื่อ AGI มาถึง แล้วคนจะสร้างเหตุผลแบบ 'ไม่ถึงเป้า' ขึ้นมาได้อย่างไร