1 คะแนน โดย GN⁺ 2025-10-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • นักวิจัย OpenAI ได้ประกาศเรื่องการอ้างว่า GPT-5 แก้ ปัญหา Erdős แล้ว และเมื่อถูกวิพากษ์วิจารณ์จากชุมชนและผู้มีบทบาทในอุตสาหกรรม จึงถูกถอนกลับไปอย่างรวดเร็ว
  • คำกล่าวดังกล่าวใช้ถ้อยคำในลักษณะที่อาจตีความได้ว่า AI พบ การพิสูจน์จริงจังสำหรับปัญหาทางคณิตศาสตร์ที่เชื่อว่ายังไม่มีคำตอบกันมาหลายสิบปี โดยอิสระ
  • โดยสาระแล้ว GPT-5 เพียงแสดงการค้นพบงานวิจัยเดิมซ้ำอีกครั้ง และ ไม่ได้เสนอวิธีแก้ใหม่สำหรับปัญหาที่ยังไม่เคยมีใครแก้ได้จริง
  • เหตุการณ์นี้กลายเป็นปัจจัยที่เพิ่มความกังวลเรื่อง ความเชื่อถือของ OpenAI และการประกาศความสำเร็จ AI ที่ยังไม่ผ่านการยืนยันอย่างเหมาะสมในอุตสาหกรรม
  • ปัจจุบันจุดเด่นที่แท้จริงของ GPT-5 คือการทำหน้าที่เป็นผู้ช่วยในการค้นคว้างานวิจัยและจัดระเบียบเอกสาร

ภาพรวมเหตุการณ์

  • ล่าสุด นักวิจัย OpenAI ได้ประกาศบน X (เดิมชื่อ Twitter) ว่า GPT-5 ประสบความสำเร็จครั้งสำคัญในการ "แก้ปัญหา Erdős ที่ยังไม่ถูกแก้ 10 ข้อ" และมีความคืบหน้าเพิ่มเติมอีก 11 ข้อ
  • การประกาศนี้ถูกมองว่ามีความหมายว่าทำให้เห็นว่า GPT-5 สามารถดึงเอาหลักฐานทางคณิตศาสตร์สำหรับปัญหาทาง ทฤษฎีจำนวนที่ยาก ออกมาได้ด้วยตนเอง
  • นักวิจัย OpenAI หลายคนลงโพสต์ข้อความใกล้เคียงกัน โดยชี้ว่าภาพลักษณ์ใหม่นี้อาจแปลได้ว่า AI สามารถสร้าง การค้นพบทางวิทยาศาสตร์เชิงนวัตกรรม ได้

การตรวจสอบและข้อถกเถียงในชุมชน

  • Thomas Bloom คณิตศาสตร์ผู้ดูแลเว็บไซต์ Erdosproblems.com ได้คัดค้านทันที โดยอธิบายว่าปัญหาที่เว็บไซต์ระบุว่า "open" ไม่ได้หมายถึงปัญหาที่ยังไม่ถูกแก้ในความจริง
    • ปัญหาเหล่านั้นส่วนใหญ่เป็นแค่กรณีที่ Bloom เองยังไม่รู้คำตอบหรือยังตรวจสอบงานวิจัยก่อนหน้าไม่ครบถ้วนเท่านั้น
    • GPT-5 เพียงค้นพบผลการวิจัยที่มีอยู่แล้ว และไม่ได้ค้นพบวิธีแก้ปัญหาคณิตศาสตร์ใหม่
  • เมื่อข้อเท็จจริงนี้ถูกเผยแพร่ นักวิจัย OpenAI ได้ลบโพสต์หรือแก้ไขเนื้อหา
  • ในชุมชนและบุคคลสำคัญ อย่างเช่น CEO ของ DeepMind Demis Hassabis เขารับว่าเป็นเรื่อง "น่าอาย" และผู้รับผิดชอบด้าน AI ของ Meta Yann LeCun ก็ชี้ว่าดูเหมือน OpenAI ถูกการโปรโมตของตนเองหลอกได้
  • ทีมวิจัยยอมรับว่าได้มีความผิดพลาด และอธิบายบทบาทจริงของ GPT-5 ใหม่อีกครั้ง

ประเด็นความเชื่อถือในอุตสาหกรรมและการวิจารณ์

  • เหตุการณ์นี้ขยายมุมมองว่าผ่านการเปิดเผยว่า OpenAI ขาดความน่าเชื่อถือ ในกระบวนการตรวจสอบข้อเท็จจริง
    • โดยเฉพาะเมื่อคลื่นกระแสคาดหวังเกินจริงในวงการ AI ผสานกับความร้อนแรงของการลงทุนและความสนใจตามกระแสหุ้น ทำให้ความกังวลต่อการประกาศความสำเร็จที่ยังไม่ตรวจสอบยิ่งเพิ่มสูงขึ้น
  • ถูกตั้งคำถามถึงเหตุผลที่นักวิจัยแนวหน้าของอุตสาหกรรมถึงทำข้ออ้างหรือตัวเลขที่น่าตื่นตะลึงแบบนี้โดยไม่ผ่านการตรวจสอบ และสะท้อนข้อกังวลต่อวัฒนธรรมภายในองค์กร

ผลลัพธ์จริงและบทบาทของ AI ในสาขาคณิตศาสตร์

  • โดยเฉพาะแล้ว GPT-5 แสดงให้เห็นความมีประโยชน์ในฐานะผู้ช่วยที่ค้นหางานวิจัยและแหล่งข้อมูลที่เกี่ยวข้องสำหรับปัญหาคณิตศาสตร์ที่ซับซ้อนและใช้ศัพท์เฉพาะหลากหลาย
  • นักคณิตศาสตร์ Terence Tao คาดหวังว่า AI จะช่วยลดเวลาในการค้นคว้าวรรณกรรมมหาศาลและงานค้นหาซ้ำๆ มากกว่าที่จะแก้ปัญหาที่ไม่เคยถูกแก้ล่าสุด
    • มีตัวอย่างความก้าวหน้าที่เป็นอิสระบางส่วน แต่ในปัจจุบันจุดเด่นยังคงอยู่ที่การสนับสนุนด้านการค้นหาและจัดระเบียบเอกสารวิจัยอัตโนมัติ
  • ในอนาคต AI เชิงสร้างสรรค์มีศักยภาพที่จะช่วยยกระดับความเร็วและการทำงานอัตโนมัติในวงการคณิตศาสตร์
    • อย่างไรก็ตาม การตรวจสอบ การจัดประเภท และการบูรณาการผลลัพธ์โดยผู้เชี่ยวชาญยังคงจำเป็น

สรุป

  • เหตุการณ์นี้เป็นตัวอย่างที่ชี้ชัดทั้งด้านข้อจำกัดและโอกาสเชิงอุตสาหกรรมของ AI เชิงสร้างสรรค์ รวมถึงความเสี่ยงของการโฆษณาผลการวิจัย AI อย่างเกินจริง
  • ในที่สุด GPT-5 จึงถูกยืนยันอีกครั้งว่าไม่ใช่การปฏิวัติคณิตศาสตร์ต่อปัญหาที่ยังไม่เคยถูกแก้ แต่มีศักยภาพมากขึ้นในฐานะเครื่องมือเสริมในการช่วยจัดระบบเอกสารวิจัย

1 ความคิดเห็น

 
GN⁺ 2025-10-20
ความคิดเห็นจาก Hacker News
  • เพื่อความเป็นธรรมกับทีม OpenAI ถ้ามองบริบทแล้ว ผมคิดว่าสถานการณ์นี้ไม่ได้มีเจตนาร้ายขนาดนั้น
    ทวีตที่ถูกลบระบุว่า "GPT-5 แก้ปัญหา Erdös ได้ 10 ข้อ (ที่ก่อนหน้านี้ยังแก้ไม่ได้) และยังทำให้คืบหน้าได้อีก 11 ข้อ ซึ่งเป็นปัญหาที่ค้างมาหลายสิบปี"
    ถ้าทวีตนี้ถูกโพสต์เดี่ยว ๆ ผมก็คงคิดว่าชวนให้เข้าใจผิด แต่ความจริงมันเป็นทวีตอ้างอิง
    ต้นทางอันแรกที่ถูกอ้างอิง (https://x.com/MarkSellke/status/1979226538059931886) พูดประมาณว่า "กำลังผลักเรื่องนี้ต่อไป"
    และต้นทางอันที่สองที่ทวีตนั้นอ้างอิงมาอีกที (https://x.com/SebastienBubeck/status/1977181716457701775) อธิบายว่า GPT-5 เก่งมากในการค้นวรรณกรรม จน "ไปเจอว่าปัญหา Erdos #339 ซึ่งยังถูกจัดว่าเป็นปัญหาเปิดอยู่ แท้จริงแล้วถูกแก้ไปตั้งแต่ 20 ปีก่อน"
    ถ้าอ่านเธรดนี้ตามลำดับจะเป็นแบบนี้

    • SebastienBubeck: "GPT-5 เก่งมากในการค้นวรรณกรรม จนไปเจอคำตอบที่มีอยู่แล้ว ทำให้เหมือนกับว่าแก้ปัญหาที่คนยังคิดว่าเปิดอยู่ได้"

    • MarkSellke: "ตอนนี้ทำได้เพิ่มอีก 10 ข้อ"

    • kevinweil: "ดูผลลัพธ์เจ๋ง ๆ ที่เราทำได้สิ!"
      สุดท้ายแล้วปัญหามาจากรูปแบบการอ้างอิงทวีต เพราะ kevinweil อ้างหลายชั้นจนหลุดประเด็นตั้งต้นไปว่า จริง ๆ แล้วเป็นการพบคำตอบที่มีอยู่ก่อนแล้ว ทำให้ผู้อ่านเข้าใจผิดได้แทบเลี่ยงไม่ได้
      ผมว่าความผิดพลาดแบบนี้ก็พอเข้าใจได้ และกระแสวิจารณ์ก็ดูแรงเกินไปเล็กน้อย

    • เรื่องที่เขาไม่ได้พิจารณาบริบทของทวีตอ้างอิงที่ Weil โพสต์ให้ครบถ้วน จริง ๆ แล้ว Weil เองก็ออกมายอมรับตรง ๆ ว่าเขาเข้าใจโพสต์ของ Sellke ผิด (ดูได้ที่ https://x.com/kevinweil/status/1979270343941591525)
      Sellke บอกว่า "ถูกจัดว่าเป็นปัญหาเปิด" แต่ Weil กลับพูดว่า "เป็นปัญหาที่ก่อนหน้านี้ยังแก้ไม่ได้" ซึ่งไม่เหมือนกัน

    • คนแรกพูดว่า "มันไปพบว่าปัญหานั้นจริง ๆ ถูกแก้ไปแล้วเมื่อ 20 ปีก่อน เลยเหมือนกับว่า 'แก้' มันได้" แต่คนที่สองกลับพูดว่า "มันแก้ปัญหา Erdös ที่ก่อนหน้านี้ยังแก้ไม่ได้ 10 ข้อ"
      ผมเลยรู้สึกว่าคำว่า "ก่อนหน้านี้ยังแก้ไม่ได้" มันไม่ตรงกับบริบทจริง ๆ ใช่ไหม

    • ผมก็สงสัยเหมือนกันว่าตัวเองเข้าใจอะไรผิดหรือเปล่า
      มันคล้ายกับตอนที่ DeepMind เผยแพร่บทความเมื่อไม่กี่เดือนก่อนว่า “ทำ matrix multiplication ได้ดีกว่า SOTA”
      ตอนนั้นบอกว่า Gemini ค้นพบวิธี optimization แบบใหม่ แต่พอประกาศออกมาไม่นาน นักคณิตศาสตร์ก็ชี้ทันทีว่าวิธีนั้นมีอยู่ในงานวิจัยเมื่อ 30-40 ปีก่อนแล้ว และก็มีโอกาสสูงมากว่าข้อมูลนั้นอยู่ในชุดข้อมูลฝึกของ Gemini ด้วย

    • สำหรับคำกล่าวที่ว่า "GPT-5 เก่งมากในการค้นวรรณกรรม จนไป 'แก้' ปัญหาที่มีคำตอบอยู่แล้วได้"
      ผมคิดว่านี่คือ survivorship bias
      ในความเป็นจริง GPT-5 ก็ล้มเหลวกับการค้นหาที่ค่อนข้างง่ายบ่อยมาก
      คุณต้องรู้อยู่แล้วพอสมควรว่าผลลัพธ์นั้นถูกหรือไม่ หรือไม่ก็ต้องตรวจสอบเอง
      มันให้ความรู้สึกเหมือนโยนลูกเต๋า 1000 ครั้ง แล้วเอาแต่โพสต์อวดทุกครั้งที่ออก double six
      แบบนั้นก็ไม่ได้แปลว่าผมเป็นคนโยนลูกเต๋าเก่งที่สุด เหมือนกัน

  • มีการพูดถึงการโต้แย้งทันทีจาก Thomas Bloom นักคณิตศาสตร์ผู้ดูแล erdosproblems.com
    เขาเน้นว่าคำว่า "open" ในที่นี้ไม่ได้แปลว่า "ยังไม่มีใครแก้ได้ (unsolved)" แต่แปลว่า "ผมไม่รู้คำตอบ"
    ผมรู้สึกว่าการที่นักคณิตศาสตร์นิยามคำว่า 'open' แบบนี้มันแปลก ๆ
    ก็เหมือนกับที่ผมไม่เรียกโจทย์ในตำราที่ตัวเองไม่รู้คำตอบว่าเป็น 'open question'

  • ขอโต้แย้งคำกล่าวที่ว่า "GPT-5 มีประโยชน์ในฐานะเครื่องมือช่วยทบทวนวรรณกรรม"
    สำหรับผม มันผลิตผลลัพธ์ที่ดูน่าเชื่อมากแต่ปลอมออกมาล้วน ๆ
    ถ้ามีใครพอใจกับผลลัพธ์แบบนั้นได้ ชีวิตเขาคงง่ายกว่าผมมาก
    ผมเคยต้องหางานเอกสารอย่างพวกบทความคณิตศาสตร์เชิงวิศวกรรม แล้วคุ้ยห้องสมุดอยู่หลายชั่วโมงก่อนจะยอมฝากความหวังสุดท้ายไว้กับแชตบอต
    แต่สุดท้ายผลที่ได้ก็ดูแปลกจนต้องเสียเวลาไล่ตรวจอีกนาน แล้วก็เหลือแต่ความผิดหวังว่า "มันจะเป็นไปได้จริงได้ยังไง"
    และผมก็รู้สึกว่าประสบการณ์แบบนี้ไม่ได้เกิดกับผมคนเดียว

    • ถ้าผมใช้มันทำ literature search แบบลงลึกบ่อย ๆ GPT จะสร้างแหล่งอ้างอิงหลอนขึ้นมาประมาณ 50% ของเวลา
      ถ้าเป็นรีวิวระดับสูง ๆ อัตราหลอนจะอยู่ราว 5%
      ใน 50% ที่เป็นแหล่งจริง ครึ่งหนึ่งคือบทความที่ผมคุ้นอยู่แล้ว อีกครึ่งเป็นบทความที่ไม่คุ้น
      จุดดีจริง ๆ คือมันมักจะช่วยเจอบทความที่หาได้ยากซึ่งผมหาไม่เจอมาก่อนจริง ๆ (รวมถึงที่หาไม่เจอด้วย Google Scholar)
      โดยเฉพาะงานที่เกี่ยวข้องจากสาขาอื่น หรือบทความสรุปย่อที่ไม่ค่อยมีคนอ้างถึง ทำให้ได้เจอแหล่งข้อมูลที่หลากหลายมาก
      แม้ 75% ของผลทั้งหมดจะใช้ไม่ได้หรือเป็นภาพหลอน แต่อีก 25% ที่เหลือมีคุณค่ามากจนทำให้มันยังมีประโยชน์มากในทางปฏิบัติ

    • การฟันธงว่า 'มันไม่มีประโยชน์เลย' ก็ดูเกินจริงไป
      GPT สามารถค้นผ่านข้อความ 500,000 คำได้ภายในไม่กี่นาที พร้อมให้ทั้งสรุป คำตอบแบบละเอียด และหลักฐานประกอบแต่ละข้ออ้าง
      แน่นอนว่าคุณไม่ควรเชื่อสรุปนั้นแบบตรง ๆ และข้อมูลสำคัญก็ต้องกดเข้าไปตรวจสอบที่มาเองเสมอ
      ถึงอย่างนั้นมันก็ยังเป็นเครื่องมือค้นหาที่ยอดเยี่ยมและเป็นตัวเร่งผลิตภาพอย่างมาก

    • ผมนึกชื่อไม่ออก แต่มีหลักการแบบนี้อยู่
      เวลาคนอ่านข่าวหนังสือพิมพ์เกี่ยวกับเรื่องที่ตัวเองรู้ดี จะมองเห็นช่องโหว่เต็มไปหมดและคิดว่า "นี่หลุดมาเป็นข่าวได้ยังไง"
      แต่พอเป็นเรื่องที่ตัวเองไม่รู้ ก็กลับเชื่ออย่างไม่วิจารณ์
      ผมรู้สึกว่ากับ ChatGPT ก็เกิดความเชื่อแบบไม่ตั้งคำถามลักษณะเดียวกัน

    • ที่จริงแทนที่จะพยายามฝืนใช้แชตบอตอย่าง GPT-5 เพื่อค้นหา/ทบทวนวรรณกรรม อาจจะดีกว่าถ้าใช้ semantic search engine ที่ทรงพลังจริง ๆ
      พอคุณให้แชตบอตสรุปหรือให้คำตอบ ภาพหลอนก็จะติดมาด้วยเสมอ
      แต่ถ้าเป็นการค้นเอกสารด้วย LLM embeddings อย่างน้อยผลลัพธ์เองก็ไม่มีความเสี่ยงจะเป็นภาพหลอนเลย และอาจเป็นวิธีที่ดีกว่าในการหาบทความที่ Google/Bing แบบเดิมหาไม่เจอ
      ถ้ามีบริการแบบนั้นอยู่แล้วแล้วผมไม่รู้เอง ก็ต้องเผื่อไว้ด้วย

    • ถ้าใครสนใจเครื่องมือทบทวนวรรณกรรม ผมขอแนะนำแพลตฟอร์มสาธารณะสำหรับจัดระเบียบวรรณกรรมที่ผมทำไว้ให้เพื่อนสมัยเรียนบัณฑิตศึกษา
      มันใช้ hierarchical mixture models เพื่อจัดการการค้นหาจำนวนมากและเครือข่ายการอ้างอิง
      ตัวอย่างการใช้งาน: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all

  • ยิ่งดูแย่เข้าไปอีกเมื่อประเด็นของ OpenAI โผล่มาในสัปดาห์เดียวกับที่ DeepMind แสดงให้เห็นถึงความก้าวหน้าจริงในการใช้ AI เพื่อการรักษามะเร็ง
    มันทำให้นึกถึงคำที่เจ้านายเก่าผมเคยพูดไว้ว่า "อย่าเป็นคนที่ทำให้ต้องออกนโยบายใหม่"
    OpenAI คงต้องเปลี่ยนนโยบายการสื่อสารในอนาคต

  • ผมคิดว่าพนักงาน OpenAI น่าจะรู้ความสามารถจริงของโมเดลตัวเองค่อนข้างดี แต่ถึงจะไม่ใช่ เราก็ควรระวังเสมอกับทุกคำกล่าวอ้างบนอินเทอร์เน็ต
    ผมมองว่าวัฒนธรรมแบบนี้แหละที่ทำให้เกิดสภาพแวดล้อมแห่งการโฆษณาเกินจริงเรื่อง AI อย่างทุกวันนี้

    • มันทำให้นึกถึงคำพูดดังที่ว่า "เหตุผลที่ทำให้ยากจะทำให้ใครสักคนเข้าใจอะไรบางอย่าง ก็คือเงินเดือนของเขาขึ้นอยู่กับการไม่เข้าใจมัน"
  • สิ่งที่เหตุการณ์นี้เผยให้เห็นคือความจริงอันน่าเศร้าว่า OpenAI ไม่ได้ลงทุนกับปัญหาคณิตศาสตร์ที่ยังไม่ถูกแก้อย่างจริงจัง

    • ผมว่ามันกระโดดไปไกลเกินทางตรรกะนะ
      องค์กรใหญ่แบบ OpenAI น่าจะมีหลายทีมวิจัยที่ทดลองหลายทิศทางพร้อมกันอยู่แล้วแน่นอน

    • ตอนที่ OpenAI หันแกนธุรกิจไปทางโฆษณาและคอนเทนต์ผู้ใหญ่ ผมก็คิดว่า "นี่มัน jump the shark แล้ว"
      ตลาดยังสะท้อนความจริงข้อนี้ไม่พอ

    • ผมคงไม่รีบใช้การประกาศผิดพลาดของพนักงานคนเดียวมาตัดสินทั้งองค์กร

  • ผมไม่แปลกใจเลยถ้าพนักงาน OpenAI ถูกขอให้ประกาศอะไรทำนองนี้ออกมาในภาษาการตลาด
    นี่ไม่ใช่ครั้งแรก เพราะก่อนหน้านี้ก็เคยมีกรณีที่อ้างว่า GPT-5 'แก้' อะไรบางอย่างได้แล้ว (ดู https://x.com/SebastienBubeck/status/1970875019803910478)
    ดูเหมือนจะมีตัวอย่างมากขึ้นเรื่อย ๆ ว่า GPT-5 สามารถแก้ปัญหาคณิตศาสตร์ย่อย ๆ ที่ยังไม่ถูกแก้ได้จริง ซึ่งมักอยู่ในระดับที่นักศึกษาปริญญาเอกแก้ได้ภายในหนึ่งหรือสองวัน
    ผลกระทบของเรื่องนี้อาจยังไม่ได้ถูกรับรู้อย่างเต็มที่

  • คิดถึงคำแนะนำที่ว่า "อย่าเชื่อสิ่งที่ตัวเองสร้างมากเกินไป"

  • วลีของ Yann LeCun ที่ว่า "Hoisted by their own GPTards" ชวนสะดุดใจมาก

    • Yann ฉลาดและเข้าใจรากของวงการนี้อย่างลึกซึ้งก็จริง แต่ช่วงนี้เขาก็มีแนวโน้มเชิงลบ และมีหลายกรณีที่จุดยืนสาธารณะของเขาผิดอย่างรวดเร็ว
      ก่อนหน้านี้ตอนพูดคุยกับนักวิจัยรุ่นใหม่ เขาเคยยืนยันหนักแน่นสองเรื่อง

      1. LLM แก้ปัญหาคณิตศาสตร์ไม่ได้: มันแค่สร้างสิ่งที่ฟังดูเหมือนใช่ แต่ไปไม่รอดกับปัญหาที่ตรวจสอบได้
      2. LLM ไม่สามารถวางแผนได้
        แต่ภายในปีเดียว ตอนนี้ AI ก็เริ่มใช้เครื่องมือได้จริง คว้ารางวัล IMO ได้ และวางแผนแบบเอเจนต์ได้จริงแล้ว
        เขายังเคยบอกอีกว่าเมื่อบทสนทนายาวขึ้น LLM จะสะสมข้อผิดพลาดไปเรื่อย ๆ จนสุดท้ายกลายเป็นผลลัพธ์ไร้สาระ แต่จาก long context รุ่นใหม่และการผสมกับ RL ก็มีหลายกรณีที่เอาชนะข้อจำกัดนี้ได้แทบหมดแล้ว
        ต่อให้เป็นอัจฉริยะ ผมก็คิดว่าความเห็นของคนคนเดียวก็ควรรับฟังแบบมีตัวกรองบ้าง
    • หรือว่าผมพลาดบริบทอะไรไป เพราะผมแปลกใจที่ Yann ใช้คำที่ดัดแปลงมาจาก 'retard'
      ปกติผมจะคาดว่าภาษาแบบนั้นเป็นสิ่งที่คนอย่าง Elon Musk ใช้มากกว่า
      เลยสงสัยว่ามันอยู่ในบริบทแบบไหน

  • หลังจากเรื่องอื้อฉาวเกี่ยวกับ circular financing มูลค่าหลายแสนล้านดอลลาร์ ผมก็รู้สึกว่าเวลาเห็นบทความเกี่ยวกับวงการ AI หรือการปั่นกระแสเกินจริงแบบประดิษฐ์ขึ้นมา ก็ไม่มีอะไรทำให้แปลกใจได้อีกแล้ว