- นักวิจัย OpenAI ได้ประกาศเรื่องการอ้างว่า GPT-5 แก้ ปัญหา Erdős แล้ว และเมื่อถูกวิพากษ์วิจารณ์จากชุมชนและผู้มีบทบาทในอุตสาหกรรม จึงถูกถอนกลับไปอย่างรวดเร็ว
- คำกล่าวดังกล่าวใช้ถ้อยคำในลักษณะที่อาจตีความได้ว่า AI พบ การพิสูจน์จริงจังสำหรับปัญหาทางคณิตศาสตร์ที่เชื่อว่ายังไม่มีคำตอบกันมาหลายสิบปี โดยอิสระ
- โดยสาระแล้ว GPT-5 เพียงแสดงการค้นพบงานวิจัยเดิมซ้ำอีกครั้ง และ ไม่ได้เสนอวิธีแก้ใหม่สำหรับปัญหาที่ยังไม่เคยมีใครแก้ได้จริง
- เหตุการณ์นี้กลายเป็นปัจจัยที่เพิ่มความกังวลเรื่อง ความเชื่อถือของ OpenAI และการประกาศความสำเร็จ AI ที่ยังไม่ผ่านการยืนยันอย่างเหมาะสมในอุตสาหกรรม
- ปัจจุบันจุดเด่นที่แท้จริงของ GPT-5 คือการทำหน้าที่เป็นผู้ช่วยในการค้นคว้างานวิจัยและจัดระเบียบเอกสาร
ภาพรวมเหตุการณ์
- ล่าสุด นักวิจัย OpenAI ได้ประกาศบน X (เดิมชื่อ Twitter) ว่า GPT-5 ประสบความสำเร็จครั้งสำคัญในการ "แก้ปัญหา Erdős ที่ยังไม่ถูกแก้ 10 ข้อ" และมีความคืบหน้าเพิ่มเติมอีก 11 ข้อ
- การประกาศนี้ถูกมองว่ามีความหมายว่าทำให้เห็นว่า GPT-5 สามารถดึงเอาหลักฐานทางคณิตศาสตร์สำหรับปัญหาทาง ทฤษฎีจำนวนที่ยาก ออกมาได้ด้วยตนเอง
- นักวิจัย OpenAI หลายคนลงโพสต์ข้อความใกล้เคียงกัน โดยชี้ว่าภาพลักษณ์ใหม่นี้อาจแปลได้ว่า AI สามารถสร้าง การค้นพบทางวิทยาศาสตร์เชิงนวัตกรรม ได้
การตรวจสอบและข้อถกเถียงในชุมชน
- Thomas Bloom คณิตศาสตร์ผู้ดูแลเว็บไซต์ Erdosproblems.com ได้คัดค้านทันที โดยอธิบายว่าปัญหาที่เว็บไซต์ระบุว่า "open" ไม่ได้หมายถึงปัญหาที่ยังไม่ถูกแก้ในความจริง
- ปัญหาเหล่านั้นส่วนใหญ่เป็นแค่กรณีที่ Bloom เองยังไม่รู้คำตอบหรือยังตรวจสอบงานวิจัยก่อนหน้าไม่ครบถ้วนเท่านั้น
- GPT-5 เพียงค้นพบผลการวิจัยที่มีอยู่แล้ว และไม่ได้ค้นพบวิธีแก้ปัญหาคณิตศาสตร์ใหม่
- เมื่อข้อเท็จจริงนี้ถูกเผยแพร่ นักวิจัย OpenAI ได้ลบโพสต์หรือแก้ไขเนื้อหา
- ในชุมชนและบุคคลสำคัญ อย่างเช่น CEO ของ DeepMind Demis Hassabis เขารับว่าเป็นเรื่อง "น่าอาย" และผู้รับผิดชอบด้าน AI ของ Meta Yann LeCun ก็ชี้ว่าดูเหมือน OpenAI ถูกการโปรโมตของตนเองหลอกได้
- ทีมวิจัยยอมรับว่าได้มีความผิดพลาด และอธิบายบทบาทจริงของ GPT-5 ใหม่อีกครั้ง
ประเด็นความเชื่อถือในอุตสาหกรรมและการวิจารณ์
- เหตุการณ์นี้ขยายมุมมองว่าผ่านการเปิดเผยว่า OpenAI ขาดความน่าเชื่อถือ ในกระบวนการตรวจสอบข้อเท็จจริง
- โดยเฉพาะเมื่อคลื่นกระแสคาดหวังเกินจริงในวงการ AI ผสานกับความร้อนแรงของการลงทุนและความสนใจตามกระแสหุ้น ทำให้ความกังวลต่อการประกาศความสำเร็จที่ยังไม่ตรวจสอบยิ่งเพิ่มสูงขึ้น
- ถูกตั้งคำถามถึงเหตุผลที่นักวิจัยแนวหน้าของอุตสาหกรรมถึงทำข้ออ้างหรือตัวเลขที่น่าตื่นตะลึงแบบนี้โดยไม่ผ่านการตรวจสอบ และสะท้อนข้อกังวลต่อวัฒนธรรมภายในองค์กร
ผลลัพธ์จริงและบทบาทของ AI ในสาขาคณิตศาสตร์
- โดยเฉพาะแล้ว GPT-5 แสดงให้เห็นความมีประโยชน์ในฐานะผู้ช่วยที่ค้นหางานวิจัยและแหล่งข้อมูลที่เกี่ยวข้องสำหรับปัญหาคณิตศาสตร์ที่ซับซ้อนและใช้ศัพท์เฉพาะหลากหลาย
- นักคณิตศาสตร์ Terence Tao คาดหวังว่า AI จะช่วยลดเวลาในการค้นคว้าวรรณกรรมมหาศาลและงานค้นหาซ้ำๆ มากกว่าที่จะแก้ปัญหาที่ไม่เคยถูกแก้ล่าสุด
- มีตัวอย่างความก้าวหน้าที่เป็นอิสระบางส่วน แต่ในปัจจุบันจุดเด่นยังคงอยู่ที่การสนับสนุนด้านการค้นหาและจัดระเบียบเอกสารวิจัยอัตโนมัติ
- ในอนาคต AI เชิงสร้างสรรค์มีศักยภาพที่จะช่วยยกระดับความเร็วและการทำงานอัตโนมัติในวงการคณิตศาสตร์
- อย่างไรก็ตาม การตรวจสอบ การจัดประเภท และการบูรณาการผลลัพธ์โดยผู้เชี่ยวชาญยังคงจำเป็น
สรุป
- เหตุการณ์นี้เป็นตัวอย่างที่ชี้ชัดทั้งด้านข้อจำกัดและโอกาสเชิงอุตสาหกรรมของ AI เชิงสร้างสรรค์ รวมถึงความเสี่ยงของการโฆษณาผลการวิจัย AI อย่างเกินจริง
- ในที่สุด GPT-5 จึงถูกยืนยันอีกครั้งว่าไม่ใช่การปฏิวัติคณิตศาสตร์ต่อปัญหาที่ยังไม่เคยถูกแก้ แต่มีศักยภาพมากขึ้นในฐานะเครื่องมือเสริมในการช่วยจัดระบบเอกสารวิจัย
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เพื่อความเป็นธรรมกับทีม OpenAI ถ้ามองบริบทแล้ว ผมคิดว่าสถานการณ์นี้ไม่ได้มีเจตนาร้ายขนาดนั้น
ทวีตที่ถูกลบระบุว่า "GPT-5 แก้ปัญหา Erdös ได้ 10 ข้อ (ที่ก่อนหน้านี้ยังแก้ไม่ได้) และยังทำให้คืบหน้าได้อีก 11 ข้อ ซึ่งเป็นปัญหาที่ค้างมาหลายสิบปี"
ถ้าทวีตนี้ถูกโพสต์เดี่ยว ๆ ผมก็คงคิดว่าชวนให้เข้าใจผิด แต่ความจริงมันเป็นทวีตอ้างอิง
ต้นทางอันแรกที่ถูกอ้างอิง (https://x.com/MarkSellke/status/1979226538059931886) พูดประมาณว่า "กำลังผลักเรื่องนี้ต่อไป"
และต้นทางอันที่สองที่ทวีตนั้นอ้างอิงมาอีกที (https://x.com/SebastienBubeck/status/1977181716457701775) อธิบายว่า GPT-5 เก่งมากในการค้นวรรณกรรม จน "ไปเจอว่าปัญหา Erdos #339 ซึ่งยังถูกจัดว่าเป็นปัญหาเปิดอยู่ แท้จริงแล้วถูกแก้ไปตั้งแต่ 20 ปีก่อน"
ถ้าอ่านเธรดนี้ตามลำดับจะเป็นแบบนี้
SebastienBubeck: "GPT-5 เก่งมากในการค้นวรรณกรรม จนไปเจอคำตอบที่มีอยู่แล้ว ทำให้เหมือนกับว่าแก้ปัญหาที่คนยังคิดว่าเปิดอยู่ได้"
MarkSellke: "ตอนนี้ทำได้เพิ่มอีก 10 ข้อ"
kevinweil: "ดูผลลัพธ์เจ๋ง ๆ ที่เราทำได้สิ!"
สุดท้ายแล้วปัญหามาจากรูปแบบการอ้างอิงทวีต เพราะ kevinweil อ้างหลายชั้นจนหลุดประเด็นตั้งต้นไปว่า จริง ๆ แล้วเป็นการพบคำตอบที่มีอยู่ก่อนแล้ว ทำให้ผู้อ่านเข้าใจผิดได้แทบเลี่ยงไม่ได้
ผมว่าความผิดพลาดแบบนี้ก็พอเข้าใจได้ และกระแสวิจารณ์ก็ดูแรงเกินไปเล็กน้อย
เรื่องที่เขาไม่ได้พิจารณาบริบทของทวีตอ้างอิงที่ Weil โพสต์ให้ครบถ้วน จริง ๆ แล้ว Weil เองก็ออกมายอมรับตรง ๆ ว่าเขาเข้าใจโพสต์ของ Sellke ผิด (ดูได้ที่ https://x.com/kevinweil/status/1979270343941591525)
Sellke บอกว่า "ถูกจัดว่าเป็นปัญหาเปิด" แต่ Weil กลับพูดว่า "เป็นปัญหาที่ก่อนหน้านี้ยังแก้ไม่ได้" ซึ่งไม่เหมือนกัน
คนแรกพูดว่า "มันไปพบว่าปัญหานั้นจริง ๆ ถูกแก้ไปแล้วเมื่อ 20 ปีก่อน เลยเหมือนกับว่า 'แก้' มันได้" แต่คนที่สองกลับพูดว่า "มันแก้ปัญหา Erdös ที่ก่อนหน้านี้ยังแก้ไม่ได้ 10 ข้อ"
ผมเลยรู้สึกว่าคำว่า "ก่อนหน้านี้ยังแก้ไม่ได้" มันไม่ตรงกับบริบทจริง ๆ ใช่ไหม
ผมก็สงสัยเหมือนกันว่าตัวเองเข้าใจอะไรผิดหรือเปล่า
มันคล้ายกับตอนที่ DeepMind เผยแพร่บทความเมื่อไม่กี่เดือนก่อนว่า “ทำ matrix multiplication ได้ดีกว่า SOTA”
ตอนนั้นบอกว่า Gemini ค้นพบวิธี optimization แบบใหม่ แต่พอประกาศออกมาไม่นาน นักคณิตศาสตร์ก็ชี้ทันทีว่าวิธีนั้นมีอยู่ในงานวิจัยเมื่อ 30-40 ปีก่อนแล้ว และก็มีโอกาสสูงมากว่าข้อมูลนั้นอยู่ในชุดข้อมูลฝึกของ Gemini ด้วย
สำหรับคำกล่าวที่ว่า "GPT-5 เก่งมากในการค้นวรรณกรรม จนไป 'แก้' ปัญหาที่มีคำตอบอยู่แล้วได้"
ผมคิดว่านี่คือ survivorship bias
ในความเป็นจริง GPT-5 ก็ล้มเหลวกับการค้นหาที่ค่อนข้างง่ายบ่อยมาก
คุณต้องรู้อยู่แล้วพอสมควรว่าผลลัพธ์นั้นถูกหรือไม่ หรือไม่ก็ต้องตรวจสอบเอง
มันให้ความรู้สึกเหมือนโยนลูกเต๋า 1000 ครั้ง แล้วเอาแต่โพสต์อวดทุกครั้งที่ออก double six
แบบนั้นก็ไม่ได้แปลว่าผมเป็นคนโยนลูกเต๋าเก่งที่สุด เหมือนกัน
มีการพูดถึงการโต้แย้งทันทีจาก Thomas Bloom นักคณิตศาสตร์ผู้ดูแล erdosproblems.com
เขาเน้นว่าคำว่า "open" ในที่นี้ไม่ได้แปลว่า "ยังไม่มีใครแก้ได้ (unsolved)" แต่แปลว่า "ผมไม่รู้คำตอบ"
ผมรู้สึกว่าการที่นักคณิตศาสตร์นิยามคำว่า 'open' แบบนี้มันแปลก ๆ
ก็เหมือนกับที่ผมไม่เรียกโจทย์ในตำราที่ตัวเองไม่รู้คำตอบว่าเป็น 'open question'
ขอโต้แย้งคำกล่าวที่ว่า "GPT-5 มีประโยชน์ในฐานะเครื่องมือช่วยทบทวนวรรณกรรม"
สำหรับผม มันผลิตผลลัพธ์ที่ดูน่าเชื่อมากแต่ปลอมออกมาล้วน ๆ
ถ้ามีใครพอใจกับผลลัพธ์แบบนั้นได้ ชีวิตเขาคงง่ายกว่าผมมาก
ผมเคยต้องหางานเอกสารอย่างพวกบทความคณิตศาสตร์เชิงวิศวกรรม แล้วคุ้ยห้องสมุดอยู่หลายชั่วโมงก่อนจะยอมฝากความหวังสุดท้ายไว้กับแชตบอต
แต่สุดท้ายผลที่ได้ก็ดูแปลกจนต้องเสียเวลาไล่ตรวจอีกนาน แล้วก็เหลือแต่ความผิดหวังว่า "มันจะเป็นไปได้จริงได้ยังไง"
และผมก็รู้สึกว่าประสบการณ์แบบนี้ไม่ได้เกิดกับผมคนเดียว
ถ้าผมใช้มันทำ literature search แบบลงลึกบ่อย ๆ GPT จะสร้างแหล่งอ้างอิงหลอนขึ้นมาประมาณ 50% ของเวลา
ถ้าเป็นรีวิวระดับสูง ๆ อัตราหลอนจะอยู่ราว 5%
ใน 50% ที่เป็นแหล่งจริง ครึ่งหนึ่งคือบทความที่ผมคุ้นอยู่แล้ว อีกครึ่งเป็นบทความที่ไม่คุ้น
จุดดีจริง ๆ คือมันมักจะช่วยเจอบทความที่หาได้ยากซึ่งผมหาไม่เจอมาก่อนจริง ๆ (รวมถึงที่หาไม่เจอด้วย Google Scholar)
โดยเฉพาะงานที่เกี่ยวข้องจากสาขาอื่น หรือบทความสรุปย่อที่ไม่ค่อยมีคนอ้างถึง ทำให้ได้เจอแหล่งข้อมูลที่หลากหลายมาก
แม้ 75% ของผลทั้งหมดจะใช้ไม่ได้หรือเป็นภาพหลอน แต่อีก 25% ที่เหลือมีคุณค่ามากจนทำให้มันยังมีประโยชน์มากในทางปฏิบัติ
การฟันธงว่า 'มันไม่มีประโยชน์เลย' ก็ดูเกินจริงไป
GPT สามารถค้นผ่านข้อความ 500,000 คำได้ภายในไม่กี่นาที พร้อมให้ทั้งสรุป คำตอบแบบละเอียด และหลักฐานประกอบแต่ละข้ออ้าง
แน่นอนว่าคุณไม่ควรเชื่อสรุปนั้นแบบตรง ๆ และข้อมูลสำคัญก็ต้องกดเข้าไปตรวจสอบที่มาเองเสมอ
ถึงอย่างนั้นมันก็ยังเป็นเครื่องมือค้นหาที่ยอดเยี่ยมและเป็นตัวเร่งผลิตภาพอย่างมาก
ผมนึกชื่อไม่ออก แต่มีหลักการแบบนี้อยู่
เวลาคนอ่านข่าวหนังสือพิมพ์เกี่ยวกับเรื่องที่ตัวเองรู้ดี จะมองเห็นช่องโหว่เต็มไปหมดและคิดว่า "นี่หลุดมาเป็นข่าวได้ยังไง"
แต่พอเป็นเรื่องที่ตัวเองไม่รู้ ก็กลับเชื่ออย่างไม่วิจารณ์
ผมรู้สึกว่ากับ ChatGPT ก็เกิดความเชื่อแบบไม่ตั้งคำถามลักษณะเดียวกัน
ที่จริงแทนที่จะพยายามฝืนใช้แชตบอตอย่าง GPT-5 เพื่อค้นหา/ทบทวนวรรณกรรม อาจจะดีกว่าถ้าใช้ semantic search engine ที่ทรงพลังจริง ๆ
พอคุณให้แชตบอตสรุปหรือให้คำตอบ ภาพหลอนก็จะติดมาด้วยเสมอ
แต่ถ้าเป็นการค้นเอกสารด้วย LLM embeddings อย่างน้อยผลลัพธ์เองก็ไม่มีความเสี่ยงจะเป็นภาพหลอนเลย และอาจเป็นวิธีที่ดีกว่าในการหาบทความที่ Google/Bing แบบเดิมหาไม่เจอ
ถ้ามีบริการแบบนั้นอยู่แล้วแล้วผมไม่รู้เอง ก็ต้องเผื่อไว้ด้วย
ถ้าใครสนใจเครื่องมือทบทวนวรรณกรรม ผมขอแนะนำแพลตฟอร์มสาธารณะสำหรับจัดระเบียบวรรณกรรมที่ผมทำไว้ให้เพื่อนสมัยเรียนบัณฑิตศึกษา
มันใช้ hierarchical mixture models เพื่อจัดการการค้นหาจำนวนมากและเครือข่ายการอ้างอิง
ตัวอย่างการใช้งาน: https://platform.sturdystatistics.com/deepdive?search_type=external&q=https://www.semanticscholar.org/paper/6052486bc9144dc1730c12bf35323af3792a1fd0&engine=cn_all
ยิ่งดูแย่เข้าไปอีกเมื่อประเด็นของ OpenAI โผล่มาในสัปดาห์เดียวกับที่ DeepMind แสดงให้เห็นถึงความก้าวหน้าจริงในการใช้ AI เพื่อการรักษามะเร็ง
มันทำให้นึกถึงคำที่เจ้านายเก่าผมเคยพูดไว้ว่า "อย่าเป็นคนที่ทำให้ต้องออกนโยบายใหม่"
OpenAI คงต้องเปลี่ยนนโยบายการสื่อสารในอนาคต
ผมคิดว่าพนักงาน OpenAI น่าจะรู้ความสามารถจริงของโมเดลตัวเองค่อนข้างดี แต่ถึงจะไม่ใช่ เราก็ควรระวังเสมอกับทุกคำกล่าวอ้างบนอินเทอร์เน็ต
ผมมองว่าวัฒนธรรมแบบนี้แหละที่ทำให้เกิดสภาพแวดล้อมแห่งการโฆษณาเกินจริงเรื่อง AI อย่างทุกวันนี้
สิ่งที่เหตุการณ์นี้เผยให้เห็นคือความจริงอันน่าเศร้าว่า OpenAI ไม่ได้ลงทุนกับปัญหาคณิตศาสตร์ที่ยังไม่ถูกแก้อย่างจริงจัง
ผมว่ามันกระโดดไปไกลเกินทางตรรกะนะ
องค์กรใหญ่แบบ OpenAI น่าจะมีหลายทีมวิจัยที่ทดลองหลายทิศทางพร้อมกันอยู่แล้วแน่นอน
ตอนที่ OpenAI หันแกนธุรกิจไปทางโฆษณาและคอนเทนต์ผู้ใหญ่ ผมก็คิดว่า "นี่มัน jump the shark แล้ว"
ตลาดยังสะท้อนความจริงข้อนี้ไม่พอ
ผมคงไม่รีบใช้การประกาศผิดพลาดของพนักงานคนเดียวมาตัดสินทั้งองค์กร
ผมไม่แปลกใจเลยถ้าพนักงาน OpenAI ถูกขอให้ประกาศอะไรทำนองนี้ออกมาในภาษาการตลาด
นี่ไม่ใช่ครั้งแรก เพราะก่อนหน้านี้ก็เคยมีกรณีที่อ้างว่า GPT-5 'แก้' อะไรบางอย่างได้แล้ว (ดู https://x.com/SebastienBubeck/status/1970875019803910478)
ดูเหมือนจะมีตัวอย่างมากขึ้นเรื่อย ๆ ว่า GPT-5 สามารถแก้ปัญหาคณิตศาสตร์ย่อย ๆ ที่ยังไม่ถูกแก้ได้จริง ซึ่งมักอยู่ในระดับที่นักศึกษาปริญญาเอกแก้ได้ภายในหนึ่งหรือสองวัน
ผลกระทบของเรื่องนี้อาจยังไม่ได้ถูกรับรู้อย่างเต็มที่
คิดถึงคำแนะนำที่ว่า "อย่าเชื่อสิ่งที่ตัวเองสร้างมากเกินไป"
[ดื่มฉี่สองรอบ]
วลีของ Yann LeCun ที่ว่า "Hoisted by their own GPTards" ชวนสะดุดใจมาก
Yann ฉลาดและเข้าใจรากของวงการนี้อย่างลึกซึ้งก็จริง แต่ช่วงนี้เขาก็มีแนวโน้มเชิงลบ และมีหลายกรณีที่จุดยืนสาธารณะของเขาผิดอย่างรวดเร็ว
ก่อนหน้านี้ตอนพูดคุยกับนักวิจัยรุ่นใหม่ เขาเคยยืนยันหนักแน่นสองเรื่อง
แต่ภายในปีเดียว ตอนนี้ AI ก็เริ่มใช้เครื่องมือได้จริง คว้ารางวัล IMO ได้ และวางแผนแบบเอเจนต์ได้จริงแล้ว
เขายังเคยบอกอีกว่าเมื่อบทสนทนายาวขึ้น LLM จะสะสมข้อผิดพลาดไปเรื่อย ๆ จนสุดท้ายกลายเป็นผลลัพธ์ไร้สาระ แต่จาก long context รุ่นใหม่และการผสมกับ RL ก็มีหลายกรณีที่เอาชนะข้อจำกัดนี้ได้แทบหมดแล้ว
ต่อให้เป็นอัจฉริยะ ผมก็คิดว่าความเห็นของคนคนเดียวก็ควรรับฟังแบบมีตัวกรองบ้าง
หรือว่าผมพลาดบริบทอะไรไป เพราะผมแปลกใจที่ Yann ใช้คำที่ดัดแปลงมาจาก 'retard'
ปกติผมจะคาดว่าภาษาแบบนั้นเป็นสิ่งที่คนอย่าง Elon Musk ใช้มากกว่า
เลยสงสัยว่ามันอยู่ในบริบทแบบไหน
หลังจากเรื่องอื้อฉาวเกี่ยวกับ circular financing มูลค่าหลายแสนล้านดอลลาร์ ผมก็รู้สึกว่าเวลาเห็นบทความเกี่ยวกับวงการ AI หรือการปั่นกระแสเกินจริงแบบประดิษฐ์ขึ้นมา ก็ไม่มีอะไรทำให้แปลกใจได้อีกแล้ว