บทวิเคราะห์ O1 ของ Terence Tao

(mathstodon.xyz)

2 คะแนน โดย GN⁺ 2024-09-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

นักคณิตศาสตร์ Terence Tao ทดลองใช้โมเดลตระกูล GPT รุ่นใหม่ของ OpenAI คือ o1 กับโจทย์คณิตศาสตร์เชิงวิจัย และประเมินว่าแม้จะมีความสามารถมากกว่าโมเดลก่อนหน้า แต่ยังไม่เพียงพอสำหรับปัญหาวิจัยระดับแนวหน้า
สำหรับคำถามคณิตศาสตร์ที่คลุมเครือ โมเดลค้นพบทฤษฎีบทที่เกี่ยวข้องคือ Cramer’s theorem และให้คำตอบที่น่าพอใจ ซึ่งดีขึ้นอย่างชัดเจนจากคำตอบแบบหลอนของ GPT รุ่นก่อน
ในปัญหา complex analysis ที่ยาก โมเดลไปถึงวิธีแก้ที่ถูกต้องได้ก็ต่อเมื่อมีคำใบ้และการชี้นำจำนวนมาก แสดงให้เห็นว่า การสร้างไอเดียหลัก ยังเป็นจุดอ่อน
การทดลอง formalization ด้วย Lean มีการแยกย่อยปัญหาอย่างสมเหตุสมผล แต่ข้อมูลเกี่ยวกับ Lean และ Mathlib ล้าสมัย จึงยังมีปัญหาโค้ดผิดพลาดและความน่าเชื่อถือของการเรียกใช้ไลบรารี
Tao มองว่า AI อาจเพิ่มผลิตภาพของงานวิจัยคณิตศาสตร์ได้อย่างมาก เมื่อให้มันเติมงานย่อยที่น่าเบื่อและตรวจสอบได้ก่อน และผสานกับผู้ช่วยพิสูจน์แบบเป็นทางการ

การประเมินโดยรวมต่อ GPT-o1

โมเดลตระกูล GPT รุ่นใหม่ของ OpenAI คือ GPT-o1 ทำขั้นตอนการให้เหตุผลเบื้องต้นก่อนรัน LLM
เวอร์ชันที่ Tao เข้าถึงเป็นเวอร์ชันต้นแบบ และในคำตอบภายหลังเขาระบุว่าสิ่งที่ทดลองเป็นหลักคือโมเดลที่ปัจจุบันเรียกว่า preview version
โดยรวมแล้วมีความสามารถมากกว่ารุ่นก่อน ๆ แต่ยังลำบากกับโจทย์คณิตศาสตร์วิจัยระดับล้ำหน้าที่สุด

การทดลอง 1: คำถามคณิตศาสตร์ที่คลุมเครือและ Cramer’s theorem

การทดลองแรกเป็นการทำซ้ำการทดลองที่เคยทำในอดีต
คำถามเป็นโจทย์คณิตศาสตร์ที่เขียนไว้อย่างคลุมเครือ ซึ่งต้องค้นหาทฤษฎีบทที่เหมาะสมในวรรณกรรม คือ Cramer’s theorem จึงจะแก้ได้
GPT รุ่นก่อนพูดถึงแนวคิดที่เกี่ยวข้องบางส่วน แต่รายละเอียดเป็นคำตอบที่แทบไร้ความหมายและใกล้เคียงกับการหลอน
โมเดลใหม่ระบุ Cramer’s theorem ได้ และให้คำตอบที่ Tao เห็นว่าน่าพอใจอย่างสมบูรณ์

การทดลอง 2: ปัญหา complex analysis ที่ยาก

การทดลองที่สองคือการนำ ปัญหา complex analysis ที่ยาก ซึ่งก่อนหน้านี้เคยขอให้ GPT-4 ช่วยเขียนพิสูจน์ ไปให้โมเดลใหม่ลองทำ
ผลลัพธ์ดีกว่าโมเดลก่อนหน้า แต่ยังไม่ถึงความคาดหวัง
- เมื่อให้คำใบ้และการชี้นำจำนวนมาก จึงสามารถไปถึงวิธีแก้ที่ถูกต้องและเขียนได้ดี
- ไม่สามารถสร้างไอเดียแนวคิดหลักได้ด้วยตัวเอง
- มีข้อผิดพลาดที่ไม่ใช่เรื่องเล็กน้อยเกิดขึ้นด้วย
Tao มองว่าประสบการณ์นี้คล้ายกับการกำกับ “ซิมูเลชันแบบสถิตของนักศึกษาบัณฑิตศึกษาระดับธรรมดาที่ไม่ได้ไร้ความสามารถโดยสิ้นเชิง”
เนื่องจากโมเดลก่อนหน้าใกล้เคียงกับ “ซิมูเลชันแบบสถิตของนักศึกษาบัณฑิตศึกษาที่ไร้ความสามารถจริง ๆ” โมเดลครั้งนี้จึงถูกประเมินว่าเป็นระดับที่ดีขึ้น
เขามองว่า หากประสิทธิภาพดีขึ้นอีกหนึ่งหรือสองรอบ และผสานกับเครื่องมืออย่าง แพ็กเกจพีชคณิตคอมพิวเตอร์ และ ผู้ช่วยพิสูจน์ ก็อาจไปถึงระดับ “ซิมูเลชันแบบสถิตของนักศึกษาบัณฑิตศึกษาที่มีความสามารถ” ได้
เมื่อถึงระดับนั้น ก็อาจมีประโยชน์อย่างมากแม้กับงานระดับวิจัย

การทดลอง 3: งาน formalization ด้วย Lean

การทดลองที่สามคือให้โมเดลใหม่เริ่มงานใน Lean เพื่ออนุมาน prime number theorem รูปแบบหนึ่งจาก prime number theorem อีกรูปแบบหนึ่ง
ข้อกำหนดไม่ใช่การพิสูจน์เอง แต่เป็นการแบ่งปัญหาออกเป็นเลมมาย่อย และ formalize ประพจน์เหล่านั้น
ผลลัพธ์ดูมีความหวัง
- โมเดลเข้าใจงานได้ดี
- แยกย่อยปัญหาเบื้องต้นอย่างสมเหตุสมผล
ข้อจำกัดก็ชัดเจนเช่นกัน
- ข้อมูลในชุดฝึกขาดข้อมูลล่าสุดของ Lean และไลบรารีคณิตศาสตร์
- โค้ดมีข้อผิดพลาดหลายจุด
Tao มองว่า หากโมเดลระดับนี้ถูก fine-tune ให้เฉพาะทางกับ Lean และ Mathlib และผสานเข้ากับ IDE ก็อาจมีประโยชน์มากในโครงการ formalization

การทดลองด้าน semantic search และการสร้างกลยุทธ์เชิงสร้างสรรค์

ในปี 2010 Tao เคยหาคำเรียกที่ถูกต้องของ “multiplicative integral” ไม่เจอ จึงถามใน MathOverflow และได้รับคำตอบที่น่าพอใจจากผู้เชี่ยวชาญมนุษย์
เมื่อถามคำถามเดียวกันกับ o1 โมเดลให้คำตอบที่สมบูรณ์แบบ
อย่างไรก็ตาม โพสต์ MathOverflow ดังกล่าวอาจรวมอยู่ในข้อมูลฝึกของโมเดล จึงอาจไม่ใช่การประเมินความสามารถ semantic search ที่แม่นยำ
ถึงอย่างนั้น ในคำถาม semantic search บางแบบ โมเดลก็แสดงระดับทัดเทียมกับไซต์ถามตอบในแง่ของคำตอบคุณภาพสูง
ในอีกการทดลองหนึ่ง Tao ให้ส่วนต้นของบทความบล็อกล่าสุดของเขา และให้โมเดลหาส่วนที่ขาดหายไปซึ่งจะเปลี่ยนความคืบหน้าบางส่วนที่มีอยู่ของปัญหา Erdos ให้เป็นวิธีแก้ที่สมบูรณ์
ผลลัพธ์ค่อนข้างน่าผิดหวัง
- โมเดลเสนอแนวทางเดียวกับกลยุทธ์ของงานวิจัยล่าสุดที่ถูกเขียนซ้ำไว้ในบทความบล็อกแล้ว
- ไม่สามารถเสนอการดัดแปลงกลยุทธ์นั้นในเชิงสร้างสรรค์ได้
Tao มองว่าเครื่องมือ LLM มีความสามารถอยู่บ้างในการสร้างกลยุทธ์เชิงสร้างสรรค์แบบสุ่ม แต่ด้านนี้ยังอ่อนอยู่

การแก้ไขเรื่องอุปมาเทียบกับนักศึกษาบัณฑิตศึกษา

Tao แก้ไขว่า ในการประเมินความสามารถของเครื่องมือ AI เขาอาจทำให้เกิดความรู้สึกผิดและอาจเป็นอันตรายว่า มนุษย์ที่เป็นนักศึกษาบัณฑิตศึกษาสามารถถูกจัดระดับ “ความสามารถ” แบบสถิตและมิติเดียวได้
เขามองว่าความสามารถในการมีส่วนร่วมกับโครงการวิจัยที่มีอยู่เป็นเพียงหนึ่งในหลายแง่มุมของการเรียนระดับบัณฑิตศึกษา และเป็นส่วนที่ค่อนข้างเล็ก
นักศึกษาที่โดดเด่นด้านความคิดสร้างสรรค์ ความเป็นอิสระ ความอยากรู้อยากเห็น ความสามารถในการอธิบาย สัญชาตญาณ ความเชี่ยวชาญ จริยธรรมการทำงาน ความสามารถในการจัดการ และทักษะทางสังคม อาจกลายเป็นนักคณิตศาสตร์ที่ประสบความสำเร็จและมีอิทธิพลมากกว่านักศึกษาที่เก่งงานเทคนิคที่ได้รับมอบหมาย
นักศึกษามนุษย์เรียนรู้และเติบโตระหว่างการศึกษา และด้านที่เคยยากในตอนแรกก็อาจเชี่ยวชาญได้ในอีกไม่กี่ปีต่อมา
ในทางกลับกัน เครื่องมือ AI สมัยใหม่สามารถสะท้อนฟีดแบ็กบางส่วนในคำตอบได้ แต่โมเดลแต่ละตัวไม่ได้เติบโตระยะยาวจริง ๆ ดังนั้นจึงเหมาะสมกว่าที่จะประเมินด้วยตัวชี้วัดประสิทธิภาพแบบสถิต
Tao ขอโทษที่ใช้กรอบตัดสินนักศึกษามนุษย์แบบ mindset ตายตัว ซึ่งไม่เหมาะสม

ประโยชน์ในฐานะเครื่องมือช่วยวิจัยและอัตราส่วนต้นทุน

เกณฑ์เปรียบเทียบของ Tao คือระดับที่เครื่องมือสามารถช่วยงานย่อยในโครงการวิจัยคณิตศาสตร์ที่ซับซ้อนซึ่งนำโดยนักคณิตศาสตร์ผู้เชี่ยวชาญได้
นักศึกษาบัณฑิตศึกษาที่มีความสามารถสามารถสร้างผลงานที่มีค่ามากกว่าความพยายามสุทธิที่ต้องใช้เพื่อปรับตัวเข้ากับโครงการและกำกับดูแล
เครื่องมือรุ่นล่าสุดยังต้องใช้ความพยายามในการ prompt และตรวจสอบอย่างเหมาะสมมากกว่าความพยายามที่ได้จากผลลัพธ์ที่มีประโยชน์
- Tao อธิบายอัตราส่วนปัจจุบันไว้ราว 2x~5x
เขามองว่าไม่มีเหตุผลที่จะตัดความเป็นไปได้ที่อัตราส่วนนี้จะลดลงต่ำกว่า 1x ภายในไม่กี่ปี
หากอัตราส่วนลดต่ำกว่า 1x ก็อาจกระตุ้นให้เกิดการนำเครื่องมือไปใช้ในวงกว้างขึ้นในสาขานั้น
สำหรับงานย่อยเฉพาะบางอย่าง เขามองว่าอัตราส่วนต่ำกว่า 1 แล้ว
- semantic search
  - การแปลงรูปแบบข้อมูล
  - การสร้างโค้ดคำนวณเชิงตัวเลขเพื่อช่วยสำรวจงานวิจัยคณิตศาสตร์

จุดที่ยังขาดใน Lean และ Mathlib

จากการทดลองของ Tao สิ่งที่ยังขาดที่สุดเพื่อให้มีประโยชน์ในฐานะเครื่องมือ formalization คือวิธีผูกผลลัพธ์เข้ากับ Lean และ Mathlib รุ่นล่าสุด
Lean และ Mathlib ยังคงพัฒนาเปลี่ยนแปลงทุกเดือน
ดูเหมือนว่าโมเดลจะถูกฝึกกับ Lean และ Mathlib หลายเวอร์ชันที่เก่ากว่าหนึ่งปีขึ้นไป และเขามองว่าเวอร์ชันเหล่านี้ไม่ได้เข้ากันได้ 100% ระหว่างกัน
ผลคือไวยากรณ์และการเรียกใช้ไลบรารีที่โมเดลสร้างขึ้นไม่น่าเชื่อถือ
แต่ก็ใกล้พอที่ผู้ที่รู้สถานะปัจจุบันของ Lean และ Mathlib จะสามารถแก้ข้อผิดพลาดเล็ก ๆ ส่วนใหญ่ด้วยมือได้

ระบบอัตโนมัติที่ตรวจสอบได้และผู้ช่วยพิสูจน์แบบเป็นทางการ

กรณีใช้งานหลักที่ Tao คิดไว้ คือการแก้ปัญหาที่โดยหลักการแล้วนักคณิตศาสตร์สามารถทำได้ด้วยงานมือจำนวนมาก ให้เร็วขึ้น
เป็นวิธีที่ AI เติมขั้นตอนน่าเบื่อก่อน แล้วมนุษย์ผู้เชี่ยวชาญตรวจทานผลลัพธ์
ในกรณีนี้ แม้ AI จะไม่ได้แสดงความคิดริเริ่มอย่างแท้จริง ก็สามารถเพิ่มผลิตภาพได้อย่างมาก
เขามองว่าอาจทำให้โครงการวิจัยขนาดใหญ่กว่าที่ทำได้ในปัจจุบันเป็นไปได้ด้วย
หากเครื่องมือเหล่านี้ผสานกับ ผู้ช่วยพิสูจน์แบบเป็นทางการ ก็สามารถประเมินความสอดคล้องของงานที่ต้องให้การพิสูจน์ประพจน์ทางคณิตศาสตร์ได้โดยอัตโนมัติด้วยความเชื่อมั่นสูง
Tao มองว่างานประเภทนี้ครอบคลุมส่วนสำคัญของงานระดับวิจัย

แนวโน้มระบบนิเวศเครื่องมือ AI สำหรับงานวิจัยคณิตศาสตร์

Tao คาดหวังว่าจะมี ระบบนิเวศของเครื่องมือ AI ที่จัดการงานวิจัยหลากหลายประเภทเกิดขึ้น
งานเหล่านี้รวมถึงการค้นวรรณกรรม การทำ formalization ของบทพิสูจน์ และการแก้ปัญหาย่อยสั้น ๆ
ปัจจุบัน LLM อเนกประสงค์ขนาดใหญ่มากแบบปิดได้รับความสนใจมากที่สุด แต่วันหนึ่งต้นทุนส่วนเพิ่มของข้อมูลและการคำนวณที่จำเป็นสำหรับการปรับปรุงเพิ่มเติมหรือ fine-tuning สำหรับการใช้งานเฉพาะอาจแพงเกินไป
โมเดลและชุดข้อมูลที่เบากว่าและเป็นโอเพนซอร์ส ซึ่งชุมชนวิจัยพัฒนาขึ้นตามความต้องการเฉพาะของตน ก็อาจมีบทบาทสำคัญเช่นกัน
เขามองว่าโมเดลอเนกประสงค์อาจทำหน้าที่เป็นอินเทอร์เฟซที่เป็นมิตรต่อผู้ใช้สำหรับประสานงานเครื่องมือเฉพาะทางที่แคบกว่า

1 ความคิดเห็น

GN⁺ 2024-09-15

ความคิดเห็นจาก Hacker News

ถ้า GPT ถูกปรับจูนให้เข้ากับ ผู้ช่วยพิสูจน์ Lean มากขึ้นเหมือนกับ Python ก็น่าจะมีประโยชน์มากขึ้นในคณิตศาสตร์ระดับงานวิจัย
ผมทำงานในสาขาที่เกี่ยวข้องกับ OR และ ChatGPT 4o ดูดซับวรรณกรรม OR มาเพียงพอจนสามารถสร้าง การจัดรูปแบบปัญหา mixed-integer programming (MIP) ที่ใช้ได้ค่อนข้างดีสำหรับ “รูปแบบปัญหา” หลายแบบ
ตัวอย่างเช่น ถ้าให้ปัญหาเชิงตรรกะแบบ “อยากใส่ไอเท็ม i ชิ้นลงในบัคเก็ต n ใบตามคะแนน โดยให้เติมแต่ละบัคเก็ตตามลำดับ” มันก็จะพ่นการจัดรูปแบบทางคณิตศาสตร์ที่ใช้ได้จริงออกมา และโดยมากแก้เพิ่มนิดหน่อยก็พอ
มันยังเตือนถึงการจัดรูปแบบที่อ่อนซึ่งตรรกะอาจพังได้ด้วย จึงมีประโยชน์มากในการหลีกเลี่ยงกับดัก
แน่นอนว่าถ้าไม่เข้าใจการปรับให้เหมาะสมแบบ MIP ก็ใช้ในลักษณะนี้ได้ยาก และต้องแบ่งปัญหาให้เล็กลงเพื่อให้ GPT ให้เหตุผลทีละขั้นได้ แต่สำหรับคนที่ทำเป็น ค่าบริการเดือนละ 20 ดอลลาร์ก็คุ้มค่าอย่างเต็มที่
กรณีที่คนใน HN บ่นว่า LLM แบบเสียเงิน/คุณภาพดีอย่าง Sonnet 3.5 และ GPT-4o ไร้ประโยชน์ ส่วนใหญ่ดูเหมือนจะเป็นเพราะไม่รู้วิธีใช้ให้ดึงจุดแข็งของ LLM ออกมา หรือคาดหวังเวทมนตร์แบบตอบครั้งเดียวจบเพราะกระแสโฆษณาเกินจริง หรือไม่ก็ไม่เข้ากับสาขาของตัวเองจริง ๆ
สำหรับคนที่ใช้ประโยชน์จากจุดแข็งของ LLM และตรวจสอบข้อผิดพลาดได้ มันกลายเป็นแรงทดในงานที่มากพอสมควร
- เห็นด้วยเต็มที่เรื่องความมีประโยชน์
  HN และอินเทอร์เน็ตโดยรวมกลายเป็นทะเลแห่งการกดคุณค่ากับการคุยเรื่อยเปื่อยแบบสะท้อนกลับว่า LLM “ไร้ประโยชน์” แต่ในโลกจริง ผมไม่ได้เขียนโค้ดเองสักบรรทัดมาหลายสัปดาห์แล้ว
  ผมระบุสิ่งที่ต้องการเป็นย่อหน้า ให้มันช่วยนำทางรอบกับดัก และได้โค้ดที่ทำงานผ่านลูปวนซ้ำง่าย ๆ
  นี่เป็น ทักษะที่ต้องเรียนรู้ โดยสมบูรณ์ และตัวโมเดล โดยเฉพาะเครื่องมือรอบ ๆ มัน ได้มาถึงระดับพื้นฐานที่จำเป็นแล้ว
  แค่ตั้งใจเรียนรู้ให้จริงจังและฝึกวิธีทำงาน ก็จะเข้าสู่โลกที่มีผลิตภาพสูงขึ้นมาก
  แก้ไข: https://aider.chat/ + 3.5 Sonnet แบบเสียเงิน
- ผมก็ทำงานใกล้เคียงกับ OR แต่กับการให้ 4o สร้าง การจัดรูปแบบ MIP นั้นโชคไม่ดีเท่าไร
  มันให้คำตอบที่ดูน่าเชื่อถือและคำอธิบายคณิตศาสตร์ที่จับต้องไม่ได้ แต่สมการใช้ไม่ได้ และการให้เหตุผลก็ไม่เชื่อมกัน
  เหมือนนั่งเรียนคณิตศาสตร์จากอาจารย์ที่พิสูจน์อะไรแปลก ๆ จนคิดว่าตัวเองโง่หรือเปล่า แล้วสุดท้ายพบว่าอาจารย์เป็นผู้ป่วยสมองเสื่อมที่หนีออกมาและพูดเพ้อเจ้อมาตั้งแต่แรก
  เมื่อวานผมให้ o1 ตรวจว่ามี simple path จาก s ไป t ที่ผ่าน v หรือไม่โดยใช้ maximum flow แต่มันเสนออัลกอริทึมที่ดูน่าเชื่อมากแต่พังตั้งแต่รากฐาน
  วิธีแก้ของผมนำเทคนิคบางส่วนจากความพยายามที่ล้มเหลวนั้นมาใช้ แต่แม้จะให้คำใบ้หลายครั้ง มันก็ยังหาคำตอบที่ใช้ได้ไม่ได้ เอาแต่พยายามหา flow จาก s→t และไม่ตระหนักว่า v→{s,t} คือประเด็นสำคัญ
  การตรวจสอบเหตุผลนั้นก็เหนื่อยทางใจมาก
  คำตอบที่ผิดอย่างละเอียดอ่อนตรวจจับและให้โทษยากกว่าคำตอบที่ผิดอย่างชัดเจน จนถึงขั้นสงสัยว่า RLHF อาจคัดเลือกไปในทิศทางที่ทำให้การให้เหตุผลพร่าเลือนหรือเปล่า
- ตอนนี้ผมสอนวิชา MIP อยู่ เลยลองถาม 4o ด้วยคำถามบางข้อที่ให้นักศึกษา
  มันให้ บล็อกพื้นฐาน อย่างวิธีทำ x!=y หรือวิธีทำปัญหา knapsack ได้ แต่พอถามอะไรที่น่าสนใจแม้เพียงเล็กน้อยและไม่ใช่การท่องตำรา ดูเหมือนว่าไม่มีโมเดลไหนตอบถูก
  อยากรู้ว่าคุณทำอย่างไรถึงได้คำตอบที่ดีกว่า
  บางทีอาจเป็นเพราะทันทีที่ผมเห็นว่าคำตอบผิด ผมก็ทิ้งแล้วเขียนเอง
  ที่จริงเมื่อกี้เพิ่งให้มันจัดรูปแบบและอธิบาย x!=y เมื่อ x,y เป็นตัวแปรจำนวนเต็มในช่วง {1..9} มันให้ข้อจำกัดถูก แต่คำอธิบายผิด
- ผมก็ทำงาน OR เหมือนกัน แต่กับ การปรับให้เหมาะสมแบบ MILP ผมเจอประสบการณ์ตรงกันข้ามโดยสิ้นเชิง
  ผลงานวิจัยก็คล้ายกัน โดยบทความสำรวจขนาดใหญ่เมื่อต้นปีนี้บอกว่า LLM มักตอบโจทย์ในตำราได้ถูก แต่ยิ่งความซับซ้อนและความใหม่เพิ่มขึ้นก็ยิ่งไร้ประโยชน์
  ผลลัพธ์อย่างดีก็เป็นคำตอบสำเร็จรูป และพอเข้าสู่งานรายละเอียดกลับกลายเป็นกับดักแนบเนียนที่ทำให้เข้าใจผิด
  ลองถาม LLM ว่าข้อจำกัดเฉพาะตัวหนึ่งทำอะไร หรือที่แย่กว่านั้น ให้มันอธิบายโมเดลคณิตศาสตร์ของ syntax sugar เฉพาะทางของ CPLEX แบบ proprietary ดูสิ มันจะหลอนทั้งคณิตศาสตร์ ไวยากรณ์ และคำอธิบาย
- คำโต้กลับที่ดีต่อการด่า LLM แบบสะท้อนกลับคือ “นั่นไม่ใช่คำพูดแบบที่ นกแก้วเชิงสถิติ จะพูดหรอกหรือ?”
  คนบางส่วนใน HN เป็นพวกที่จะเมินสุนัขพูดได้ที่เขียนโค้ด C เพียงเพราะมีบั๊ก buffer overflow
ลองจินตนาการว่าย้อนกลับไปปี 2019 แล้วได้อ่านบทความที่บอกว่าประสบการณ์การโต้ตอบกับอะไรอย่าง Alexa นั้น “ใกล้เคียงคร่าว ๆ กับการให้คำแนะนำแก่นักศึกษาปริญญาโท/เอกระดับธรรมดาแต่ไม่ได้ไร้ความสามารถโดยสิ้นเชิง”
สำหรับ ความต่างในเวลาเพียง 5 ปี ถือว่าน่าทึ่งมาก
- งานแรกที่ AI น่าจะลดจำนวนลงอย่างมากคือการเขียนโปรแกรม
  โดยเฉพาะ individual contributor ที่เก่งแต่ทำงานทางไกล ดูจะมีความเสี่ยง และในฟอรัมนี้มีผลประโยชน์ทับซ้อนอย่างชัดเจน
- จุดสำคัญน่าจะอยู่ที่ว่าคนส่วนใหญ่มีระดับสติปัญญาไม่ถึง “นักศึกษาปริญญาโท/เอกระดับธรรมดาแต่ไม่ได้ไร้ความสามารถโดยสิ้นเชิง” ด้วยซ้ำ
  นักศึกษาบัณฑิตศึกษาสายวิทยาศาสตร์ธรรมดา โดยเฉพาะประเภทที่ไม่ลาออกและเรียนจบ เป็นคนที่น่าประทับใจมากเมื่อเทียบกับพวกเราส่วนใหญ่
  การที่ “เรา” สามารถใช้สติปัญญาระดับนั้นเป็นผู้ช่วยได้ทั้งวัน หากรับต้นทุนโทเค็นไหว ก็เป็นการยกระดับชีวิตครั้งใหญ่
- ลองนึกภาพย้อนกลับไปปี 1950 แล้วอ่านว่าอนาคตคือการแชตกับบอตเพื่อทำการบ้านคณิตศาสตร์ก็ได้
- ดังนั้นผมมองว่า ยุค AI ไม่ใช่กระแสเกินจริง แต่เป็นเรื่องจริงมาก
  Jensen เคยบอกว่า AI มาถึงยุค iPhone แล้ว
  ภายใน 5–10 ปีข้างหน้า AGI หรือ ASI คงยังไม่มา ไม่ว่าผู้คนจะนิยามอย่างไร แต่ผมมักชอบเรียก AI ว่าเป็นปัญญาช่วยเหลือหรือปัญญาเสริมมากกว่า
  มันจะให้คุณค่ามากพอที่จะผลักดันยอดขายคอมพิวเตอร์และสมาร์ตโฟนในปัจจุบันไปได้อย่างน้อย 5–10 ปี หรือ 3–4 รอบการเปลี่ยนเครื่อง
- Terry เป็น อัจฉริยะ ที่สามารถดึงคุณค่าแบบนั้นออกมาจาก LLM ได้
  คนทั่วไปยังทำแบบนั้นไม่ได้
  ทั้งเพราะใส่พรอมป์ตให้โมเดลไม่เก่ง และเพราะปัญหาในชีวิตตั้งแต่แรกก็ไม่ได้เป็นแบบข้อความ
โมเดล o1 น่าทึ่งจริง ๆ
ในโปรเจกต์ความคล้ายคลึงของเวกเตอร์ความเร็วสูง ผมได้ความเร็วเพิ่มขึ้นอย่างมากจากโค้ด Rust ที่ปรับแต่งมาอย่างดีอยู่แล้ว และยืนยันด้วย benchmark อย่างละเอียดกับการตรวจสอบความถูกต้อง
ไม่เพียงเท่านั้น มันยังช่วยจินตนาการใหม่และสร้างแนวคิดให้กับมาตรวัดการพึ่งพากันทางสถิติแบบใหม่ที่อิง Jensen-Shannon divergence และทำงานได้ดีมาก
มันยังสร้างการใช้งาน normalized mutual information แบบเร็วสุด ๆ ให้ด้วย ซึ่งเป็นส่วนที่เดิมอยากใส่ไว้ในไลบรารี แต่หาวิธีที่เร็วพอสำหรับเวกเตอร์ขนาดใหญ่ เช่น ตั้งแต่ 15,000 มิติขึ้นไป ไม่ได้
มันไม่ได้ให้โค้ด Rust ที่สมบูรณ์แบบและคอมไพล์ผ่านตั้งแต่แรก แต่พอวางคำเตือนจากคอมไพเลอร์ใน VS Code ลงไป มันลองอีกครั้งและแก้บั๊กทั้งหมดได้
ในทางกลับกัน GPT-4o มักต้องลองกันเป็นสิบ ๆ รอบเพื่อแก้ข้อผิดพลาดเรื่อง type ของ Rust, lifetime/borrow และอื่น ๆ ส่วน Claude 3.5 Sonnet แปลกตรงที่เรื่อง Rust แล้วดูงง ๆ ไปเลย
ไม่ใช่แค่การปรับประสิทธิภาพกับโค้ดที่แทบไม่มีบั๊กเท่านั้น แต่ยังรวมถึงการแก้ปัญหาอย่างสร้างสรรค์ ความรู้หลักด้านคณิตศาสตร์และอัลกอริทึมจำนวนมหาศาล การสังเคราะห์ผลวิจัยล่าสุด และความสามารถในการเข้าใจสิ่งที่ผมต้องการทำแล้วทำให้สำเร็จจริง จึงรู้สึกเหมือนเป็น ตัวเปลี่ยนเกม อย่างแท้จริง
diff การเปลี่ยนแปลงไฟล์โค้ดอยู่ที่นี่: https://github.com/Dicklesworthstone/fast_vector_similarity/...
- เหตุผลสำคัญส่วนหนึ่งที่ต้องจ่ายปีละ 500,000 ดอลลาร์เพื่อจ้างคน คือให้เขาทำงานกับระบบเดิมขนาดใหญ่ที่ LLM ยังไม่เข้าใจ
  ถึงอย่างนั้น การปรับแต่งไลบรารีเล็ก ๆ และการทำฟังก์ชันที่เร็วก็เป็นการยกระดับครั้งใหญ่ในกล่องเครื่องมือของโปรแกรมเมอร์ทุกคน
- ตอนนี้เรามี ตัวเลขเงิน ที่เอาไปเชื่อมโยงและอ้างอิงได้แล้ว
ประสบการณ์ของผมกับ o1 ต่างออกไปมาก และตามมาตรฐานของผม มันยังเรียกว่าอยู่ระดับ “นักศึกษาปริญญาตรีที่ดี” ไม่ได้ด้วยซ้ำ
เช่น ผมถามคำถามที่ค่อนข้างเรียบง่ายที่นี่ แต่มันสับสนไปหมด
https://moorier.com/math-chat-1.png
https://moorier.com/math-chat-2.png
https://moorier.com/math-chat-3.png
บทสนทนาทั้งหมดน่าจะอยู่ที่นี่: https://chatgpt.com/share/66e5d2dd-0b08-8011-89c8-f6895f3217...
- เป็นเพียงประสบการณ์เฉพาะกรณี แต่สำหรับผม O1 แย่กว่า 4o และ Claude 3.5 Sonnet
  แย่ยิ่งกว่านั้นคือมันช้ากว่าและพูดมากกว่า
- ถ้าคิดถึงการฝึก LLM ด้วยเรขาคณิต ข้อมูลจำนวนมากในแหล่งข้อมูลต้นทางน่าจะอยู่ใน รูปภาพ/แผนภาพ ที่มากับข้อความ
  โมเดลนี้ไม่ใช่ multimodal ดังนั้นอาจไม่ได้เรียนรู้จากรูปประกอบที่แนบมาเลยก็ได้
  อยากให้ผู้คนลองตรวจชุดโจทย์เรขาคณิตกับชุดโจทย์วิเคราะห์ แล้วเปรียบเทียบความแตกต่างกัน
- ไม่เข้าใจว่าทำไมถึงทำให้มันพูดเหมือนเจ้าหน้าที่ซัพพอร์ตลูกค้าแบบนี้
  ประสบการณ์ในอุดมคติที่นี่ควรเป็นคำตอบสั้นและกระชับ ไม่ใช่คำตอบยืดยาวและประจบประแจง
- สงสัยว่าหาคำตอบได้หรือยังว่าข้อผิดพลาดในการคำนวณปริมาตรของ truncated icosidodecahedron คืออะไร
สิ่งที่ใหม่สำหรับผมคือประโยคที่ว่า “ประสบการณ์คล้ายกับการให้คำแนะนำแก่นักศึกษาบัณฑิตศึกษาที่ความสามารถธรรมดาแต่ไม่ได้ไร้ความสามารถโดยสิ้นเชิง” ใช้ได้กับหลายสาขามากขนาดนั้น
ผมได้คุณค่ามากจากการใช้ LLM เพื่อจัดระเบียบและทำความเข้าใจ
ในสาขาที่ผมรู้ดีมาก มันช่วยจัดการงานจุกจิกเล็ก ๆ น้อย ๆ ได้มหาศาล
อย่างที่ Terence ชี้ไว้ในการทดลองครั้งที่สาม ถ้าแบ่งปัญหาออกเป็นส่วน ๆ มันทำงานเติมช่องว่างเล็ก ๆ ได้ค่อนข้างมั่นคง
แต่ก็ต้องมี ความเข้าใจเชิงแนวคิด และต้องใช้ทักษะ prompt อยู่บ้าง
เวลาเข้าไปในสาขาที่ไม่รู้ ต้องค่อย ๆ สร้าง prompt ซ้อนขึ้นไป
ถ้าคำตอบเป็นสิ่งที่มีคนรู้แล้ว ควรเริ่มจากสิ่งเล็กและเจาะจงแล้วขยายออกไปด้านนอก และแม้เมื่อไล่จากภาพใหญ่เข้าด้านใน ก็ควรเริ่มอย่างเจาะจงและมีจุดโฟกัส
ผมเคยใช้มันเจาะผ่านชั้นเชิงแนวคิดของหัวข้อที่ซับซ้อนมากและไม่รู้เลย จากนั้นตรวจสอบแนวคิดกับผู้เชี่ยวชาญบน YouTube, งานวิจัย และแหล่งข้อมูลที่เชื่อถือได้ มันเป็นเครื่องมือที่น่าทึ่ง
- ประสบการณ์ของผมก็เหมือนกัน
  ผมปฏิบัติกับ LLM เหมือน เด็กฝึกงานหรือจูเนียร์ ที่ช่วยลงแรงทำงานค้นคว้าภาคสนามที่ผมไม่มีแรงทำเอง
  ต้องกำกับ ช่วยเหลือ และตรวจสอบความผิดพลาด แต่สุดท้ายก็ได้ผลลัพธ์ที่มีประโยชน์
  ในแง่ทัศนคติ คนที่เคยกำกับเด็กฝึกงานหรือเมนเทอร์จูเนียร์ น่าจะดึงคุณค่าจาก LLM โดยเฉพาะโมเดลแบบเสียเงินได้ง่ายกว่า
  ตรงกันข้าม individual contributor ผู้ช่ำชองแต่ลุยเดี่ยวที่ไม่รู้วิธีดึงคุณค่าจากคนอื่น ซึ่งช่วงต้นอาชีพผมก็เคยเป็นแบบนั้น อาจใช้มันได้ไม่ดีเท่า
การบอกว่า “ต้องสามารถก้าวกระโดดทางคณิตศาสตร์อย่างสร้างสรรค์ได้เหมือน Terence Tao” ดูเป็นมาตรฐานที่ค่อนข้างสูงสำหรับ AI
คล้ายกับสถานการณ์ในการสัมภาษณ์โปรแกรมมิง ที่ผู้สัมภาษณ์อธิบายโจทย์ที่ทีมตัวเองใช้เวลาหลายเดือนกว่าจะแก้ได้ แล้วผิดหวังถ้าผู้สมัครเขียนวิธีแก้บนไวต์บอร์ดไม่ได้ภายใน 40 นาทีโดยไม่ใช้ Google
- จากประสบการณ์ที่เคยทำงานกับคนแบบ Terence Tao ผมเองห่างไกลจากระดับนั้นมาก แต่พวกเขามองหาความสร้างสรรค์ไม่ว่าจะเป็นแบบไหนก็ตาม
  อะไรก็รับได้ และไม่จำเป็นต้องเป็น “ระดับเดียวกับพวกเขา”
  เมื่ออ่านสิ่งที่เขาเขียนและเทียบกับประสบการณ์ของผม ผมคิดว่าคำบรรยายนั้นไม่ถูกต้อง
  ในบรรยายที่เขาให้ที่ IMO เมื่อต้นปีนี้ก็มีเรื่องนี้ เขาประทับใจกับการโต้ตอบบางอย่าง แต่ยังรู้สึกว่ายังขาด ประกายความคิดสร้างสรรค์ บางอย่างอยู่
- ไม่จำเป็นต้องอนุมานไปถึงมาตรฐานที่สูงแบบนี้
  สิ่งที่เขาพูดจริง ๆ นั้นเฉพาะเจาะจง: “ผลลัพธ์ตรงนี้น่าผิดหวังเล็กน้อย... โดยพื้นฐานแล้ว โมเดลเสนอสิ่งที่เหมือนกับกลยุทธ์ที่ถูกระบุไว้แล้วในงานล่าสุดเกี่ยวกับปัญหานี้ และเป็นกลยุทธ์เดียวกับที่ผมเขียนใหม่ไว้ในบล็อกโพสต์ แต่ไม่ได้ให้การดัดแปลงกลยุทธ์อย่างสร้างสรรค์”
  ประเด็นสำคัญคือบล็อกโพสต์นั้นเองเป็นส่วนหนึ่งของอินพุตที่ป้อนให้ ChatGPT
  นอกจากนั้น เขายังพูดชัดเจนว่าแม้คาดว่าในอนาคตมันจะมีประโยชน์มากขึ้น แต่ปัจจุบันเขาใช้ AI/ChatGPT แค่จัดรูปแบบบรรณานุกรม และเขียนโค้ดง่าย ๆ สไตล์ “Hello World”
  ออนไลน์มีคำกล่าวอ้างหลายอย่างว่าเขาใช้ ChatGPT ในงานวิจัยอยู่ตลอด แต่ส่วนที่เกินกว่าการใช้เขียนโค้ดดูเหมือนจะไม่จริง
  อย่างไรก็ดี “ช่วยงานวิจัยของ Terence Tao ได้” นั้นเป็นมาตรฐานที่สูงจริง ๆ
- นี่ไม่ใช่สิ่งที่สังเกตได้เฉพาะกับ Terence Tao
  ถ้าลองใช้ ChatGPT เขียนโปรแกรมที่ซับซ้อนกว่าโค้ดในบทเรียน หรือเขียนบล็อกโพสต์พื้นฐาน จะเห็นว่า ขาดความคิดสร้างสรรค์ และการออกแบบโค้ดก็แย่มาก
- ความคิดแรกของผมก็เป็นแบบนี้พอดี
  ถ้าคนที่อาจถือได้ว่ามี IQ สูงที่สุดในบรรดาคนที่ยังมีชีวิตอยู่ ประทับใจแต่ยังไม่พึงพอใจอย่างเต็มที่ เพราะคอมพิวเตอร์ไม่สามารถให้การให้เหตุผลทางคณิตศาสตร์ระดับรางวัลโนเบลได้ นั่นเองก็เป็นตัวชี้วัดขนาดใหญ่อยู่แล้ว
  ถ้าอย่างนั้นนักศึกษาปริญญาเอกคณิตศาสตร์ปีแรกควรคิดอย่างไร
  ในโพสต์ก่อนหน้า Tao ดูเหมือนจะกล่าวถึงประเด็นนี้ทางอ้อม โดยพูดทำนองว่า “o1 แทบจะเหมือนนักศึกษาบัณฑิตศึกษา”
น่าสนใจที่มนุษย์เองก็ได้ประโยชน์จากการให้เหตุผลแบบ chain-of-thought
จริง ๆ แล้วผมคิดว่านักเรียนคณิตศาสตร์ทุกคนจะมีความสามารถเพิ่มขึ้นมาก ถ้าถูกกำหนดให้ต้องนึกถึงนิยามและข้อมูลที่เกี่ยวข้องทั้งหมดก่อนนำไปใช้
ในความเป็นจริง แม้แต่ครูและนักคณิตศาสตร์ก็ไม่ได้ทำเช่นนั้น เพราะการระลึกข้อมูลต้องใช้ความพยายาม และเราไม่อยากใช้ความพยายามมากเกินกว่าที่จำเป็นต่อการแก้โจทย์
ถ้าระลึกไม่สำเร็จก็ต้องไปค้นหาข้อมูล ซึ่งยิ่งต้องใช้ความพยายามมากขึ้น ดังนั้นในทางปฏิบัติจึงมีแรงจูงใจสูงที่จะ “ดันไปตามสัญชาตญาณ”
AI ไม่มีอุปสรรคทางอารมณ์ต่อการเสียแรงเปล่า จึงกลายเป็นผู้ให้เหตุผลที่ดีกว่าความสามารถโดยกำเนิดของมัน
- การแสดงวิธีทำในการสอบคล้ายกับการให้เหตุผลแบบ “chain-of-thought” อยู่บ้าง แต่ก็แตกต่างกันเล็กน้อย
  ทั้งสองอย่างทำให้ต้องแบ่งกระบวนการออกเป็นขั้น ๆ เพื่อรักษาตรรกะและไม่ข้ามขั้นตอนสำคัญ
  แต่การแสดงวิธีทำใกล้เคียงกับการพิสูจน์ว่าขั้นตอนถูกต้อง ส่วนการให้เหตุผลแบบ “chain-of-thought” ทำให้ระหว่างดำเนินไปต้องนึกถึงนิยามและแนวคิดที่เกี่ยวข้อง เพื่อรับประกันความเข้าใจที่ลึกกว่า
  ทั้งคู่มีเป้าหมายเพื่อหลีกเลี่ยงการดันไปตามสัญชาตญาณ แต่ “chain-of-thought” เจาะลึกด้าน การระลึกข้อมูล ซึ่งมนุษย์มักหลีกเลี่ยงได้ง่ายกว่า
- มุมมองนี้ดีมากจริง ๆ
  ทั้งที่เห็นหลักฐานมากมายว่า chain-of-thought ช่วย LLM ได้ ผมกลับไม่เคยคิดจะลองใช้กับตัวเองให้มากขึ้น
  แน่นอนว่าก็ทำอยู่บ้างแล้ว แต่โดยทั่วไปไม่ใกล้เคียงกับระดับที่ LLM ทำเลย
  บางทีนี่อาจเป็นเหตุผลที่การเขียนมักถูกยกย่องว่าเป็นวิธีคิดที่ยอดเยี่ยม
  การเขียนทำให้สร้าง ห่วงโซ่ความคิด ที่ยาวขึ้นได้ด้วยความพยายามน้อยลง
- ผมนึกว่าทุกคนทำแบบนี้เวลาแก้โจทย์คณิตศาสตร์ที่ติดขัด
  ผมหมายถึงคณิตศาสตร์ระดับมหาวิทยาลัย ไม่ใช่คณิตศาสตร์ในโรงเรียน
  ตอนสอน ผมก็ให้กลับไปที่นิยามเสมอ
  ผมไม่ได้เก่งงานวิจัยคณิตศาสตร์มากนัก และเลิกไปหลังทำปริญญาเอกกับโพสต์ด็อก แต่จากประสบการณ์ งานวิจัยคือการคิดปัญหาอย่างลึกซึ้ง จับให้ได้ว่าเกิดอะไรขึ้น แล้วพยายามแยกมันออกเป็นส่วน ๆ ไม่ทางใดก็ทางหนึ่ง พร้อมกันนั้นก็ไล่ดูทุกอย่างที่รู้เกี่ยวกับปัญหานั้น และมองหาปัญหาคล้ายกันเพื่อดูว่าจะขโมยไอเดียมาได้ไหม
ผมกำลังจะกลับไปเรียนคณิตศาสตร์อีกครั้งในฐานะงานอดิเรกตามความอยากรู้อยากเห็นล้วน ๆ เลยตั้งตารอมาก
ครั้งนี้จะพึ่ง LLM ในการเรียนได้ จึงน่าจะสนุกมาก
บังเอิญว่าเหมือน Terence Tao ผมเองก็ถามคำถามเรื่อง การวิเคราะห์เชิงซ้อน กับ LLM ขณะอ่านตำราเพื่อให้เข้าใจดีขึ้น
ความสามารถในการตีความคำถามคณิตศาสตร์แบบปลายเปิด และค้นหาความเชื่อมโยงเชิงแนวคิดที่ไกลกันแต่มีประโยชน์และเกี่ยวข้องได้อย่างรวดเร็วนั้นน่าทึ่ง
ศาสตราจารย์ Tao ผู้ได้รับเหรียญ Fields ย่อมมอง LLM คณิตศาสตร์ในปัจจุบันว่าเป็นแค่ “นักศึกษาบัณฑิตศึกษาที่ไม่ได้ไร้ความสามารถโดยสิ้นเชิง” แต่ในระดับความสามารถปัจจุบันของผม นั่นหมายถึงเป็นสิ่งที่ผมต้องเงยหน้ามอง
ตัวอย่างที่น่าประทับใจเมื่อ 6 เดือนก่อนคือ ผมถามว่าจะผ่อนคลายนิยามใดได้บ้างเพื่อให้ทำการวิเคราะห์เชิงซ้อนบนแมนิโฟลด์ที่ไม่กำหนดทิศทางอย่างขวด Klein ได้ เป็นปัญหาที่ผมคิดมานาน แต่ LLM เข้าใจทันทีว่าสมการ Cauchy-Riemann จะไม่สอดคล้องกันในเชิงโกลบอล
ในความหมายหนึ่ง ข้อตกลงเรื่องเครื่องหมายตามอำเภอใจของ CR เป็นการกำหนดทิศทางบนแมนิโฟลด์ และการกลับทิศทางของแมนิโฟลด์ก็เหมือนกับการสลับ i กับ -i
ตอนนี้ผมเข้าใจเรื่องนี้ได้เพราะ LLM แนะนำให้มองแบบนั้น
แน่นอนว่านี่ไม่ใช่ความคิดดั้งเดิมของ LLM และน่าจะเป็นคณิตศาสตร์ที่เขียนอยู่ที่ไหนสักแห่งในตำราบัณฑิตศึกษาที่เฉพาะทางมาก ๆ
แต่นั่นไม่สำคัญสำหรับผม
คำถามแบบนี้ที่แทบไม่รู้ว่าจะเริ่มจากตรงไหน เป็นไปไม่ได้เลยที่จะตอบได้หากไม่มี LLM หรือผู้เชี่ยวชาญสาขานั้นระดับปริญญาเอก
ไม่มีเครื่องมืออื่นใดที่ทำให้ การค้นหาระดับความหมาย แบบนี้เข้าถึงได้ และผมกำลังคิดอย่างรอบคอบว่าจะใช้เครื่องมือที่ทรงพลังแต่ไม่คุ้นเคยนี้ให้ดีที่สุดได้อย่างไร
- ความรู้สึกเหมือนได้ใช้ เสิร์ชเอนจินแบบเต็มรูปตามความหมาย สำหรับตำราแทบทุกเล่มบนโลกนั้นเหมือนมีพลังพิเศษ
  ถ้าชี้แหล่งอ้างอิงตำราที่พบคำตอบได้อย่างแม่นยำด้วยก็คงดียิ่งขึ้น
- แล้วจะรู้ได้อย่างไรว่าคำตอบนั้นถูกหรือไม่ถูก?
- ผมยังสงสัยด้วยว่าจะวัดประสิทธิภาพแบบนี้อย่างไร
  เบนช์มาร์กอาจถูกเจาะหรือถูกใส่เข้าไปในการฝึก และคงไม่มีสัญญาณเพียงพอใน Chatbot Arena สำหรับคำถามประเภทนี้
  อีกไม่กี่เดือน ผู้ใช้ทั่วไปน่าจะไม่สามารถแยกความแตกต่างด้านประสิทธิภาพระหว่างโมเดลหลัก ๆ ได้แล้ว
เห็นด้วยกับ Terence Tao อย่างเต็มที่
นี่คือความก้าวหน้าจริง ๆ
ผมเชื่อมาเสมอว่าหากมีข้อมูลที่เหมาะสมให้ LLM เรียนรู้เพื่อเลียนแบบการให้เหตุผล ก็สามารถปรับปรุงประสิทธิภาพได้
แต่ก็ยังคงเป็น การจับคู่รูปแบบ และผมสงสัยว่าแนวทางนี้อาจไม่ได้มีประสิทธิภาพนักในการสร้างการ generalize อย่างแท้จริง
ดังนั้นเมื่อ o1 เปิดให้ใช้งานทั่วไป เราน่าจะยังได้เห็น hallucination และการให้เหตุผลที่ผิดอย่างต่อเนื่องในโจทย์ที่ใหม่หรือซับซ้อนพอจะเกินกว่า “โปรแกรมการให้เหตุผล” หรือ “รูปแบบการให้เหตุผล” ที่โมเดลเรียนรู้มาในขั้นตอน reinforcement learning
https://www.lycee.ai/blog/openai-o1-release-agi-reasoning
สำหรับผม โมเดล o1 มีทั้งช่วงที่ดีและไม่ดี
ด้านหนึ่ง มันแก้เกม NYT Connections[0] ได้ทุกวันที่ผมลอง[1] ขณะที่โมเดลอื่น ๆ รวมถึง Claude Sonnet 3.5 ทำไม่ได้
แต่อีกด้านหนึ่ง มันก็พลาดรายละเอียดสำคัญและ hallucinate เหมือน GPT-4o
หลายครั้งต้องคอยจูงมือแก้ให้ถึงจะได้คำตอบที่ถูก จนบางทีก็รู้สึกว่าทำเองอาจง่ายกว่า
คราวนี้ยิ่งแย่ลงเพราะต้องรอคำตอบ 20–60 วินาที
อาจเป็นไปได้ว่าสิ่งที่ o1 ทำได้โดดเด่นเป็นเรื่องที่ผมไม่ได้ต้องการมากนัก
ผมอยู่สาย software engineering ไม่ใช่ STEM แบบดั้งเดิม และ o1 ยังไม่ได้ดีกว่ามากพอที่จะคุ้มกับเวลา latency
ด้านที่ยังไม่ได้สำรวจคือการใช้มันวางแผนการ implement หรือวางแผนเปลี่ยนแปลง architecture
คิดว่าเรื่องนี้มันน่าจะทำได้ดีกว่า แต่ต้องลองโยนโจทย์ที่เหมาะสมให้ก่อน
[0] https://www.nytimes.com/games/connections
[1] https://chatgpt.com/share/66e40d64-6f70-8004-9fe5-83dd3653a5...

บทวิเคราะห์ O1 ของ Terence Tao

การประเมินโดยรวมต่อ GPT-o1

การทดลอง 1: คำถามคณิตศาสตร์ที่คลุมเครือและ Cramer’s theorem

การทดลอง 2: ปัญหา complex analysis ที่ยาก

การทดลอง 3: งาน formalization ด้วย Lean

การทดลองด้าน semantic search และการสร้างกลยุทธ์เชิงสร้างสรรค์

การแก้ไขเรื่องอุปมาเทียบกับนักศึกษาบัณฑิตศึกษา

ประโยชน์ในฐานะเครื่องมือช่วยวิจัยและอัตราส่วนต้นทุน

semantic search

จุดที่ยังขาดใน Lean และ Mathlib

ระบบอัตโนมัติที่ตรวจสอบได้และผู้ช่วยพิสูจน์แบบเป็นทางการ

แนวโน้มระบบนิเวศเครื่องมือ AI สำหรับงานวิจัยคณิตศาสตร์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News