ประสบการณ์ล่าสุดจากการใช้ ChatGPT 5.5 Pro
(gowers.wordpress.com)- Tim Gowers มองว่าเขาได้ ผลการวิจัยระดับปริญญาเอก ทางด้านคอมบินาทอริกจาก ChatGPT 5.5 Pro ภายในเวลาประมาณ 1 ชั่วโมง และแทบไม่ได้มีส่วนช่วยทางคณิตศาสตร์ด้วยตัวเองเลย
- ChatGPT 5.5 Pro ใช้เวลา 17 นาที 5 วินาทีในการเสนอการสร้างที่ให้ ขอบเขตบนกำลังสอง ซึ่งน่าจะดีที่สุดเท่าที่เป็นไปได้ สำหรับ เส้นผ่านศูนย์กลาง ของเซตที่มีขนาดของผลบวกของเซตตามที่กำหนดไว้ ในปัญหาทฤษฎีจำนวนเชิงบวกของ Mel Nathanson
- จากนั้นมันยังแก้ปัญหาผลบวกของเซตแบบจำกัดได้ด้วยวิธีเดียวกัน และถึงขั้นสร้างบทพิสูจน์ที่ปรับปรุงขอบเขตแบบเอ็กซ์โปเนนเชียลเดิมของ Isaac Rajagopal ให้เป็น การพึ่งพาแบบพหุนาม ซึ่งสำหรับ Rajagopal แล้วดูแทบจะแน่นอนว่าถูกต้อง
- แนวคิดหลักคือเปลี่ยนองค์ประกอบแบบลำดับเรขาคณิตในโครงสร้างของ Rajagopal ไปเป็นโครงสร้างที่อิงกับ เซต h-dissociated เพื่อจำลองรูปแบบขนาดของผลบวกของเซตที่ต้องการให้อยู่ภายในช่วงขนาดแบบพหุนาม
- ผลลัพธ์ที่ AI สร้างขึ้นดูอยู่ในระดับที่ตีพิมพ์ได้ แต่แทนที่จะลงวารสารหรือขึ้น arXiv อาจต้องมีคลังแยกต่างหากที่ให้นักคณิตศาสตร์มนุษย์รับรองความถูกต้อง และมาตรฐานการฝึกของนักวิจัยมือใหม่ก็อาจขยับไปสู่การพิสูจน์สิ่งที่ ร่วมมือกับ LLM แล้ว LLM เพียงลำพังยังทำไม่ได้
LLM กับการเปลี่ยนวิธีแก้ปัญหาคอมบินาทอริก
- ดูเหมือนว่าโมเดลภาษาขนาดใหญ่จะมาถึงระดับที่สามารถแก้ปัญหาระดับงานวิจัยได้แล้ว และยังมีข้อมูลว่ามันได้แก้หลายปัญหาที่โพสต์อยู่บน เว็บไซต์ปัญหา Erdős ของ Thomas Bloom ด้วย
- ความสำเร็จของ LLM ในช่วงแรกมักเป็นกรณีที่ค้นหาคำตอบเดิมในวรรณกรรม หรือสรุปผลที่ตามได้ง่ายจากผลลัพธ์ที่รู้กันอยู่แล้ว แต่ตอนนี้ความเป็นไปได้ที่ LLM จะหาบทพิสูจน์ง่าย ๆ ที่มนุษย์มองข้ามไปมีมากขึ้น
- ในคณิตศาสตร์ของมนุษย์เอง งานส่วนใหญ่ก็เป็นการผสมผสานความรู้และเทคนิคการพิสูจน์ที่มีอยู่แล้ว ดังนั้นความสบายใจที่ว่า LLM “แค่เอาความรู้เดิมมาประกอบกัน” จึงช่วยปลอบใจได้อย่างจำกัด
- ในคอมบินาทอริก งานวิจัยที่เสนอพารามิเตอร์เชิงจัดหมู่ใหม่มักก่อให้เกิดปัญหาจำนวนมาก และแต่ก่อนนี่เป็นแหล่งปัญหาเปิดที่ดีสำหรับนักวิจัยมือใหม่ แต่ตอนนี้เกณฑ์ใหม่กลายเป็นว่ามันยากพอที่ LLM จะแก้ไม่ได้หรือไม่
ปัญหาของ Nathanson และผลงานแรก
- Gowers ให้ ChatGPT 5.5 Pro ลองทำโจทย์จากบทความของ Mel Nathanson Diversity, Equity and Inclusion for Problems in Additive Number Theory
- Nathanson ถูกแนะนำว่าเป็นคนที่สนใจปัญหาและทฤษฎีที่มาฮิตในภายหลังตั้งแต่เนิ่น ๆ และด้วยเหตุนี้จึงเป็นผู้เขียนตำราที่ทั้งทันเวลาและทรงอิทธิพล
- แกนสำคัญคือ ผลบวกของเซต(sumset) ของเซตจำนวนเต็ม, ผลบวกของเซตที่บวกซ้ำหลายครั้ง และขนาดของผลบวกของเซตที่เป็นไปได้เมื่อกำหนดจำนวนสมาชิก
- เมื่อกำหนดจำนวนสมาชิกแล้ว ขนาดของผลบวกของเซตที่เป็นไปได้ไม่ได้ครอบคลุมทุกค่าระหว่างค่าต่ำสุดกับค่าสูงสุดเสมอไป และก็ยังไม่มีคำอธิบายที่สมบูรณ์ด้วย
- Nathanson เสนอขอบเขตบนของ เส้นผ่านศูนย์กลาง(diameter) ที่จำเป็นเมื่อสร้างเซตที่มีจำนวนสมาชิกและขนาดของผลบวกของเซตตามกำหนด และถามว่าสามารถปรับปรุงขอบเขตนี้ได้หรือไม่
- หลังจากคิดอยู่ 17 นาที 5 วินาที ChatGPT 5.5 Pro ก็เสนอการสร้างที่ให้ ขอบเขตบนกำลังสอง ซึ่งน่าจะดีที่สุดเท่าที่จะเป็นไปได้
- เมื่อ Gowers ขอให้เขียนใหม่เป็นไฟล์ LaTeX ในรูปแบบของ preprint คณิตศาสตร์ทั่วไป ChatGPT ก็ส่งรูปแบบนั้นมาให้ในอีก 2 นาที 23 วินาที และ Gowers ใช้เวลาตรวจสอบว่าบทพิสูจน์ถูกต้องหรือไม่
Sidon set และการขยายไปสู่ผลบวกของเซตแบบจำกัด
- ทั้งบทพิสูจน์ของ Nathanson และของ ChatGPT ต่างตั้งอยู่บนแนวคิดที่ใช้ Sidon set ร่วมกับ ลำดับเลขคณิต เพื่อสร้างเซตที่มีขนาดตามกำหนดและมีผลบวกของเซตขนาดตามกำหนด
- ในที่นี้ Sidon set ถูกใช้ในความหมายแบบย่อว่าเป็นเซตที่ทำให้ขนาดของผลบวกของเซตมีค่ามากที่สุด
- เพื่อปรับรายละเอียด สามารถเพิ่มจุดอีกหนึ่งจุดใกล้กับลำดับเลขคณิตได้ และเมื่อปรับพารามิเตอร์หลายตัวก็จะได้เซตที่มีขนาดตามต้องการ
- Nathanson เสนอข้อพิสูจน์แบบอุปนัยไว้ใน Theorem 5 ของบทความนี้ แต่เมื่อคลี่รายละเอียดออกมาก็ดูเหมือนเป็นโครงสร้างที่ใช้ Sidon set ซึ่งเป็นกำลังของ 2 เป็นหลัก
- การปรับปรุงของ ChatGPT มาจากการใช้ Sidon set ที่มีประสิทธิภาพมากกว่า และข้อเท็จจริงที่ว่าสามารถหา Sidon set ที่มีเส้นผ่านศูนย์กลางกำลังสองได้นั้นเป็นเรื่องที่รู้กันดีอยู่แล้ว
- จากนั้น Gowers ยังลองให้มันทำปัญหาที่เกี่ยวข้องอย่างใกล้ชิด ซึ่งมองขนาดของ ผลบวกของเซตแบบจำกัด(restricted sumset) แทนขนาดของผลบวกของเซต และ ChatGPT ก็ให้ผลลัพธ์แบบเดียวกันได้โดยแทบไม่มีปัญหา
- เอกสารที่รวบสองผลลัพธ์นี้ไว้ในโน้ตเดียวโดยไม่มีความซ้ำซ้อนเผยแพร่อยู่ที่นี่
ปัญหากรณีดีกรีทั่วไปและการปรับปรุงงานของ Rajagopal
- Gowers ยังถามด้วยว่า ChatGPT จะทำอะไรได้บ้างในกรณีทั่วไปกว่านี้
- เดิมทีเขามองในแง่ดีน้อยกว่านี้มาก เพราะบทพิสูจน์ก่อนหน้านั้นพึ่งพาผลของ Erdős และ Szemerédi อย่างเป็นแก่นสำคัญ กล่าวคือรู้แน่ชัดว่าขนาดต่าง ๆ ที่ต้องสร้างคืออะไร
- ในบทความของ Nathanson มีการอ้างถึงงานของ Isaac Rajagopal นักศึกษาจาก MIT ซึ่ง Rajagopal พิสูจน์การพึ่งพาแบบเอ็กซ์โปเนนเชียลสำหรับแต่ละดีกรีคงที่
- สำหรับ Rajagopal ความยากที่แท้จริงไม่ได้อยู่ที่ “ไม่รู้เซตของขนาดที่เป็นไปได้”
- บทพิสูจน์ของเขาให้คำอธิบายที่สมบูรณ์สำหรับกรณีที่มีขนาดใหญ่พอ
- หากต้องการแสดงการพึ่งพาแบบพหุนามสำหรับดีกรีคงที่ ก็สมมติแค่กรณีที่ใหญ่พอก็เพียงพอ
- ความยากจริงอยู่ที่การสร้างเซตที่มีขนาดของผลบวกของเซตตามที่กำหนดนั้นซับซ้อนกว่ามาก และเมื่อดีกรีสูงขึ้น ดีกรีของพหุนามก็สูงขึ้นด้วย จึงต้องใช้พารามิเตอร์มากขึ้น
- งานของ ChatGPT ไม่ใช่การแก้ปัญหาตั้งแต่ต้น แต่เป็นการ ขันบทพิสูจน์ของ Rajagopal ให้แน่นขึ้น
- กระบวนการดำเนินไปดังนี้
- หลัง 16 นาที 41 วินาที มันเสนอบทพิสูจน์ที่ปรับปรุงขอบเขตเดิมจากฟังก์ชันเอ็กซ์โปเนนเชียลไปเป็นรูปแบบเอ็กซ์โปเนนต์ที่เล็กกว่า สำหรับค่าคงที่บวกใด ๆ ตามต้องการ
- ใช้เวลาเพิ่มอีก 47 นาที 39 วินาที ในการเขียนเป็นรูปแบบ preprint
- Gowers ส่งสิ่งนี้ให้ Nathanson ซึ่งส่งต่อให้ Rajagopal และสำหรับ Rajagopal แล้วมันดูถูกต้อง
- ทั้ง ChatGPT และ Rajagopal ต่างคาดเดาบางส่วนว่าหากจะผลักต่อไปจนเป็นขอบเขตแบบพหุนามจริง ๆ ต้องใช้อะไรบ้าง และ Gowers ก็ให้ ChatGPT ลองทำดู
- หลัง 13 นาที 33 วินาที ChatGPT ตอบว่ามันมองในแง่ดีว่าบทพิสูจน์เช่นนั้นน่าจะมีอยู่ แต่มีข้อความเชิงเทคนิคบางข้อที่ต้องตรวจสอบ
- เมื่อถูกขอให้ตรวจสอบ มันใช้เวลา 9 นาที 12 วินาที จึงตรวจเสร็จ และถูกขอให้เขียนเป็นรูปแบบ preprint อีกครั้ง
- หลัง 31 นาที 40 วินาที preprint ก็พร้อม และเอกสารถูกเผยแพร่อยู่ที่นี่
- Rajagopal มองว่านี่แทบจะแน่นอนว่าถูกต้อง ซึ่งถูกตีความว่าไม่ใช่แค่ในระดับทีละบรรทัด แต่รวมถึงในระดับแนวคิดด้วย
จะนำผลคณิตศาสตร์ที่ AI สร้างไปไว้ที่ไหน
- ถ้าเป็นผลลัพธ์ที่มนุษย์สร้างขึ้น ก็คงอยู่ในระดับที่ตีพิมพ์ได้ ดังนั้นการเรียกมันว่า AI slop จึงดูไม่เหมาะสม
- ในอีกด้านหนึ่ง การนำไปลงวารสารก็ดูไม่มีความหมายมากนัก
- ผลลัพธ์สามารถเผยแพร่ฟรีได้
- ไม่มีใครจำเป็นต้องได้ “เครดิต”
- แต่ Rajagopal ผู้วางกรอบที่ ChatGPT นำไปต่อยอดได้นั้นสมควรได้รับเครดิตอย่างมาก
- เข้าใจกันว่า arXiv มีนโยบายไม่รับเนื้อหาที่เขียนโดย AI และมุมมองนี้ก็ถือว่าสมเหตุสมผล
- อาจจำเป็นต้องมีคลังแยกต่างหากสำหรับผลลัพธ์ที่ AI สร้างขึ้น
- อาจควรมีกระบวนการคัดกรองที่รวมเฉพาะผลลัพธ์ที่นักคณิตศาสตร์มนุษย์รับรองความถูกต้องแล้ว
- หรือดีกว่านั้นคือเป็นผลลัพธ์ที่ถูกทำให้เป็นรูปแบบทางการด้วย proof assistant
- อีกเกณฑ์หนึ่งอาจเป็นว่าผลลัพธ์นั้นตอบคำถามที่ถูกตั้งขึ้นในบทความที่มนุษย์เขียนหรือไม่
- หากกระบวนการคัดกรองสร้างภาระงานจำนวนมหาศาลก็คงเป็นปัญหา และการหันกลับไปให้ AI รับภาระนั้นเองก็มีความเสี่ยงชัดเจน
- ในระยะสั้น ผลลัพธ์ดังกล่าวยังเข้าถึงได้ผ่านลิงก์สาธารณะ และเนื่องจากความสามารถของ LLM ในการค้นหาวรรณกรรมดีขึ้นแล้ว คนที่พยายามค้นหาว่าปัญหาของ Nathanson ถูกแก้หรือยัง ก็อาจพบมันได้
การประเมินของ Isaac Rajagopal และภูมิหลังทางเทคนิค
-
แกนสำคัญที่ ChatGPT มีส่วนช่วย
- ChatGPT ปรับปรุงขอบเขตบนเฉพาะตัวหนึ่งจากการขึ้นต่อแบบเอ็กซ์โพเนนเชียลให้เป็นการขึ้นต่อแบบพหุนามได้ด้วยพรอมป์ต์เพียงไม่กี่ครั้ง
- การปรับปรุงครั้งแรกเป็นการแก้งานของ Rajagopal แบบค่อนข้างธรรมดา แต่การปรับปรุงเป็นแบบพหุนามนั้นน่าประทับใจมาก
- ไอเดียที่ ChatGPT เสนอนั้นแปลกใหม่และชาญฉลาด เป็นประเภทที่ถ้า Rajagopal คิดออกเองหลังจากขบคิดอยู่ 1–2 สัปดาห์ก็คงภูมิใจมาก
- ChatGPT ใช้วิธีคล้ายกับบทพิสูจน์ของ Rajagopal เอง และหาไอเดียพร้อมพิสูจน์ได้ในเวลาไม่ถึง 1 ชั่วโมง
-
ภูมิหลังของปัญหา
- ปัญหาขอบเขตบนนี้เกี่ยวข้องอย่างใกล้ชิดกับปัญหาที่ Rajagopal เคยทำในโครงการ Duluth REU (Research Experience for Undergrads)
- วัตถุหลักคือเซตที่มีขนาดของหลายชั้นผลบวกซ้ำได้หลายแบบ และช่วงต่ำสุดที่จำเป็นเพื่อทำให้เกิดเป็นเซตจำนวนเต็มที่มีจำนวนสมาชิกกำหนดไว้
- เมื่อฤดูร้อนที่ผ่านมา Rajagopal ได้อธิบายลักษณะของเซตค่าที่เป็นไปได้อย่างชัดเจนในกรณีที่ใหญ่พอ
- เขาสร้างเซตที่ทำให้เกิดทุกขนาดซึ่งยังไม่อาจตัดทิ้งได้ว่าเป็นไปไม่ได้ และด้วยเหตุนี้ขอบเขตบนดังกล่าวจึงได้มาจากการทำโครงสร้างนั้นให้เหมาะที่สุด
-
การแทนที่โครงสร้างขนาดแบบเอ็กซ์โพเนนเชียล
- โครงสร้างเดิมของ Rajagopal เป็นวิธีรวมเซตองค์ประกอบย่อยขนาดเล็กหลายชุดที่วิเคราะห์ได้ง่าย
- องค์ประกอบบางส่วนอยู่ในรูปอนุกรมเรขาคณิตตามพารามิเตอร์หลายค่า และสมาชิกของมันเติบโตแบบเอ็กซ์โพเนนเชียลตามพารามิเตอร์
- Rajagopal ให้ Tim ถาม ChatGPT ว่ามีเซตที่มีขนาดของผลบวกซ้ำใกล้เคียงกับอนุกรมเรขาคณิตเหล่านี้ แต่จำกัดขนาดสมาชิกไว้แบบพหุนามได้หรือไม่
- ChatGPT สร้างเซตที่มีพฤติกรรมราวกับ “อัดครึ่งหนึ่งของอนุกรมเรขาคณิตเข้าไปในช่วงแบบพหุนาม”
- นี่ดูเป็นโครงสร้างที่ขัดกับสัญชาตญาณ
เซต Bₕ, เซต dissociated และไอเดียโครงสร้างของ ChatGPT
-
บทบาทของเซต Bₕ
- สำหรับอันดับที่กำหนด ถ้าเซตหนึ่งไม่มีความสัมพันธ์เชิงผลบวกเลยนอกจากคำตอบแบบสามัญที่ผลบวกฝั่งหนึ่งเป็นเพียงการเรียงใหม่ของอีกฝั่ง ก็เรียกเซตนั้นว่า เซต Bₕ
- ในเซต Bₕ ที่มีขนาดกำหนด วิธีเลือกสมาชิกโดยอนุญาตให้ซ้ำจะสอดคล้องกันพอดีกับสมาชิกของผลบวกซ้ำหลายชั้น
- หากคำนวณด้วย “stars and bars” นี่คือขนาดผลบวกซ้ำหลายชั้นที่มากที่สุดเท่าที่เป็นไปได้สำหรับเซตที่มีขนาดเท่ากัน
- เซต Sidon ก็คือเซต B₂ ในมุมมองนี้
-
คุณสมบัติที่อนุกรมเรขาคณิตทำซ้ำได้
- เซตอนุกรมเรขาคณิตบางชุดเป็นเซต Bₕ แต่ไม่ใช่เซต B ที่อันดับสูงกว่า
- ความสัมพันธ์ที่รบกวนปรากฏในรูปความสัมพันธ์เชิงผลบวกแบบหนึ่งที่แน่นอน
- สำหรับเซตหนึ่ง ขนาดของผลบวกซ้ำเป็น ฟังก์ชันเชิงเส้น ของพารามิเตอร์ และสำหรับอีกเซตหนึ่งเป็น ฟังก์ชันกำลังสอง
- ChatGPT หาเซตใหม่ที่มีสมาชิกทั้งหมดขนาดเป็นพหุนามตามพารามิเตอร์ แต่ยังคงทำให้คุณสมบัติทั้งสี่ข้อนี้เป็นจริง
-
การใช้เซต h-dissociated
- โครงสร้างของ ChatGPT ใช้ เซต h-dissociated
- เซต h-dissociated คือเซตที่ยอมให้มีได้เฉพาะคำตอบแบบสามัญสำหรับความสัมพันธ์เชิงผลบวกที่มีอันดับไม่เกินค่าจำกัดหนึ่ง
- สามารถสร้างเซต h-dissociated ที่มีขนาดประมาณเท่ากับพารามิเตอร์ และมีเส้นผ่านศูนย์กลางเป็นพหุนามได้
- โครงสร้างลักษณะนี้สืบย้อนไปถึงโครงสร้างของ Singer (1938) และ Bose–Chowla (1963) ที่ใช้ฟิลด์จำกัด ซึ่งอธิบายไว้ใน Appendix 1
-
สัญชาตญาณแบบเก็บความสัมพันธ์ไว้เพียงครึ่งหนึ่ง
- เซตสองชุดที่ ChatGPT สร้างมีความสัมพันธ์เชิงผลบวกเฉพาะบางอย่างอยู่ประมาณครึ่งหนึ่งเมื่อเทียบกับตัวเทียบแบบอนุกรมเรขาคณิต
- ขณะเดียวกัน ด้วยคุณสมบัติ h-dissociated จึงแทบไม่มีความสัมพันธ์อันดับต่ำอื่น ๆ
- ผลลัพธ์คือมันสร้างรูปแบบขนาดของผลบวกซ้ำที่ต้องการขึ้นมาใหม่ได้ แม้อยู่ภายในช่วงแบบพหุนาม
- สำหรับ Rajagopal ไอเดียของ ChatGPT ที่ใช้เซต h-dissociated เพื่อควบคุมความสัมพันธ์ที่มีอันดับไม่เกินค่าหนึ่งนั้นแยบยลมาก และดูเป็นต้นฉบับโดยสมบูรณ์
ความสอดคล้องกันระหว่างบทพิสูจน์ของ ChatGPT กับของ Rajagopal
- บทพิสูจน์ของ ChatGPT คล้ายมากกับรูปแบบที่นำองค์ประกอบแบบอนุกรมเรขาคณิตในบทพิสูจน์เดิมของ Rajagopal มาแทนด้วยองค์ประกอบใหม่ของ ChatGPT
- โครงสร้างสุดท้ายคือการรวมเซตใหม่เหล่านี้สำหรับค่าอันดับหลายค่า แล้วนำไปรวมกับอีกเซตหนึ่งซึ่งเป็นผลบวกของลำดับเลขคณิตกับจุดหนึ่งจุด
- ในเชิงสัญชาตญาณ เซตใหม่สร้างผลบวกซ้ำขนาดใหญ่ ส่วนลำดับเลขคณิตสร้างผลบวกซ้ำขนาดเล็ก ดังนั้นเมื่อรวมกันแล้วก็ดูเหมือนจะได้ผลบวกซ้ำทุกขนาดระดับกลาง
- บทพิสูจน์จริงค่อนข้างซับซ้อน และกินพื้นที่ทั้ง Section 4 ของบทความ ของ Rajagopal และทั้งฉบับ preprint ของ ChatGPT
- เพื่อใช้เปรียบเทียบ จะเห็นได้ง่ายว่าขอบล่างเชิงบวกนั้นอย่างน้อยอยู่ในระดับกำลังของอันดับหนึ่งที่กำหนด แต่ค่าที่แท้จริงยังไม่เป็นที่ทราบ
- Rajagopal บอกว่าเขาประหลาดใจที่ปัญหาที่ Tim ป้อนให้ ChatGPT 5.5 Pro กลับเชื่อมโยงมาถึงบทความ arXiv ของเขาโดยบังเอิญ
นัยต่อการวิจัยคณิตศาสตร์และการฝึกระดับปริญญาเอก
- ผลลัพธ์ที่ ChatGPT หาได้ภายใน 2 ชั่วโมง ถูกประเมินว่าอยู่ในระดับที่ถือเป็นหนึ่งบทซึ่งสมเหตุสมผลพอในวิทยานิพนธ์ปริญญาเอกด้านคอมบิเนโทริกส์
- แม้จะพึ่งพาไอเดียของ Isaac อย่างมาก จึงไม่ใช่ผลลัพธ์ที่น่าเหลือเชื่อ แต่ก็เป็นการขยายไอเดียนั้นต่อแบบไม่สามัญ
- หากเป็นนักศึกษาปริญญาเอก การจะหาการขยายแบบเดียวกันได้คงต้องใช้เวลามากพอสมควรในการทำความเข้าใจบทความของ Rajagopal หาให้เจอว่าจุดไหนอาจยังไม่เหมาะที่สุด และคุ้นเคยกับเทคนิคพีชคณิตต่าง ๆ ที่ใช้อยู่
- การฝึกทำวิจัยด้วยการมอบปัญหาเปิดที่ค่อนข้าง “นุ่ม” ให้แก่นักศึกษาปริญญาเอกช่วงต้นอาจทำได้ยากขึ้น
- ถ้า LLM สามารถแก้ “ปัญหานุ่ม” ได้ เกณฑ์ขั้นต่ำของการมีส่วนร่วมในคณิตศาสตร์ก็จะขยับจาก “ผลลัพธ์ที่ยังไม่มีใครพิสูจน์และมีคนอย่างน้อยบางส่วนเห็นว่าน่าสนใจ” ไปสู่ “ผลลัพธ์ที่ LLM ยังพิสูจน์ไม่ได้”
- เพราะผู้เริ่มต้นก็ใช้ LLM ได้เช่นกัน งานจริงอาจกลายเป็นการพิสูจน์สิ่งที่ ทำร่วมกับ LLM ได้ แต่ LLM ทำเองลำพังไม่ได้
- Gowers เพิ่งทำงานร่วมกับ LLM หลายครั้ง และมองว่าแม้จะยังไม่ถึงขั้นเป็นไอเดียที่พลิกเกม แต่ก็ให้ประโยชน์ที่ใช้ได้จริง
ความแตกต่างระหว่างสาขาและการเปลี่ยนแปลงในอนาคต
- ยังไม่แน่ชัดว่าการเปลี่ยนแปลงเช่นนี้จะขยายไปยังสาขาอื่นของคณิตศาสตร์ได้ทั่วไปมากน้อยเพียงใด
- คอมบิเนโทริกส์มีแนวโน้มเน้นปัญหาเป็นศูนย์กลางอย่างมาก
- มักเริ่มจากคำถามแล้วให้เหตุผลย้อนกลับ หรือแม้จะให้เหตุผลไปข้างหน้า ก็ยังตระหนักถึงคำถามนั้นอย่างมาก
- ในสาขาอื่น การเริ่มจากช่วงของไอเดียแล้วดูว่ามันจะนำไปสู่อะไรต่ออาจสำคัญกว่า ซึ่งเป็น การให้เหตุผลไปข้างหน้า
- ในสาขาแบบนั้น จำเป็นต้องมีความสามารถในการแยกความสังเกตที่น่าสนใจออกจากความสังเกตที่ไม่น่าสนใจ และยังไม่ชัดว่า LLM จะทำเรื่องนี้ได้ดีแค่ไหน
- ความก้าวหน้าเกิดขึ้นเร็วมากจนการประเมิน LLM ในตอนนี้มีแนวโน้มจะล้าสมัยภายในไม่กี่เดือน
- วิธีทำวิจัยคณิตศาสตร์ โดยเฉพาะวิธีนำผู้วิจัยหน้าใหม่เข้าสู่วงการ มีแนวโน้มจะถูกรบกวนอย่างหนัก
- คนที่เริ่มเรียนปริญญาเอกในปีการศึกษาหน้าจะจบเร็วที่สุดในปี 2029 และเมื่อถึงตอนนั้น ความหมายของการทำวิจัยคณิตศาสตร์อาจเปลี่ยนไปมากจนแทบจำไม่ได้จากทุกวันนี้
การเปลี่ยนแปลงของเหตุผลที่ทำคณิตศาสตร์
- เขาระบุว่ามักได้รับอีเมลถามว่าการทำวิจัยคณิตศาสตร์ต่อไปเป็นเส้นทางอาชีพนั้นยังมีความหมายอยู่หรือไม่
- การต่อสู้ขบคิดกับปัญหาคณิตศาสตร์ยังคงมีคุณค่าอย่างมาก แต่ยุคที่ความสุขจากการมีชื่อตนเองเชื่อมโยงกับทฤษฎีบทหรือคำนิยามบางอย่างไปตลอดกาลอาจใกล้สิ้นสุดแล้ว
- หากเป้าหมายของการทำคณิตศาสตร์คือความเป็นอมตะแบบหนึ่ง ก็ควรเข้าใจว่าสิ่งนั้นอาจไม่สามารถดำรงอยู่ได้นานกว่านี้มากนัก
- ในฐานะการทดลองทางความคิด หากนักคณิตศาสตร์พูดคุยยาวกับ LLM และทำหน้าที่ชี้แนะได้อย่างมีประโยชน์ แต่ให้ LLM ทำทั้งงานเชิงเทคนิคและไอเดียหลักทั้งหมดจนแก้ปัญหาใหญ่ได้ ก็ยังน่าสงสัยว่าจะนับเป็นผลงานสำคัญของนักคณิตศาสตร์คนนั้นหรือไม่
- แม้การแก้ปัญหาที่มีคำตอบเป็นที่รู้แล้วก็อาจให้ความพึงพอใจได้ แต่ก็ไม่เพียงพอในฐานะเหตุผลที่จะใช้เวลาหลายปีของชีวิตไปกับมัน
- เหตุผลที่ดีกว่าคือ การแก้ปัญหายาก ๆ ทำให้เราได้ความเข้าใจเชิงลึกต่อกระบวนการแก้ปัญหาในสาขาความเชี่ยวชาญของตนเอง
- คนที่เคยแก้ปัญหายากด้วยตัวเองมาก่อน ก็น่าจะเก่งกว่าในการใช้ AI ช่วยแก้ปัญหาด้วย
- คล้ายกับที่โปรแกรมเมอร์ที่เก่งย่อมทำ vibe coding ได้ดีกว่าคนที่ไม่เก่ง
- คล้ายกับที่คนซึ่งเข้าใจเลขคณิตพื้นฐานดีจะใช้เครื่องคิดเลขได้ดีกว่า โดยเฉพาะเวลาที่คำตอบดูแปลก
- คณิตศาสตร์เป็นทักษะที่ถ่ายโอนไปใช้ได้กว้าง และสิ่งนี้ก็ใช้ได้กับคณิตศาสตร์ระดับวิจัยเช่นกัน
- แม้อาจไม่ได้รับผลตอบแทนแบบเดียวกับคนรุ่นก่อนจากการทำวิจัยคณิตศาสตร์ แต่ก็มีแนวโน้มสูงว่าจะทำให้พร้อมอย่างมากสำหรับโลกที่กำลังจะมาถึง
ภาคผนวกเชิงเทคนิค
-
ภาคผนวก 1: การสร้างเซต h-dissociated
- เป้าหมายคือการสร้าง เซต h-dissociated ที่มีเส้นผ่านศูนย์กลางอยู่ในระดับประมาณพหุนาม
- การสร้างนี้เป็นการดัดแปลงเล็กน้อยมากจากการสร้างของ Bose–Chowla (1963) และ Rajagopal ระบุว่าเรียนรู้มาจากบทความนี้
- Lemma 3.1 ในพรีปรินต์ของ ChatGPT ใช้การสร้างอีกแบบหนึ่งที่ใช้ moment curve ซึ่งมีประสิทธิภาพน้อยกว่า
- การสร้างนี้ใช้จำนวนเฉพาะ, ฟิลด์จำกัด, ตัวกำเนิดของส่วนขยายฟิลด์จำกัด, และวิธีจับคู่องค์ประกอบแต่ละตัวกับรูปแทนกำลังยกเฉพาะ
- สามารถมองความสัมพันธ์เชิงบวกแบบบวกที่มีดีกรีไม่เกินค่าที่จำกัด ให้เป็นความสัมพันธ์ของกำลังยกของตัวกำเนิดได้
- เนื่องจากดีกรีของส่วนขยายและสมบัติของตัวกำเนิด จึงไม่เป็นไปตามพหุนามไม่ศูนย์ที่มีดีกรีต่ำ ดังนั้นพหุนามทั้งสองฝั่งจึงต้องเหมือนกัน
- ดังนั้นความสัมพันธ์เชิงบวกดังกล่าวจึงมีได้เพียงความสัมพันธ์แบบ trivial และเซตนี้จึงเป็น h-dissociated
- หากจำเป็น สามารถลบองค์ประกอบบางส่วนออกเพื่อลดให้ได้ขนาดตามต้องการ
-
ภาคผนวก 2: โครงสร้างรายละเอียดของการสร้างของ ChatGPT
- เลือกค่าคงที่ตรึงไว้ และใช้สองเซตที่ ChatGPT สร้างขึ้น
- การสร้างเซตให้ได้ขนาดตามต้องการประกอบด้วยการรวมองค์ประกอบสี่ประเภท
- หนึ่งประเภทที่เลือกพารามิเตอร์สองตัว
- สองประเภทที่เลือกพารามิเตอร์สองตัวสำหรับแต่ละค่าดีกรี
- เซตที่ทำให้จำนวนองค์ประกอบรวมตรงตามต้องการ
- หนึ่งในเหตุผลที่การสร้างนี้ซับซ้อนคือจำเป็นต้องสร้างเซตที่แตกต่างกันให้ได้มากพอ
- เพื่อทำเช่นนี้ จึงเปลี่ยนทั้งพารามิเตอร์ในบริเวณหนึ่งและพารามิเตอร์ในอีกบริเวณหนึ่งร่วมกัน
- หากตัดพารามิเตอร์ตัวใดตัวหนึ่งออกและคงส่วนที่เหลือไว้เหมือนเดิม ก็จะไม่สามารถสร้างเซตได้มากพอตามจำนวนที่ต้องการ
- การสร้างของ Nathanson สำหรับดีกรี 2 เป็นโครงสร้างที่ง่ายกว่า โดยรวม Sidon set, ลำดับเลขคณิต, และค่าเพิ่มเติมอีกหนึ่งค่า แล้วเปลี่ยนขนาดของลำดับเลขคณิตและค่าเพิ่มเติมนั้นในช่วงที่กำหนดเพื่อสร้างเซตที่ต้องการ
- จากการสร้างในภาคผนวก 1 สามารถได้เซต h-dissociated ที่มีเส้นผ่านศูนย์กลางแบบพหุนามสำหรับแต่ละดีกรี
- เมื่อต้องรวมองค์ประกอบหลายส่วนเข้าด้วยกัน จะใช้โครงสร้างลักษณะแลตทิซที่มีเวกเตอร์ฐาน
- การสร้างนี้รับประกันอัตลักษณ์การคูณของ generating function คล้ายกับ Lemma 4.9 ของ Rajagopal
- ตาม Lemma 2.3 มาตรฐานในพรีปรินต์ของ ChatGPT การสร้างนี้สามารถย้ายไปเป็นสับเซตของช่วงจำนวนเต็มผ่าน Freiman isomorphism ของดีกรีที่กำหนดได้
- การสร้างทั้งหมดนี้ใช้ได้ในกรณีที่มีขนาดใหญ่พอ
-
ภาคผนวก 3: การเทียบกันระหว่างบทความของ Rajagopal กับพรีปรินต์ของ ChatGPT
- Section 4.2 ของบทความ Rajagopal ใช้การสร้างที่ง่ายกว่าเพื่อสร้างเซตที่ทำให้ได้ค่าบางค่าโดยเฉพาะ
- เซตเหล่านี้เป็นสับเซตของช่วงที่มีเพียงองค์ประกอบขนาดพหุนาม และข้อเท็จจริงนี้ถูกสังเกตไว้ใน Section 5 ของพรีปรินต์ ChatGPT
- Section 4.3 ของบทความ Rajagopal ดำเนินการสร้างหลักที่รวมองค์ประกอบหลายส่วนเข้าด้วยกัน และสอดคล้องกับ Sections 2, 3, 4, 6 ของพรีปรินต์ ChatGPT
- Section 4.3.1 ของบทความ Rajagopal ให้ภาพรวมของส่วนนั้นซึ่งมีองค์ประกอบที่ต้องขยับหลายอย่าง
- Section 4.3.2 ของบทความ Rajagopal อธิบายวิธีรวมองค์ประกอบ และ Rajagopal เรียกสิ่งนี้ว่า disjoint union
- มีการนำ generating function มาใช้เป็นเครื่องมือจัดทำบัญชีเพื่อติดตามขนาดของยูเนียนของเซต ซึ่งสอดคล้องกับ Section 2 และ Section 4 ของพรีปรินต์ ChatGPT
- Section 4.3.3 ของบทความ Rajagopal คำนวณ generating function ของเซตองค์ประกอบแต่ละชุด และรวมถึง Lemma 4.15 และ Lemma 4.17
- สิ่งนี้สอดคล้องกับ Section 3 และ Section 6.1 ของพรีปรินต์ ChatGPT โดยในพรีปรินต์ ChatGPT มี generating function หนึ่งตัวที่คำนวณใน Lemma 3.3 และอีกตัวหนึ่งคำนวณใน Lemma 3.4
- หลังจากคำนวณ generating function แล้ว ส่วนที่เหลือของบทพิสูจน์แทบจะเหมือนกันในบทความ Rajagopal และพรีปรินต์ ChatGPT
- Section 4.3.4 ของบทความ Rajagopal แสดงให้เห็นว่าเมื่อเปลี่ยนเซตที่สร้างขึ้น ค่าขนาดของยูเนียนจะครอบคลุมค่าที่เป็นไปได้ทั้งหมด
- แกนสำคัญคือเซตของค่าที่เป็นไปได้นั้นก่อเป็นหนึ่งช่วง และรวมทั้งจำนวนที่น้อยกว่าหรือเท่ากับค่ามาตรฐานหนึ่งค่าที่กำหนดไว้
1 ความคิดเห็น
ความเห็นจาก Hacker News
ตรงกับประสบการณ์ที่ได้ลองใช้ 5.5 Pro อยู่แวบหนึ่ง รู้สึกว่านี่เป็น LLM ตัวแรกที่พอจะ "บังคับ" ให้แก้ปัญหาที่น่าเบื่อแต่ชัดเจนได้อย่างถูกต้อง
มันยังพลาดบ่อยและต้องสั่งอย่างละเอียดมากอยู่ดี แต่ต่างจากโมเดลอื่นตรงที่มันค่อนข้างเก่งในการตามเหตุผลของตัวเองแล้วแก้ไขตัวเอง
ข้อเสียคือราคา มันใช้โทเคนอย่างบ้าคลั่งและราคาโทเคนก็แพง แล้วถ้าใช้ sub-agent flow เพื่อให้แก้ปัญหาใหญ่ได้แม่นยำขึ้นก็ยิ่งแพงกว่าเดิม
กับปัญหาขนาดใหญ่ มันก็อาจช้าลงมากเพราะข้อจำกัดของ context ต้องกลับไปดึง context ของแต่ละส่วนใหม่ และเพื่อความแม่นยำก็ต้องล้าง context ก่อนขยับไปส่วนย่อยถัดไป หรือไม่ก็เปิด agent เพิ่ม
ถ้าเป็นปัญหาประเภทอย่างการพิสูจน์คณิตศาสตร์ที่บริบทเพิ่มเติมซึ่งจำเป็นต่อการเข้าใจโจทย์และการพิสูจน์มีขนาดเล็กและเป็นปัญหาที่ “สำคัญ” ก็อาจพอไหว แต่กับการตรวจความถูกต้องของโค้ดใน codebase ใหญ่ ๆ หรือการตรวจสมมติฐานที่ละเอียดอ่อน มันยังมีข้อจำกัดชัดเจน
เพราะงั้น ถ้าไม่ใช่คนโชคดีที่ใช้ 5.5 Pro ได้ไม่จำกัด ก็คงต้องใช้เวลาอีกพอสมควรกว่าความสามารถที่น่าทึ่งของโมเดลแบบนี้จะซึมเข้าไปในงานประจำวันของโปรแกรมเมอร์
เป็นบทความยาวที่ผสมทั้งส่วนคณิตศาสตร์เชิงเทคนิคกับส่วนเชิงปรัชญา แต่ช่วงที่น่าประทับใจเป็นพิเศษคือประเด็นว่า การฝึกนักศึกษาปริญญาเอกช่วงต้น ยากขึ้น
เมื่อก่อนเรายังเริ่มด้วยการให้โจทย์วิจัยที่ค่อนข้างเบา ๆ ได้ แต่ถ้า LLM แก้ “โจทย์เบา ๆ” พวกนั้นได้ ทางเลือกนั้นก็หายไปแล้ว
เส้นล่างสุดของการมีส่วนร่วมในคณิตศาสตร์จะไม่ใช่ “สิ่งที่ยังไม่มีใครพิสูจน์และน่าสนใจ” แต่กลายเป็น “สิ่งที่ LLM ยังพิสูจน์ไม่ได้”
อย่างไรก็ดี การฝึกก็ยังต้องเริ่มจากพื้นฐาน ทุกคนเริ่มจากการบวกจำนวนเต็มเล็ก ๆ และเครื่องคิดเลขก็ทำสิ่งนั้นแบบไม่พลาดมานานมากแล้ว
อย่างที่ส่วนอื่นของบทความบอก การแก้ปัญหายากด้วยตัวเองทำให้เกิดความเข้าใจลึกต่อกระบวนการแก้ปัญหาเอง และคนที่เคยแก้ปัญหายากมาก่อนก็น่าจะใช้ AI ได้ดีกว่า
การเขียนโค้ดคือการสร้างของที่คนจะเอาไปใช้หาเงิน ดังนั้นใช้ AI ส่งมอบงานได้เร็วขึ้นและยังมีงานทำต่อก็เป็นเรื่องเข้าใจได้ แต่ยังไม่แน่ใจว่าจะมองคณิตศาสตร์แบบเดียวกันได้ไหม
ถ้า LLM เป็นคนทำทั้งไอเดียหลักและงานเชิงเทคนิค แล้วนักคณิตศาสตร์มีบทบาทแค่คอยชี้ทางอย่างเป็นประโยชน์ ก็ยังน่าสงสัยว่าจะถือว่านั่นเป็นความสำเร็จครั้งใหญ่ของนักคณิตศาสตร์ได้หรือไม่
ในบริษัทก็เหมือนกัน เวลาให้ LLM ทำงานแทน ผลลัพธ์อาจไม่ได้แย่เสมอไปและบางครั้งก็พอรับได้ แต่นั่นไม่ใช่งานของคนนั้น
เพราะงั้นผู้เขียนจึงไม่ได้รู้หรือเข้าใจงานนั้นดีกว่าคนอื่น และทั้งไม่ได้เป็นเจ้าของหรืออธิบายมันได้ เป็นแค่ จุดผ่าน เท่านั้น จึงหมดคุณค่า
ถ้า LLM จัดการ “งานวิจัยง่าย ๆ” ได้ กระบวนการนั้นก็จะยิ่งยากขึ้น
สิงโตวัยเด็กเรียนล่าในอนาคตด้วยการต่อสู้และเล่นกับสิงโตเด็กตัวอื่น แต่ถ้าอยู่ ๆ มี TikTok แล้วมันเลิกเล่น การล่าครั้งแรกก็จะยากขึ้นมาก
การใช้ AI ส่งมอบงานให้เร็วขึ้นแล้วหาเงินได้ก็จริง แต่เป็นอีกเรื่องหนึ่งจากการเป็นโค้ดเดอร์ที่เก่ง ถ้าเป็นโค้ดเดอร์เก่งไม่ได้ ก็จะยังคงเป็น vibe coder แย่ ๆ ต่อไป
ประเด็นที่น่าสนใจของ Baez คือคำถามว่าคุณค่าของความคิดและไอเดียลึกซึ้งมาจากไหน
ถ้าคุณค่านั้นมาจากความหายากเป็นหลัก หรือก็คือจากการที่การมีไอเดียบางอย่างเป็นเรื่องยาก เมื่อการผลิตไอเดียเป็นอัตโนมัติ คุณค่าก็อาจร่วงลงอย่างมาก
แต่ถ้าคุณค่ามาจากประโยชน์ใช้สอยของไอเดีย หรือก็คือจากผลประโยชน์ที่ไอเดียนั้นนำมา เรื่องก็จะต่างออกไป การสร้างไอเดียที่ดีกว่าและมากกว่านั้นอาจยิ่งเป็นเรื่องดี
นักคณิตศาสตร์อาจต้องปรับตัวจาก เศรษฐกิจแห่งความหายาก ไปสู่ เศรษฐกิจแห่งความอุดมสมบูรณ์
https://gowers.wordpress.com/2026/05/08/a-recent-experience-...
ประเภทที่สองคือผู้สร้างทฤษฎีแบบล้วน ๆ โดยมี Conway เป็นตัวแทน สนใจทฤษฎีและไอเดียมากกว่าทฤษฎีบท และพยายามขยายอาณาเขตของคณิตศาสตร์
ประเภทที่สามคือนักคณิตศาสตร์ประยุกต์ ที่มองคณิตศาสตร์เป็นเครื่องมือเพื่อจุดหมาย และอยากใช้คณิตศาสตร์แก้ปัญหานอกวงการคณิตศาสตร์
กลุ่มแรกคือ ผู้แก้ปัญหา ดูจะถูก AI คุกคามทันทีที่สุด แม้ตอนนี้ AI ยังเก่งด้านการแก้ปัญหามากกว่าการค้นหาข้อคาดการณ์ใหม่
กลุ่มที่สองคือ ผู้สร้างทฤษฎี จะถูกคุกคามในอนาคตที่ไกลกว่า จนถึงตอนนี้ AI ยังมีความสามารถจำกัดมากในการเสนอไอเดียทางคณิตศาสตร์ใหม่ ๆ ที่น่าสนใจ และก็ยังไม่มีใครรู้ว่าจะฝึกมันให้ทำแบบนั้นได้อย่างไร
กลุ่มที่สามน่าจะได้ประโยชน์จาก AI มากที่สุด ถ้า AI ตอบคำถามทางคณิตศาสตร์ให้ได้ พวกเขาก็ใช้เวลากับคณิตศาสตร์น้อยลง และโฟกัสกับปัญหาภายนอกที่อยากแก้ด้วยคณิตศาสตร์ได้มากขึ้น
ขณะที่ Wiles กับ Perelman อยู่ห่างจากโลกออนไลน์และไปแก้ปัญหาจริง
ในฐานะศาสตราจารย์ฟิสิกส์ ผมใช้ Gemini ตรวจทานบทความอยู่บ่อย ๆ และมันเป็นเครื่องมือที่ทรงพลัง
มันจับข้อผิดพลาดเชิงงานธุรการอย่าง ลืมหน่วยจินตภาพในสมการเชิงซ้อน ที่ผมหาอยู่หลายวันไม่เจอ และยังชี้ความเชื่อมโยงระหว่างแนวคิดกับไอเดียที่ผมพลาดไปได้บ่อย
แต่มันก็ผิดพลาดเชิงแนวคิดบ่อยมากเช่นกัน ซึ่งผมรู้ทันได้เพราะรู้หัวข้อนั้นดี ตัวอย่างเช่นมันสับสนซ้ำ ๆ ระหว่างเลขชี้กำลังของ bivector กับเลขชี้กำลังของ pseudoscalar ในพีชคณิต Clifford สามมิติ
ผมเชื่อว่า ChatGPT 5.5 Pro น่าจะสร้างบทความที่ตีพิมพ์ได้ แต่จากที่เห็น Gemini จนถึงตอนนี้ ผมยังคิดว่าควรมอง LLM เป็นนักเรียนที่มีประสิทธิภาพสูงมาก อ่านบทความกับหนังสือได้แทบจะทันที แต่ก็ยังต้องการการชี้แนะอีกมาก
อีกอย่าง ไม่มีเหตุผลว่าพัฒนาการของ LLM ซึ่งเมื่อ 3-4 ปีก่อนยังแก้คณิตมัธยมปลายได้ไม่เสถียร จะหยุดลงในเร็ว ๆ นี้
Benchmark CritPt ประกอบด้วยโจทย์ฟิสิกส์ระดับงานวิจัยที่ยังไม่ตีพิมพ์ จึงน่าติดตาม
https://critpt.com/
แม้แต่โมเดลแนวหน้าก็ยังห่างไกลจากการแก้ได้ แต่พัฒนาการเร็วมาก o3 high อยู่ที่ 1.5 ปีก่อน 1.4%, GPT 5.4 xhigh 23.4%, GPT-5.5 xhigh 27.1%, และ GPT-5.5 Pro xhigh 30.6%
https://artificialanalysis.ai/evaluations/critpt
ผมเองก็ยังเผลอทำผิดแบบเดียวกันซ้ำ ๆ
นั่นก็เป็นเหตุผลหนึ่งที่น่าหงุดหงิดกับการต้องจัดการความจำของ LLM แบบแมนนวลผ่าน custom prompt และ instruction
ผมยังไม่ได้ลองฟีเจอร์ความจำระยะยาวจริงจัง แต่สงสัยว่าจะเชื่อถือได้ยิ่งกว่าพรอมป์ตก็ยาก อีก 1-2 ปีข้างหน้าก็อาจเปลี่ยนไปมากจน “ความจำ” พวกนั้นต้องสร้างใหม่หลายรอบ
แต่ถ้าไม่มีความคาดหวัง ก็ต้องรับทุกอย่างตามตัวอักษร และนั่นคือจังหวะที่เราตกอยู่ในความเมตตาของเครื่องจักร
เอาพื้นฐานมาตรวจ sanity check agent ใจร้อน และพยายามปลูกฝังพื้นฐานนั้นให้คนอื่นทำแบบเดียวกันได้
สุดท้ายแล้วรู้สึกว่านี่เป็นทางเดียวที่ทำให้ภาพรวมทั้งหมดใช้การได้ เว้นแต่ว่าสักวันบริษัทต่าง ๆ จะย้ายไปใช้ local model ขนาดเล็กกว่าที่รับภาระได้
โอกาสที่จะถูกกับโอกาสที่จะพาเรากระโดดลงหน้าผามีครึ่งต่อครึ่ง แต่ตัวการเดินทางเองมักถูกแพ็กเกจให้ดูเหมือนทริปหรู 5 ดาวเสมอ
ถ้าเจอข้อผิดพลาดแล้วบอก LLM ส่วนใหญ่ผลจะยิ่งแย่ลง เพราะ LLM พยายามทำให้เราพอใจ มันจะขอโทษและเปลี่ยนทิศทาง
ถ้าเป็นแบบนั้น ผมมักจะบันทึกเซสชันหรือยกเลิกแล้วเริ่มใหม่ตั้งแต่ต้น หรือไม่ก็หักเลี้ยวแรง ๆ ไปเลย
สำหรับผม Gemini คือ LLM ที่คาดเดายากที่สุด และโดยรวมแล้ว GPT เข้าทางผมที่สุด
ไม่นานมานี้ Gemini ให้คำตอบสองแบบกับคำถามเดียวกัน เป็นการทดสอบที่ตั้งใจเปิดแชตใหม่แล้ววางพรอมป์ตเดียวกันลงไป
ในงานเขียนโค้ด ความสามารถด้าน reasoning ไม่ได้ช่วยมากนัก เพราะคำอธิบายของ LLM อยู่ในระดับสูงมากและดูถูกต้องในเชิงรูปแบบ
เพราะ LLM ผมกลับต้องไปค้น Google มากกว่าเดิม สุดท้ายมันเหมือนมีใครสักคนสร้างบางอย่างที่ผมต้องตรวจสอบก่อนกดปุ่ม และจะรู้ว่าไอ้ปุ่มวิบวับนั้นจะใช้ได้หรือจะพาไปนรกก็ต่อเมื่อเวลาผ่านไปสักพัก
ถ้านักคณิตศาสตร์มีบทสนทนายาวกับ LLM คอยชี้ทางอย่างเป็นประโยชน์ แต่ LLM เป็นคนทำทั้งงานเชิงเทคนิคและไอเดียหลักทั้งหมด การจะมองว่านั่นเป็นความสำเร็จใหญ่ของนักคณิตศาสตร์หรือไม่เป็น ทางเลือกทางวัฒนธรรม
ในวัฒนธรรมคณิตศาสตร์ปัจจุบัน การรู้สึกแปลกแยกกับเรื่องนี้ก็เป็นธรรมชาติ แต่ในสาขาอื่นหรือสำหรับหลายคนอยู่แล้ว ก็อาจถือว่ามนุษย์มีส่วนสำเร็จครั้งใหญ่อยู่
ตราบใดที่ความร่วมมือระหว่างมนุษย์กับ AI ยังให้ผลดีที่สุด ก็ยังมีการมีส่วนร่วมที่มีความหมายจากมนุษย์ และผู้เชี่ยวชาญลึกซึ้งที่เป็นผู้ฝึก LLM ได้เก่งก็สามารถมีส่วนร่วมครั้งใหญ่ได้
การเปลี่ยนแปลงจริงจะมาถึงเมื่อ AI ล้วนเอาชนะได้ทั้งมนุษย์เดี่ยวและความร่วมมือมนุษย์-AI
ในคณิตศาสตร์ก็เช่นกัน มนุษย์อาจพา LLM ไปในทางที่ถูกต้อง และชี้ให้มุ่งไปยังปัญหานี้หรืออีกปัญหาหนึ่งได้ จึงสมควรได้รับคำชมในระดับหนึ่ง
ทีมที่สร้างรถ คนที่ดูแลม้า หรือทีมที่สร้าง AI อาจสมควรได้คำชมมากกว่า แต่โดยทั่วไปเรามักสนใจคนที่โดดเด่นที่สุดเพียงคนเดียวมากกว่า
ถ้าภาพทำให้คนหัวเราะ คนที่ป้อนพรอมป์ตคงไม่ได้เครดิตส่วนใหญ่ของงานสร้างสรรค์ แต่ก็อาจได้เครดิตในเรื่องไอเดียตั้งต้นและ รสนิยม ในการเลือกผลลัพธ์หนึ่งจากหลายฉบับร่าง
ถ้านักคณิตศาสตร์ได้ผลลัพธ์น่าทึ่งที่ LLM “ทำ” ให้ ก็อาจได้เครดิตบางส่วนจากการให้พรอมป์ตและชี้ทาง
แต่คำถามคือ แม้คนแรกอาจไม่ถูกเรียกว่าศิลปินแต่เป็นนักแสดงตลก นักคณิตศาสตร์คนนั้นยังจะถูกเรียกว่านักคณิตศาสตร์อยู่ไหม หรือเป็นอะไรอย่างอื่น
ก็จ่ายให้เท่ากับที่จ่ายให้นักคณิตศาสตร์คนอื่น ๆ แน่นอนว่าอาจมีนักคณิตศาสตร์มหาเศรษฐีมากขึ้น ซึ่งหมายถึงผลตอบแทนนั้นก็คงสูงพอสมควร
ประโยคที่ว่า “ถ้าจุดมุ่งหมายของการทำคณิตศาสตร์คือการได้มาซึ่งความเป็นอมตะบางประเภท นั่นอาจไม่ใช่สิ่งที่เป็นไปได้ได้นานนักอีกต่อไป” ฟังแล้วเศร้านิด ๆ
ช่วงเปิดเรื่องเต็มไปด้วยภาพนักศึกษาวิ่งวุ่นในแคมปัส MIT และสัญญาเรื่องสถานะกับอนาคตที่การศึกษาระดับสูงมอบให้
พอได้ตระหนักว่ามีหลายอย่างแค่ไหนที่จะถูกส่งต่อให้ AI ก็เกิดความเศร้าแบบคล้ายกัน
[0] - https://youtu.be/0lsUsWdkk0Y?si=TJl7f_b1RcWcDqF8&t=278
ความคิดถัดมาคือ “แล้วฉันเก่งอะไร?” ซึ่งในนั้นอย่างน้อยก็มีคำถามว่า “ฉันจะเป็นระดับโลกในเรื่องอะไรได้?” หรือ “จะเก่งมาก ๆ ในเรื่องอะไรได้?”
ผมไม่เคยคิดว่าการได้ค้นพบบางอย่าง ตั้งชื่อมัน และทำให้มันอยู่ยาวกว่าตัวผมจะเพียงพอให้ได้ความเป็นอมตะแบบคณิตศาสตร์ แต่ถ้าเคยคิด ข่าวร้ายแบบนี้ก็คงกระแทกใจคล้ายกัน
อย่างไรก็ตาม ตรงขอบเขตของเรื่องนี้ ผมไม่เห็นด้วยกับสมมติฐานนั้น ไม่ว่าจะใช้ proof assistant หรือคลัสเตอร์คอมพิวติงมากแค่ไหน ทีมหรือคนที่พิสูจน์สมมติฐานริมันน์ได้ก็จะดัง อย่างน้อยก็ในวงการคณิตศาสตร์
หลายคนคงมุ่งหวังการประยุกต์ใช้เชิงปฏิบัติทางอ้อมผ่านเส้นทางคณิตศาสตร์→ฟิสิกส์→วิศวกรรม หรือไม่ก็ทำเพราะ ความงามของคณิตศาสตร์ และความสุขทางปัญญาล้วน ๆ
AI อาจเอาส่วนการประยุกต์ใช้เชิงปฏิบัติไปได้ แต่แง่มุมที่เหลือก็ยังเพลิดเพลินกับมันได้
ในฐานะนักศึกษาบัณฑิตศึกษา บทความนี้ทำให้ผมเศร้า ผมเชื่อว่างานของผมจะพูดแทนตัวผมได้เกินกว่าตัวตนและเวลาจำกัดที่ได้รับมาในประสบการณ์จักรวาลนี้
ความรู้สึกถึงความเป็นอมตะ แบบนั้นเป็นโบนัสเล็ก ๆ ที่จับต้องไม่ได้ ซึ่งผมคาดหวังตอนกระโดดเข้าสู่บัณฑิตศึกษา แต่ AI ทำให้ผมรู้สึกว่าตัวเองมีคุณค่าน้อยลง
งานนั้นมีคุณค่าเพราะคุณทำมันได้ จงทำมันเพราะคุณรักมัน และเพราะคุณรักความลึกลับ
หวังว่าคุณจะเพลิดเพลินกับทุกช่วงเวลาที่ได้ทำมัน และพบความสุขจากโชคอันยิ่งใหญ่ที่ได้ทำงานแบบนี้ ต่างจากคนที่ต้องทนอยู่กับงานที่ไม่ให้ความพึงพอใจ
บางครั้งมันน่าเบื่อ แต่บางครั้งก็คุ้มค่าอย่างไม่น่าเชื่อในตัวมันเอง
แต่อย่าทำมันเพื่อโอกาสของเกียรติยศชั่วนิรันดร์ เพราะสิ่งนั้นไม่มีอยู่อีกแล้ว
ไม่มีความท้าทายใดใหญ่ไปกว่านี้อีกแล้ว
ในฐานะผู้ช่วยศาสตราจารย์ด้านทฤษฎีวิทยาการคอมพิวเตอร์ในยุโรปตะวันออก ผมอิจฉาอยู่เสมอเล็กน้อยที่คนดังในวงการคณิตศาสตร์เข้าถึงโมเดล reasoning ระยะยาวราคาแพงได้ง่าย
ด้วยงบวิชาการตอนนี้ การจ่าย Pro ที่นี่เป็นเรื่องเกินจริง งบมีข้อจำกัดเรื่องวัตถุประสงค์ และแทบไม่มีหมวดค่าใช้จ่ายซอฟต์แวร์ที่ตรงเงื่อนไข
ในทางปฏิบัติแล้ว ต้องไปขอทุนวิจัยใหม่ หวังว่ากฎของทุนนั้นจะยอมให้มีรายจ่ายซอฟต์แวร์ก้อนใหญ่ และหวังว่าจะไม่เจอ ผู้ประเมินที่ต่อต้าน AI ขั้นตอนแบบนี้อย่างต่ำก็หนึ่งปี
ยังไม่พอ Microsoft ยังเริ่มจำกัดการใช้ Copilot แบบส่วนบุคคลและเชิงวิชาการ ทำให้การเข้าถึง Claude Opus ถูกบล็อกไปเมื่อไม่นานนี้
ผมลองเองแล้ว และ ChatGPT 5.5 Plus ดูไม่พอสำหรับการขุดหัวข้อวิจัยใหม่ให้ลึก
ใช้เวลา 2 ปีในการตั้งบริการนั้นขึ้นมาและมันให้แค่ gpt-oss-120b ดังนั้นทุกคนก็ยังใช้บริการอื่นอยู่ดี
ถึงอย่างนั้น ผู้บริหารบางคนก็สามารถโรยคำว่า “AI” ไว้ทั่วเว็บไซต์มหาวิทยาลัย และใช้มันเป็นข้ออ้างเพื่อปฏิเสธคำขอสมัคร AI เพราะ “เรามี AI แล้ว”
มีตัวอย่างเรื่องคนจนกับคนรวยซื้อรองเท้าบูต คนจนต้องเปลี่ยนบูตบ่อยเพราะมันสึก แต่ของคนรวยคุณภาพดีกว่าและอยู่ได้นานหลายปี
พอเวลาผ่านไป คนจนกลับใช้เงินกับรองเท้ามากกว่า
ถ้าใช้ประหยัด ๆ ปกติก็ออกมาถูกพอสมควร
ต่อให้มหาวิทยาลัยไม่จ่ายให้ ก็นึกว่าคงอยากใช้เพื่อเป้าหมายของตัวเอง
ไม่ได้จะตำหนิ แค่อยากรู้ว่าสำหรับนักวิจัยส่วนใหญ่ในพื้นที่นั้น นี่เป็นค่าใช้จ่ายที่เอื้อมไม่ถึงโดยสิ้นเชิงหรือเปล่า
เมื่อราว 10 ปีก่อน ผมเคยเห็น Tim Gowers บรรยายในงานประชุมร่วม AMS-MAA ที่ Seattle โดยเขาทำนายว่าในอีก 100 ปี มนุษย์จะไม่ทำ คณิตศาสตร์วิจัย กันอีกแล้ว ตอนนี้เลยสงสัยว่าเขาปรับไทม์ไลน์หรือยัง
ตอนนั้นผมคิดว่าเครื่องมือชิ้นสำคัญที่ยังขาดคือการค้นหาภาษาธรรมชาติที่ทำงานแบบ MathOverflow คือให้เราอธิบายปัญหาหรือไอเดียในแบบที่เราเข้าใจ แล้วมันไปหาวรรณกรรมที่เกี่ยวข้องซึ่งอยู่นอกประสบการณ์หรือคำศัพท์ของเราให้
การเป็นนักคณิตศาสตร์ที่ยอดเยี่ยมไม่ได้แปลว่าจะถูกเสมอไป ที่จริงนักคณิตศาสตร์มีทฤษฎีแปลก ๆ กันเยอะพอควร
นักศึกษาส่วนใหญ่แบบถล่มทลายที่เข้ามหาวิทยาลัยในฤดูใบไม้ร่วงนี้ ต่อให้ทำวิจัย ก็จะมีส่วนสำคัญต่อวิทยาศาสตร์ได้จริงอีกทีราว 4-5 ปีข้างหน้า และถ้านับถึงช่วงที่ปริญญาเอกเริ่มจริงจังก็สมจริงกว่าที่ 6-7 ปี
ถ้ามองระดับโมเดลเมื่อ 5-7 ปีก่อน ตอนนั้นภัยคุกคามเชิงอัตถิภาวนิยมต่อปริญญาเอกยังไม่อยู่ในเรดาร์เลย คนที่กำลังจบปริญญาเอกตอนนี้คือคนรุ่นแรกที่ใช้เครื่องมือเหล่านี้ได้อย่างแท้จริง
ปัญหาจะเกิดถ้านักศึกษาที่อยากเป็นนักวิจัยรู้สึกพ่ายแพ้จนเลิกไป หรือพึ่งโมเดล AI ให้ทำงานแทนทั้งหมด
เรื่องเงินทุนตำแหน่งปริญญาเอกก็เช่นกัน ถ้าทุนย้ายจากการสนับสนุน “การฝึกนักวิจัย” ไปเป็นการสนับสนุน “การได้ผลลัพธ์” เงินที่เคยลงกับนักศึกษาปริญญาเอกอาจไหลไปเป็น ทรัพยากรคอมพิวต์ แทน
มองแบบประชดหน่อย นักวิจัยบางคนอาจผลิตบทความได้มากกว่ามากถ้าเอาเงินไปลงคอมพิวต์ แทนที่จะฝึกนักศึกษาอยู่หลายปี
เป็นยุคที่น่าสนใจ แต่ความไม่แน่นอนก็มากเกินไป จึงรู้สึกสงสารนักศึกษาที่ต้องตัดสินใจตอนนี้ว่าจะทำอะไร
โดยเฉพาะในสาขาที่อ่อนกว่า คุณซื้อทั้งวิทยานิพนธ์ปริญญาเอกและประวัติการตีพิมพ์ที่ดีได้ตั้งแต่ตอนนี้
ถ้าอยู่ในอุตสาหกรรมไม่ใช่วงการวิชาการ คุณก็ซื้อการเลื่อนตำแหน่งได้เช่นกัน ถ้านายจ้างให้งบ AI กับพนักงานทุกคน ก็แค่เงียบ ๆ เพิ่มงบตัวเองเป็นสองเท่าด้วยเงินส่วนตัวจนกว่าจะได้เลื่อนตำแหน่ง แล้วค่อยหยุดและรับเงินเดือนที่สูงขึ้นต่อไป
เห็นได้ชัดว่ามันทำให้ทำวิจัยที่ก่อนหน้านี้ทำไม่ได้
ก็เห็นเหมือนกันว่าการใช้ AI ทำให้ความสามารถในการเขียนโค้ดด้วยตัวเองลดลงบ้าง แต่ผมมองคล้ายกับการเขียนโมเดล machine learning ด้วย scikit-learn หรือ Pytorch
รายละเอียดระดับล่างถูก abstract ออกไป และถ้าไม่มี AI ก็คงทำอะไรไม่ได้มากนัก แต่การวิจัยนั้นก็ยังเกิดขึ้นเพราะคนคนนั้นจริง ๆ และจะไม่เกิดขึ้นจาก AI อย่างเดียว
เงินก้อนนั้นแทบจะเป็นรายการงบประมาณที่ถูกเพิ่มทีหลัง จึงไม่ใช่เป้าหมายที่น่าดึงดูดมากนักสำหรับการย้ายออกไปใช้กับของแพงและขั้นตอนอื่น ๆ