2 คะแนน โดย GN⁺ 2024-09-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำ mathstodon.xyz

  • mathstodon.xyz เป็นอินสแตนซ์สำหรับผู้ใช้ที่เกี่ยวข้องกับคณิตศาสตร์ ซึ่งเป็นส่วนหนึ่งของเครือข่ายสังคมแบบกระจายศูนย์ที่ใช้ Mastodon
  • รองรับการเรนเดอร์ LaTeX บนเว็บอินเทอร์เฟซ
  • ผู้ดูแลระบบ: Christian Lawson-Perfect (@christianp)
  • สถิติเซิร์ฟเวอร์: ผู้ใช้ที่ใช้งานอยู่ 3K คน

การทดลอง GPT-o1 ของ Terence Tao

  • GPT-o1: GPT เวอร์ชันใหม่ของ OpenAI ที่ทำขั้นตอนการให้เหตุผลเบื้องต้นก่อนรัน LLM
  • การทดลอง 1: ในการตอบคำถามคณิตศาสตร์ที่กำกวม โมเดลสามารถระบุ Cramer's theorem ได้อย่างถูกต้องและให้คำตอบที่น่าพอใจ
    • ในเวอร์ชันก่อนหน้า แม้จะกล่าวถึงแนวคิดที่เกี่ยวข้อง แต่รายละเอียดผิดพลาด
  • การทดลอง 2: เมื่อต้องรับมือกับโจทย์วิเคราะห์เชิงซ้อนที่ซับซ้อน โมเดลสามารถนำไปสู่คำตอบที่ถูกต้องได้ด้วยคำใบ้และการชี้นำจำนวนมาก แต่ไม่สามารถสร้างแนวคิดเชิงมโนทัศน์หลักได้ด้วยตนเอง และยังมีข้อผิดพลาดอยู่บ้าง
    • ดีขึ้นจากโมเดลก่อนหน้า แต่ก็ยังไม่เพียงพอ
    • หากมีการปรับปรุงอีกไม่กี่รอบ ก็มีโอกาสที่จะเป็นประโยชน์กับงานระดับวิจัยได้
  • การทดลอง 3: ในงานทำผลลัพธ์ให้เป็นรูปแบบทางการใน Lean โมเดลเข้าใจปัญหาได้ดีและแยกย่อยขั้นต้นได้ดี แต่เนื่องจากขาดข้อมูล Lean รุ่นล่าสุด จึงมีข้อผิดพลาดหลายจุดในโค้ด
    • อาจมีประโยชน์มากเมื่อใช้ใน IDE ที่ผสานโมเดลเฉพาะทางสำหรับ Lean และ Mathlib

การอภิปรายเพิ่มเติม

  • พัฒนาการของเครื่องมือ AI: คาดหวังการเกิดขึ้นของระบบนิเวศเครื่องมือ AI ที่สามารถรับมือกับงานวิจัยได้หลากหลายประเภท
    • ปัจจุบัน LLM ขนาดใหญ่แบบอเนกประสงค์ได้รับความสนใจมาก แต่ก็คาดว่าโมเดลโอเพนซอร์สน้ำหนักเบาที่ปรับให้เหมาะกับการใช้งานเฉพาะด้านจะมีบทบาทสำคัญเช่นกัน
  • การเปรียบเทียบ AI กับนักศึกษาปริญญาโท/เอก: มีการถกเถียงกันว่าเครื่องมือ AI จะสามารถสร้างผลงานในระดับเดียวกับนักศึกษาระดับบัณฑิตศึกษาได้หรือไม่
    • ปัจจุบันยังต้องใช้ความพยายามมากกว่านักศึกษาบัณฑิตศึกษา แต่มีความเป็นไปได้ว่าในอีกไม่กี่ปีข้างหน้า อัตราส่วนนั้นอาจลดลงเหลือ 1 หรือต่ำกว่า

# สรุปของ GN⁺

  • Terence Tao ได้ทดสอบโมเดล GPT-o1 ใหม่ของ OpenAI เพื่อประเมินความสามารถในการแก้ปัญหาทางคณิตศาสตร์
  • GPT-o1 ดีขึ้นจากเวอร์ชันก่อนหน้า แต่ก็ยังมีข้อจำกัดบางประการ
  • หากมีการปรับปรุงอีกไม่กี่รอบ ก็มีโอกาสที่จะเป็นประโยชน์กับงานระดับวิจัยได้
  • คาดหวังการเกิดขึ้นของระบบนิเวศของเครื่องมือ AI ที่สามารถสนับสนุนงานวิจัยได้
  • ปัจจุบัน LLM ขนาดใหญ่แบบอเนกประสงค์ได้รับความสนใจมาก แต่ก็คาดว่าโมเดลโอเพนซอร์สน้ำหนักเบาที่ปรับให้เหมาะกับการใช้งานเฉพาะด้านจะมีบทบาทสำคัญเช่นกัน

1 ความคิดเห็น

 
GN⁺ 2024-09-15
ความคิดเห็นจาก Hacker News
  • มีความคาดหวังว่า หาก GPT ถูกปรับจูนใน Lean (เครื่องมือช่วยพิสูจน์) ได้เหมือนกับ Python มันจะมีประโยชน์กับคณิตศาสตร์ระดับวิจัยมากขึ้น

    • ในสาขาที่เกี่ยวข้องกับ Operations Research (OR) นั้น ChatGPT 4o เรียนรู้วรรณกรรม OR มาเพียงพอจนสามารถให้สูตร mixed-integer programming (MIP) ที่มีประโยชน์ได้
    • เมื่อยกปัญหาเชิงตรรกะให้ มันสามารถสร้างสูตรคณิตศาสตร์ที่ใช้ได้ และต้องแก้ไขเพียงเล็กน้อย
    • มันสามารถเตือนถึงสูตรที่อ่อนแอซึ่งตรรกะอาจล้มเหลวได้ ช่วยหลีกเลี่ยงปัญหา
    • GPT ช่วยแก้ปัญหาที่เมื่อก่อนต้องนั่งคิดทั้งสุดสัปดาห์ ทำให้ประหยัดเวลาได้มาก
    • สำหรับคนที่เข้าใจการทำ MIP optimization และสามารถแยกปัญหาออกเป็นชิ้นเล็ก ๆ ได้ ค่าสมาชิกรายเดือน $20 ของ ChatGPT ถือว่าคุ้มค่าอย่างยิ่ง
    • หลายคนใช้ LLM ได้ไม่ดี หรือคาดหวังสูงเกินไป จึงรู้สึกไม่พอใจ
    • คนที่รู้จุดแข็งของ LLM และตรวจสอบความผิดพลาดได้ จะได้รับประโยชน์อย่างมากในการทำงาน
  • ลองจินตนาการว่าย้อนกลับไปปี 2019 แล้วได้อ่านข้อความที่บอกว่าประสบการณ์ในการโต้ตอบกับ Alexa "คล้ายกับการให้คำปรึกษานักศึกษาปริญญาโทที่ธรรมดา ๆ แต่ก็ไม่ได้ไร้ความสามารถไปเสียทีเดียว"

    • ภายในเวลา 5 ปี ความแตกต่างนั้นมหาศาลมาก
  • โมเดล o1 น่าทึ่งมาก

    • ได้รับการเพิ่มความเร็วอย่างมากในโปรเจ็กต์ปรับแต่งโค้ด Rust และตรวจสอบความถูกต้องได้
    • คิดแนวทางและนำไปใช้จริงสำหรับการวัดการพึ่งพาทางสถิติแบบใหม่ที่อิงกับ Jensen-Shannon divergence
    • ทำ normalized mutual information เวอร์ชันที่ทำงานได้เร็ว สำหรับกรณีที่หา implementation ที่เร็วได้ยากเมื่อจัดการกับเวกเตอร์ขนาดใหญ่ (เช่น มากกว่า 15,000 มิติ)
    • ตอนแรกมันยังให้โค้ด Rust ที่สมบูรณ์แบบไม่ได้ แต่สามารถแก้บั๊กทั้งหมดได้ในการลองเพียงครั้งเดียว
    • GPT-4o ต้องลองหลายครั้งเพื่อแก้ข้อผิดพลาดเรื่อง type ของ Rust
    • Claude3.5 sonnet ไร้ความสามารถมากกับ Rust
    • มันช่วยได้มากในงานที่ท้าทายอย่างยิ่ง
    • ไม่ใช่แค่การปรับประสิทธิภาพและโค้ดที่ค่อนข้างไร้บั๊กเท่านั้น แต่ยังผสานการแก้ปัญหาอย่างสร้างสรรค์เข้ากับความรู้ทางคณิตศาสตร์และอัลกอริทึมอันกว้างขวาง เพื่อเข้าใจและทำให้เป้าหมายสำเร็จ
  • ประสบการณ์กับโมเดล O1 แตกต่างกันมาก

    • มันสับสนแม้แต่กับคำถามง่าย ๆ
  • สิ่งใหม่คือ LLM ในหลายหัวข้อนั้น "คล้ายกับการให้คำปรึกษานักศึกษาปริญญาโทที่ธรรมดา ๆ แต่ก็ไม่ได้ไร้ความสามารถไปเสียทีเดียว"

    • มันช่วยได้มากในการจัดการงานเล็ก ๆ ในสาขาที่ตนมีประสบการณ์มากอยู่แล้ว
    • หากแบ่งปัญหาออกเป็นชิ้นเล็ก ๆ มันจะทำงานได้ solid
    • จำเป็นต้องมีความเข้าใจเชิงแนวคิด และทักษะการเขียนพรอมป์ก็สำคัญ
    • ใช้ LLM เพื่อทำความเข้าใจหัวข้อที่ซับซ้อน และยืนยันแนวคิดผ่านการตรวจสอบโดยผู้เชี่ยวชาญ
  • มนุษย์เองก็อาจได้ประโยชน์จากการให้เหตุผลแบบ "chain of thought"

    • หากนักเรียนทุกคนที่เรียนคณิตศาสตร์สามารถจดจำคำนิยามและข้อมูลที่เกี่ยวข้องได้ ความสามารถก็น่าจะดีขึ้นมาก
    • AI ไม่มีอุปสรรคทางอารมณ์ จึงอาจให้เหตุผลได้ดีกว่า
  • เห็นด้วยกับความเห็นของ Terence Tao

    • LLM อาจปรับปรุงประสิทธิภาพได้ผ่านการจับคู่รูปแบบ แต่ก็อาจไม่มีประสิทธิภาพในการสร้างการเหมารวมที่แท้จริง
    • กับปัญหาใหม่หรือปัญหาที่ซับซ้อน ก็ยังอาจเกิดอาการหลอนและการให้เหตุผลที่ผิดพลาดได้
  • รู้สึกตื่นเต้นที่จะกลับไปเรียนคณิตศาสตร์อีกครั้งในฐานะงานอดิเรกอิสระ

    • ได้รับความช่วยเหลืออย่างมากจาก LLM ในการแก้คำถามวิเคราะห์ที่ซับซ้อน
    • ประทับใจกับความสามารถของ LLM ในการค้นหาความเชื่อมโยงเชิงแนวคิดได้อย่างรวดเร็ว
    • เมื่อลองถามว่าหากผ่อนคลายคำนิยามบางอย่างแล้ว จะสามารถทำ complex analysis บน non-orientable manifold ได้หรือไม่ LLM ก็ชี้ได้ทันทีว่าสมการ Cauchy-Riemann ไม่สอดคล้องกันในระดับ global
    • ถ้าไม่มี LLM ก็คงตอบคำถามนี้ไม่ได้
  • ความเห็นของ Terence Tao น่าประหลาดใจ

  • Daniel Litt ประทับใจกับ o1-preview แต่ยังไม่ค่อยมีโชคกับการใช้มันแก้ปัญหาคณิตศาสตร์ที่น่าสนใจ

    • มันเชื่อถือได้มากกว่าในงานง่าย ๆ และอาจช่วยประหยัดเวลาในงานที่ไม่ใช่คณิตศาสตร์