ความแม่นยำของ O1-preview ลดลง 30% เมื่อมีการดัดแปลงปัญหา Putnam แบบเล็กน้อย

(openreview.net)

1 คะแนน โดย GN⁺ 2025-01-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แนะนำ benchmark Putnam-AXIOM
- Putnam-AXIOM เป็น benchmark ที่ท้าทายเพื่อประเมินความสามารถในการอนุมานทางคณิตศาสตร์ของโมเดลภาษาใหญ่ (LLM)
- รวมโจทย์คณิตศาสตร์จำนวน 236 ข้อจาก William Lowell Putnam Mathematical Competition พร้อมคำอธิบายแบบเป็นขั้นตอน
- เพื่อป้องกันการปนเปื้อนข้อมูล ได้สร้าง benchmark แปรผัน Putnam-AXIOM Variation โดยการแปลงเชิงหน้าที่ต่อ 52 ข้อ
- โดยการเปลี่ยนแปลงองค์ประกอบของโจทย์ เช่น ตัวแปร ค่าคงที่ ฯลฯ แบบเชิงโปรแกรม จึงสามารถสร้างโจทย์ใหม่ที่ไม่มีอยู่ในออนไลน์ได้อย่างไม่สิ้นสุด
ความสำคัญของ benchmark และผลลัพธ์
- โมเดลส่วนใหญ่มีความแม่นยำลดลงอย่างมากบนปัญหาที่ถูกแปลงแล้วเมื่อเทียบกับปัญหาเดิม
- โมเดล O1-preview ของ OpenAI มีความแม่นยำ 41.95% ใน Putnam-AXIOM Original แต่ประสบกับการลดลงของความแม่นยำประมาณ 30% บนชุดข้อมูลที่แปลงแล้ว
ข้อคิดเห็นจากรีวิวเออร์
- รีวิวเออร์ 9XA: benchmark นี้ถูกออกแบบเพื่อให้ความรบกวนน้อยที่สุดในด้านการฟอร์แมตโจทย์ การตรวจสอบความเทียบเท่าคำตอบ ฯลฯ อย่างไรก็ตาม ระดับการป้องกันการปนเปื้อนอาจยังไม่เพียงพอ เนื่องจากการแปลงเชิงหน้าที่ถูกใช้กับเพียง 53 ข้อ ซึ่งอาจทำให้ความสามารถในการประเมินลดลง
- รีวิวเออร์ krr4: ชุดข้อมูลประกอบด้วยตัวอย่างจำนวน 236 ข้อ อาจทำให้ benchmark นี้ยังไม่เป็นรูปธรรมมากนัก โดยส่วนใหญ่แล้วโมเดลมีความแม่นยำต่ำ จึงควรเพิ่มความซับซ้อนแบบลำดับชั้นของระดับความยาก
- รีวิวเออร์ Nbvs: เป็นการมีส่วนร่วมที่ดีในการจัดหาชุดปัญหาที่ท้าทายเพื่อประเมินความสามารถในการแก้ปัญหาคณิตศาสตร์ การแปลงปัญหาอาจเป็นกลยุทธ์ที่ดีในการลดการรั่วไหลในระบบการประเมินปัจจุบันที่อาศัยกล่องไว้เป็นหลัก
- รีวิวเออร์ MsMi: เป็น benchmark การอนุมานเชิงวิเคราะห์ที่ยากและใหม่ โดยแม้แต่โมเดลที่ทรงพลังก็ยังทำได้ไม่ดีบน benchmark นี้ แม้ว่าจะมีการกำหนดให้ใช้คำสั่ง \boxed{} ซึ่งจำกัดความสามารถในการแสดงผลของ benchmark
คำถามและข้อเสนอแนะเพิ่มเติม
- คำถามเกี่ยวกับจำนวนปัญหาที่ถูกให้คะแนนผิดพลาดเนื่องจากไม่ได้ใช้คำสั่ง \boxed{} อย่างถูกต้อง
- คำถามเกี่ยวกับวิธีการเชิงอัลกอริทึมในการปรับโจทย์ต่อเนื่อง เพื่อคง dataset ที่ไม่มีโมเดลใดจำได้หมด

1 ความคิดเห็น

GN⁺ 2025-01-02

ความคิดเห็นบน Hacker News

จำได้ว่าตอนปัญหานี้เพิ่งออกมา ผู้คนตื่นเต้นกันที่ ChatGPT ตอบถูกว่า “ระหว่างขนนก 10 ปอนด์กับอิฐ 10 ปอนด์ อะไรหนักกว่ากัน?”
แต่แน่นอนว่ามันตอบถูก และมีความเป็นไปได้สูงว่าปัญหานั้นอยู่ใน ข้อมูลฝึก
ถ้าแค่เปลี่ยนคำนามหรือเปลี่ยนตัวเลขให้ในความเป็นจริงฝ่ายหนึ่งหนักกว่า ประสิทธิภาพก็จะขึ้น ๆ ลง ๆ
เมื่อกี้ผมถามบน chatgpt.com ว่า “ระหว่างถุงแท่งเหล็ก 9.99 ปอนด์กับถุงสำลีนุ่ม ๆ 10.01 ปอนด์ อะไรหนักกว่ากัน?” คำตอบแรกบอกว่าแท่งเหล็กหนักกว่า แต่ตอนท้ายกลับบอกว่าสำลีหนักกว่านิดหน่อย จึงให้คำตอบที่ ทั้งถูกและผิด
ถ้าจะดูความสามารถแบบนี้ให้จริงจัง จำเป็นต้องออกไปนอกข้อมูลฝึก และโจทย์ที่นึกออกภายใน 5 วินาทีส่วนใหญ่มักเป็นโจทย์ที่เคยเห็นบ่อยแล้ว หรือคนอื่นก็นึกออกได้ง่ายเช่นกัน
แค่ออกนอกเส้นทางที่คุ้นเคยไปนิดเดียว ประสิทธิภาพด้านคณิตศาสตร์ก็ดูน่าประทับใจน้อยลงมาก
- ถ้าดูเฉพาะคำตอบแรกในเซสชันใหม่บน ChatGPT Plus โดยไม่หลอกล่อ GPT-4, GPT-4o และ GPT o1 ต่างก็ตอบถูกว่า ถุงสำลี 10.01 ปอนด์ หนักกว่าถุงแท่งเหล็ก 9.99 ปอนด์
  โดยอธิบายว่าเป็นการเปรียบเทียบน้ำหนักในหน่วยเดียวกัน ไม่เกี่ยวกับวัสดุหรือความหนาแน่น ดังนั้น 10.01 มากกว่า 9.99
- https://chatgpt.com/share/67756897-8974-8010-a0e0-c9e3b3e91f...
  จนถึงตอนนี้ o1-mini จัดการงานทั้งหมดที่คนในเธรดนี้บอกว่า LLM ทำไม่ได้ ได้ดีทั้งหมด
- ถ้าลองโดยไม่มีการสมัครสมาชิก ตอนนี้มีโอกาสสูงที่จะได้คำตอบที่สร้างโดย 4o-mini เป็นส่วนใหญ่
  นี่ไม่ใช่ตระกูลโมเดล reasoning อย่าง o1, o1-mini หรือ o1-preview รุ่นก่อน ที่บทความวิจัยที่ลิงก์ไว้พูดถึง
  กระทั่งอาจไม่ใช่ 4o ซึ่งเป็นโมเดลหลักแบบไม่ใช่ reasoning ด้วยซ้ำ และ “4o auto” ที่แสดงในบัญชีฟรีก็ดูเหมือนเป็นกลไกสำหรับเลือกโมเดลอัตโนมัติให้คุ้มต้นทุน ไม่ใช่ชื่อโมเดล
  ถ้าไม่มีการสมัครสมาชิก ChatGPT ตอนนี้ก็ไม่สามารถเลือกโมเดลเฉพาะพร้อมมีข้อจำกัดการใช้งานเหมือนเมื่อก่อนได้แล้ว
- ผมถามปริศนาหมอแบบคลาสสิกกับ Claude 3.5 Sonnet มันเพิ่มกระบวนการคิดเข้ามา ทำให้คำตอบดีขึ้น แต่ก็ยังเห็น ร่องรอยว่าไม่ได้เข้าใจจริง
  สำหรับคำถามว่า “ผู้หญิงคนหนึ่งกับลูกชายประสบอุบัติเหตุทางรถยนต์ ผู้หญิงเสียชีวิต หมอที่เห็นเด็กพูดว่า ‘ฉันผ่าตัดเด็กคนนี้ไม่ได้ เขาเป็นลูกชายของฉัน’ เป็นไปได้อย่างไร?” มันตอบว่า “หมอคือพ่อของเด็ก” และอธิบายว่านี่เป็นปริศนาคลาสสิกที่แสดงอคติทางเพศ
  แต่เจตนาดั้งเดิมของโจทย์คือถามถึงความเป็นไปได้ที่หมออาจเป็น แม่ และแม้มันจะเสริมความเป็นไปได้เรื่องพ่อแม่เพศเดียวกันด้วย แต่ก็พลาดประเด็นหลัก
- เวอร์ชันดัดแปลงที่ผมเจอครั้งแรกคือ “ระหว่างขนนก 1 ปอนด์กับทอง 1 ปอนด์ อะไรหนักกว่ากัน?” ซึ่งเป็นคำถามที่ยากกว่ามาก
  คำตอบที่ได้ยินคือ ทองชั่งด้วย น้ำหนักทรอย ส่วนขนนกชั่งด้วยน้ำหนักแบบทั่วไป ดังนั้นทรอยปอนด์มี 12 ออนซ์ และปอนด์ทั่วไปมี 16 ออนซ์ ขนนกจึงหนักกว่า
  คำกล่าวเหล่านี้ล้วนเป็นจริง แต่คำตอบยังไม่สมบูรณ์
  เช่นเดียวกับที่ปอนด์ทั่วไปหนักกว่าทรอยปอนด์ ออนซ์ทั่วไปก็เบากว่าทรอยออนซ์
  เพียงแต่ความต่างนั้นไม่มากพอจะพลิกความต่างระหว่าง 16 ออนซ์กับ 12 ออนซ์
  ถ้าไม่ยอมรับความต่างของออนซ์ คำตอบทางการก็ผิดพอ ๆ กับคำตอบแบบซื่อ ๆ
การทดลองที่แม้ในทางปฏิบัติคงยากแต่ผมอยากลอง คือฝึกโมเดลด้วยข้อมูลดิจิทัลทั้งหมดก่อนปี 1905 ไม่ว่าจะเป็นบทความวิจัย จดหมาย หนังสือ รายการออกอากาศ การบรรยาย ฯลฯ แล้วถามถึง สมการสมมูลมวล-พลังงาน
ถ้ามันให้คำตอบที่ชัดเจนได้ ก็น่าจะยุติการถกเถียงได้ว่า pattern recognition เป็นรูปแบบหนึ่งของปัญญาหรือไม่
- ทันทีที่คิดได้ว่ามวลกับพลังงานอาจสมมูลกัน แค่ การวิเคราะห์มิติ ก็ทำให้ตัวเลือกของสมการเหลือไม่มากแล้ว
  สิ่งที่น่าสนใจใน E=mc^2 ไม่ใช่ตัวสูตรเอง แต่คือข้อเสนอว่ามวลเป็นรูปแบบหนึ่งของพลังงาน และการสังเกตแวดล้อมเกี่ยวกับจักรวาล
  insight จริงในปี 1905 น่าจะใกล้เคียงกับการตั้งคำถามที่ถูกต้องและจินตนาการได้ว่าหลักสมมูลอาจเป็นจริงได้มากกว่า
  คณิตศาสตร์ส่วนใหญ่มีอยู่แล้วก่อนปี 1905 และอาจเข้าไปอยู่ในข้อมูลฝึก AI ได้: https://en.m.wikipedia.org/wiki/History_of_Lorentz_transform...
- เคยได้ยินไอเดียคล้าย ๆ กันในพอดแคสต์ที่มี Adam Brown
  แนวคิดคือ ถ้า AI สามารถอนุมาน ทฤษฎีสัมพัทธภาพพิเศษ ได้จากแค่หนังสือและบทความก่อน Einstein ก็แปลว่าเรามาถึงหมุดหมายระดับ game changer ถัดไปของความก้าวหน้าด้านการให้เหตุผลของเครื่องแล้ว
- ข้อพิพาทสิทธิบัตรก็ควรตัดสินแบบนี้ได้
  ถ้า LLM ค้นพบได้ ก็ถือว่าไม่มีความใหม่
- ยังน่าสงสัยด้วยว่าข้อมูลก่อนปี 1905 มีมากพอให้โมเดลพูด “hello world” ได้อย่างเสถียรหรือไม่
  คิดว่าข้อมูลฝึกระดับเทราไบต์ที่จำเป็นสำหรับ LLM ที่พอใช้ได้คงไม่มีอยู่ น่าจะอยู่แค่ระดับกิกะไบต์
ในงานจริง ประสิทธิภาพของ LLM ให้ความรู้สึกคล้ายมากกับนักเรียนที่อ่านหนังสือโต้รุ่งก่อน การสอบแบบเอเชีย
มีความสามารถในการคายคำตอบออกมาได้อย่างสมบูรณ์แบบ แต่ไม่มีแนวคิดด้านความหมาย
- o3 ตอบถูก 25% ในโจทย์ FrontierMath ที่ไม่เคยเห็นมาก่อน
  จริงอยู่ที่มันทำได้ดีกว่าเมื่อคำตอบอยู่ใน dataset โดยตรง แต่ในแง่ความใหม่ของโจทย์ที่กันไว้ มันแซงมนุษย์เฉลี่ยไปแล้ว
- ลองดู JEE Advanced ก็ได้
- ท้ายที่สุดก็น่าจะเป็นหลักฐานอีกชิ้นว่าเราประสบความสำเร็จในการจำลองความโง่เขลาของมนุษย์ได้อย่างสมบูรณ์แบบ
ถ้าเปลี่ยน input เพียงเล็กน้อย โมเดลดูเหมือนจะย้อนกลับไปหาคำถามที่มันคาดไว้แล้วตอบผิด
ถ้าเปลี่ยนให้มากขึ้นอีกนิด และใส่ เทคนิค prompt แบบทั่วไป เช่น “ก่อนอื่นให้แยกเป็นข้อเท็จจริงที่ทราบ นำความรู้พื้นฐานที่เกี่ยวข้องมาใช้ จากนั้นประเมินจากหลายมุมแล้วค่อยสรุป อย่าเขียนข้อสรุปแรกที่ชัดเจนที่สุดทันที” คำตอบน่าจะดีขึ้นมาก
นี่ดูใกล้เคียงกับ “LLM ให้คำตอบทันทีที่แย่เมื่อถูกหลอกด้วย pattern ที่มันคาดไว้” มากกว่า “LLM เป็นเครื่องให้เหตุผลโง่ ๆ ที่แก้โจทย์แบบนี้ไม่ได้ถ้าไม่มีการท่องจำ”
LLM ท่องจำจริง แต่มีสองด้าน
ถ้าทำให้คล้ายกับโจทย์ที่จำไว้มากเกินไป การรับรู้อาจสั่นคลอนได้ เหมือนมนุษย์ตอบสนองตามสัญชาตญาณต่อสิ่งที่ดูเหมือนใบหน้าแล้วค่อยประเมินใหม่
น่าสนใจ แต่มีบางประเด็นที่ต้องชี้ให้เห็น
อย่างแรก o1 ยังทำได้เกิน 40% แม้กับ โจทย์ Putnam ที่ถูกดัดแปลง ซึ่งเป็นผลงานที่แม้แต่นักศึกษาสาขาคณิตศาสตร์ส่วนใหญ่ก็ทำได้ยาก
อย่างที่สอง o3 แก้โจทย์ได้ 25% ของชุดข้อมูลของ Epoch AI
มีบทความที่น่าสนใจซึ่งตั้งคำถามว่าโจทย์เหล่านั้นยากจริงแค่ไหน แต่ก็ยังน่าประทับใจมากอยู่ดี
ข้อสรุปที่ยุติธรรมน่าจะเป็นว่าโมเดลด้านการให้เหตุผลยังแก้โจทย์คณิตศาสตร์และโปรแกรมมิงแข่งขันที่ยากมากได้ดี แต่จะแข็งแกร่งกว่าเมื่อเป็นโจทย์ที่เคยเห็นมาก่อน
- คอมเมนต์ในเธรดนี้หลุดจากเนื้อหาของ论文ไปโดยสิ้นเชิง และชื่อเรื่องก็แทบจะเป็นการยั่วยุให้โกรธ ไม่ได้สะท้อนเนื้อหาของ论文
  การที่มันแก้โจทย์เหล่านั้นได้เป็นสัดส่วนมากพอสมควรนั้นเองก็เป็นความสำเร็จที่ค่อนข้างน่าทึ่งแล้ว แม้ว่าบางครั้งจะถูกหลอกด้วยการดัดแปลงเล็กน้อยก็ตาม
  การโยนคำอย่าง “หลอกลวง” หรือ “เท็จ” ออกมานั้นใกล้เคียงกับการคิดเข้าข้างตัวเองหรือหลบหนีความจริงมากกว่า
สงสัยว่ามันเป็นความลับที่รู้กันทั่วไปหรือเปล่าว่าโมเดลต่าง ๆ ตอนนี้ถูก ฮาร์ดโค้ด ให้เข้ากับเบนช์มาร์กแบบสุ่ม
การถามโจทย์ Putnam กับแชตบอตเองก็ดูแปลกอยู่แล้ว
- เพราะผู้คนยังคงถามโจทย์คณิตศาสตร์กับโมเดลพวกนี้ และถ้าตอบถูกก็เอาไปอ้างเป็นหลักฐานว่ามันสามารถทำ การให้เหตุผลทางคณิตศาสตร์ ได้จริง
  การตัดสินว่าโมเดลรู้อะไรอยู่เป็นเรื่องยาก จึงยากด้วยที่จะแยกให้ออกว่ามันกำลังคายสิ่งที่เรียนมาเฉพาะเจาะจงออกมาตรง ๆ เมื่อใด
- ไม่น่าใช่การฮาร์ดโค้ด แต่คิดว่าโจทย์เหล่านั้นมีโอกาสสูงที่จะอยู่ใน ข้อมูลฝึก ในรูปแบบใดรูปแบบหนึ่ง
- มันยังผ่านการทดสอบที่โดยการออกแบบแล้วฮาร์ดโค้ดไม่ได้ด้วย
  มันยังมีข้อบกพร่องและปัญหาความสม่ำเสมอสารพัดอย่างก็จริง แต่การโกรธที่มันตอบว่า “2+2=4” เพียงเพราะมีคนฝึกคำตอบของ 2+2 ให้มันนั้นเป็นเรื่องโง่
- งานนี้คล้ายกับการนำ论文 GSM-Symbolic ไปใช้กับ Putnam: https://arxiv.org/html/2410.05229v1
  ต่อไปควรรายงานประสิทธิภาพของ LLM บน เบนช์มาร์กที่ถูกกวน/รบกวน ควบคู่กันด้วย
พวกนี้เป็น เครื่องจับคู่แพตเทิร์น ที่มีประสิทธิภาพมาก
ถ้าเปลี่ยนแพตเทิร์น มันก็ทำงานไม่ได้
จำได้ว่าใครสักคน อาจเป็น @tszzl(roon) เคยพูดบน X ว่า o1 หรือ o3 ก็ยังถูกฝึกด้วยวิธีแบบดั้งเดิม และไม่มีการคำนวณ ณ เวลาทดสอบแบบ AlphaGo หรือ Monte Carlo tree search
ถ้านั่นจริง มันก็ยังเป็นการทำนายคำถัดไปโดยอิงจากข้อมูลฝึก และมีแนวโน้มจะเดินตามเส้นทางที่ดูเป็นไปได้ที่สุดจากการฝึก แม้ในการดัดแปลงเล็กน้อย
แต่ถ้าการคำนวณ ณ เวลาทดสอบยังไม่ได้ถูกสำรวจอย่างจริงจัง ก็ยังมีพื้นที่ให้เพิ่มประสิทธิภาพได้อีกยาว
อีกเหตุผลที่คาดเดายากคือเราไม่รู้ว่าสิ่งที่เราถามมีส่วนใดบ้างที่อยู่ในข้อมูลฝึก
แม้เป็นงานที่คล้ายกัน บางอย่างอาจทำได้ดี ขณะที่บางอย่างอาจล้มเหลว
- เมื่อไม่นานมานี้ได้ดูบทสัมภาษณ์นักวิจัย OpenAI สองรายการ ซึ่งอธิบายว่าจุดทะลุทะลวงของ o-series ต่างจาก GPT series ตรงที่ออกแบบมาให้โฟกัสกับ การคำนวณ ณ เวลาทดสอบ เพื่อให้ “คิด” มากขึ้น โดยเฉพาะเพื่อหลีกเลี่ยงการจับคู่แพตเทิร์น
  Noam Brown https://youtu.be/OoL8K_AFqkw?si=ocIS0YDXLvaX9Xb6&t=195 และ Mark Chen https://youtu.be/kO192K7_FaQ?si=moWiwYChj65osLGy
- คิดว่าพวกเขาใช้การคำนวณ ณ เวลาทดสอบที่ขยายสเกลได้
  ในการเปิดตัว o3 มีการเปิดเผยตัวเลขความแม่นยำแยกกันระหว่างปริมาณการคำนวณสูงกับต่ำ ซึ่งรู้สึกว่ายากจะทำแบบนั้นกับโมเดลเดียวกันได้หากไม่มีการคำนวณ ณ เวลาทดสอบ
  คิดว่าการสมัครสมาชิก 200 ดอลลาร์ก็คือการปล่อยให้การคำนวณ ณ เวลาทดสอบทำงานได้นานขึ้นก่อนบังคับให้ตอบ
  แต่ถ้าคำกล่าวที่ว่าไม่มีการคำนวณ ณ เวลาทดสอบเป็นจริง เมื่อดูจากการทดลองโมเดล 1B/3B ของ Hugging Face แล้ว ช่องว่างสำหรับการปรับปรุงผลลัพธ์ก็ยังมหาศาล
- OpenAI ระบุอย่างเปิดเผยว่า o1 และ o3 ใช้ การคำนวณ ณ เวลาทดสอบ และยังเผยแพร่กราฟสเกลล็อกที่แสดงว่าประสิทธิภาพดีขึ้นเชิงเส้นเมื่อปริมาณการคำนวณเพิ่มขึ้นแบบเอ็กซ์โปเนนเชียล
  https://openai.com/index/learning-to-reason-with-llms/
  สิ่งที่ยืนยันได้คือโมเดลหรือระบบทำ chain of thought ในระดับหนึ่ง แต่ปัจจัยเชิงเอ็กซ์โปเนนเชียลและที่มาของการยกระดับความสามารถในการให้เหตุผลน่าจะเป็น tree of thoughts ที่ทำ tree search บนสายการให้เหตุผลหลายสาย
  roon น่าจะเป็นคนที่รู้ตัวตนกันดีภายใน OpenAI และเป็นพนักงาน ดังนั้นจึงยากจะคาดหวังว่าเขาจะเปิดเผยรายละเอียดการใช้งานจริงบน Twitter
บทความที่ส่งเวิร์กช็อปนี้โอเค และแม้จะไม่มีส่วนการเขียนโจทย์ใหม่ เบนช์มาร์กก็ยังมีคุณค่าอยู่บ้าง
แต่ส่วนที่เขียนโจทย์ใหม่เพียงไม่กี่ข้อ บางครั้งทำให้มนุษย์สับสนขึ้นจริง ๆ เพราะการใช้ถ้อยคำที่แย่ (fig 3) หรือการทำลายธรรมเนียมที่ไม่จำเป็น (fig 4; จุดในสองมิติโดยทั่วไปใช้ P และพิกัด x,y)
ถ้าได้แสดงผลของการเขียนโจทย์ใหม่ตาม การเพิ่มนอยส์ สำหรับโจทย์ใหม่ล่าสุดหรือโจทย์ที่มีวันที่หลังช่วงฝึก ก็น่าจะช่วยแยกความสับสนบางส่วนนี้ได้
อยากรู้ด้วยว่า o3 จะดีกว่ามากแค่ไหนบนเบนช์มาร์กเดียวกัน
และชื่อที่ถูกต้องของบทความนี้คือ “Putnam-AXIOM: A Functional and Static Benchmark for Measuring Higher Level Mathematical Reasoning”
ใน论文มีตัวอย่างคำถามที่แก้ไขแล้วหลายข้อ
เนื่องจากมีการก้าวกระโดดอย่างมากจาก o1-preview ไปเป็น o1 เลยลองเอาตัวอย่างบางข้อไปใส่ใน o1 และ o1-pro ปรากฏว่า o1 รุ่นปัจจุบันให้คำตอบที่ถูกต้องกับ โจทย์ที่แก้ไขแล้ว เหล่านั้น
สถานะล้ำสุดในปัจจุบันเปลี่ยนเร็วมาก
- 论文บอกว่าแม้ LLM จะให้คำตอบถูก แต่หลายครั้งมันกระโดดข้ามขั้นตอนใหญ่ ๆ โดยไม่มีการให้เหตุผลรองรับ หรือไปถึงคำตอบที่ถูกต้องหลังจากผ่านขั้นตอนที่ไม่เป็นตรรกะ
  สงสัยว่าได้ตรวจสอบส่วนนั้นด้วยหรือไม่
- ผู้สนับสนุน LLM นี่เหนื่อยจริง ๆ
  ก็ไม่ได้ทำการประเมินอย่างเข้มงวดอะไร แถมชุดนั้นเปิดเผยต่อสาธารณะมาตั้งแต่เดือนตุลาคม จึงอาจถูกเพิ่มเข้าไปใน ข้อมูลฝึก ได้ง่าย
มีคอมเมนต์เชิงลบมากเกินไป ทั้งที่มองข้ามข้อเท็จจริงว่า o3 ทำคะแนนได้ 25% ใน FrontierMath
นี่เป็นผลลัพธ์ที่ยอดเยี่ยมอย่างไม่น่าเชื่อจริง ๆ
แน่นอนว่า ถ้าคำตอบของโจทย์อยู่ในข้อมูลฝึกโดยตรง LLM ก็จะทำได้ดีกว่า
แต่นั่นไม่ได้หมายความว่ามันจะทำไม่ได้เมื่อคำตอบไม่ได้อยู่ในข้อมูลฝึก
- EpochAI ต้องส่งคำถามไปให้ OpenAI เพื่อให้โมเดลทำคะแนน และไม่ได้ส่งเฉลยไปด้วย
  การที่เบนช์มาร์กนี้กระโดดจาก 2% เป็น 25% ในชั่วข้ามคืนถือเป็นปรากฏการณ์ที่น่าสนใจอยู่บ้าง
- จริงอยู่ที่ทำได้ดีใน FrontierMath แต่ประเด็นของเธรดนี้ไม่ใช่เรื่องนั้น
  ดังนั้นคำพูดนั้นจึงไม่ค่อยเกี่ยวข้องเท่าไร

ความแม่นยำของ O1-preview ลดลง 30% เมื่อมีการดัดแปลงปัญหา Putnam แบบเล็กน้อย

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News