API อย่างเป็นทางการของ Reflection 70B แท้จริงแล้วเป็น Wrapper ของ Claude Sonnet 3.5

(old.reddit.com)

3 คะแนน โดย GN⁺ 2024-09-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อไม่กี่วันก่อน มีคนประกาศเปิดตัว Reflection 70B พร้อมผลเบนช์มาร์กที่น่าทึ่ง โดยอ้างว่าเป็น Llama 3.1 70B เวอร์ชันที่ผ่านการ fine-tune แล้ว
- การปล่อย weight นั้นยุ่งเหยิงมาก โดยอ้างว่าเป็นการ fine-tune สำหรับ 3.1 แต่กลับปล่อย LoRA สำหรับ 3.0 ออกมา
- เมื่อนำไปรันด้วย weight ที่ปล่อยออกมา ตอนแรกผลการประเมินก็ไม่เป็นไปตามที่คาดหวัง
- แต่เมื่อใช้ endpoint ที่โฮสต์ไว้ ผลการประเมินกลับเริ่มทำได้ในระดับ SOTA
ผู้คนได้ค้นพบวิธีอันชาญฉลาดในการตรวจสอบว่ามีโมเดลใดกำลังรันอยู่บน endpoint
- ใช้โทเคนเฉพาะของแต่ละโมเดล และรูปแบบการเซ็นเซอร์ที่เฉพาะต่อโมเดล
- จากสิ่งที่พบ มีการอ้างว่าแทนที่จะเป็นโมเดลที่พวกเขา fine-tune เอง กลับเป็นการครอบ Sonnet 3.5 ไว้
- หลังจากมีการจับได้ว่าเป็น Sonnet และโพสต์ลงบน Twitter เนื้อหาก็ถูกเปลี่ยน
- จากนั้นผู้ใช้อีกรายก็อ้างว่าพบหลักฐานโดยใช้วิธีคล้ายกันว่าโมเดลที่โฮสต์ไว้ถูกเปลี่ยนเป็น GPT 4o
ผลลัพธ์มีความปะปนและไม่สอดคล้องกัน ทำให้ ยังไม่ชัดเจนว่าอะไรจริงและอะไรเท็จ
ทวีตเปิดตัวของผู้สร้างต้นฉบับ: https://twitter.com/mattshumer_/status/1831767014341538166
เธรดทวีตที่ติดตามว่ามีบางอย่างเปลี่ยนไปเรื่อย ๆ ผ่านพรอมป์ต์: https://x.com/RealJosephus/status/1832904398831280448

1 ความคิดเห็น

GN⁺ 2024-09-10

ความคิดเห็นบน Hacker News

มีการประกาศว่าประสิทธิภาพของโมเดล Llama 3.1 70B นั้นยอดเยี่ยม แต่เกิดปัญหาหลายอย่างขึ้น
- น้ำหนักของ Lora for Llama 3.0 ถูกเผยแพร่ผิดพลาด
- การประเมินช่วงแรกไม่เป็นไปตามความคาดหวัง
- ปลายทางที่โฮสต์ไว้แสดงประสิทธิภาพระดับ SOTA
- มีการใช้หลายวิธีเพื่อตรวจสอบว่าแท้จริงแล้วโมเดลคือโมเดลใด
- พบว่าใช้โมเดล Sonnet 3.5
- ต่อมาพบหลักฐานว่ามีการสลับไปใช้โมเดล GPT 4o
- เกิดความสับสนและเสียเวลา
มีการอ้างว่าโพสต์นี้ควรได้รับความสนใจมากกว่านี้
- ชื่อเสียงของบุคคลที่เป็นที่รู้จักว่าเป็นคนสำคัญในวงการ AI ได้รับความเสียหาย
- มีหลักฐานอย่างการกรองคำว่า "claude", ความผิดพลาดของแท็ก, และการที่โมเดลยอมรับเองว่าเป็น claude
- พฤติกรรมที่ตัวโมเดลตอบคำถามเป็นภาษาอาหรับ ทั้งที่ Llama เวอร์ชันนั้นไม่รองรับ ถือเป็นหลักฐานที่ชี้ชัดที่สุด
ผู้คนยอมทำหลายอย่างเพื่อชื่อเสียง จึงสงสัยว่าเป้าหมายสุดท้ายของ Schumer คืออะไร

ทวีตต้นฉบับของผู้เขียน (ซึ่งน่าจะถูกลบในไม่ช้า)

ผมยินดีที่จะประกาศ Reflection 70B ซึ่งเป็นโมเดลโอเพนซอร์สที่ดีที่สุดในโลก
มันถูกฝึกด้วย Reflection-Tuning ทำให้ LLM สามารถแก้ไขข้อผิดพลาดของตัวเองได้
สัปดาห์หน้าจะมีการปล่อย 405B และคาดว่าจะเป็นโมเดลที่ดีที่สุดในโลก

มีมุกเกี่ยวกับคนที่มีชื่อซึ่งขึ้นต้นด้วยตัวอักษรตัวที่สาม และคล้องจองกับ "odd" (C*** Debussy)
สงสัยว่ามีการ "ยืนยัน" จากแหล่งข่าวที่เชื่อถือได้หรือไม่ เพราะยากจะเชื่อโพสต์บน Reddit, เธรดบน Twitter และภาพหน้าจอที่ไม่ชัดเจนว่าแหล่งที่มาคืออะไร

API อย่างเป็นทางการของ Reflection 70B แท้จริงแล้วเป็น Wrapper ของ Claude Sonnet 3.5

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News