- เมื่อไม่กี่วันก่อน มีคนประกาศเปิดตัว Reflection 70B พร้อมผลเบนช์มาร์กที่น่าทึ่ง โดยอ้างว่าเป็น Llama 3.1 70B เวอร์ชันที่ผ่านการ fine-tune แล้ว
- การปล่อย weight นั้นยุ่งเหยิงมาก โดยอ้างว่าเป็นการ fine-tune สำหรับ 3.1 แต่กลับปล่อย LoRA สำหรับ 3.0 ออกมา
- เมื่อนำไปรันด้วย weight ที่ปล่อยออกมา ตอนแรกผลการประเมินก็ไม่เป็นไปตามที่คาดหวัง
- แต่เมื่อใช้ endpoint ที่โฮสต์ไว้ ผลการประเมินกลับเริ่มทำได้ในระดับ SOTA
- ผู้คนได้ค้นพบวิธีอันชาญฉลาดในการตรวจสอบว่ามีโมเดลใดกำลังรันอยู่บน endpoint
- ใช้โทเคนเฉพาะของแต่ละโมเดล และรูปแบบการเซ็นเซอร์ที่เฉพาะต่อโมเดล
- จากสิ่งที่พบ มีการอ้างว่าแทนที่จะเป็นโมเดลที่พวกเขา fine-tune เอง กลับเป็นการครอบ Sonnet 3.5 ไว้
- หลังจากมีการจับได้ว่าเป็น Sonnet และโพสต์ลงบน Twitter เนื้อหาก็ถูกเปลี่ยน
- จากนั้นผู้ใช้อีกรายก็อ้างว่าพบหลักฐานโดยใช้วิธีคล้ายกันว่าโมเดลที่โฮสต์ไว้ถูกเปลี่ยนเป็น GPT 4o
- ผลลัพธ์มีความปะปนและไม่สอดคล้องกัน ทำให้ ยังไม่ชัดเจนว่าอะไรจริงและอะไรเท็จ
- ทวีตเปิดตัวของผู้สร้างต้นฉบับ: https://twitter.com/mattshumer_/status/1831767014341538166
- เธรดทวีตที่ติดตามว่ามีบางอย่างเปลี่ยนไปเรื่อย ๆ ผ่านพรอมป์ต์: https://x.com/RealJosephus/status/1832904398831280448
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
มีการประกาศว่าประสิทธิภาพของโมเดล Llama 3.1 70B นั้นยอดเยี่ยม แต่เกิดปัญหาหลายอย่างขึ้น
มีการอ้างว่าโพสต์นี้ควรได้รับความสนใจมากกว่านี้
ผู้คนยอมทำหลายอย่างเพื่อชื่อเสียง จึงสงสัยว่าเป้าหมายสุดท้ายของ Schumer คืออะไร
ทวีตต้นฉบับของผู้เขียน (ซึ่งน่าจะถูกลบในไม่ช้า)
มีมุกเกี่ยวกับคนที่มีชื่อซึ่งขึ้นต้นด้วยตัวอักษรตัวที่สาม และคล้องจองกับ "odd" (C*** Debussy)
สงสัยว่ามีการ "ยืนยัน" จากแหล่งข่าวที่เชื่อถือได้หรือไม่ เพราะยากจะเชื่อโพสต์บน Reddit, เธรดบน Twitter และภาพหน้าจอที่ไม่ชัดเจนว่าแหล่งที่มาคืออะไร