3 คะแนน โดย GN⁺ 2024-09-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อไม่กี่วันก่อน มีคนประกาศเปิดตัว Reflection 70B พร้อมผลเบนช์มาร์กที่น่าทึ่ง โดยอ้างว่าเป็น Llama 3.1 70B เวอร์ชันที่ผ่านการ fine-tune แล้ว
    • การปล่อย weight นั้นยุ่งเหยิงมาก โดยอ้างว่าเป็นการ fine-tune สำหรับ 3.1 แต่กลับปล่อย LoRA สำหรับ 3.0 ออกมา
    • เมื่อนำไปรันด้วย weight ที่ปล่อยออกมา ตอนแรกผลการประเมินก็ไม่เป็นไปตามที่คาดหวัง
    • แต่เมื่อใช้ endpoint ที่โฮสต์ไว้ ผลการประเมินกลับเริ่มทำได้ในระดับ SOTA
  • ผู้คนได้ค้นพบวิธีอันชาญฉลาดในการตรวจสอบว่ามีโมเดลใดกำลังรันอยู่บน endpoint
    • ใช้โทเคนเฉพาะของแต่ละโมเดล และรูปแบบการเซ็นเซอร์ที่เฉพาะต่อโมเดล
    • จากสิ่งที่พบ มีการอ้างว่าแทนที่จะเป็นโมเดลที่พวกเขา fine-tune เอง กลับเป็นการครอบ Sonnet 3.5 ไว้
    • หลังจากมีการจับได้ว่าเป็น Sonnet และโพสต์ลงบน Twitter เนื้อหาก็ถูกเปลี่ยน
    • จากนั้นผู้ใช้อีกรายก็อ้างว่าพบหลักฐานโดยใช้วิธีคล้ายกันว่าโมเดลที่โฮสต์ไว้ถูกเปลี่ยนเป็น GPT 4o
  • ผลลัพธ์มีความปะปนและไม่สอดคล้องกัน ทำให้ ยังไม่ชัดเจนว่าอะไรจริงและอะไรเท็จ
  • ทวีตเปิดตัวของผู้สร้างต้นฉบับ: https://twitter.com/mattshumer_/status/1831767014341538166
  • เธรดทวีตที่ติดตามว่ามีบางอย่างเปลี่ยนไปเรื่อย ๆ ผ่านพรอมป์ต์: https://x.com/RealJosephus/status/1832904398831280448

1 ความคิดเห็น

 
GN⁺ 2024-09-10
ความคิดเห็นบน Hacker News
  • มีการประกาศว่าประสิทธิภาพของโมเดล Llama 3.1 70B นั้นยอดเยี่ยม แต่เกิดปัญหาหลายอย่างขึ้น

    • น้ำหนักของ Lora for Llama 3.0 ถูกเผยแพร่ผิดพลาด
    • การประเมินช่วงแรกไม่เป็นไปตามความคาดหวัง
    • ปลายทางที่โฮสต์ไว้แสดงประสิทธิภาพระดับ SOTA
    • มีการใช้หลายวิธีเพื่อตรวจสอบว่าแท้จริงแล้วโมเดลคือโมเดลใด
    • พบว่าใช้โมเดล Sonnet 3.5
    • ต่อมาพบหลักฐานว่ามีการสลับไปใช้โมเดล GPT 4o
    • เกิดความสับสนและเสียเวลา
  • มีการอ้างว่าโพสต์นี้ควรได้รับความสนใจมากกว่านี้

    • ชื่อเสียงของบุคคลที่เป็นที่รู้จักว่าเป็นคนสำคัญในวงการ AI ได้รับความเสียหาย
    • มีหลักฐานอย่างการกรองคำว่า "claude", ความผิดพลาดของแท็ก, และการที่โมเดลยอมรับเองว่าเป็น claude
    • พฤติกรรมที่ตัวโมเดลตอบคำถามเป็นภาษาอาหรับ ทั้งที่ Llama เวอร์ชันนั้นไม่รองรับ ถือเป็นหลักฐานที่ชี้ชัดที่สุด
  • ผู้คนยอมทำหลายอย่างเพื่อชื่อเสียง จึงสงสัยว่าเป้าหมายสุดท้ายของ Schumer คืออะไร

  • ทวีตต้นฉบับของผู้เขียน (ซึ่งน่าจะถูกลบในไม่ช้า)

    ผมยินดีที่จะประกาศ Reflection 70B ซึ่งเป็นโมเดลโอเพนซอร์สที่ดีที่สุดในโลก
    มันถูกฝึกด้วย Reflection-Tuning ทำให้ LLM สามารถแก้ไขข้อผิดพลาดของตัวเองได้
    สัปดาห์หน้าจะมีการปล่อย 405B และคาดว่าจะเป็นโมเดลที่ดีที่สุดในโลก
    
  • มีมุกเกี่ยวกับคนที่มีชื่อซึ่งขึ้นต้นด้วยตัวอักษรตัวที่สาม และคล้องจองกับ "odd" (C*** Debussy)

  • สงสัยว่ามีการ "ยืนยัน" จากแหล่งข่าวที่เชื่อถือได้หรือไม่ เพราะยากจะเชื่อโพสต์บน Reddit, เธรดบน Twitter และภาพหน้าจอที่ไม่ชัดเจนว่าแหล่งที่มาคืออะไร