Needle in a Needlestack: ความก้าวหน้าด้านความจำของ GPT-4o! (โค้ด NIAN) - Tom Burns
แนะนำเบนช์มาร์กใหม่
- Needle in a Needlestack คือเบนช์มาร์กใหม่ที่ใช้วัดว่า LLMs (โมเดลภาษาขนาดใหญ่) ให้ความสนใจกับข้อมูลในหน้าต่างคอนเท็กซ์ได้ดีเพียงใด
- NIAN จะสร้างพรอมป์ต์ที่มีลิเมอริกหลายพันบท และถามคำถามเกี่ยวกับลิเมอริกหนึ่งบทที่อยู่ในตำแหน่งเฉพาะ
- พรอมป์ต์ตัวอย่างมีลิเมอริกประมาณ 2500 บท
- จนถึงตอนนี้ยังไม่มี LLM ตัวใดทำผลงานได้ดีมากในเบนช์มาร์กนี้
ความพยายามของ GPT-4 Turbo และ Claude-3 Sonnet
- ความพยายามของ GPT-4 Turbo และ Claude-3 Sonnet:
- gpt-4-turbo-2024-04-09
- claude-3-sonnet
ความก้าวหน้าของ GPT-4o
- GPT-4o สร้างความก้าวหน้าครั้งใหญ่!
- แสดงผลงานได้เกือบสมบูรณ์แบบในเบนช์มาร์กนี้
- น่าสงสัยว่า OpenAI จะเปิดเผยเมื่อใดว่าทำให้ GPT-4o ดีกว่า GPT-4 Turbo ได้มากขนาดนี้อย่างไร
ประสิทธิภาพของโมเดล Mistral
- โมเดลของ Mistral ใช้งานได้ดีมาก API เร็วและสม่ำเสมอมาก
- อย่างไรก็ตาม โมเดล 8x22 รุ่นใหม่ของ Mistral กลับมีปัญหามากกับเบนช์มาร์กนี้
- แม้อยู่ช่วงต้นของพรอมป์ต์ โอกาสตอบคำถามได้ถูกต้องก็มีเพียง 50%
- Mistral large ทำได้ดีกว่า แต่ก็ยังมีความแม่นยำเพียง 70%
- หมายเหตุ: ใช้ tokenizer ของ OpenAI ในการประมาณจำนวนโทเค็น แต่ Mistral ใช้ tokenizer คนละตัวซึ่งสร้างโทเค็นมากกว่าประมาณ 25% ดังนั้นจำนวนโทเค็นในกราฟจึงต่ำกว่าจำนวนจริง
- open-mixtral-8x22b
- mistral-large-latest-2024-04-09
ประสิทธิภาพเมื่อใช้พรอมป์ต์สั้น
- โมเดลต่าง ๆ ทำผลงานได้ดีกว่ามากเมื่อใช้พรอมป์ต์สั้น
- ตัวอย่าง: การเปรียบเทียบประสิทธิภาพของ Mistral 7b กับพรอมป์ต์ 16k โทเค็นและ 32k โทเค็น
- open-mistral-7b 16k tokens
- open-mistral-7b 32k tokens
ความสำคัญของการทำข้อมูลซ้ำ
- การทำข้อมูลซ้ำสร้างความแตกต่างอย่างมากในการทดสอบนี้
- GPT-3.5-turbo มีผลงานดีขึ้นอย่างชัดเจนเมื่อมีการทำลิเมอริกที่ถูกถามในพรอมป์ต์ซ้ำ 10 ครั้ง
- limerick used once
- limerick used 10 times
โค้ดเบนช์มาร์กและข้อมูลเพิ่มเติม
- สามารถดูโค้ดของเบนช์มาร์กนี้ได้ที่ ที่นี่
- สามารถเพิ่มการรองรับโมเดลเพิ่มเติมได้อย่างง่ายดาย
- รายละเอียดเพิ่มเติมเกี่ยวกับวิธีประเมินคำตอบและตรวจสอบคำถาม ดูได้ที่หน้าวิธีวิทยา
- หากมีคำถาม กรุณาติดต่อที่ ช่องทางติดต่อ
- เว็บไซต์นี้เป็นโอเพนซอร์ส ปรับปรุงหน้านี้
ความเห็นของ GN⁺
- ความก้าวหน้าทางเทคนิค: ผลงานของ GPT-4o แสดงให้เห็นถึงความก้าวหน้าครั้งสำคัญในการพัฒนาความจำและความสามารถในการใส่ใจของ LLM ซึ่งเปิดโอกาสให้ทำงานที่ซับซ้อนยิ่งขึ้นได้
- การเลือกโมเดล: เมื่อต้องเปรียบเทียบประสิทธิภาพของโมเดลหลายตัว การเลือกโมเดลให้เหมาะกับงานเฉพาะเป็นสิ่งสำคัญ ตัวอย่างเช่น การเลือกโมเดลที่ทำได้ดีกว่าในพรอมป์ต์สั้นอาจเป็นประโยชน์
- ความสำคัญของการเรียนรู้แบบทำซ้ำ: ควรคำนึงถึงผลกระทบของการทำข้อมูลซ้ำที่มีต่อประสิทธิภาพของโมเดล สิ่งนี้อาจเป็นองค์ประกอบสำคัญในการเตรียมข้อมูลและการออกแบบพรอมป์ต์
- ข้อดีของโอเพนซอร์ส: การที่เบนช์มาร์กนี้เป็นโอเพนซอร์ส ทำให้นักวิจัยและนักพัฒนาสามารถเข้าถึงและปรับปรุงได้อย่างอิสระ ซึ่งอาจช่วยส่งเสริมการพัฒนาของชุมชน
- แนวโน้มในอนาคต: ความก้าวหน้าของโมเดลอย่าง GPT-4o อาจนำมาซึ่งนวัตกรรมในหลากหลายการประยุกต์ใช้ของ AI อย่างไรก็ตาม การนำเทคโนโลยีเหล่านี้ไปใช้ยังจำเป็นต้องคำนึงถึงจริยธรรมและการใช้งานอย่างรับผิดชอบ
2 ความคิดเห็น
ความก้าวหน้าทางเทคโนโลยีนี่สุดยอดจริง ๆ.. ฮือ
ความคิดเห็นจาก Hacker News
สรุปความคิดเห็นจาก Hacker News
ข้อผิดพลาดในการเปรียบเทียบเอกสารกฎหมาย
อิงจากชุดข้อมูล Limericks
ข้อจำกัดของการทดสอบ Needle in the Haystack
ประสิทธิภาพของ Gemini Pro 1.5
ความจำเป็นของการทดสอบ "Synthesis from Haystack"
การแปลงเลย์เอาต์ HTML ด้วย GPT
ความสามารถด้าน attention ที่ดีขึ้นของ GPT-4o
ความยากในการประเมิน LLM
ข้อสงสัยเกี่ยวกับชุดข้อมูลฝึก