4 คะแนน โดย GN⁺ 2024-05-15 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Needle in a Needlestack: ความก้าวหน้าด้านความจำของ GPT-4o! (โค้ด NIAN) - Tom Burns

แนะนำเบนช์มาร์กใหม่

  • Needle in a Needlestack คือเบนช์มาร์กใหม่ที่ใช้วัดว่า LLMs (โมเดลภาษาขนาดใหญ่) ให้ความสนใจกับข้อมูลในหน้าต่างคอนเท็กซ์ได้ดีเพียงใด
  • NIAN จะสร้างพรอมป์ต์ที่มีลิเมอริกหลายพันบท และถามคำถามเกี่ยวกับลิเมอริกหนึ่งบทที่อยู่ในตำแหน่งเฉพาะ
  • พรอมป์ต์ตัวอย่างมีลิเมอริกประมาณ 2500 บท
  • จนถึงตอนนี้ยังไม่มี LLM ตัวใดทำผลงานได้ดีมากในเบนช์มาร์กนี้

ความพยายามของ GPT-4 Turbo และ Claude-3 Sonnet

  • ความพยายามของ GPT-4 Turbo และ Claude-3 Sonnet:
    • gpt-4-turbo-2024-04-09
    • claude-3-sonnet

ความก้าวหน้าของ GPT-4o

  • GPT-4o สร้างความก้าวหน้าครั้งใหญ่!
  • แสดงผลงานได้เกือบสมบูรณ์แบบในเบนช์มาร์กนี้
  • น่าสงสัยว่า OpenAI จะเปิดเผยเมื่อใดว่าทำให้ GPT-4o ดีกว่า GPT-4 Turbo ได้มากขนาดนี้อย่างไร

ประสิทธิภาพของโมเดล Mistral

  • โมเดลของ Mistral ใช้งานได้ดีมาก API เร็วและสม่ำเสมอมาก
  • อย่างไรก็ตาม โมเดล 8x22 รุ่นใหม่ของ Mistral กลับมีปัญหามากกับเบนช์มาร์กนี้
    • แม้อยู่ช่วงต้นของพรอมป์ต์ โอกาสตอบคำถามได้ถูกต้องก็มีเพียง 50%
    • Mistral large ทำได้ดีกว่า แต่ก็ยังมีความแม่นยำเพียง 70%
  • หมายเหตุ: ใช้ tokenizer ของ OpenAI ในการประมาณจำนวนโทเค็น แต่ Mistral ใช้ tokenizer คนละตัวซึ่งสร้างโทเค็นมากกว่าประมาณ 25% ดังนั้นจำนวนโทเค็นในกราฟจึงต่ำกว่าจำนวนจริง
    • open-mixtral-8x22b
    • mistral-large-latest-2024-04-09

ประสิทธิภาพเมื่อใช้พรอมป์ต์สั้น

  • โมเดลต่าง ๆ ทำผลงานได้ดีกว่ามากเมื่อใช้พรอมป์ต์สั้น
  • ตัวอย่าง: การเปรียบเทียบประสิทธิภาพของ Mistral 7b กับพรอมป์ต์ 16k โทเค็นและ 32k โทเค็น
    • open-mistral-7b 16k tokens
    • open-mistral-7b 32k tokens

ความสำคัญของการทำข้อมูลซ้ำ

  • การทำข้อมูลซ้ำสร้างความแตกต่างอย่างมากในการทดสอบนี้
  • GPT-3.5-turbo มีผลงานดีขึ้นอย่างชัดเจนเมื่อมีการทำลิเมอริกที่ถูกถามในพรอมป์ต์ซ้ำ 10 ครั้ง
    • limerick used once
    • limerick used 10 times

โค้ดเบนช์มาร์กและข้อมูลเพิ่มเติม

  • สามารถดูโค้ดของเบนช์มาร์กนี้ได้ที่ ที่นี่
  • สามารถเพิ่มการรองรับโมเดลเพิ่มเติมได้อย่างง่ายดาย
  • รายละเอียดเพิ่มเติมเกี่ยวกับวิธีประเมินคำตอบและตรวจสอบคำถาม ดูได้ที่หน้าวิธีวิทยา
  • หากมีคำถาม กรุณาติดต่อที่ ช่องทางติดต่อ
  • เว็บไซต์นี้เป็นโอเพนซอร์ส ปรับปรุงหน้านี้

ความเห็นของ GN⁺

  • ความก้าวหน้าทางเทคนิค: ผลงานของ GPT-4o แสดงให้เห็นถึงความก้าวหน้าครั้งสำคัญในการพัฒนาความจำและความสามารถในการใส่ใจของ LLM ซึ่งเปิดโอกาสให้ทำงานที่ซับซ้อนยิ่งขึ้นได้
  • การเลือกโมเดล: เมื่อต้องเปรียบเทียบประสิทธิภาพของโมเดลหลายตัว การเลือกโมเดลให้เหมาะกับงานเฉพาะเป็นสิ่งสำคัญ ตัวอย่างเช่น การเลือกโมเดลที่ทำได้ดีกว่าในพรอมป์ต์สั้นอาจเป็นประโยชน์
  • ความสำคัญของการเรียนรู้แบบทำซ้ำ: ควรคำนึงถึงผลกระทบของการทำข้อมูลซ้ำที่มีต่อประสิทธิภาพของโมเดล สิ่งนี้อาจเป็นองค์ประกอบสำคัญในการเตรียมข้อมูลและการออกแบบพรอมป์ต์
  • ข้อดีของโอเพนซอร์ส: การที่เบนช์มาร์กนี้เป็นโอเพนซอร์ส ทำให้นักวิจัยและนักพัฒนาสามารถเข้าถึงและปรับปรุงได้อย่างอิสระ ซึ่งอาจช่วยส่งเสริมการพัฒนาของชุมชน
  • แนวโน้มในอนาคต: ความก้าวหน้าของโมเดลอย่าง GPT-4o อาจนำมาซึ่งนวัตกรรมในหลากหลายการประยุกต์ใช้ของ AI อย่างไรก็ตาม การนำเทคโนโลยีเหล่านี้ไปใช้ยังจำเป็นต้องคำนึงถึงจริยธรรมและการใช้งานอย่างรับผิดชอบ

2 ความคิดเห็น

 
wedding 2024-05-18

ความก้าวหน้าทางเทคโนโลยีนี่สุดยอดจริง ๆ.. ฮือ

 
GN⁺ 2024-05-15
ความคิดเห็นจาก Hacker News

สรุปความคิดเห็นจาก Hacker News

  • ข้อผิดพลาดในการเปรียบเทียบเอกสารกฎหมาย

    • เมื่อนำเอกสารกฎหมายขนาดเล็กสองฉบับมาเปรียบเทียบ GPT-4 กลับระบุผิดว่าบางรายการมีอยู่ในเอกสารเพียงฉบับเดียว ทั้งที่จริงแล้วเป็นเนื้อหาเดียวกัน
    • แม้จะเป็นเพียงตัวอย่างเดียว แต่ก็ทำให้ความแม่นยำระดับ 90% น่าสงสัย โดยมีขนาดประมาณ 80k โทเค็น
  • อิงจากชุดข้อมูล Limericks

    • อิงจากชุดข้อมูล limericks ที่เผยแพร่ในปี 2021 และมีความเป็นไปได้สูงว่า GPT-4o ได้รับการฝึกด้วยชุดข้อมูลนี้
    • ทีม NIAN ควรใช้โมเดลอื่นสร้าง limericks และตรวจสอบว่าไม่ได้รวมอยู่ในชุดข้อมูล
  • ข้อจำกัดของการทดสอบ Needle in the Haystack

    • การทดสอบนี้แสดงความสามารถในการจัดการบริบทยาวจริงของโมเดลได้อย่างจำกัด และถูกใช้เป็นหลักเพราะโมเดลยุคแรกทำผลงานได้ไม่ดีในการทดสอบนี้
    • โมเดลรุ่นใหม่ทำได้ดีในการทดสอบนี้ แต่หลังจาก 32K โทเค็น ความสามารถในการทำงานซับซ้อนจะลดลงอย่างมาก
    • การทดสอบ RULER เป็นวิธีประเมินที่ดีกว่า
  • ประสิทธิภาพของ Gemini Pro 1.5

    • Gemini Pro 1.5 สามารถประมวลผลทั้งเล่มของ Moby Dick และหนังสือทั้งหมดของ Byung Chul-Han ได้ และหาคำตอบของคำถามได้อย่างแม่นยำ
  • ความจำเป็นของการทดสอบ "Synthesis from Haystack"

    • จำเป็นต้องมีวิธีทดสอบที่วัดความเข้าใจเชิงลึก การเชื่อมโยง และการนามธรรม ไม่ใช่แค่การค้นคืนข้อมูลอย่างเดียว
    • เวลามนุษย์อ่านหนังสือ เราจะมีสัญชาตญาณภาพรวมของทั้งเล่ม จึงต้องมีวิธีวัดสิ่งนี้ให้เป็นเชิงปริมาณ
  • การแปลงเลย์เอาต์ HTML ด้วย GPT

    • สามารถใช้ GPT แปลงข้อมูลไดนามิกเป็นเลย์เอาต์ HTML ที่สวยงามแบบเรียลไทม์ ช่วยประหยัดเวลาพัฒนา และยังอัปเดต HTML ได้เมื่อโครงสร้างข้อมูลเปลี่ยน
    • ในความพยายามก่อนหน้านี้ GPT-4 Turbo บางครั้งเพิกเฉยต่อบริบทและคำสั่ง
  • ความสามารถด้าน attention ที่ดีขึ้นของ GPT-4o

    • GPT-4o แสดงความสามารถในการกระจาย attention ตลอดทั้งหน้าต่างอินพุตได้ดีกว่า GPT-4 Turbo และ Claude-3 Sonnet
    • การทดสอบ "Needle In A Needlestack" เป็นก้าวถัดไปที่ดี โดยใส่ limericks หลายพันบทลงในพรอมป์ต์และถามถึง limerick ที่อยู่ในตำแหน่งเฉพาะ
  • ความยากในการประเมิน LLM

    • มีความเห็นว่าแทบไม่มีใครบนอินเทอร์เน็ตสาธารณะที่ทำการประเมิน LLM ในโลกจริงได้อย่างเหมาะสม
  • ข้อสงสัยเกี่ยวกับชุดข้อมูลฝึก

    • มีข้อสงสัยว่าเราจะรู้ได้อย่างไรว่า GPT-4o ไม่ได้ถูกฝึกด้วยชุดข้อมูลนี้
    • การทดสอบจะมีความหมายก็ต่อเมื่อรู้ว่าข้อมูลทดสอบไม่ได้รวมอยู่ในข้อมูลฝึก