1 คะแนน โดย GN⁺ 2023-12-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

คอลเลกชันอ่านบทความวิจัย NLP

  • คอลเลกชันสำหรับอ่านบทความวิจัยเกี่ยวกับการประมวลผลภาษาธรรมชาติ (NLP) ประกอบด้วย 22 รายการ
  • คอลเลกชันนี้เพิ่งได้รับการอัปเดตเมื่อไม่นานมานี้ และมีประโยชน์ในการติดตามแนวโน้มงานวิจัยล่าสุดในสาขา NLP
  • NLP เป็นเทคโนโลยีที่ทำให้คอมพิวเตอร์สามารถเข้าใจและประมวลผลภาษามนุษย์ได้ และมีการประยุกต์ใช้อย่างหลากหลาย เช่น การแปลภาษาอัตโนมัติ การวิเคราะห์อารมณ์ และระบบถามตอบ

ความเห็นของ GN⁺

  • คอลเลกชันนี้เป็นแหล่งข้อมูลที่ช่วยให้เห็นงานวิจัยล่าสุดในสาขา NLP ได้ในภาพรวม และน่าจะมีประโยชน์อย่างมากสำหรับนักวิจัยหรือนักพัฒนาที่สนใจ NLP
  • NLP เป็นหนึ่งในสาขาของ AI ที่พัฒนาอย่างรวดเร็วเป็นพิเศษ และคอลเลกชันนี้ช่วยให้เข้าถึงเทรนด์ล่าสุดและแนวคิดนวัตกรรมได้
  • เทคโนโลยีการประมวลผลภาษาธรรมชาติได้ผสานเข้ากับชีวิตประจำวันของเราอย่างลึกซึ้ง และคอลเลกชันนี้ช่วยให้มองเห็นทิศทางการพัฒนาและความเป็นไปได้ในอนาคตของเทคโนโลยีดังกล่าว

1 ความคิดเห็น

 
GN⁺ 2023-12-22
ความคิดเห็นบน Hacker News
  • ผมใช้เวลาพอสมควรกว่าจะเข้าใจงานวิจัยฉบับนี้ เพราะมันต่อยอดจากเทคนิคในงานวิจัย 'Deja Vu' และพูดถึงวิธีการที่ซับซ้อนในการใช้ประโยชน์จากความเบาบาง:

    • งานวิจัย 'Deja Vu' สังเกตว่าโมเดลที่มีความเบาบางของน้ำหนักต่ำ กลับมี "ความเบาบางตามบริบท" สูง กล่าวคือ การคูณเมทริกซ์จะสร้างเวกเตอร์ที่มีค่า 0 จำนวนมากในตำแหน่งที่ต่างกันไปตามอินพุต
    • งานวิจัยชี้ว่าความเบาบางนี้ทำให้สามารถไม่ต้องโหลดบางแถวของเมทริกซ์ได้
    • แต่หากต้องการให้ประสิทธิภาพดีขึ้นอย่างมีนัยสำคัญ ก็จำเป็นต้องทำนายล่วงหน้าได้ว่าจะข้ามแถวใดได้บ้าง ซึ่งทำได้ด้วยเมทริกซ์มิติต่ำ
    • งานวิจัยของ Apple เสนอว่าข้อค้นพบนี้ไม่เพียงช่วยเพิ่มประสิทธิภาพการโหลดจาก RAM เท่านั้น แต่ยังทำให้สามารถโหลดจากแฟลชเมมโมรีได้โดยไม่ต้องเสียแบนด์วิดท์ด้วย:
      • จุดที่ควรสังเกตคือ งานวิจัยระบุว่าเมทริกซ์ attention มีขนาดเบา และสิ่งสำคัญคือการโหลด feedforward network (FFN) แบบเบาบาง
      • งานวิจัยชี้ว่าการทำนายเอาต์พุตของชั้น ReLU ให้ความเบาบางที่ดีกว่าการทำนายอินพุตของ FFN มาก กล่าวคือ หาก "สามารถทำนายได้ว่าหลัง matmul ช่องของเวกเตอร์นี้จะมีค่าเป็นลบก่อนถึง ReLU" ก็สามารถไม่ต้องโหลดคอลัมน์ของเมทริกซ์นั้นและส่งออกเป็น 0 ได้
      • งานวิจัยเสนอว่าไม่จำเป็นต้องโหลดแถวของ FFN ส่วนใหญ่เลย และสามารถเก็บแคชของแถว FFN ที่เพิ่งใช้งานล่าสุดสำหรับ FFN แต่ละตัวไว้ แล้วค่อยอัปเดตจากแฟลชเมมโมรีตามความจำเป็น
    • ในงานวิจัยยังพูดถึงการโหลดแบบ chunk และความสัมพันธ์ระหว่างชั้น projection ด้วย แต่แก่นสำคัญคือประเด็นที่กล่าวไว้ข้างต้น
  • ผมหวังว่าจะมีส่วนในบทสรุปของงานวิจัยที่อธิบายว่าจะส่งมอบความสามารถนี้ให้ผู้ใช้อย่างไร แต่บางทีประเด็นนั้นอาจอยู่นอกขอบเขตของงานก็ได้

    • ผมสงสัยว่าความสามารถนี้จะถูกเปิดให้ผู้ใช้ผ่านการเรียก API และการตั้งค่าของ CoreML หรือไม่ เช่น ต้องตั้งค่าแฟลก use_flash หรือจะเป็นการปรับแต่ง runtime ที่โปร่งใสสำหรับผู้ใช้ และอยากรู้ว่ามีงานพูดหรือพรีเซนเทชันดี ๆ ที่ Apple พูดถึงโรดแมปการพัฒนาอย่าง CoreML, Metal ฯลฯ หรือไม่
  • ผมสงสัยว่าต้องไม่โหลดโมเดลไปมากแค่ไหนจึงจะเริ่มเห็นความต่างของประสิทธิภาพจริง ๆ

    • ตัวอย่างเช่น ถ้าต้องการรักษาประสิทธิภาพไว้ที่ 90% ของการรันจาก RAM จะใช้หน่วยความจำเพียงครึ่งเดียวได้ไหม หรือจริง ๆ แล้วยังต้องใช้ 90% หรือ 95%
    • ผมอยากรู้ว่าพอเราลด RAM ลงแล้ว ประสิทธิภาพจะตกจากค่าสูงสุดเร็วแค่ไหน กราฟนั้นเปรียบเทียบกับอัลกอริทึมพื้นฐานเมื่อใช้ RAM น้อยลง ซึ่งเป็นอีกคำถามหนึ่งที่ต่างออกไป (แต่ก็เป็นคำถามที่ดี!)
    • ถ้าสามารถได้ประสิทธิภาพที่ดีโดยไม่ต้องโหลดทั้งโมเดลขนาด 8GB เข้าไปไว้ในหน่วยความจำของโทรศัพท์ได้ นั่นก็คงมีประโยชน์มากอย่างชัดเจน
  • เป็นที่น่าสังเกตว่าอุปกรณ์ของ Apple มี RAM น้อยมากเมื่อเทียบกับอุปกรณ์คล้ายกันของคู่แข่ง

    • ส่วนหนึ่งเป็นเพราะทีมซอฟต์แวร์ของ Apple ใช้ภาษาที่มีประสิทธิภาพมากกว่าอย่าง Objective-C และเพราะแอปพลิเคชัน iOS ไม่ได้ต้องรองรับความละเอียดหน้าจอที่หลากหลาย จึงมีกรณีที่ต้องโหลดเท็กซ์เจอร์ความละเอียดสูงแล้วค่อยลดขนาดลงน้อยกว่า
    • อีกทั้งแม้จะซื้อ RAM ในสเกลแบบ Apple ก็ไม่ได้ทำให้ราคา RAM ถูกลงมากนัก ดังนั้นการเพิ่ม RAM จึงกระทบมาร์จินมากกว่าการเพิ่มฟีเจอร์อื่น
    • แต่ทั้งหมดนี้กลายเป็นปัญหาเมื่อพูดถึงการใช้ large language model (LLM) เพราะโดยธรรมชาติแล้วมันกิน RAM มาก และเทคนิคประหยัดหน่วยความจำใด ๆ ก็อาจถูกคู่แข่งที่มี RAM มากกว่านำไปใช้เพื่อรันโมเดลที่ใหญ่และดีกว่าได้เช่นกัน
  • ผมมีความเข้าใจในหัวข้อนี้จำกัด แต่สงสัยว่าเทคนิคนี้จะทำให้รัน LLM บนโทรศัพท์มือถือแบบออฟไลน์ได้หรือไม่

    • ถ้าได้จริง ก็อาจนำไปสู่แอปพลิเคชันที่น่าสนใจมากมาย เช่น การกลั่นกรองเนื้อหาด้วย AI โดยไม่ต้องส่งข้อมูลลับออกไปภายนอก
  • ผมชื่นชมที่บทความช่วงหลัง ๆ ใช้คำว่า "LLM" แทน "AI"

    • เพราะทำให้รู้ว่านี่กำลังพูดถึงเทคโนโลยีที่เฉพาะเจาะจง ไม่ใช่กระแสการตลาด
  • ค่อนข้างน่าแปลกที่งานวิจัยนี้ไม่ได้กล่าวถึง FlashAttention

    • ทั้งสองงานต่างก็ใช้แฟลชเมมโมรี ดังนั้นอย่างน้อยก็น่าจะมีการอ้างถึงบ้าง
  • Apple เข้าซื้อบริษัทอิหร่านไปแล้วหรือ?

  • ตัวอย่างเช่น มีการบอกว่าโมเดล OPT 6.7B แสดงความเบาบาง 97% ภายในชั้น FFN

    • ผมสงสัยว่ามีใครรู้ไหมว่าเมตริกที่กล่าวถึงตรงนี้หมายถึงอะไรแน่ หมายถึงว่ามีค่า 0 อยู่ 97% ในชั้นนั้น หรือหมายถึงว่าสามารถบีบอัดขนาดลงเหลือ 3% ได้
  • หวังว่าเทคนิคนี้จะถูกรวมเข้าไปใน llama.cpp และ candle

    • ความก้าวหน้าแบบนี้น่าทึ่งมาก และหวังว่าสักวันหนึ่งจะถูกนำไปใช้กับไลบรารีเหล่านี้ด้วย