TII เปิดตัวซีรีส์โมเดล AI Falcon 2 ที่เหนือกว่า Llama 3 8B

(tii.ae)

2 คะแนน โดย GN⁺ 2024-05-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

TII จาก Abu Dhabi เปิดตัวซีรีส์ Falcon 2 โดยชูโมเดลหลายภาษาและมัลติโหมดในการแข่งขันโอเพนซอร์ส LLM
Falcon 2 11B เป็นโมเดล 11 พันล้านพารามิเตอร์ที่ฝึกด้วยโทเคน 5.5 ล้านล้าน และทำผลงานแซง Meta Llama 3 8B บนลีดเดอร์บอร์ดของ Hugging Face
Falcon 2 11B VLM เป็นโมเดลมัลติโหมดตัวแรกของ TII ที่แปลงอินพุตภาพเป็นข้อความ และสามารถประยุกต์ใช้การตีความภาพได้ในหลายอุตสาหกรรม
ทั้งสองโมเดลเปิดให้ใช้แบบ โอเพนซอร์ส และใช้ TII Falcon License 2.0 โดยออกแบบมาให้ดีพลอยและผสานรวมได้ง่ายแม้บนโครงสร้างพื้นฐานที่เบากว่า
TII มีแผนขยาย Falcon 2 ให้มีหลายขนาด และกำลังพิจารณาใช้ Mixture of Experts เพื่อเพิ่มประสิทธิภาพและคุณภาพการตอบสนอง

การเปิดตัว Falcon 2 และองค์ประกอบของโมเดล

Technology Innovation Institute เป็นองค์กรวิจัยประยุกต์ภายใต้ Advanced Technology Research Council ของ Abu Dhabi และได้เปิดตัวโมเดลภาษาขนาดใหญ่ Falcon 2 เมื่อวันที่ 13 พฤษภาคม 2024
ซีรีส์นี้ประกอบด้วย 2 โมเดล
- Falcon 2 11B: LLM ขนาด 11 พันล้านพารามิเตอร์ที่ฝึกด้วยโทเคน 5.5 ล้านล้าน
- Falcon 2 11B VLM: โมเดล vision-to-language ที่แปลงอินพุตภาพเป็นเอาต์พุตข้อความ
ทั้งสองโมเดลรองรับ หลายภาษา และ Falcon 2 11B VLM เป็นโมเดลมัลติโหมดตัวแรกของ TII
TII ระบุว่า Falcon 2 11B VLM เป็นโมเดลเดียวในตลาดระดับบนปัจจุบันที่มีความสามารถแปลงภาพเป็นข้อความ

การเปรียบเทียบประสิทธิภาพและขอบเขตการใช้งาน

Falcon 2 11B ถูกเปรียบเทียบกับกลุ่มโมเดลที่ผ่านการพรีเทรนบนลีดเดอร์บอร์ดการประเมินโอเพน LLM ของ Hugging Face
- ทำผลงานได้ดีกว่า Meta Llama 3 8B
- มีคะแนนใกล้เคียง Google Gemma 7B และอยู่ในกลุ่มอันดับต้น
- คะแนนอยู่ที่ Falcon 2 11B 64.28 และ Gemma 7B 64.29
โมเดล Falcon 2 11B รองรับงานภาษาอังกฤษ ฝรั่งเศส สเปน เยอรมัน โปรตุเกส และภาษาอื่น ๆ อีกหลายภาษา
Falcon 2 11B VLM สามารถระบุและตีความภาพและข้อมูลเชิงภาพจากสภาพแวดล้อมโดยรอบได้
- มีการยกตัวอย่างการใช้งานในด้านเฮลท์แคร์ การเงิน อีคอมเมิร์ซ การศึกษา และกฎหมาย
- รวมถึงกรณีใช้งานอย่างการจัดการเอกสาร การเก็บถาวรดิจิทัล การทำดัชนีตามบริบท และการช่วยเหลือผู้พิการทางสายตา

รูปแบบการเผยแพร่และแผนถัดไป

ทั้ง Falcon 2 11B และ Falcon 2 11B VLM เปิดให้ใช้งานแบบ โอเพนซอร์ส เพื่อให้นักพัฒนาเข้าถึงได้
มีการระบุว่าทั้งสองโมเดลสามารถรันได้อย่างมีประสิทธิภาพบน GPU เพียงตัวเดียว ทำให้ดีพลอยและผสานรวมเข้ากับโครงสร้างพื้นฐานที่เบากว่า เช่น โน้ตบุ๊กและอุปกรณ์อื่น ๆ ได้ง่าย
Falcon 2 11B เผยแพร่ภายใต้ TII Falcon License 2.0 ซึ่งเป็นไลเซนส์ซอฟต์แวร์แบบผ่อนปรนที่อิง Apache 2.0
- รวมถึงนโยบายการใช้งานที่ยอมรับได้เพื่อส่งเสริมการใช้ AI อย่างรับผิดชอบ
ในอนาคต TII วางแผนเพิ่มความหลากหลายของขนาดโมเดล Falcon 2 รุ่นถัดไป และกำลังพิจารณานำ Mixture of Experts มาใช้
- Mixture of Experts เป็นแนวทางที่รวมเครือข่ายขนาดเล็กซึ่งมีความเชี่ยวชาญต่างกัน เพื่อสร้างคำตอบที่ละเอียดและปรับให้เหมาะกับบริบทมากขึ้น
- TII มองว่าแนวทางนี้สามารถเพิ่มความแม่นยำและเร่งการตัดสินใจได้
ดูข้อมูลเพิ่มเติมเกี่ยวกับโมเดลใหม่ได้ที่ FalconLLM.TII.ae

1 ความคิดเห็น

GN⁺ 2024-05-14

ความคิดเห็นบน Hacker News

ผลเบนช์มาร์กดูเหมือนจะใกล้เคียงกับ Mistral 7B และ Llama 3 8B โดยรวม เมื่อคำนึงว่าขนาดโมเดลใหญ่ขึ้นแล้ว ก็ไม่ได้ดูน่าทึ่งเท่าไร
https://huggingface.co/tiiuae/falcon-11B
https://huggingface.co/meta-llama/Meta-Llama-3-8B
https://mistral.ai/news/announcing-mistral-7b/
- ใช่เลย Falcon-180b ตอนแรกก็ถูกอวยเกินจริงกันเยอะ แต่ไม่นานชุมชนก็พบว่าแทบไม่มีประโยชน์ และโดยทั่วไปก็แพ้โมเดลภาษาใหญ่ที่เล็กกว่าได้ง่าย ๆ
  คราวนี้อ้างว่า falcon-11b ดีกว่า Llama 3 8b แต่ก็เห็นปัญหาหลายอย่างแล้ว falcon-11b ใหญ่กว่า Llama 3 8b ประมาณ 40% จึงเทียบว่าอยู่ในระดับขนาดเดียวกันได้ยาก และข้ออ้างนี้พึ่งพาเบนช์มาร์กอัตโนมัติ ทั้งที่ชัดเจนมานานแล้วว่าเบนช์มาร์กอัตโนมัติเพียงอย่างเดียวไม่พอจะสรุปแบบนั้น
  คะแนนเบนช์มาร์กอัตโนมัติบางรายการต่ำกว่า Llama 3 8b มาก และนำอยู่แบบเฉียด ๆ แค่เบนช์มาร์กเดียว การทำให้ดูเหมือนดีที่สุดตลอดกาลในเบนช์มาร์กหนึ่งรายการนั้นทำได้ แต่นั่นไม่ได้แปลว่าเป็นโมเดลที่ดีเลย
  ทั้งที่ไม่มีการประเมินโดยมนุษย์เลย ก็ยังตั้ง พาดหัวชวนคลิก ที่จงใจรีบเคลมเกินไป และแม้จะบอกว่าดีกว่า Llama 3 แต่กลับเมิน Llama 3 70b ไปโดยสิ้นเชิง
  พูดตรง ๆ คือหงุดหงิดที่ tiiuae ได้รับความสนใจมากเกินไป ทั้งที่ยังทำอะไรที่เป็นประโยชน์ออกมาไม่ได้ แถมยังทำ bait ที่ชวนเข้าใจผิดแบบนี้ซ้ำ ๆ
- โมเดลของพวกเขาโดยรวมดูจะเป็นแบบนั้น ขนาดใหญ่มากจริง ๆ แต่ไม่มี ประสิทธิภาพที่ดีขึ้น จริงเมื่อเทียบกับความพยายามที่ใส่ลงไป
  ชุดข้อมูลเว็บที่คัดกรองแล้วถูกเซ็นเซอร์หนักมาก ซึ่งอาจส่งผลด้วย ค่อนข้างอนุรักษ์นิยมทางศีลธรรมมาก จนตัดสื่อลามกและหัวข้อหลายอย่างออกไปหมด
  ดังนั้นก็ไม่น่าแปลกใจถ้าการกรองเนื้อหาออกไปมากเกินไป แล้วใส่แต่ของคล้าย ๆ กันเพิ่มเข้าไป จะเป็นส่วนหนึ่งของปัญหา
- ตัวชี้วัดที่ใช้เทียบอาจไม่ตรงกันก็ได้
  จริงอยู่ว่าโมเดลใหญ่กว่า แต่การฝึกใช้โทเคนน้อยกว่า Llama 3 ปัญหาคือถ้าไม่มีชุดข้อมูลสาธารณะ ก็ยากจะเปรียบเทียบและทำซ้ำได้อย่างถูกต้อง
  ยากที่จะรู้ว่าเป็นเพราะสถาปัตยกรรมโมเดล คุณภาพชุดข้อมูล ขนาดโมเดล การผสมกันของสิ่งเหล่านี้ หรือเหตุผลอื่น
ไลเซนส์ไม่ดี: https://falconllm-staging.tii.ae/falcon-2-terms-and-conditio...
เป็นไลเซนส์ Apache 2 ที่ถูกแก้ไขและมีข้อกำหนดเพิ่มเติม โดยรวมถึงข้อกำหนดให้ปฏิบัติตามนโยบายการใช้งานที่ยอมรับได้: https://falconllm-staging.tii.ae/falcon-2-acceptable-use-pol...
แต่ในไลเซนส์ Apache 2 ที่แก้ไขนั้นมีข้อความว่า “นโยบายการใช้งานที่ยอมรับได้อาจมีการอัปเดตเป็นครั้งคราว และคุณต้องคอยติดตามที่อยู่เว็บที่โฮสต์นโยบายดังกล่าว เพื่อให้แน่ใจว่าการใช้งานผลงานหรือผลงานดัดแปลงเป็นไปตามนโยบายที่อัปเดตแล้ว”
ไม่ว่าจะมอง นโยบายการใช้งานที่ยอมรับได้ ปัจจุบันอย่างไร พวกเขาก็สงวนสิทธิ์ที่จะเปลี่ยนในอนาคตได้ตามต้องการ และผู้ใช้ต้องปฏิบัติตามนโยบายใหม่
นี่แสดงให้เห็นชัดว่าทำไมผมถึงไม่ชอบกระแสที่เรียกไลเซนส์แบบนี้ว่า โอเพนซอร์ส ทั้งที่ไม่เข้ากันกับนิยามของ OSI
- โดยพื้นฐานแล้ว ห้ามใช้กับงานที่ไม่ใช่เรื่องเล็กน้อยเด็ดขาด เพราะพวกเขาสามารถสั่งห้าม use case ของคุณได้ทุกเมื่อโดยไม่ต้องแจ้งให้ทราบ
- ผมสงสัยจริง ๆ ว่าข้อกำหนดที่ว่า “สงวนสิทธิ์ที่จะเปลี่ยนในอนาคตได้ตามต้องการ และผู้ใช้ต้องปฏิบัติตามนโยบายใหม่” จะยืนอยู่ได้จริงในศาลหรือไม่ อยากรู้ว่ามี คำพิพากษาหรือบรรทัดฐานคดี ที่เกี่ยวข้องไหม
- ลูกเล่นด้านไลเซนส์ แบบนี้ไม่ใช่ครั้งแรก ตอน Falcon 1 ก็มีเหมือนกัน ผมชื่นชมความพยายามนะ แต่ดูเหมือนพวกเขายังหาทางอยู่ว่าจะทำเงินหรือทำอย่างไรดี
- โมเดล 40b ดูเหมือนจะเป็น Apache ล้วน ๆ
มีข้อความว่า “Falcon 2 11B ใหม่เหนือกว่า Llama 3 8B ของ Meta และให้ประสิทธิภาพระดับเดียวกับโมเดล Google Gemma 7B ชั้นนำ” แต่ผมเข้าใจค่อนข้างแน่ว่า Llama 3 8B นำ Gemma 7B แทบทุกตัวชี้วัด
- ต้องดูด้วยว่านี่เป็นการเปรียบเทียบ โมเดลฐาน ไม่ใช่โมเดลที่จูนสำหรับแชต เพราะตอนนี้ Falcon-11B ยังไม่มีโมเดลที่จูนสำหรับแชต ดูเหมือนการจูนสำหรับแชตของ Meta จะดีกว่าของ Gemma
  ถึงอย่างนั้น จากที่ลองใช้ โมเดลแชต Gemma 1.1 ก็ค่อนข้างโอเค และผมก็คิดว่าโมเดลแชต Llama3 8B ดีกว่าอย่างชัดเจน
  CodeGemma 1.1 7B ถูกประเมินต่ำไปมากเป็นพิเศษเมื่อเทียบกับโมเดลเขียนโค้ดที่เกี่ยวข้อง โมเดลฐาน CodeGemma 7B เป็นหนึ่งในโมเดลที่ดีที่สุดจากที่ผมทดสอบด้านการเติมโค้ด และโมเดลแชตก็เป็นหนึ่งในโมเดลที่ดีที่สุดจากที่ผมทดสอบด้านการเขียนโค้ดเช่นกัน
  โมเดลอื่น ๆ ดูเหมือนจะเล่นงานเบนช์มาร์กได้ดีกว่า แต่ในการใช้งานจริงกลับยืนระยะได้ไม่เท่า CodeGemma ผมรอดูว่า CodeLlama3 จะออกมาเป็นอย่างไร แต่ตอนนี้มันยังไม่มีอยู่จริง
- เป็นเพียงประสบการณ์ส่วนตัวก็จริง แต่จากประสบการณ์ของผม Gemma ใช้ไม่ได้เลย ส่วน Llama 3 8b ดีเป็นพิเศษเมื่อเทียบกับขนาด แนวคิดที่ว่า Gemma นำหน้า Llama 3 ฟังดูแปลก ถ้า Gemma นำในบางเบนช์มาร์ก ผมสงสัยว่าอาจมีอะไรอย่างการปนเปื้อนข้อมูลอยู่หรือเปล่า
- ผมก็รู้สึกว่าเรื่องนั้นแปลกเหมือนกัน
  ช่วงนี้ผมไม่ได้ตามดูเบนช์มาร์กมากนัก และทุ่มเทให้บาสเกตบอลเต็มที่
  อ้างอิงไว้ว่า จริง ๆ แล้วผมเก่งกว่า Lebron นิดหน่อย Lebron ยังแย่กว่าลูกสาววัยสามขวบของผมมาก และบางครั้งผมก็ชนะลูกสาวได้ ในบาสเกตบอล
เฮ้อ ตอนแรกนึกว่านี่เป็นบทความเกี่ยวกับ Falcon AT ของ Spectrum Holobyte ตามข้อมูลจาก MyAbandonware.com:
“โดยแก่นแล้ว Falcon AT คือ Falcon 2 แต่ถูกทำการตลาดให้ต่างออกไปไม่ทางใดก็ทางหนึ่ง และเป็นรุ่นที่สองของซีรีส์ซิมูเลชันการบินฮาร์ดคอร์สุดล้ำ Falcon ของ Spectrum Holobyte ตรงกันข้ามกับความเชื่อทั่วไปที่ว่า Falcon 3.0 คือจุดเริ่มต้นของซิมูเลชันการบินยุคใหม่ Falcon AT ได้พัฒนาจาก Falcon ไปมากแล้ว โดยมีกราฟิก EGA ที่คมชัด ตัวเลือกสมจริงจำนวนมาก และแคมเปญที่ขยายใหญ่ขึ้นอย่างมาก เกมนี้เป็นซิมูเลชันการรบทางอากาศยุคใหม่ที่มีบทสอนยอดเยี่ยม ภารกิจหลากหลาย และกลศาสตร์การบินที่แม่นยำ ซึ่งแฟน ๆ Falcon รู้จักและหลงรัก ในบรรดานวัตกรรมหลายอย่าง ยังมีตัวเลือกมัลติเพลเยอร์ผ่านฮอตซีตและโมเด็มที่เล่นได้ดีอย่างน่าประหลาดใจด้วย แม้ตอนนี้จะถูกลืมไปเป็นส่วนใหญ่ แต่ Falcon AT ก็ช่วยอธิบายช่องว่างที่อธิบายได้ยากระหว่าง Falcon กับ Falcon 3.0”
- ดูเหมือนจะมีกระแสเอาชื่อผลิตภัณฑ์ใหม่ ๆ มาจาก เกมคอมพิวเตอร์คลาสสิก อาจไม่ได้ตั้งใจก็ได้ เมื่อกี้ก็มีบทความเกี่ยวกับระบบชื่อ Loom อยู่ที่นี่ แต่ไม่ใช่เกมผจญภัยคลาสสิก คงมีใครสักคนออกโมเดลภาษาขนาดใหญ่หรือซอฟต์แวร์เครือข่ายแล้วตั้งชื่อว่า Zork แน่ ๆ
- ตอนนี้ในหน้าแรกยังมี “F-16 Strike Eagle II reverse engineering” <https://news.ycombinator.com/item?id=40347662> อยู่ด้วย เลยมีส่วนทำให้เกิด การเชื่อมโยงความคิด ไปในทางคล้าย ๆ กัน
ไม่เข้าใจว่าข้อความ “โมเดล AI เพียงหนึ่งเดียวที่มีความสามารถด้านภาพ-ภาษา” หมายความว่าอะไร นี่มันประมาณสิ่งที่ GPT-4 Vision กับ LLaVA ทำอยู่ไม่ใช่เหรอ?
- ตอนแรกนึกว่าเป็นมุกเล่นคำบิดความหมาย
  อาจหมายถึงว่า LLaVA เป็นโมเดลภาษา-ภาพก็ได้ แต่ต่อให้ตีความแบบนั้นก็ยังทำให้สมเหตุสมผลไม่ได้
  หรืออาจจะแค่โกหกก็ได้
- โมเดล Claude ทั้งหมดก็เข้าข่ายด้วย
ยินดีกับโมเดลเปิด แต่ตามที่มีคนชี้ไว้ที่นี่ โมเดล Falcon ก็ไม่ได้เปิดสักเท่าไร Falcon รุ่นเดิมเองก็ไม่ได้ทำงานได้ดีเท่าที่ตัวเลขเบนช์มาร์กบอกเป็นนัย มีการผลักดันเหมือนเป็นความก้าวหน้าครั้งใหญ่ แต่ตอนเปิดตัวก็ไม่ได้รู้สึกว่าเหนือกว่าโมเดลเปิดคู่แข่งในเวลานั้น
คำโปรโมตว่า โมเดล 11B เหนือกว่าโมเดล 7B และ 8B ใน “ระดับเดียวกัน” รู้สึกฝืนไปหน่อย จะรอดู แต่สำหรับการอนุมานแบบรันในเครื่องก็คิดว่าจะลองใช้ดูแน่นอน เพียงแต่จากสัญชาตญาณแล้ว llama 3 8B ที่ผ่านการ fine-tune น่าจะยังเป็นตัวท็อปในระดับเดียวกัน ณ สัปดาห์นี้
- ผมก็เคยเห็นว่า Falcon รุ่นเดิมทำผลงานไม่ได้เท่ากับ ตัวเลขเบนช์มาร์ก เหมือนกัน ดูเหมือนจะฝึกไม่พอเมื่อเทียบจำนวนโทเคนต่อพารามิเตอร์ น่าจะเพียงแค่อยากมีโมเดล 4 หมื่นล้านพารามิเตอร์ และเป็นแนวทางก่อนยุคการปรับให้เหมาะแบบ Chinchilla มากกว่า
การเตือนให้ระลึกว่า AI จะถูกใช้ไม่ใช่แค่ในประเทศประชาธิปไตยที่อย่างน้อยก็พยายามกำกับดูแลด้านจริยธรรมบางส่วน แต่ยังถูกใช้โดยเผด็จการที่เลวร้ายที่สุดด้วย นี่ชวนขนลุกจริง ๆ
- MBZ ไม่ใช่ MBS และซาอุดีอาระเบียกับ UAE ก็เป็นคนละประเทศกัน MBZ เป็นหนึ่งในผู้นำที่ได้รับความนิยมมากที่สุดในโลก และประชาชนของเขาก็อยู่ในกลุ่มที่ร่ำรวยที่สุด
  ประเทศของเขาเป็นหนึ่งในไม่กี่ประเทศพัฒนาแล้วที่เศรษฐกิจยังเติบโตอย่างต่อเนื่อง และมีนโยบายตรวจคนเข้าเมืองที่เสรีที่สุดแห่งหนึ่งของโลก ทั้งยังเป็นหนึ่งในประเทศที่ปลอดภัยที่สุดนอกเอเชียตะวันออก
  ถ้าจะว่าไป เขาใกล้เคียงกับตัวเต็งตำแหน่ง เผด็จการที่ดีที่สุด มากกว่าเผด็จการที่เลวร้ายที่สุด
มีเรื่องที่อยากเข้าใจ โมเดลนี้ฝึกด้วยชุดข้อมูลสาธารณะเป็นส่วนใหญ่ ใช้ฮาร์ดแวร์ AWS และใช้ อัลกอริทึมกับเทคนิคที่รู้จักกันดีไม่ใช่หรือ? ต่างจากโมเดลอื่น ๆ ที่ใครก็ตามถ้ามีเงินก็ฝึกได้อย่างไร?
จากมุมมองที่ค่อนข้างสงสัยหรือแทบจะต่อต้านของผม สิ่งนี้ดูเป็นแค่ การโชว์ของ และความพยายามทำให้ดูเกี่ยวข้อง มีอะไรเพิ่มเติมในความพยายามแบบนี้ที่ผมมองไม่เห็นไหม?
- โมเดลจำนวนมากอยู่ในหมวดนี้ อธิปไตย มีคุณค่าในระดับหนึ่ง ไม่ว่าจะสำหรับรัฐหรือบริษัท ภัยคุกคามจากการแข่งขันก็เป็นผลดีต่อทุกคน
  แม้ผลลัพธ์สุดท้ายส่วนใหญ่จะไม่ได้มีอะไรน่าสนใจเป็นพิเศษ แต่ก็ดีใจที่มีคนทำงานแบบนี้อยู่
ชั่วขณะหนึ่งนึกว่านี่เกี่ยวกับซิมูเลชันการบินคลาสสิก:
https://en.wikipedia.org/wiki/Falcon_4.0
- SpaceX ก็มีจรวด Falcon 1 และ Falcon 9 และยังมี Falcon 5 ที่เคยถูกเสนอแต่ไม่ได้พัฒนาด้วย
บทความลำเอียงจนน่าขัน ขนาดที่อยากบอกว่า UAE ช่วยทำให้แนบเนียนกว่านี้หน่อย “ชนะ llama 3” เป็นสรุปที่ไร้ประโยชน์จนน่าสงสัย และส่วนที่ว่า “โมเดล AI เพียงหนึ่งเดียวที่มีความสามารถด้านภาพ-ภาษา” ก็ชวนงงเอามาก ๆ

TII เปิดตัวซีรีส์โมเดล AI Falcon 2 ที่เหนือกว่า Llama 3 8B

การเปิดตัว Falcon 2 และองค์ประกอบของโมเดล

การเปรียบเทียบประสิทธิภาพและขอบเขตการใช้งาน

รูปแบบการเผยแพร่และแผนถัดไป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News