AMD เข้าซื้อกิจการ MK1 เพื่อยกระดับประสิทธิภาพและความคุ้มค่าของ AI inference

(mkone.ai)

1 คะแนน โดย GN⁺ 2023-08-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

AMD ต้องการยกระดับ ประสิทธิภาพและความคุ้มค่าในการทำ AI inference ทั่วทั้งสแตก ตั้งแต่ฮาร์ดแวร์ถึงซอฟต์แวร์ ผ่านการเข้าซื้อกิจการ MK1
MK1 ซึ่งตั้งอยู่ที่ Mountain View มุ่งเน้น inference ความเร็วสูง สำหรับการใช้งานในระดับขนาดใหญ่ และเทคโนโลยี AI แบบ reasoning มาโดยตลอด
Flywheel ของ MK1 ได้รับการปรับแต่งให้เหมาะกับฮาร์ดแวร์ของ AMD และปัจจุบันประมวลผลโทเคนได้มากกว่า 1 ล้านล้านรายการต่อวัน
ทีม MK1 จะเข้าร่วมกับ AMD Artificial Intelligence Group เพื่อเสริมความแข็งแกร่งให้กับ enterprise AI software stack และความสามารถด้าน inference
Flywheel และ comprehension engines มุ่งใช้สถาปัตยกรรมหน่วยความจำของ AMD Instinct GPU เพื่อเพิ่มความแม่นยำ ความคุ้มค่าด้านต้นทุน และความสามารถในการตรวจสอบย้อนกลับของ reasoning ในระดับขนาดใหญ่

MK1 เข้าร่วม AI stack ของ AMD

AMD ได้เสร็จสิ้นการเข้าซื้อกิจการ MK1 และมองว่านี่เป็นหมุดหมายเชิงกลยุทธ์เพื่อยกระดับ ประสิทธิภาพและความคุ้มค่าของ AI ทั่วทั้งสแตก
MK1 เป็นทีมที่ตั้งอยู่ใน Mountain View, California ซึ่งพัฒนา inference ความเร็วสูง และเทคโนโลยี AI แบบ reasoning ที่เหมาะกับการใช้งานในระดับขนาดใหญ่มาอย่างต่อเนื่อง
เทคโนโลยี Flywheel ของ MK1 ได้รับการปรับแต่งให้เหมาะกับฮาร์ดแวร์ของ AMD และปัจจุบันประมวลผลได้ มากกว่า 1 ล้านล้านโทเคนต่อวัน
ทีม MK1 จะเข้าร่วม AMD Artificial Intelligence Group
- เทคโนโลยีและความเชี่ยวชาญของทีมนี้จะถูกนำไปใช้เพื่อพัฒนาความสามารถด้าน inference ความเร็วสูงและ enterprise AI software stack ของ AMD

Flywheel ที่มุ่งสู่ enterprise AI

Flywheel และ comprehension engines ของ MK1 ถูกออกแบบมาเพื่อใช้ประโยชน์จากสถาปัตยกรรมหน่วยความจำของ AMD Instinct GPU
เทคโนโลยีนี้มุ่งเน้นการมอบ reasoning ที่มี ความแม่นยำ ความคุ้มค่าด้านต้นทุน และความสามารถในการตรวจสอบย้อนกลับอย่างครบถ้วน ในสภาพแวดล้อมขนาดใหญ่
AMD ต้องการเร่งก้าวถัดไปของ enterprise AI ด้วยการผสานนวัตกรรมซอฟต์แวร์ของ MK1 เข้ากับศักยภาพด้านการประมวลผลของบริษัท
- ช่วยให้ลูกค้าทำระบบอัตโนมัติสำหรับกระบวนการทางธุรกิจที่ซับซ้อนได้
- ช่วยเปิดโอกาสใหม่ ๆ ในแอปพลิเคชันที่มีมูลค่าสูง
ข้อความที่เกี่ยวข้องกับผลที่คาดหวังจากการเข้าซื้อกิจการนี้ถือเป็น ข้อความคาดการณ์ล่วงหน้า และผลลัพธ์จริงอาจแตกต่างออกไปตามความเสี่ยงและความไม่แน่นอนที่ระบุไว้ในเอกสารที่ AMD ยื่นต่อ SEC

1 ความคิดเห็น

GN⁺ 2023-08-07

ความคิดเห็นจาก Hacker News

แปลกที่ไม่พูดถึงหรือเปรียบเทียบผลกับเทคนิคการควอนไทซ์ที่มีอยู่เลยแม้แต่ครั้งเดียว
ปกติผมพยายามมองในแง่ดี แต่ไม่น่าจะเป็นไปได้ที่พวกเขาไม่รู้จักเทคนิคที่ใช้แพร่หลายอยู่แล้วและมีจุดประสงค์เดียวกัน ดังนั้นควรมีเบนช์มาร์กเปรียบเทียบ
ถ้าจะเติมส่วนที่ขาดไป llama.cpp มีตารางเปรียบเทียบตามระดับการควอนไทซ์สำหรับ Llama 1 อยู่[0] แม้จะเทียบตรงกับตัวเลขของ Llama 2 ไม่ได้ แต่ถ้าดูแค่ความเร็วและอัตราการเปลี่ยนแปลงของ perplexity แล้ว MK-1 ดูคล้ายกับ Q5_1 มาก คือ perplexity แย่ลงเล็กน้อยแต่ไม่ถึงกับมองข้ามได้ และความเร็วเพิ่มขึ้นนิดหน่อยเกิน 2 เท่า
ถ้าตัวเลขนี้ถูกต้อง ก็สามารถดาวน์โหลดโมเดล Llama 2 ที่ควอนไทซ์ไว้ล่วงหน้าจาก Hugging Face แล้วได้ประสิทธิภาพแทบไม่ต่างจากที่ MK-1 ให้มา ไฟล์ Q5 อยู่ที่นี่: https://huggingface.co/TheBloke/Llama-2-13B-GGML/tree/main
[0] https://github.com/ggerganov/llama.cpp#quantization
- ผมเป็นหนึ่งในผู้ก่อตั้ง เหตุผลที่เราเลือกไม่เปรียบเทียบกับวิธีที่มีอยู่ก็เพราะมองว่ายากจะเปรียบเทียบอย่างยุติธรรม
  แต่ละเทคนิคมีจุดแลกเปลี่ยนและกรณีใช้งานมากมาย ไม่ใช่เรื่องที่ฝ่ายหนึ่งแย่กว่าแล้วอีกฝ่ายดีกว่า แต่เป็นการออกแบบเพื่อเป้าหมายคนละจุด เช่น คลาวด์กับโลคัลก็ต่างกัน เราเปิดเผยตัวเลขและเบนช์มาร์กอยู่ และตอนนี้กำลังหาพาร์ตเนอร์กลุ่มแรกที่เหมาะกับคุณค่าที่เรานำเสนอ จึงยังอยู่ในช่วง private beta
  ตัวอย่างเช่น llama.cpp เป็นเฟรมเวิร์กที่ยอดเยี่ยมสำหรับการรันโมเดลแบบโลคัลในกรณีผู้ใช้เดี่ยว (batch=1) แม้ llama.cpp จะรองรับหลายแบ็กเอนด์อย่าง RPi, CPU, GPU แต่ถ้าจะเอา MKML ไปเทียบให้ดูเหนือกว่าในกรณีหลายผู้ใช้ (batch >> 1) บน GPU ตามเกณฑ์ perplexity, อัตราการบีบอัด, และความเร็ว ผมมองว่าไม่ยุติธรรม เพราะเท่าที่รู้ นั่นไม่ใช่กรณีใช้งานเป้าหมายของ llama.cpp ตัวอย่างเช่น MKML รัน Llama-2 7B บน 4090 ที่ batch 32 หรือประมวลผลพร้อมกัน 32 พรอมป์ต ได้ราว 2700 tok/sec ใช้หน่วยความจำ 5.2GB และมี perplexity ใกล้เคียง fp16 มาก
  นอกจากนี้ ตอนนี้เราไม่ได้เอาเครื่องมือหรือเทคนิคโอเพนซอร์สสำหรับการควอนไทซ์มาครอบใช้งาน เราใช้เทคโนโลยีที่พัฒนาขึ้นเองทั้งหมด และจะมีข้อมูลเพิ่มเติมออกมาเร็ว ๆ นี้ ถ้ามีคำถามเชิงเทคนิคแบบเจาะจง ผมจะตอบให้ได้มากที่สุด
- การใช้คำว่า “codec” ก็ทำให้รู้สึกแปลก ๆ เหมือนกัน ให้ความรู้สึกเหมือนพยายามทำให้ดูราวกับว่าคิดค้นพาราไดม์ใหม่ทั้งหมดขึ้นมา พร้อมตั้งชื่อเท่ ๆ ให้นึกถึงการบีบอัดวิดีโอ
- สุดสัปดาห์นี้ผมลองเล่น Llama2 บน AMD 7900 XTX กับ llama.cpp และการควอนไทซ์ q5_k_sหลายแบบ
  ถ้าเทียบกับตัวเลข MK600 บน RTX 4090 ที่พวกเขานำเสนอ ผมใช้ GPU ที่ถูกกว่าแต่ยังได้ throughput สูงกว่า และวัด perplexity ได้ต่ำกว่า
- Q5_1 เองก็เป็นวิธีที่เก่ามากแล้ว การควอนไทซ์ตระกูล K เร็วกว่าและใช้พื้นที่คุ้มกว่าที่ระดับการสูญเสีย perplexity เท่ากัน
  https://old.reddit.com/r/LocalLLaMA/comments/142q5k5/updated...
- MKML บอกว่าลดขนาดโมเดล Llama2-13B จาก 26GB เหลือ 10.5GB ข้อเสนอที่ใกล้เคียงกันของ TheBloke คือโมเดล Q6_K ขนาด 10.7GB
  อาจเป็นไปได้ว่าพวกเขาแค่เอา GGML กับ llama.cpp มาจัดแพ็กเกจให้ดูดี แล้วทำให้คนเชื่อว่าเป็นเทคโนโลยีกรรมสิทธิ์
ไม่พูดถึงเทคนิคการควอนไทซ์ที่มีอยู่เลยสักครั้ง? ผมพนันได้ 10 ดอลลาร์ว่านี่อาจเป็นแค่ตัวครอบ bitsandbytes หรือ ggml
ถ้าไม่โอเพนซอร์สก็น่าจะใช้งานยาก
วงการนี้เคลื่อนไหวเร็วเกินไป และถ้าไม่ใช่แบบนั้นก็ยังไม่สะดวกพอ
อีกอย่าง แบรนดิ้งมันชวนให้นึกถึง MK-ultra ซึ่งน่าจะหลีกเลี่ยงดีกว่า
ผมเคยทำการควอนไทซ์โมเดลแมชชีนเลิร์นนิงมาก่อน การควอนไทซ์ 4 บิตหรือ 8 บิตแบบโอเพนซอร์สไม่ใช่สิ่งที่ดีที่สุดเท่าที่ทำได้
มีเทคนิคที่ซับซ้อนกว่านั้นมากซึ่งลดขนาดลงได้พร้อมรักษาความแม่นยำของการทำนายไว้ บางเทคนิค เช่น quantization-aware training ต้องมีการเปลี่ยนแปลงกระบวนการฝึกด้วย
- แน่นอนว่ามีวิธีที่ดีกว่า แต่ในกรณีนี้ตัวเลขของ MKML ก็ยังดูไม่ได้น่าประทับใจเมื่อเอาไปวางเทียบกับเทคนิคการควอนไทซ์มาตรฐานที่ใช้กันแพร่หลายอยู่แล้ว
  ตามตารางนี้[0] ขนาดของมันใกล้เคียงกับการควอนไทซ์ Q6_Kมากที่สุด และ perplexity ก็ดูแย่กว่านิดหน่อยด้วย
  ถ้าเทคนิคของพวกเขาดีกว่าจริง ก็น่าจะยอมรับการมีอยู่ของเทคนิคโอเพนซอร์สและใส่ไว้ในตารางเปรียบเทียบ แทนที่จะทำให้ดูเหมือนว่าทางเลือกเดียวคือโมเดล fp16 ดิบ
  [0] https://old.reddit.com/r/LocalLLaMA/comments/142q5k5/updated...
- แล้ววิธีควอนไทซ์ของ Unum เป็นยังไงบ้าง?
  https://github.com/unum-cloud/usearch
ดูเหมือนเป็นการปั่นของสตาร์ตอัป AIอีกเจ้าหนึ่ง คือใช้ GGML แล้วปิดมันไว้เพื่อเอาเงิน VC
ดูเหมือนบริษัท AI wrapper อีกแห่งที่พยายามทำแบบเดียวกันเพื่อฉวยกระแส LLM ก่อนที่กระแสจะซา
ถ้าไม่โอเพนซอร์สและเป็นระบบปิด ก็ดูเหมือนจบตั้งแต่เริ่ม
นี่มันก็แค่การควอนไทซ์ไม่ใช่เหรอ?
- ดูจากวิดีโอเดโมแล้ว output ของทั้งสองกรณีเหมือนกันเป๊ะ เลยทำให้สงสัยว่าใช้การควอนไทซ์หรือเปล่า
- นั่นแหละที่ผมคิด ทุกคนก็ทำกันอยู่แล้ว ถ้าไม่ได้ทำอะไรที่ต่างออกไป ก็ควรแสดงให้เห็นว่าทำไมมันถึงดีกว่าการควอนไทซ์เป็น 8 บิตหรือ 4 บิตแบบเร็ว ๆ ทั่วไป
- ไม่ว่าจะเป็นอะไรก็ตาม มีโอกาสสูงที่อีกไม่นานจะถูกทำซ้ำหรือมีฟีเจอร์คล้ายกันในเครื่องมือโอเพนซอร์สอย่าง llama.cpp
  มันดูไม่ใช่ข้อได้เปรียบที่ป้องกันได้ เหมือนเป็นฟีเจอร์หนึ่งที่ต้องไปสู้กับทางเลือกโอเพนซอร์สที่เคลื่อนไหวเร็ว
น่าเสียดายที่ไม่ใช่ความพยายามแบบโอเพนซอร์ส
ผมไม่ชอบเลยที่จะมีการพึ่งพาแบบกรรมสิทธิ์เข้ามาอยู่ในสแต็กของผม
- ผมค่อนข้างสงสัยว่ามันจะไปได้ไกลแค่ไหน ชุมชนโอเพนซอร์สทำการปรับปรุงประสิทธิภาพแทบแบบเดียวกันได้แล้วผ่านการควอนไทซ์
  มันให้ความรู้สึกเหมือนเอาไลบรารีที่มีอยู่มาห่อใหม่ แล้วไปขายให้สตาร์ตอัป AI ที่ขาดความระมัดระวังและข้อมูลไม่พอ
ถ้าเทียบกับ mlc-llm ที่ใช้การควอนไทซ์ 4 บิตล่ะ? บน 4090 ของผม llama2 13B รันได้เร็วมาก
ถึงจะใช้การควอนไทซ์ 4 บิตเหมือนกัน มันก็ยังเร็วกว่า llama.cpp บน GPU หลายเท่า
- ใช่เลย TVM Vulkan auto-tuning น่าทึ่งมาก เท่าที่ผมคิด มันเหมือนจะยังไม่ได้ใช้ matmul Vulkan extension ด้วยซ้ำ
  การควอนไทซ์ 4 บิตของ MLC ค่อนข้างเรียบง่ายเมื่อเทียบกับ llama.cpp เลยทำให้ perplexity แย่กว่า และอธิบายส่วนหนึ่งของความต่างด้านความเร็วได้ แต่ฟีเจอร์สำคัญที่ยังขาดไปที่สุดคือ CPU offloading ถ้ามีสิ่งนี้ 70B บน 4090 ก็น่าจะรันได้ค่อนข้างดีเลย
  สำหรับผม จอกศักดิ์สิทธิ์ของการทำ local LLM inference คือการรัน Llama 70B ด้วย TVM โดยกระจายโหลดระหว่าง GPU กับ iGPU ซึ่งรู้สึกว่าใกล้มากแล้ว ชิ้นส่วนต่าง ๆ มีครบหมด เหลือแค่นักพัฒนาฝั่งฟรอนต์เอนด์ที่จะเอาจุดต่าง ๆ มาเชื่อมเข้าด้วยกัน
สมัยนี้ทำเรื่องพวกนี้บน MacBook Pro ก็ได้แล้ว ผมไม่ค่อยเห็นเหตุผลว่าจะต้องไปผูกกับ vendor อีกรายทำไม
ถ้าจะเอาของดีที่สุดก็ใช้ OpenAI หรือ Anthropic ไม่งั้นก็รันเอง
นี่คือพลังของ Ultra Instinct^H^H Llama2 ตัวจริงหรือ?
Facebook กำลังเสริมความแข็งแกร่งให้ ecosystem, ผู้สร้างเครื่องมือ และบริการ inference รายเล็ก ๆ อย่างได้ผล
บริษัทนี้เข้าถึงโมเดลที่น่าเชื่อถือและเป็นที่นิยม พร้อมไลเซนส์โอเพนซอร์สจริง และน้ำหนักโมเดลที่เกี่ยวข้องได้ จึงสามารถนำไปทำ optimization แล้วขายต่อได้โดยไม่ต้องกังวลเรื่องไลเซนส์หรือข้อจำกัดของตัวน้ำหนักโมเดลเอง

AMD เข้าซื้อกิจการ MK1 เพื่อยกระดับประสิทธิภาพและความคุ้มค่าของ AI inference

MK1 เข้าร่วม AI stack ของ AMD

Flywheel ที่มุ่งสู่ enterprise AI

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News