- เพื่อการเติบโตอย่างต่อเนื่องของ ระบบนิเวศ AI แบบรันในเครื่อง ทีมผู้ก่อตั้ง
llama.cpp อย่าง ggml.ai ได้เข้าร่วมกับ Hugging Face
ggml และ llama.cpp จะยังคงดำเนินงานแบบ โอเพนซอร์สและขับเคลื่อนโดยชุมชน ต่อไป โดยทีมจะดูแลและสนับสนุนแบบเต็มเวลา
- Hugging Face มีแผนรับประกัน ความยั่งยืนในระยะยาว ของโครงการ พร้อมมุ่งปรับปรุงประสบการณ์ผู้ใช้และ การผสานรวมกับ transformers
- ผ่านความร่วมมือนี้ จะช่วยเพิ่มการเข้าถึงและความสะดวกในการนำไปใช้งานของ การอนุมานแบบรันในเครื่อง (Local Inference) และเสริมการรองรับสถาปัตยกรรมโมเดลที่หลากหลาย
- ทั้งสองฝ่ายมีวิสัยทัศน์ระยะยาวร่วมกันในการ สร้าง superintelligence แบบโอเพนซอร์สให้เข้าถึงได้ทั่วโลก
ประกาศการเข้าร่วม Hugging Face ของ ggml.ai
- ggml.ai ซึ่งเป็นทีมผู้ก่อตั้ง
llama.cpp ได้เข้าร่วมกับ Hugging Face เพื่อ รักษาอนาคตของ AI ให้เปิดกว้างอย่างแท้จริง
- เป้าหมายคือการขยายและสนับสนุนชุมชน
ggml และ llama.cpp พร้อมผลักดัน การเติบโตอย่างต่อเนื่อง ของ AI แบบรันในเครื่อง
- โครงการ
ggml-org จะยังคงเป็น โอเพนซอร์สและขับเคลื่อนโดยชุมชน เช่นเดิม
- ทีม ggml จะ ดูแลและบำรุงรักษา
ggml, llama.cpp และโครงการโอเพนซอร์สที่เกี่ยวข้องแบบเต็มเวลา
- พันธมิตรใหม่นี้จะช่วยรับประกัน ความยั่งยืนในระยะยาว ของโครงการ และมอบ โอกาสใหม่ ให้กับผู้ใช้และผู้มีส่วนร่วม
- มีแผนปรับปรุงการ ผสานรวมกับไลบรารี
transformers ของ Hugging Face เพื่อยกระดับคุณภาพการรองรับโมเดล
เบื้องหลังและพัฒนาการของความร่วมมือ
- ggml.ai ก่อตั้งขึ้นในปี 2023 และนับแต่นั้นมาก็สนับสนุนการพัฒนาและการยอมรับของไลบรารีแมชชีนเลิร์นนิง
ggml
- ตลอด 3 ปีที่ผ่านมา ทีมขนาดเล็กได้ช่วยขยายชุมชนโอเพนซอร์ส และผลักดันให้
ggml กลายเป็น มาตรฐานของการอนุมาน AI แบบรันในเครื่องที่มีประสิทธิภาพ
- ในกระบวนการนี้ Hugging Face ทำหน้าที่เป็นพันธมิตรร่วมมือที่แข็งแกร่งที่สุด
- วิศวกรของ HF ได้ มีส่วนร่วมในฟีเจอร์หลัก, เพิ่มการรองรับมัลติโหมด, ผสานรวม Inference Endpoints, และ ปรับปรุงความเข้ากันได้กับฟอร์แมต GGUF ให้กับ
ggml และ llama.cpp
- ความร่วมมือของทั้งสองฝ่ายมีประสิทธิภาพ และชุมชนโดยรวมก็ได้รับประโยชน์ จนนำไปสู่การ ยกระดับความร่วมมืออย่างเป็นทางการ ในครั้งนี้
การเปลี่ยนแปลงของโครงการโอเพนซอร์สและชุมชน
- วิธีการดำเนินงานของ
ggml และ llama.cpp จะ ไม่เปลี่ยนแปลง
- ทีมจะทุ่มเทกับการดูแลโครงการต่อไป และชุมชนจะยังคงมี อิสระในการตัดสินใจด้านเทคนิคและโครงสร้าง
- Hugging Face จะมอบ ทรัพยากรที่ยั่งยืน เพื่อเพิ่มศักยภาพการเติบโตของโครงการ
- โครงการจะยังคงเป็น โอเพนซอร์ส 100% ต่อไป และคาดว่าความเร็วในการรองรับ quantization หลังการปล่อยโมเดลจะดีขึ้นด้วย
จุดเน้นด้านเทคนิค
- เป้าหมายร่วมในอนาคตถูกกำหนดไว้ใน 2 ทิศทางหลัก
- การผสานรวมแบบคลิกเดียวกับ Hugging Face transformers
transformers ได้กลายเป็นมาตรฐานสำหรับการนิยามโมเดล AI และการปรับปรุงความเข้ากันได้ระหว่างสองระบบนิเวศถือเป็นสิ่งจำเป็นต่อ การขยายการรองรับโมเดลและการควบคุมคุณภาพ
- การปรับปรุงแพ็กเกจจิงและประสบการณ์ผู้ใช้ของซอฟต์แวร์ที่อิงกับ ggml
- เมื่อการอนุมานแบบรันในเครื่องกำลังก้าวขึ้นมาเป็นทางเลือกแทนการอนุมานบนคลาวด์ จึงมีความจำเป็นต้องทำให้ การนำโมเดลไปใช้งานและการเข้าถึงสำหรับผู้ใช้ทั่วไป ง่ายขึ้น
- เป้าหมายคือทำให้
llama.cpp กลายเป็น รูปแบบที่ใช้ได้ทั่วไปและใช้งานได้ทุกที่
วิสัยทัศน์ระยะยาว
- ggml.ai และ Hugging Face มีเป้าหมายร่วมกันในการสร้าง superintelligence แบบโอเพนซอร์ส ให้ผู้คนทั่วโลกเข้าถึงได้
- ทั้งสองฝ่ายวางแผนพัฒนา สแตกการอนุมานที่มีประสิทธิภาพ ร่วมกับชุมชน AI แบบรันในเครื่อง เพื่อให้สามารถดึงประสิทธิภาพสูงสุดออกมาจากอุปกรณ์ส่วนบุคคลได้อย่างต่อเนื่อง
เสียงตอบรับจากชุมชน
- สมาชิกในชุมชนของ Hugging Face และ ggml จำนวนมากได้ร่วมแสดง ความยินดีและความคาดหวัง
- มีความเห็นเชิงบวก เช่น “ก้าวสำคัญของระบบนิเวศ AI แบบรันในเครื่อง” และ “ข่าวสำคัญสำหรับระบบนิเวศ AI แบบเปิด”
- ผู้ใช้บางส่วนขอคำอธิบายที่ชัดเจนยิ่งขึ้นเกี่ยวกับ ความเป็นอิสระของโครงการและสิทธิความเป็นเจ้าของโค้ด
- อีกส่วนหนึ่งแสดงความกังวลเกี่ยวกับ การเปลี่ยนแปลงเขตอำนาจศาลจากการเข้าซื้อโดยบริษัท และ ความโปร่งใสของโอเพนซอร์ส
- โดยรวมแล้ว ชุมชนมองว่าความร่วมมือครั้งนี้เป็น รากฐานสำหรับการเติบโตอย่างต่อเนื่องของ AI แบบรันในเครื่อง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ฉันคิดว่า HuggingFace คือ “Open AI” ในความหมายที่แท้จริง
มองว่าเป็นหนึ่งในฮีโร่ไม่กี่รายที่ค่อยๆ ทำให้ on-premises AI เข้าถึงคนหมู่มาก
ยังจำยุคที่ค่าใช้จ่ายด้านทราฟฟิกแพงมากได้อยู่ เลยรู้สึกทึ่งที่พวกเขาโฮสต์โมเดลจำนวนมากได้ฟรี
หวังว่าจะมีโมเดลธุรกิจที่ยั่งยืน เพราะ ecosystem นี้คงยากจนลงมากถ้าไม่มีพวกเขา
ถ้าจะรัน Kimi หรือ GLM ภายในองค์กรก็ยังต้องใช้ฮาร์ดแวร์ที่คุ้มค่าราคาอยู่ดี แต่至少เรื่อง weights และ deployment ถือว่ามีคำตอบแล้ว
เอกสารทำได้ยอดเยี่ยม และปล่อย quant คุณภาพสูงในฟอร์แมตหลักต่างๆ ได้รวดเร็ว ผมมองว่าเป็นแบรนด์ที่ไว้ใจได้
ผมดาวน์โหลดโมเดลขนาดหลายร้อย GB อยู่บ่อยๆ มันเป็นบริการที่ยิ่งใหญ่มากสำหรับ ชุมชน sovereign AI
ถ้าใช้กับงานที่ปล่อยคำนวณข้ามคืนก็ถือว่าใช้ได้ และยิ่งเพิ่มทรัพยากรประมวลผลก็ยิ่งดีขึ้น
ถึงจะมี hf-torrent หรือ hf_transfer อยู่ แต่ก็เข้าถึงไม่ง่ายเท่าลิงก์ที่ใช้ได้ตรงจากเว็บ UI
อิทธิพลที่ Georgi Gerganov และ llama.cpp มีต่อ ecosystem ของโมเดลแบบ local นั้นประเมินต่ำเกินไปไม่ได้
ในเดือนมีนาคม 2023 พวกเขาเริ่มการปฏิวัติด้วยการรัน LLaMA บนโน้ตบุ๊กผู้บริโภค
ตอนนั้นใน README เขียนไว้ว่า “เป้าหมายคือรันโมเดลบน MacBook ด้วย 4-bit quantization”
ในเมื่อ Hugging Face ดูแล Transformers มาได้ดี ก็หวังว่า GGML จะเดินไปในเส้นทางเดียวกัน
มีสรุปบทความที่เกี่ยวข้องไว้ ที่นี่
น่าทึ่งที่ HuggingFace สร้างผลดีให้โลกได้มากขนาดนี้แล้วยัง ทำกำไรได้
เลยสงสัยว่าโมเดลธุรกิจแข็งแรงแค่ไหน จะยั่งยืนระยะยาวหรือไม่ และมีโอกาสที่จะ “ถูกขาย” ในวันหนึ่งหรือเปล่า
ลิงก์บทความ
ขยายชุมชนด้วยของฟรี แล้วขายเวอร์ชัน private ให้ลูกค้าองค์กร ตอนนี้ก็มีกำไรแล้ว
ผมคิดว่าฐานค่อนข้างแข็งแรงทีเดียว
มันค่อนข้างประชดดีที่นักลงทุนอย่าง AMD, Nvidia, Intel, IBM, Qualcomm จะมาสู้เพื่ออำนาจการตัดสินใจของผู้ใช้
ไม่รู้ว่าเป็นค่าบริการอะไรเลยยกเลิกบัญชีไป ขั้นตอนการเก็บเงินที่ไม่โปร่งใส ทำให้รู้สึกแย่มาก
HuggingFace คือ GOAT เงียบๆ ของวงการ AI
ทั้งชุมชนและแพลตฟอร์มยอดเยี่ยมมาก
หวังว่าคำพูดที่ว่า “ชุมชนจะถูกบริหารอย่างอิสระและคงความเป็นโอเพนซอร์ส 100%” จะเป็นความจริง
แต่สุดท้ายก็มีโอกาสสูงที่ ผลประโยชน์ทางธุรกิจ จะชนะ
Llama.cpp กลายเป็นมาตรฐานโดยพฤตินัยของ local inference ไปแล้ว และมีหลายโปรเจกต์พึ่งพามันอยู่
ถ้าบริษัทใดบริษัทหนึ่งควบคุมสิ่งนี้ได้ ก็เท่ากับควบคุม ecosystem ของ local LLM ทั้งหมด
ตอนนี้ Hugging Face อาจดูดี แต่ Google ในอดีตก็เคยเป็นแบบนั้น
ถ้าจะหลีกเลี่ยง lock-in effect ก็ควรมีองค์กรไม่แสวงกำไรอิสระมาดูแล หรือไม่ก็ต้องมีโปรเจกต์คู่แข่ง
“การควบคุม” จึงทำได้แค่ช่วยผลักดันการพัฒนาฟีเจอร์บางอย่างเท่านั้น
ขอบคุณจริงๆ ที่ ทีม ggml เปิดเทคนิค quantization ให้ทุกคนใช้
ความพยายามของพวกเขาสร้างความเปลี่ยนแปลงครั้งใหญ่
ตั้งแต่ปี 2023 ผมสนับสนุน ggml/llama.cpp/Georgi ผ่าน GitHub มาตลอด และตอนนี้ก็ดีใจที่เหมือนพวกเขาจะได้บ้านที่เหมาะสมแล้ว
เพราะงั้นผมคงจะยุติการสนับสนุน
การรวมกันของ HuggingFace กับ GGML ดูเหมือนเป็นคู่ที่ลงตัวมาก
จริงๆ ควรเกิดขึ้นเร็วกว่านี้ด้วยซ้ำ
ตอนนี้อาจเป็นช่วง ขาลงของ local AI แต่คาดว่าในอีก 2–3 ปีจะเติบโตแบบระเบิดแน่
สมาชิก HF อย่าง @ngxson ก็เป็นผู้มีส่วนร่วมหลักของ llama.cpp
กำลังหาวิธีรันโมเดลด้วย Docker อย่างมีประสิทธิภาพบนเครื่องสเปกต่ำอย่าง MacBook M1 8GB
โมเดลอย่าง Cybersecurity-BaronLLM ดูเท่มาก แต่สุดท้ายโน้ตบุ๊กผมก็กลายเป็นฮีตเตอร์
ผมควรซื้อฮาร์ดแวร์ที่แรงกว่านี้ไหม?
แนะนำโมเดลอย่าง Whisper, SmolVLM, Phi-3-mini, Gemma3
ดูตัวอย่างได้ที่ home-llm
บน Mac ใช้ Ollama หรือ MLX จะเหมาะ และอาจตั้ง VM ด้วย Docker Desktop หรือ Colima ก็ได้
ถ้ามี 8GB จะได้ราว 5–10 โทเคนต่อวินาที ส่วน 32GB ได้ประมาณ 50 โทเคน ดังนั้นปัญหาคือ RAM ไม่พอ
ไม่ก็ใช้โมเดลเล็กหรือ โมเดลที่ quantized แล้ว หรือไม่ก็ซื้อหรือเช่าเครื่องที่แรงกว่า
ลองเริ่มด้วย LM Studio โดยไม่ใช้ Docker ก็ได้
มันไม่สมบูรณ์แบบ แต่ผมยังคิดว่าดีกว่ามีพารามิเตอร์น้อยเกินไป
ช้าและคุณภาพต่ำ แต่ก็ทำได้
กำลังคิดอยู่ว่าจะเข้าไปมีส่วนร่วมกับการพัฒนา AI แบบจริงจังได้อย่างไร
ที่บริษัทใช้แค่ Copilot เลยรู้สึกห่างไกลจาก ecosystem การพัฒนา AI
ผมมีพื้นฐาน full-stack Java/React และพอใช้ Python ได้บ้าง
กำลังชั่งใจว่าจะลองทำ LLM from scratch, เรียน Google ML Crash Course หรือสอบใบรับรองของ Nvidia ดี
อยากขอคำแนะนำ
อย่าเพิ่งเริ่มที่ LLM ตั้งแต่แรก แต่เริ่มจากสิ่งเล็กๆ ในสายที่ตัวเองสนใจ เช่น กราฟิก
ที่ Unsloth มีคู่มือ Colab ฟรีที่จัดทำไว้ดีมาก