ggml.ai ร่วมมือกับ Hugging Face เพื่อรับประกันการเติบโตระยะยาวของ AI แบบรันในเครื่อง

(github.com/ggml-org)

1 คะแนน โดย GN⁺ 2026-02-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เพื่อการเติบโตอย่างต่อเนื่องของ ระบบนิเวศ AI แบบรันในเครื่อง ทีมผู้ก่อตั้ง llama.cpp อย่าง ggml.ai ได้เข้าร่วมกับ Hugging Face
ggml และ llama.cpp จะยังคงดำเนินงานแบบ โอเพนซอร์สและขับเคลื่อนโดยชุมชน ต่อไป โดยทีมจะดูแลและสนับสนุนแบบเต็มเวลา
Hugging Face มีแผนรับประกัน ความยั่งยืนในระยะยาว ของโครงการ พร้อมมุ่งปรับปรุงประสบการณ์ผู้ใช้และ การผสานรวมกับ transformers
ผ่านความร่วมมือนี้ จะช่วยเพิ่มการเข้าถึงและความสะดวกในการนำไปใช้งานของ การอนุมานแบบรันในเครื่อง (Local Inference) และเสริมการรองรับสถาปัตยกรรมโมเดลที่หลากหลาย
ทั้งสองฝ่ายมีวิสัยทัศน์ระยะยาวร่วมกันในการ สร้าง superintelligence แบบโอเพนซอร์สให้เข้าถึงได้ทั่วโลก

ประกาศการเข้าร่วม Hugging Face ของ ggml.ai

ggml.ai ซึ่งเป็นทีมผู้ก่อตั้ง llama.cpp ได้เข้าร่วมกับ Hugging Face เพื่อ รักษาอนาคตของ AI ให้เปิดกว้างอย่างแท้จริง
- เป้าหมายคือการขยายและสนับสนุนชุมชน ggml และ llama.cpp พร้อมผลักดัน การเติบโตอย่างต่อเนื่อง ของ AI แบบรันในเครื่อง
โครงการ ggml-org จะยังคงเป็น โอเพนซอร์สและขับเคลื่อนโดยชุมชน เช่นเดิม
ทีม ggml จะ ดูแลและบำรุงรักษา ggml, llama.cpp และโครงการโอเพนซอร์สที่เกี่ยวข้องแบบเต็มเวลา
พันธมิตรใหม่นี้จะช่วยรับประกัน ความยั่งยืนในระยะยาว ของโครงการ และมอบ โอกาสใหม่ ให้กับผู้ใช้และผู้มีส่วนร่วม
มีแผนปรับปรุงการ ผสานรวมกับไลบรารี transformers ของ Hugging Face เพื่อยกระดับคุณภาพการรองรับโมเดล

เบื้องหลังและพัฒนาการของความร่วมมือ

ggml.ai ก่อตั้งขึ้นในปี 2023 และนับแต่นั้นมาก็สนับสนุนการพัฒนาและการยอมรับของไลบรารีแมชชีนเลิร์นนิง ggml
ตลอด 3 ปีที่ผ่านมา ทีมขนาดเล็กได้ช่วยขยายชุมชนโอเพนซอร์ส และผลักดันให้ ggml กลายเป็น มาตรฐานของการอนุมาน AI แบบรันในเครื่องที่มีประสิทธิภาพ
ในกระบวนการนี้ Hugging Face ทำหน้าที่เป็นพันธมิตรร่วมมือที่แข็งแกร่งที่สุด
- วิศวกรของ HF ได้ มีส่วนร่วมในฟีเจอร์หลัก, เพิ่มการรองรับมัลติโหมด, ผสานรวม Inference Endpoints, และ ปรับปรุงความเข้ากันได้กับฟอร์แมต GGUF ให้กับ ggml และ llama.cpp
ความร่วมมือของทั้งสองฝ่ายมีประสิทธิภาพ และชุมชนโดยรวมก็ได้รับประโยชน์ จนนำไปสู่การ ยกระดับความร่วมมืออย่างเป็นทางการ ในครั้งนี้

การเปลี่ยนแปลงของโครงการโอเพนซอร์สและชุมชน

วิธีการดำเนินงานของ ggml และ llama.cpp จะ ไม่เปลี่ยนแปลง
- ทีมจะทุ่มเทกับการดูแลโครงการต่อไป และชุมชนจะยังคงมี อิสระในการตัดสินใจด้านเทคนิคและโครงสร้าง
Hugging Face จะมอบ ทรัพยากรที่ยั่งยืน เพื่อเพิ่มศักยภาพการเติบโตของโครงการ
โครงการจะยังคงเป็น โอเพนซอร์ส 100% ต่อไป และคาดว่าความเร็วในการรองรับ quantization หลังการปล่อยโมเดลจะดีขึ้นด้วย

จุดเน้นด้านเทคนิค

เป้าหมายร่วมในอนาคตถูกกำหนดไว้ใน 2 ทิศทางหลัก
- การผสานรวมแบบคลิกเดียวกับ Hugging Face transformers
  - transformers ได้กลายเป็นมาตรฐานสำหรับการนิยามโมเดล AI และการปรับปรุงความเข้ากันได้ระหว่างสองระบบนิเวศถือเป็นสิ่งจำเป็นต่อ การขยายการรองรับโมเดลและการควบคุมคุณภาพ
- การปรับปรุงแพ็กเกจจิงและประสบการณ์ผู้ใช้ของซอฟต์แวร์ที่อิงกับ ggml
  - เมื่อการอนุมานแบบรันในเครื่องกำลังก้าวขึ้นมาเป็นทางเลือกแทนการอนุมานบนคลาวด์ จึงมีความจำเป็นต้องทำให้ การนำโมเดลไปใช้งานและการเข้าถึงสำหรับผู้ใช้ทั่วไป ง่ายขึ้น
  - เป้าหมายคือทำให้ llama.cpp กลายเป็น รูปแบบที่ใช้ได้ทั่วไปและใช้งานได้ทุกที่

วิสัยทัศน์ระยะยาว

ggml.ai และ Hugging Face มีเป้าหมายร่วมกันในการสร้าง superintelligence แบบโอเพนซอร์ส ให้ผู้คนทั่วโลกเข้าถึงได้
ทั้งสองฝ่ายวางแผนพัฒนา สแตกการอนุมานที่มีประสิทธิภาพ ร่วมกับชุมชน AI แบบรันในเครื่อง เพื่อให้สามารถดึงประสิทธิภาพสูงสุดออกมาจากอุปกรณ์ส่วนบุคคลได้อย่างต่อเนื่อง

เสียงตอบรับจากชุมชน

สมาชิกในชุมชนของ Hugging Face และ ggml จำนวนมากได้ร่วมแสดง ความยินดีและความคาดหวัง
- มีความเห็นเชิงบวก เช่น “ก้าวสำคัญของระบบนิเวศ AI แบบรันในเครื่อง” และ “ข่าวสำคัญสำหรับระบบนิเวศ AI แบบเปิด”
ผู้ใช้บางส่วนขอคำอธิบายที่ชัดเจนยิ่งขึ้นเกี่ยวกับ ความเป็นอิสระของโครงการและสิทธิความเป็นเจ้าของโค้ด
อีกส่วนหนึ่งแสดงความกังวลเกี่ยวกับ การเปลี่ยนแปลงเขตอำนาจศาลจากการเข้าซื้อโดยบริษัท และ ความโปร่งใสของโอเพนซอร์ส
โดยรวมแล้ว ชุมชนมองว่าความร่วมมือครั้งนี้เป็น รากฐานสำหรับการเติบโตอย่างต่อเนื่องของ AI แบบรันในเครื่อง

1 ความคิดเห็น

GN⁺ 2026-02-21

ความคิดเห็นจาก Hacker News

ฉันคิดว่า HuggingFace คือ “Open AI” ในความหมายที่แท้จริง
มองว่าเป็นหนึ่งในฮีโร่ไม่กี่รายที่ค่อยๆ ทำให้ on-premises AI เข้าถึงคนหมู่มาก
ยังจำยุคที่ค่าใช้จ่ายด้านทราฟฟิกแพงมากได้อยู่ เลยรู้สึกทึ่งที่พวกเขาโฮสต์โมเดลจำนวนมากได้ฟรี
หวังว่าจะมีโมเดลธุรกิจที่ยั่งยืน เพราะ ecosystem นี้คงยากจนลงมากถ้าไม่มีพวกเขา
ถ้าจะรัน Kimi หรือ GLM ภายในองค์กรก็ยังต้องใช้ฮาร์ดแวร์ที่คุ้มค่าราคาอยู่ดี แต่至少เรื่อง weights และ deployment ถือว่ามีคำตอบแล้ว
- ต้องนับ Unsloth เป็นหนึ่งในฮีโร่เงียบๆ แบบนี้ด้วย
  เอกสารทำได้ยอดเยี่ยม และปล่อย quant คุณภาพสูงในฟอร์แมตหลักต่างๆ ได้รวดเร็ว ผมมองว่าเป็นแบรนด์ที่ไว้ใจได้
- นึกภาพไม่ออกเลยว่า HF ต้องรับทราฟฟิกมากแค่ไหน
  ผมดาวน์โหลดโมเดลขนาดหลายร้อย GB อยู่บ่อยๆ มันเป็นบริการที่ยิ่งใหญ่มากสำหรับ ชุมชน sovereign AI
- ถ้าสตรีม weights จาก SSD และขยาย KV cache ด้วย swap ก็จะช้าอยู่บ้าง แต่แทบจะรันได้บนทุกเครื่อง
  ถ้าใช้กับงานที่ปล่อยคำนวณข้ามคืนก็ถือว่าใช้ได้ และยิ่งเพิ่มทรัพยากรประมวลผลก็ยิ่งดีขึ้น
- ไม่เข้าใจว่าทำไมถึงไม่รองรับ BitTorrent
  ถึงจะมี hf-torrent หรือ hf_transfer อยู่ แต่ก็เข้าถึงไม่ง่ายเท่าลิงก์ที่ใช้ได้ตรงจากเว็บ UI
- torrent นี่แหละคือ use case ที่สมบูรณ์แบบ เลยยังสงสัยอยู่ว่าทำไมถึงไม่ใช้
อิทธิพลที่ Georgi Gerganov และ llama.cpp มีต่อ ecosystem ของโมเดลแบบ local นั้นประเมินต่ำเกินไปไม่ได้
ในเดือนมีนาคม 2023 พวกเขาเริ่มการปฏิวัติด้วยการรัน LLaMA บนโน้ตบุ๊กผู้บริโภค
ตอนนั้นใน README เขียนไว้ว่า “เป้าหมายคือรันโมเดลบน MacBook ด้วย 4-bit quantization”
ในเมื่อ Hugging Face ดูแล Transformers มาได้ดี ก็หวังว่า GGML จะเดินไปในเส้นทางเดียวกัน
มีสรุปบทความที่เกี่ยวข้องไว้ ที่นี่
- สงสัยว่าทำไมคอมเมนต์ของคุณถึงถูกปักไว้บนสุดตลอด
น่าทึ่งที่ HuggingFace สร้างผลดีให้โลกได้มากขนาดนี้แล้วยัง ทำกำไรได้
เลยสงสัยว่าโมเดลธุรกิจแข็งแรงแค่ไหน จะยั่งยืนระยะยาวหรือไม่ และมีโอกาสที่จะ “ถูกขาย” ในวันหนึ่งหรือเปล่า
- บทความ FT ล่าสุด “Why AI start-up Hugging Face turned down a $500mn Nvidia deal” น่าอ่านประกอบ
  ลิงก์บทความ
- โมเดลธุรกิจจริงๆ แล้วคล้าย GitHub มาก
  ขยายชุมชนด้วยของฟรี แล้วขายเวอร์ชัน private ให้ลูกค้าองค์กร ตอนนี้ก็มีกำไรแล้ว
- ยังมีบริการโฮสต์แบบเสียเงิน(enterprise) และบริการให้คำปรึกษาด้วย
  ผมคิดว่าฐานค่อนข้างแข็งแรงทีเดียว
- คำพูดที่ว่า “ไม่มีทางถูกขายหรอก” ฟังแล้วยากจะเชื่อ
  มันค่อนข้างประชดดีที่นักลงทุนอย่าง AMD, Nvidia, Intel, IBM, Qualcomm จะมาสู้เพื่ออำนาจการตัดสินใจของผู้ใช้
- เคยใช้ HuggingFace เพราะทำตาม tutorial แต่ตอนสมัครระบบขอข้อมูลบัตร แล้วเดือนถัดมาก็มีบิลมา
  ไม่รู้ว่าเป็นค่าบริการอะไรเลยยกเลิกบัญชีไป ขั้นตอนการเก็บเงินที่ไม่โปร่งใส ทำให้รู้สึกแย่มาก
HuggingFace คือ GOAT เงียบๆ ของวงการ AI
ทั้งชุมชนและแพลตฟอร์มยอดเยี่ยมมาก
- น่าทึ่งที่สร้าง แพลตฟอร์มเปิด และทำกำไรได้โดยไม่ต้องใช้ลูกเล่นการค้าที่ไม่โปร่งใส
หวังว่าคำพูดที่ว่า “ชุมชนจะถูกบริหารอย่างอิสระและคงความเป็นโอเพนซอร์ส 100%” จะเป็นความจริง
แต่สุดท้ายก็มีโอกาสสูงที่ ผลประโยชน์ทางธุรกิจ จะชนะ
Llama.cpp กลายเป็นมาตรฐานโดยพฤตินัยของ local inference ไปแล้ว และมีหลายโปรเจกต์พึ่งพามันอยู่
ถ้าบริษัทใดบริษัทหนึ่งควบคุมสิ่งนี้ได้ ก็เท่ากับควบคุม ecosystem ของ local LLM ทั้งหมด
ตอนนี้ Hugging Face อาจดูดี แต่ Google ในอดีตก็เคยเป็นแบบนั้น
ถ้าจะหลีกเลี่ยง lock-in effect ก็ควรมีองค์กรไม่แสวงกำไรอิสระมาดูแล หรือไม่ก็ต้องมีโปรเจกต์คู่แข่ง
- Llama.cpp เป็นโอเพนซอร์ส ใครก็ fork ได้
  “การควบคุม” จึงทำได้แค่ช่วยผลักดันการพัฒนาฟีเจอร์บางอย่างเท่านั้น
ขอบคุณจริงๆ ที่ ทีม ggml เปิดเทคนิค quantization ให้ทุกคนใช้
ความพยายามของพวกเขาสร้างความเปลี่ยนแปลงครั้งใหญ่
ตั้งแต่ปี 2023 ผมสนับสนุน ggml/llama.cpp/Georgi ผ่าน GitHub มาตลอด และตอนนี้ก็ดีใจที่เหมือนพวกเขาจะได้บ้านที่เหมาะสมแล้ว
เพราะงั้นผมคงจะยุติการสนับสนุน
การรวมกันของ HuggingFace กับ GGML ดูเหมือนเป็นคู่ที่ลงตัวมาก
จริงๆ ควรเกิดขึ้นเร็วกว่านี้ด้วยซ้ำ
ตอนนี้อาจเป็นช่วง ขาลงของ local AI แต่คาดว่าในอีก 2–3 ปีจะเติบโตแบบระเบิดแน่
- ที่จริง HuggingFace ก็สนับสนุนโปรเจกต์นี้มาเยอะอยู่แล้ว
  สมาชิก HF อย่าง @ngxson ก็เป็นผู้มีส่วนร่วมหลักของ llama.cpp
กำลังหาวิธีรันโมเดลด้วย Docker อย่างมีประสิทธิภาพบนเครื่องสเปกต่ำอย่าง MacBook M1 8GB
โมเดลอย่าง Cybersecurity-BaronLLM ดูเท่มาก แต่สุดท้ายโน้ตบุ๊กผมก็กลายเป็นฮีตเตอร์
ผมควรซื้อฮาร์ดแวร์ที่แรงกว่านี้ไหม?
- ถ้ามีแค่ 8GB งาน inference ที่ซับซ้อนจะลำบาก แต่ โมเดลขนาดเล็ก ยังพอไหว
  แนะนำโมเดลอย่าง Whisper, SmolVLM, Phi-3-mini, Gemma3
  ดูตัวอย่างได้ที่ home-llm
  บน Mac ใช้ Ollama หรือ MLX จะเหมาะ และอาจตั้ง VM ด้วย Docker Desktop หรือ Colima ก็ได้
  ถ้ามี 8GB จะได้ราว 5–10 โทเคนต่อวินาที ส่วน 32GB ได้ประมาณ 50 โทเคน ดังนั้นปัญหาคือ RAM ไม่พอ
- สุดท้ายก็ต้องมีเครื่องที่แรงพอ
  ไม่ก็ใช้โมเดลเล็กหรือ โมเดลที่ quantized แล้ว หรือไม่ก็ซื้อหรือเช่าเครื่องที่แรงกว่า
  ลองเริ่มด้วย LM Studio โดยไม่ใช้ Docker ก็ได้
- ถ้ามี 8GB ก็ยังรันโมเดล 32B ได้ด้วย การ quantization แบบหนัก ระดับ 2bit
  มันไม่สมบูรณ์แบบ แต่ผมยังคิดว่าดีกว่ามีพารามิเตอร์น้อยเกินไป
- คำถามแบบนี้น่าจะได้คำตอบดีกว่าที่ r/LocalLLM
- ถ้ามี 8GB ก็ยังรันโมเดล gguf ที่เล็กมากบน CPU ด้วย llamafile ได้
  ช้าและคุณภาพต่ำ แต่ก็ทำได้
กำลังคิดอยู่ว่าจะเข้าไปมีส่วนร่วมกับการพัฒนา AI แบบจริงจังได้อย่างไร
ที่บริษัทใช้แค่ Copilot เลยรู้สึกห่างไกลจาก ecosystem การพัฒนา AI
ผมมีพื้นฐาน full-stack Java/React และพอใช้ Python ได้บ้าง
กำลังชั่งใจว่าจะลองทำ LLM from scratch, เรียน Google ML Crash Course หรือสอบใบรับรองของ Nvidia ดี
อยากขอคำแนะนำ
- ถ้ายังไม่มีเป้าหมายที่ชัด ลองสร้าง โปรเจกต์เล็กๆ ที่ตัวเองสนใจขึ้นมาจริงๆ จะดีกว่า
  อย่าเพิ่งเริ่มที่ LLM ตั้งแต่แรก แต่เริ่มจากสิ่งเล็กๆ ในสายที่ตัวเองสนใจ เช่น กราฟิก
- แนะนำให้ลองศึกษา model fine-tuning หรือ knowledge distillation
  ที่ Unsloth มีคู่มือ Colab ฟรีที่จัดทำไว้ดีมาก

ggml.ai ร่วมมือกับ Hugging Face เพื่อรับประกันการเติบโตระยะยาวของ AI แบบรันในเครื่อง

ประกาศการเข้าร่วม Hugging Face ของ ggml.ai

เบื้องหลังและพัฒนาการของความร่วมมือ

การเปลี่ยนแปลงของโครงการโอเพนซอร์สและชุมชน

จุดเน้นด้านเทคนิค

วิสัยทัศน์ระยะยาว

เสียงตอบรับจากชุมชน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News