- Forge เป็นระบบที่ช่วยให้องค์กรสามารถสร้าง โมเดล AI บนฐานความรู้ภายในของตนเอง ได้ เพื่อชดเชยข้อจำกัดของโมเดลเดิมที่พึ่งพาข้อมูลสาธารณะเป็นหลัก
- ใช้เอกสารภายใน โค้ดเบส และข้อมูลการดำเนินงานเพื่อฝึก โมเดลเฉพาะโดเมน โดยรองรับทั้งขั้นตอน pre-training, post-training และ reinforcement learning
- สามารถคงไว้ซึ่ง สิทธิในการควบคุมและการปกป้องทรัพย์สินทางปัญญา ของโมเดล ข้อมูล และองค์ความรู้ จึงนำไปใช้ในอุตสาหกรรมที่มีการกำกับดูแลได้
- ผ่าน โมเดลที่ปรับแต่งเฉพาะ เอเจนต์สำหรับองค์กรจะเข้าใจระบบภายในและนโยบายต่าง ๆ และสามารถใช้เครื่องมือรวมถึงตัดสินใจได้อย่างแม่นยำ
- รองรับสถาปัตยกรรมที่หลากหลายและ reinforcement learning แบบต่อเนื่อง ช่วยเพิ่ม ความเป็นอิสระเชิงกลยุทธ์ของ Enterprise AI และศักยภาพในการปรับปรุงระยะยาว
ภาพรวมของ Forge
- Forge เป็นระบบที่ช่วยให้องค์กรสร้าง โมเดล AI ระดับ frontier โดยอิงจาก ความรู้และข้อมูลเฉพาะของตนเอง
- ขณะที่โมเดลเดิมที่ใช้ข้อมูลสาธารณะมักถูกปรับให้เหมาะกับงานทั่วไป Forge จะสะท้อน บริบทเฉพาะขององค์กร เช่น มาตรฐานภายใน นโยบาย โค้ด และบันทึกการตัดสินใจ
- ทำให้ AI สามารถทำงานได้สอดคล้องกับ สภาพแวดล้อมการดำเนินงานและเวิร์กโฟลว์ ขององค์กร
- Mistral AI กำลังนำเทคโนโลยีนี้ไปใช้ร่วมกับ ASML, Ericsson, European Space Agency, HTX Singapore และองค์กรอื่น ๆ แล้ว
การฝึกโมเดลบนฐานความรู้ขององค์กร
- Forge ฝึกโมเดลด้วย ข้อมูลภายในองค์กรขนาดใหญ่ เช่น เอกสารภายใน โค้ดเบส ข้อมูลเชิงโครงสร้าง และบันทึกการดำเนินงาน
- โมเดลจะเรียนรู้ คำศัพท์ รูปแบบการให้เหตุผล และข้อจำกัด ของสภาพแวดล้อมนั้น
- ขั้นตอนการฝึกประกอบด้วย 3 ส่วน
- pre-training: สร้างโมเดลที่รับรู้โดเมนจากข้อมูลภายใน
- post-training: ปรับจูนรายละเอียดของโมเดลให้เหมาะกับงานและสภาพแวดล้อมเฉพาะ
- reinforcement learning: จัดแนวพฤติกรรมของโมเดลให้สอดคล้องกับนโยบายภายในและเกณฑ์การประเมิน พร้อมยกระดับประสิทธิภาพในสภาพแวดล้อมจริง
- ทำให้สามารถพัฒนา โมเดลที่สะท้อนความฉลาดขององค์กร ได้
การควบคุมและความเป็นอิสระเชิงกลยุทธ์
- Forge ออกแบบมาเพื่อให้องค์กร คงสิทธิ์การควบคุมโมเดลและข้อมูล ไว้ได้
- โมเดลถูกฝึกด้วยข้อมูลภายใน และสามารถบริหารจัดการได้ตามนโยบายภายใน เกณฑ์การประเมิน และข้อกำหนดด้านการปฏิบัติการ
- สามารถตอบสนอง ข้อกำหนดด้าน compliance และ governance ในสภาพแวดล้อมที่มีการกำกับดูแลได้
- การรันโมเดลบนโครงสร้างพื้นฐานของตนเองช่วยให้องค์กรมี ความเป็นอิสระเชิงกลยุทธ์
โมเดลเฉพาะทางและเอเจนต์ที่เชื่อถือได้สูง
- เอเจนต์สำหรับองค์กรไม่ได้มีหน้าที่แค่สร้างคำตอบ แต่ต้องสามารถ สำรวจระบบภายใน ใช้เครื่องมือ และตัดสินใจตามนโยบาย ได้
- เอเจนต์ที่อิงจากโมเดลซึ่งผ่านการเรียนรู้โดเมนจะเข้าใจคำศัพท์และขั้นตอนภายใน รวมถึงมองเห็นความสัมพันธ์ระหว่างระบบต่าง ๆ
- เพิ่มความแม่นยำในการเลือกใช้เครื่องมือ เสริมเสถียรภาพของเวิร์กโฟลว์หลายขั้นตอน และตัดสินใจโดยสะท้อนนโยบายภายในได้
- ผลลัพธ์คือสามารถสร้าง AI agent ในฐานะองค์ประกอบการดำเนินงาน ได้
รองรับสถาปัตยกรรมโมเดลที่หลากหลาย
- Forge รองรับทั้งสถาปัตยกรรม Dense และ Mixture-of-Experts(MoE)
- โมเดล Dense เด่นด้านงานทั่วไป ส่วน MoE ช่วยให้รันโมเดลขนาดใหญ่ได้ด้วย latency ต่ำและประสิทธิภาพด้านต้นทุน
- รองรับ อินพุตแบบมัลติโหมด ทำให้เรียนรู้ข้อมูลได้หลายรูปแบบ เช่น ข้อความและภาพ
การออกแบบที่มีเอเจนต์เป็นศูนย์กลาง
- Forge ถูกออกแบบโดยมี code agent เป็นผู้ใช้หลัก
- ตัวอย่างเช่น เอเจนต์อัตโนมัติอย่าง Mistral Vibe สามารถทำงาน fine-tuning โมเดล ค้นหา hyperparameter จัดตารางงาน และสร้างข้อมูลสังเคราะห์
- Forge ป้องกันประสิทธิภาพถดถอยด้วย การมอนิเตอร์ตัวชี้วัดการประเมินผล ระหว่างการฝึก
- รวมถึงการจัดการโครงสร้างพื้นฐานและ recipe ของ data pipeline ทำให้สามารถ ปรับแต่งโมเดลด้วยคำสั่งภาษาธรรมชาติเท่านั้น ได้
การปรับปรุงและประเมินผลอย่างต่อเนื่อง
- Forge รองรับ การเรียนรู้แบบปรับตัวอย่างต่อเนื่อง
- ผ่าน reinforcement learning pipeline ที่ใช้ฟีดแบ็กภายในเพื่อปรับปรุงพฤติกรรมของโมเดล
- มี evaluation framework สำหรับทดสอบกับ benchmark ภายใน กฎระเบียบที่เกี่ยวข้อง และโจทย์เฉพาะโดเมน
- ทำให้เกิด วงจรชีวิตของโมเดลที่ปรับปรุงต่อเนื่องแทนการดีพลอยแบบคงที่
ตัวอย่างการใช้งานในองค์กร
- หน่วยงานภาครัฐ: เรียนรู้เอกสารนโยบายหลายภาษาและขั้นตอนทางปกครอง เพื่อสนับสนุนการวิเคราะห์นโยบายและบริการสาธารณะ
- สถาบันการเงิน: เรียนรู้เอกสารกำกับดูแลและกระบวนการจัดการความเสี่ยง เพื่อรักษาความสอดคล้องของ governance ภายใน
- ทีมซอฟต์แวร์: เรียนรู้โค้ดเบสภายในเพื่อเพิ่มผลิตภาพในการพัฒนา เช่น การเขียน การดีบัก และการรีวิว
- ผู้ผลิต: เรียนรู้ข้อมูลสเปกการออกแบบและการบำรุงรักษา เพื่อช่วยด้านการวินิจฉัยและการตัดสินใจ
- องค์กรขนาดใหญ่: ใช้เอเจนต์ที่อิงจากระบบองค์ความรู้ภายในเพื่อสนับสนุนเวิร์กโฟลว์ที่ซับซ้อนและเพิ่มความแม่นยำในการค้นคืนข้อมูล
บทสรุป: การเปลี่ยนผ่านสู่โครงสร้างพื้นฐาน AI ที่มีองค์กรเป็นศูนย์กลาง
- ขณะที่โมเดล AI กำลังก้าวขึ้นเป็น เลเยอร์หลักของโครงสร้างพื้นฐานองค์กร การทำ โมเดลจากองค์ความรู้ขององค์กร จึงยิ่งสำคัญ
- Forge มอบรากฐานให้องค์กรสร้างโมเดลที่สามารถฝึก จัดแนว และประเมินผลได้ด้วยข้อมูลของตนเอง เพื่อพัฒนาเป็น สินทรัพย์เชิงกลยุทธ์
- สิ่งนี้ทำให้องค์กรเปลี่ยน AI จากเครื่องมือภายนอก ไปเป็น ขีดความสามารถหลักที่เติบโตร่วมกับองค์ความรู้ขององค์กร
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ฉันชอบ Mistral มาก สมดุลระหว่างต้นทุนกับการเก็บข้อมูลไว้ใน EU นั้นดีมาก คุณภาพก็ตกลงน้อยมาก
แต่ระบบการตั้งชื่อโมเดลสับสนเกินไป เช่น มีโมเดลชื่อ Devstral 2 แต่ไม่ใช่ทั้ง Codestral หรือ Devestral
ใน API ก็มีหลายชื่อ เช่น devstral-2512, devstral-latest, devstral-medium-latest
ฉันเลยคิดว่า devstral-latest น่าจะถูกต้องและติดต่อซัพพอร์ตไป แต่ผ่านไป 12 ชั่วโมง พวกเขาส่ง คู่มือตั้งค่า IntelliJ ที่ AI สร้างขึ้นมา พร้อมบอกว่า “devstral 2 ก็คือ devstral 2”
ปัญหาคือหน้าจอที่อยู่ในคู่มือนั้นไม่มีอยู่จริง
devstral-2512, devstral-latest, devstral-medium-latest ล้วนคือ devstral 2
ส่วน labs-devstral-small-2512 กับ devstral-small-latest คือ devstral small 2
และ devstral-medium-2507 คือ devstral 1.0, devstral-small-2507 คือ devstral small 1.1
เหมือนกำลังมุ่งไปทางทำ workflow แบบปรับให้เข้ากับแต่ละองค์กร
หรือไม่ก็อาจเป็นปัญหาสื่อสารกันไม่ดีระหว่างทีมแบบ Google
คุณภาพโมเดลนั้นต่ำกว่า แต่ในยุโรปมันก็ยังเป็นตัวเลือกที่ดีที่สุด
แน่นอนว่าคุณอาจรันโมเดลจากจีนบนเซิร์ฟเวอร์ในยุโรปก็ได้
ไม่ควรประเมิน Mistral ต่ำเกินไป ในฐานะ LLM แบบบริการทั่วไป มันค่อนข้างถูก
และกลยุทธ์ที่โฟกัส การทำโมเดลเฉพาะทาง แทนโมเดลขนาดยักษ์ น่าจะเริ่มเห็นผลในที่สุด
โดยเฉพาะในสภาพแวดล้อม EU ที่มีข้อกำกับดูแลสูง มันอาจได้เปรียบมาก
โลกไม่ได้มีแค่การสร้างโค้ดเท่านั้น
แต่ก็เป็น กลยุทธ์ที่มีอุปสรรคในการเข้าต่ำ เลยอาจถูกลอกได้ง่าย
ถ้ามีโมเดล pre-trained สำหรับสินค้าแต่ละประเภทอย่าง ERP, CRM ฯลฯ เยอะพอ
แล้วขายโมเดลต่อยอดที่สะท้อนข้อมูลการปรับแต่งของลูกค้าได้ แบบนั้นแหละถึงจะเป็น moat ที่แท้จริง
หัวใจสำคัญคือการปิดดีลแบบเงียบ ๆ ให้ได้
เลยสงสัยว่าการทำโมเดลเฉพาะทางจะทดแทนความรู้มหาศาลนั้นได้อย่างไร
แค่อัปโหลดชุดข้อมูล ก็ใช้งานโมเดลผ่าน endpoint ได้ทันที
มันมีข้อจำกัดอยู่ แต่ก็ช่วยให้เข้าถึงได้ง่ายขึ้นมาก
แถมยังทำงานบนเครื่อง local ได้ ทำให้นักพัฒนา ยังคงควบคุมได้
คุณภาพโมเดลอยู่ในกลุ่มล่างสุดของ LLM
ฉันสงสัยความหมายของ “pre-training” กับ “post-training”
ในความเป็นจริงคงไม่มี ชุดข้อมูลที่สะอาด มากพออยู่แล้ว
เลยไม่แน่ใจว่าสิ่งที่พวกเขาเรียกว่า pre-training คือการฝึก foundation model จริง ๆ หรือเป็น SFT (supervised fine-tuning) กันแน่
หรืออาจเป็นการสร้าง ข้อมูลสังเคราะห์ จากข้อมูลภายในเพื่อทำ knowledge distillation แบบความละเอียดต่ำก็ได้
เพราะเป้าหมายยังคงเป็นการทำนายโทเคนถัดไป เลยเรียกว่า “continued pre-training”
ส่วน post-training คือกระบวนการทั้งหมดที่อิงกับ feedback จากมนุษย์ เช่น SFT, DPO, RL
ส่วน post-training คือการเติมข้อมูลเข้าไปในพรอมป์ต์แบบ RAG
จากคำอธิบายของ Forge เขาว่ามันสามารถฝึกโมเดลด้วยเอกสารภายในองค์กรหรือ codebase เพื่อฝังความรู้เฉพาะโดเมนเข้าไป
แต่ฉันคิดว่าสำหรับ การรับความรู้ นั้น RAG มีประสิทธิภาพกว่าการ fine-tune
fine-tune เหมาะกับการเปลี่ยน “โทน” ของโมเดลมากกว่า แต่ยากที่จะใส่ความรู้ใหม่เข้าไป
ฉันเชียร์แนวทางของ Mistral
แทนที่จะแข่งในสนามโมเดลยักษ์ กลยุทธ์ที่โฟกัส วิศวกรรมแบบปรับให้ลูกค้า และตลาด EU ถือว่าฉลาด
โมเดลอื่นมักกังวลเกินไปว่าคนอ่านจะเข้าใจไหม
แต่ Mistral ตามบทสนทนาที่ลึกและเชิงเทคนิคได้ดีมาก
ช่วงนี้ Mistral มีความพยายามที่น่าสนใจออกมาหลายอย่างจริง ๆ
ถึงจะแข่งกับ OpenAI หรือ Anthropic ได้ยาก
แต่ ความสร้างสรรค์ด้านการออกแบบผลิตภัณฑ์ ของพวกเขาโดดเด่นมาก
ถึงขั้นที่ส่วนตัวฉันอยากไปทำงานที่บริษัทนั้นเลย
ช่วงหลัง Mistral ปล่อยฟีเจอร์เจ๋ง ๆ ออกมาหลายอย่าง
ถึงจะไม่ใช่โมเดลระดับแนวหน้า แต่เมื่อคิดว่า บริษัทขนาดเล็กฝึกโมเดลเอง ได้ยาก
เครื่องมือแบบนี้จึงเป็นโอกาสใหญ่มาก
โดยเฉพาะถ้าใช้ร่วมกับเครื่องมืออย่าง unsloth การเทรนก็ยิ่งดูเป็นจริงได้มากขึ้น
ฉันสงสัยว่าในกรณีใช้งานระดับองค์กรจริง ๆ จะมีสักกี่เคสที่จำเป็นต้อง fine-tuning
หรือจริง ๆ แค่ RAG ก็พอแล้ว?
ก็ลดการเรียกใช้ network LLM ได้ในงานอย่างการวิเคราะห์ log, การใช้เครื่องมือ, การสะท้อนความรู้โดเมน
แต่ fine-tuning ช่วยยกระดับ ความสามารถในการให้เหตุผล ของโมเดลโดยตรง
แนวทางนี้ชวนให้คิดถึงโครงสร้างรายได้ของ AI ได้อย่างน่าสนใจ
ดูเหมือนจำนวน GPU จะไม่ใช่อุปสรรคในการเข้าสู่ตลาด
กลับกัน ข้อมูลเฉพาะทางและเป็นกรรมสิทธิ์ ต่างหากที่จะเป็น moat ที่แท้จริง
ข้อมูลภายในองค์กรมีความรู้ที่แทนกันไม่ได้อยู่
และ Mistral ก็กำลังเดิมพันกับจุดนั้น
แต่ในอีกมุมหนึ่งก็อาจมองได้ว่าเราถูกฝึกมาด้วย ข้อมูลวิวัฒนาการ 3.5 พันล้านปี
นี่คือเส้นทางที่ฉลาดที่สุดในการหาเงินจาก AI
MongoDB เองก็ผ่าน VoyageAI
เพื่อเข้าสู่ตลาด RAG สำหรับองค์กรและบริการให้คำปรึกษาเรื่องโมเดลแบบปรับแต่งได้