- "Mi:dm" คือโมเดลโอเพนซอร์สที่ สามารถนำไปใช้เชิงพาณิชย์ได้ โดยสะท้อนลักษณะทางภาษาและวัฒนธรรมของสังคมเกาหลี
- ใช้กลยุทธ์การปรับแต่งหลายชั้น เช่น การคัดเลือกข้อมูลภาษาเกาหลีคุณภาพสูง การสร้างข้อมูลสังเคราะห์ curriculum learning และ tokenizer เฉพาะที่ปรับให้เหมาะกับภาษาเกาหลี
- มี 3 โมเดล ได้แก่ mini (2.3B) สำหรับ on-device, base (11B) ที่สมดุลระหว่างประสิทธิภาพและความคุ้มค่า, และ pro ระดับ frontier (41B, มีกำหนดเปิดเผยภายหลัง)
- Mi:dm 2.0 Mini (2.3B): โมเดลขนาดเบาที่ปรับให้เหมาะกับ สภาพแวดล้อมแบบ embedded และงานเฉพาะทาง
- Mi:dm 2.0 Base (11.5B): โมเดลขนาดใหญ่สำหรับงานทั่วไป เสริมประสิทธิภาพโดยทำให้โมเดล 8B เดิมลึกขึ้นด้วยเทคนิค Depth-up Scaling
- ทั้ง Base และ Mini รองรับ อินพุต 32K โทเค็น
- ทำผลงานได้ในระดับสูงสุดบน เบนช์มาร์กภาษาเกาหลี เช่น KMMLU และ HAERAE และเปิดเผยภายใต้ MIT license ที่ให้อิสระทั้งการวิจัยและการใช้งานเชิงพาณิชย์
องค์ประกอบและกลยุทธ์ด้านข้อมูล
- ให้ความสำคัญกับการจัดหา เอกสารภาษาเกาหลีคุณภาพสูง โดยคัดเลือกจากเกณฑ์ ความต่อเนื่องตามบริบท ความอ่านง่าย และความไม่เป็นอันตราย
- ใช้ ข้อมูลสังเคราะห์ (การแปล การสร้างเนื้อหาการสอนจากคีย์เวิร์ด, Chain-of-Thought ฯลฯ) เพื่อเพิ่มความหลากหลายของโดเมน
- แก้ปัญหาความไม่สมดุลของข้อมูลฝึกด้วย curriculum learning และ domain balancing
- ใช้ tokenizer ที่ปรับให้เหมาะกับภาษาเกาหลี เพื่อเพิ่มประสิทธิภาพการบีบอัดและการสะท้อนโครงสร้างภาษา
-
ระบบการจัดหมวดหมู่ข้อมูล
- ใช้ระบบจัดหมวดหมู่หลายมิติ เช่น ภาษา โดเมน แหล่งข้อมูล และรูปแบบ/สไตล์การแสดงออก
- มี 6 โดเมนหลัก (มนุษยศาสตร์, STEM, วิทยาศาสตร์ประยุกต์, สุขภาพ/อาหาร, ชีวิตประจำวัน/วัฒนธรรม และอื่น ๆ) และ 20 โดเมนย่อย
- มากกว่า 85.7% เป็นข้อมูลธรรมชาติ (organic) และ 14% เป็นข้อมูลสังเคราะห์
-
ไปป์ไลน์ควบคุมคุณภาพ
- การกรองเว็บเอกสารขนาดใหญ่ 8 ขั้นตอน: ลบข้อมูลซ้ำ, heuristic, perplexity, ความเสียหาย/การแก้ไขตัวอักษร, ตัวกรองคุณภาพที่อิงโมเดล, ตัวกรองความเป็นอันตราย, ความซ้ำระดับบรรทัด, การทำให้ PII ไม่สามารถระบุตัวตนได้ ฯลฯ
- ใช้ กระบวนการทำความสะอาดและกฎเฉพาะแยกตามแต่ละแหล่งข้อมูล (เช่น ข่าว, เอกสารกฎหมาย, งานวิจัยวิชาการ ฯลฯ)
-
การสร้างข้อมูลสังเคราะห์
- สำหรับ สาขาที่มีข้อมูลครอบคลุมน้อย เช่น STEM และเศรษฐศาสตร์ ใช้ข้อมูลโอเพนซอร์สความน่าเชื่อถือสูงเป็นเมล็ดตั้งต้น แล้ว สังเคราะห์ตำรา คำอธิบาย และโจทย์เป็นภาษาเกาหลี เพื่อเสริมข้อมูล
- แม้แต่เว็บเอกสารที่ไม่ผ่านเกณฑ์ (ไม่เหมาะสม) ก็ยังนำมาใช้โดยดึงเฉพาะหัวข้อสำคัญออกมาแล้วเขียนใหม่
- นำ ความหลากหลายเชิงโครงสร้างของเว็บเอกสารภาษาอังกฤษ มา แปลงและขยายเป็นภาษาเกาหลี เพื่อสร้างข้อมูล QA และงานเขียนแบบยาว
- ใช้ ข้อมูล Chain-of-Thought เพื่อเสริมการเรียนรู้การให้เหตุผลเป็นลำดับขั้นในคณิตศาสตร์ โค้ด และงานลักษณะใกล้เคียงกัน
สถาปัตยกรรมโมเดลและการฝึก
- โครงสร้าง Transformer decoder-only
- Base: โมเดล 8B → ขยายด้วย Depth-up Scaling (32→48 ชั้น) → เป็น 11.5B และฝึกต่อเนื่อง 2 ระยะด้วยข้อมูลคุณภาพสูง
- Mini: ย่อองค์ความรู้จาก Base ให้เบาลงด้วย width pruning และ distillation หลายขั้นตอน เพื่อให้ inference ได้อย่างมีประสิทธิภาพ
- รองรับ อินพุตสูงสุด 32,768 โทเค็น ด้วย การฝึก long-context
- ใช้เทคโนโลยีล่าสุด เช่น GQA, SiLU, RoPE
รีวิวการใช้งานและบทความแนะนำ
16 ความคิดเห็น
ขอเป็นกำลังใจให้กับความพยายามนะครับ...
แต่ก็หวังว่าจะไม่ทำแบบตั้ง
organizationใหม่ แล้วโยนเวอร์ชัน 1.0 ทิ้งไปแบบนั้นนะครับแค่ดูจากชื่อก็รู้สึกว่าไม่น่าเชื่อถือแล้วครับ
ทำไมถึงใส่โคลอนไว้กลางชื่อกันนะ? มีเหตุผลในเชิงความหมายหรือเปล่า? หรือว่าจะคิดว่านั่นดูเท่จริงๆ?
แล้วถ้าเป็น mid:eum ก็ควรเขียนเป็นตัวอักษรโรมันว่า mid:m ไม่ใช่เหรอ?
อาจมีความคิดเห็นที่หลากหลาย แต่โดยพื้นฐานแล้วผมคิดว่าโครงการที่เกี่ยวกับ AI ทุกโครงการที่มีการลองทำในประเทศล้วนมีความหมายครับ ผมคิดว่าสถานการณ์ตอนนี้เป็นช่วงที่เราควรชื่นชมการได้ลงมือพยายาม มากกว่าจะเอาไปเปรียบเทียบกับคนอื่นแล้วประเมินระดับกัน
เป็นความจริงที่ว่าการตอบสนองค่อนข้างช้า และทั้งเงินทุนกับ GPU ก็ยังเป็นรองเมื่อเทียบกับสหรัฐฯ/จีน แต่ถ้าเราให้กำลังใจและช่วยกันใช้เพื่อปรับปรุงไปด้วย ก็น่าจะดีขึ้นได้ไม่ใช่หรือครับ
ผมเห็นด้วยบางส่วน
ผมคิดว่าการสร้างแรปเปอร์ที่อ้างว่าเป็นบริการ AI แต่ไปใช้ external API นั้นเป็นงานที่ไม่มีผลิตภาพอะไรเลยและเป็นการหากินจากค่าธรรมเนียม
แต่ถ้าบริษัทต่าง ๆ อย่างน้อยก็ทำ model fine-tuning แล้วนำมาเผยแพร่ อย่างไรก็นับว่าเป็นการเปิดเผยโดยใช้ทรัพยากรของบริษัทเอง ดังนั้นผมคิดว่าไม่มีเหตุผลที่จะต้องมองในแง่ลบ
อย่างไรก็ตาม ถ้าเริ่มรับเงินจากภายนอก เช่น จากภาครัฐ ก็คงมองในแง่ดีอย่างเดียวไม่ได้เหมือนกัน...
> ผมคิดว่าการทำตัวห่อที่อ้างว่าเป็นบริการ AI แต่ใช้ API ภายนอกนั้นเป็นงานที่แทบไม่ก่อให้เกิดผลิตภาพอะไรเลย และเป็นแค่ธุรกิจเก็บค่าธรรมเนียม
ขอเสริมจากคำพูดนี้ว่า ต่อให้ใช้ API ถ้านำไปใช้ได้ดีในระดับเดียวกับ Manus ก็อาจนับว่าเป็นผลงานได้ แต่ดูเหมือนว่าในเกาหลีตอนนี้ยังไม่มีตัวห่อที่ทำได้ถึงระดับนั้นนะครับ
เพราะถ้าเป็นแค่โจทย์ในการยกระดับประสิทธิภาพพื้นฐาน ก็ไม่อาจลงแข่งได้อย่างมีความสามารถในการแข่งขัน
ทำไมบริษัทเกาหลีหรือภาครัฐถึงมุ่งเน้นไปที่โมเดลภาษาที่ปรับให้เหมาะกับภาษาเกาหลีกันนะ? ถ้ามองตามแนวโน้มของ LLM ช่วงนี้ที่ฝึกด้วยข้อมูลขนาดมหาศาลระดับอินเทอร์เน็ตเพื่อเพิ่มประสิทธิภาพแล้ว กลับรู้สึกว่าโมเดลอเนกประสงค์ที่ใช้ได้โดยไม่ขึ้นกับภาษาน่าจะเป็นธรรมชาติมากกว่า เลยไม่ค่อยเข้าใจว่าการมี LM ที่ปรับให้เหมาะกับภาษาเกาหลีโดยเฉพาะนั้นมีข้อดีอะไร
ถ้าคิดจริงๆ ว่า AI คือรากฐานของยุคถัดไป การที่เทคโนโลยีโครงสร้างพื้นฐานหลักระดับชาติจะต้องพึ่งพาเทคโนโลยีจากต่างประเทศก็คงไม่ใช่เรื่องที่พึงปรารถนา...?
ผมคิดว่าเทคโนโลยีของต่างประเทศ != ข้อมูลของต่างประเทศ
เป็นความจริงที่คุณภาพของภาษาที่มีผู้ใช้เขียนน้อยนั้นด้อยกว่าจริง แต่ถึงอย่างนั้นก็ดูไม่น่าจะทำให้มันเก่งแค่ภาษาเกาหลีอย่างเดียวอยู่ดี ก็ไม่ได้มีเหตุผลอะไรเป็นพิเศษด้วย แล้วปัญหาก็คือ พวกเราดันเป็นผู้ใช้ของภาษาที่มีผู้ใช้จำนวนน้อยนั้นนี่สิ....
พูดกันอย่างตรงไปตรงมา คือเพราะมันไม่มีความสามารถในการแข่งขัน
การพัฒนาโมเดลโอเพนซอร์สระดับแนวหน้าโดยปกติมักดำเนินการโดยทีม Research Engineer ที่ได้รับเงินเดือนระดับหลายพันล้านวอนต่อปีจากบิ๊กเทค ภายใต้การสนับสนุนทรัพยากร GPU มหาศาล (ในอดีตผมจำได้ว่า GPU ที่投入ในโปรเจกต์หนึ่งของ Meta มี A100 อยู่ 10,000 ตัว ซึ่งมากกว่าจำนวน A100 ทั้งหมดที่มีอยู่ในเกาหลีใต้ตอนนั้นเสียอีก)
ในเกาหลีใต้ ทั้งกำลังคนและทรัพยากร GPU ที่投入ในการพัฒนา LLM ในความเป็นจริงอยู่ในระดับที่ยากจะแข่งขันกับโลกได้
แทนที่จะบอกว่าเราทำได้ไม่ดีเป็นพิเศษ คงจะถูกกว่าถ้าจะมองว่าสหรัฐฯ และจีนเหนือกว่ามากจนตามได้ยาก
ผมก็ไม่ค่อยแน่ใจเหมือนกัน แต่พอดูขั้นตอนการ
thinkแล้ว บางทีก็มีกรณีที่ถึงจะถามเป็นภาษาเกาหลีแต่กลับประมวลผลเป็นภาษาอังกฤษ ถ้ากระบวนการแบบนั้นทำเป็นภาษาเกาหลีได้ ก็น่าจะให้คำตอบที่เข้ากับบริบทความรู้สึกแบบในประเทศมากขึ้นได้หรือเปล่าครับคงเป็นการลงทุนโดยคำนึงถึง AI ใหม่ ๆ ที่จะถูกพัฒนาหรือก้าวหน้าขึ้นในอนาคต รวมถึงการยกระดับมาตรฐานของ AI ที่มีอยู่เดิมให้สูงขึ้นใช่ไหมครับ? อย่างเช่น DeepSeek ถ้านำอารมณ์ความรู้สึกแบบเกาหลีใส่เข้าไปใน AI ลักษณะนี้ ก็ดูน่าจะมีศักยภาพในการแข่งขันนะครับ แม้จะเป็นเรื่องของอนาคตก็ตาม
ดูเหมือนว่าพวกเขากำลังพยายามดูดเงินงบประมาณของรัฐที่ใช้อย่างไร้ทิศทาง
อาจเป็นเพราะภาษาเกาหลีเพี้ยนหรือเปล่าครับ? เจมมินี่ก็เป็นเหมือนกัน พอใช้ไปสักพักก็มักมีหลายครั้งมากที่จู่ ๆ ก็เด้งไปเป็นภาษาอื่น..
ชื่อโมเดล AI นี่ดูเป็นชื่อชวนขนลุกที่น่าจะโผล่มาในเรื่องโพสต์อะพอคคาลิปส์หรือดิสโทเปียเลยนะ 555