Mi:dm 2.0 - LLM โอเพนซอร์สที่ KT พัฒนาขึ้นเอง

xguru · 2025-07-10T14:27:27+09:00

"Mi:dm" คือโมเดลโอเพนซอร์สที่ สามารถนำไปใช้เชิงพาณิชย์ได้ โดยสะท้อนลักษณะทางภาษาและวัฒนธรรมของสังคมเกาหลี ใช้กลยุทธ์การปรับแต่งหลายชั้น เช่น การคัดเลือกข้อมูลภาษาเกาหลีคุณภาพสูง การสร้างข้อมูลสังเคราะห์ curriculum learning และ tokenizer เฉพาะที่ปรับให้เหมาะกับภาษาเกาหลี มี 3 โมเดล ได้แก่ mini (2.3B) สำหรับ on-device, base (11B) ที่สมดุลระหว่างประสิทธิภาพและความคุ้มค่า, และ pro ระดับ frontier (41B, มีกำหนดเปิดเผยภายหลัง) Mi:dm 2.0 Mini (2.3B): โมเดลขนาดเบาที่ปรับให้เหมาะกับ สภาพแวดล้อมแบบ embedded และงานเฉพาะทาง Mi:dm 2.0 Base (11.5B): โมเดลขนาดใหญ่สำหรับงานทั่วไป เสริมประสิทธิภาพโดยทำให้โมเดล 8B เดิมลึกขึ้นด้วยเทคนิค Depth-up Scaling ทั้ง Base และ Mini รองรับ อินพุต 32K โทเค็น ทำผลงานได้ในระดับสูงสุดบน เบนช์มาร์กภาษาเกาหลี เช่น KMMLU และ HAERAE และเปิดเผยภายใต้ MIT license ที่ให้อิสระทั้งการวิจัยและการใช้งานเชิงพาณิชย์ องค์ประกอบและกลยุทธ์ด้านข้อมูล ให้ความสำคัญกับการจัดหา เอกสารภาษาเกาหลีคุณภาพสูง โดยคัดเลือกจากเกณฑ์ ความต่อเนื่องตามบริบท ความอ่านง่าย และความไม่เป็นอันตราย ใช้ ข้อมูลสังเคราะห์ (การแปล การสร้างเนื้อหาการสอนจากคีย์เวิร์ด, Chain-of-Thought ฯลฯ) เพื่อเพิ่มความหลากหลายของโดเมน แก้ปัญหาความไม่สมดุลของข้อมูลฝึกด้วย curriculum learning และ domain balancing ใช้ tokenizer ที่ปรับให้เหมาะกับภาษาเกาหลี เพื่อเพิ่มประสิทธิภาพการบีบอัดและการสะท้อนโครงสร้างภาษา ระบบการจัดหมวดหมู่ข้อมูล ใช้ระบบจัดหมวดหมู่หลายมิติ เช่น ภาษา โดเมน แหล่งข้อมูล และรูปแบบ/สไตล์การแสดงออก มี 6 โดเมนหลัก (มนุษยศาสตร์, STEM, วิทยาศาสตร์ประยุกต์, สุขภาพ/อาหาร, ชีวิตประจำวัน/วัฒนธรรม และอื่น ๆ) และ 20 โดเมนย่อย มากกว่า 85.7% เป็นข้อมูลธรรมชาติ (organic) และ 14% เป็นข้อมูลสังเคราะห์ ไปป์ไลน์ควบคุมคุณภาพ การกรองเว็บเอกสารขนาดใหญ่ 8 ขั้นตอน: ลบข้อมูลซ้ำ, heuristic, perplexity, ความเสียหาย/การแก้ไขตัวอักษร, ตัวกรองคุณภาพที่อิงโมเดล, ตัวกรองความเป็นอันตราย, ความซ้ำระดับบรรทัด, การทำให้ PII ไม่สามารถระบุตัวตนได้ ฯลฯ ใช้ กระบวนการทำความสะอาดและกฎเฉพาะแยกตามแต่ละแหล่งข้อมูล (เช่น ข่าว, เอกสารกฎหมาย, งานวิจัยวิชาการ ฯลฯ) การสร้างข้อมูลสังเคราะห์ สำหรับ สาขาที่มีข้อมูลครอบคลุมน้อย เช่น STEM และเศรษฐศาสตร์ ใช้ข้อมูลโอเพนซอร์สความน่าเชื่อถือสูงเป็นเมล็ดตั้งต้น แล้ว สังเคราะห์ตำรา คำอธิบาย และโจทย์เป็นภาษาเกาหลี เพื่อเสริมข้อมูล แม้แต่เว็บเอกสารที่ไม่ผ่านเกณฑ์ (ไม่เหมาะสม) ก็ยังนำมาใช้โดยดึงเฉพาะหัวข้อสำคัญออกมาแล้วเขียนใหม่ นำ ความหลากหลายเชิงโครงสร้างของเว็บเอกสารภาษาอังกฤษ มา แปลงและขยายเป็นภาษาเกาหลี เพื่อสร้างข้อมูล QA และงานเขียนแบบยาว ใช้ ข้อมูล Chain-of-Thought เพื่อเสริมการเรียนรู้การให้เหตุผลเป็นลำดับขั้นในคณิตศาสตร์ โค้ด และงานลักษณะใกล้เคียงกัน สถาปัตยกรรมโมเดลและการฝึก โครงสร้าง Transformer decoder-only Base: โมเดล 8B → ขยายด้วย Depth-up Scaling (32→48 ชั้น) → เป็น 11.5B และฝึกต่อเนื่อง 2 ระยะด้วยข้อมูลคุณภาพสูง Mini: ย่อองค์ความรู้จาก Base ให้เบาลงด้วย width pruning และ distillation หลายขั้นตอน เพื่อให้ inference ได้อย่างมีประสิทธิภาพ รองรับ อินพุตสูงสุด 32,768 โทเค็น ด้วย การฝึก long-context ใช้เทคโนโลยีล่าสุด เช่น GQA, SiLU, RoPE รีวิวการใช้งานและบทความแนะนำ รีวิวการใช้งานโมเดล AI แบบเกาหลี: KT Mi:dm 2.0 แนะนำ Midm 2.0, AI ภาษาเกาหลีที่ KT สร้างขึ้น ลองใช้งาน AI แบบเกาหลีของ KT, Mi:dm 2.0 หน้าแนะนำ Mi:dm 2.0 ของ KT เอกสารประชาสัมพันธ์ตอนเปิดตัว Mi:dm 1.0 ของ KT - Mi:dm ถ่ายทอดเอกลักษณ์ที่ก้าวข้ามเหตุผลและอารมณ์

(huggingface.co)

10 คะแนน โดย xguru 2025-07-10 | 16 ความคิดเห็น | แชร์ทาง WhatsApp

"Mi:dm" คือโมเดลโอเพนซอร์สที่ สามารถนำไปใช้เชิงพาณิชย์ได้ โดยสะท้อนลักษณะทางภาษาและวัฒนธรรมของสังคมเกาหลี
ใช้กลยุทธ์การปรับแต่งหลายชั้น เช่น การคัดเลือกข้อมูลภาษาเกาหลีคุณภาพสูง การสร้างข้อมูลสังเคราะห์ curriculum learning และ tokenizer เฉพาะที่ปรับให้เหมาะกับภาษาเกาหลี
มี 3 โมเดล ได้แก่ mini (2.3B) สำหรับ on-device, base (11B) ที่สมดุลระหว่างประสิทธิภาพและความคุ้มค่า, และ pro ระดับ frontier (41B, มีกำหนดเปิดเผยภายหลัง)
- Mi:dm 2.0 Mini (2.3B): โมเดลขนาดเบาที่ปรับให้เหมาะกับ สภาพแวดล้อมแบบ embedded และงานเฉพาะทาง
- Mi:dm 2.0 Base (11.5B): โมเดลขนาดใหญ่สำหรับงานทั่วไป เสริมประสิทธิภาพโดยทำให้โมเดล 8B เดิมลึกขึ้นด้วยเทคนิค Depth-up Scaling
- ทั้ง Base และ Mini รองรับ อินพุต 32K โทเค็น
ทำผลงานได้ในระดับสูงสุดบน เบนช์มาร์กภาษาเกาหลี เช่น KMMLU และ HAERAE และเปิดเผยภายใต้ MIT license ที่ให้อิสระทั้งการวิจัยและการใช้งานเชิงพาณิชย์

องค์ประกอบและกลยุทธ์ด้านข้อมูล

ให้ความสำคัญกับการจัดหา เอกสารภาษาเกาหลีคุณภาพสูง โดยคัดเลือกจากเกณฑ์ ความต่อเนื่องตามบริบท ความอ่านง่าย และความไม่เป็นอันตราย
ใช้ ข้อมูลสังเคราะห์ (การแปล การสร้างเนื้อหาการสอนจากคีย์เวิร์ด, Chain-of-Thought ฯลฯ) เพื่อเพิ่มความหลากหลายของโดเมน
แก้ปัญหาความไม่สมดุลของข้อมูลฝึกด้วย curriculum learning และ domain balancing
ใช้ tokenizer ที่ปรับให้เหมาะกับภาษาเกาหลี เพื่อเพิ่มประสิทธิภาพการบีบอัดและการสะท้อนโครงสร้างภาษา

ระบบการจัดหมวดหมู่ข้อมูล
- ใช้ระบบจัดหมวดหมู่หลายมิติ เช่น ภาษา โดเมน แหล่งข้อมูล และรูปแบบ/สไตล์การแสดงออก
- มี 6 โดเมนหลัก (มนุษยศาสตร์, STEM, วิทยาศาสตร์ประยุกต์, สุขภาพ/อาหาร, ชีวิตประจำวัน/วัฒนธรรม และอื่น ๆ) และ 20 โดเมนย่อย
- มากกว่า 85.7% เป็นข้อมูลธรรมชาติ (organic) และ 14% เป็นข้อมูลสังเคราะห์
ไปป์ไลน์ควบคุมคุณภาพ
- การกรองเว็บเอกสารขนาดใหญ่ 8 ขั้นตอน: ลบข้อมูลซ้ำ, heuristic, perplexity, ความเสียหาย/การแก้ไขตัวอักษร, ตัวกรองคุณภาพที่อิงโมเดล, ตัวกรองความเป็นอันตราย, ความซ้ำระดับบรรทัด, การทำให้ PII ไม่สามารถระบุตัวตนได้ ฯลฯ
- ใช้ กระบวนการทำความสะอาดและกฎเฉพาะแยกตามแต่ละแหล่งข้อมูล (เช่น ข่าว, เอกสารกฎหมาย, งานวิจัยวิชาการ ฯลฯ)
การสร้างข้อมูลสังเคราะห์
- สำหรับ สาขาที่มีข้อมูลครอบคลุมน้อย เช่น STEM และเศรษฐศาสตร์ ใช้ข้อมูลโอเพนซอร์สความน่าเชื่อถือสูงเป็นเมล็ดตั้งต้น แล้ว สังเคราะห์ตำรา คำอธิบาย และโจทย์เป็นภาษาเกาหลี เพื่อเสริมข้อมูล
- แม้แต่เว็บเอกสารที่ไม่ผ่านเกณฑ์ (ไม่เหมาะสม) ก็ยังนำมาใช้โดยดึงเฉพาะหัวข้อสำคัญออกมาแล้วเขียนใหม่
- นำ ความหลากหลายเชิงโครงสร้างของเว็บเอกสารภาษาอังกฤษ มา แปลงและขยายเป็นภาษาเกาหลี เพื่อสร้างข้อมูล QA และงานเขียนแบบยาว
- ใช้ ข้อมูล Chain-of-Thought เพื่อเสริมการเรียนรู้การให้เหตุผลเป็นลำดับขั้นในคณิตศาสตร์ โค้ด และงานลักษณะใกล้เคียงกัน

สถาปัตยกรรมโมเดลและการฝึก

โครงสร้าง Transformer decoder-only
Base: โมเดล 8B → ขยายด้วย Depth-up Scaling (32→48 ชั้น) → เป็น 11.5B และฝึกต่อเนื่อง 2 ระยะด้วยข้อมูลคุณภาพสูง
Mini: ย่อองค์ความรู้จาก Base ให้เบาลงด้วย width pruning และ distillation หลายขั้นตอน เพื่อให้ inference ได้อย่างมีประสิทธิภาพ
รองรับ อินพุตสูงสุด 32,768 โทเค็น ด้วย การฝึก long-context
ใช้เทคโนโลยีล่าสุด เช่น GQA, SiLU, RoPE

รีวิวการใช้งานและบทความแนะนำ

หน้าแนะนำ Mi:dm 2.0 ของ KT
เอกสารประชาสัมพันธ์ตอนเปิดตัว Mi:dm 1.0 ของ KT - Mi:dm ถ่ายทอดเอกลักษณ์ที่ก้าวข้ามเหตุผลและอารมณ์

16 ความคิดเห็น

miseenscene 2025-07-11

ขอเป็นกำลังใจให้กับความพยายามนะครับ...
แต่ก็หวังว่าจะไม่ทำแบบตั้ง organization ใหม่ แล้วโยนเวอร์ชัน 1.0 ทิ้งไปแบบนั้นนะครับ

bakyeono 2025-07-11

แค่ดูจากชื่อก็รู้สึกว่าไม่น่าเชื่อถือแล้วครับ
ทำไมถึงใส่โคลอนไว้กลางชื่อกันนะ? มีเหตุผลในเชิงความหมายหรือเปล่า? หรือว่าจะคิดว่านั่นดูเท่จริงๆ?
แล้วถ้าเป็น mid:eum ก็ควรเขียนเป็นตัวอักษรโรมันว่า mid:m ไม่ใช่เหรอ?

xguru 2025-07-11

อาจมีความคิดเห็นที่หลากหลาย แต่โดยพื้นฐานแล้วผมคิดว่าโครงการที่เกี่ยวกับ AI ทุกโครงการที่มีการลองทำในประเทศล้วนมีความหมายครับ ผมคิดว่าสถานการณ์ตอนนี้เป็นช่วงที่เราควรชื่นชมการได้ลงมือพยายาม มากกว่าจะเอาไปเปรียบเทียบกับคนอื่นแล้วประเมินระดับกัน

เป็นความจริงที่ว่าการตอบสนองค่อนข้างช้า และทั้งเงินทุนกับ GPU ก็ยังเป็นรองเมื่อเทียบกับสหรัฐฯ/จีน แต่ถ้าเราให้กำลังใจและช่วยกันใช้เพื่อปรับปรุงไปด้วย ก็น่าจะดีขึ้นได้ไม่ใช่หรือครับ

crawler 2025-07-11

ผมเห็นด้วยบางส่วน
ผมคิดว่าการสร้างแรปเปอร์ที่อ้างว่าเป็นบริการ AI แต่ไปใช้ external API นั้นเป็นงานที่ไม่มีผลิตภาพอะไรเลยและเป็นการหากินจากค่าธรรมเนียม
แต่ถ้าบริษัทต่าง ๆ อย่างน้อยก็ทำ model fine-tuning แล้วนำมาเผยแพร่ อย่างไรก็นับว่าเป็นการเปิดเผยโดยใช้ทรัพยากรของบริษัทเอง ดังนั้นผมคิดว่าไม่มีเหตุผลที่จะต้องมองในแง่ลบ

อย่างไรก็ตาม ถ้าเริ่มรับเงินจากภายนอก เช่น จากภาครัฐ ก็คงมองในแง่ดีอย่างเดียวไม่ได้เหมือนกัน...

crawler 2025-07-11

> ผมคิดว่าการทำตัวห่อที่อ้างว่าเป็นบริการ AI แต่ใช้ API ภายนอกนั้นเป็นงานที่แทบไม่ก่อให้เกิดผลิตภาพอะไรเลย และเป็นแค่ธุรกิจเก็บค่าธรรมเนียม

ขอเสริมจากคำพูดนี้ว่า ต่อให้ใช้ API ถ้านำไปใช้ได้ดีในระดับเดียวกับ Manus ก็อาจนับว่าเป็นผลงานได้ แต่ดูเหมือนว่าในเกาหลีตอนนี้ยังไม่มีตัวห่อที่ทำได้ถึงระดับนั้นนะครับ

mssmss 2025-07-11

เพราะถ้าเป็นแค่โจทย์ในการยกระดับประสิทธิภาพพื้นฐาน ก็ไม่อาจลงแข่งได้อย่างมีความสามารถในการแข่งขัน

strn18 2025-07-10

ทำไมบริษัทเกาหลีหรือภาครัฐถึงมุ่งเน้นไปที่โมเดลภาษาที่ปรับให้เหมาะกับภาษาเกาหลีกันนะ? ถ้ามองตามแนวโน้มของ LLM ช่วงนี้ที่ฝึกด้วยข้อมูลขนาดมหาศาลระดับอินเทอร์เน็ตเพื่อเพิ่มประสิทธิภาพแล้ว กลับรู้สึกว่าโมเดลอเนกประสงค์ที่ใช้ได้โดยไม่ขึ้นกับภาษาน่าจะเป็นธรรมชาติมากกว่า เลยไม่ค่อยเข้าใจว่าการมี LM ที่ปรับให้เหมาะกับภาษาเกาหลีโดยเฉพาะนั้นมีข้อดีอะไร

ryj0902 2025-07-11

ถ้าคิดจริงๆ ว่า AI คือรากฐานของยุคถัดไป การที่เทคโนโลยีโครงสร้างพื้นฐานหลักระดับชาติจะต้องพึ่งพาเทคโนโลยีจากต่างประเทศก็คงไม่ใช่เรื่องที่พึงปรารถนา...?

roxie 2025-07-11

ผมคิดว่าเทคโนโลยีของต่างประเทศ != ข้อมูลของต่างประเทศ

dbs0829 2025-07-11

เป็นความจริงที่คุณภาพของภาษาที่มีผู้ใช้เขียนน้อยนั้นด้อยกว่าจริง แต่ถึงอย่างนั้นก็ดูไม่น่าจะทำให้มันเก่งแค่ภาษาเกาหลีอย่างเดียวอยู่ดี ก็ไม่ได้มีเหตุผลอะไรเป็นพิเศษด้วย แล้วปัญหาก็คือ พวกเราดันเป็นผู้ใช้ของภาษาที่มีผู้ใช้จำนวนน้อยนั้นนี่สิ....

greenday 2025-07-11

พูดกันอย่างตรงไปตรงมา คือเพราะมันไม่มีความสามารถในการแข่งขัน
การพัฒนาโมเดลโอเพนซอร์สระดับแนวหน้าโดยปกติมักดำเนินการโดยทีม Research Engineer ที่ได้รับเงินเดือนระดับหลายพันล้านวอนต่อปีจากบิ๊กเทค ภายใต้การสนับสนุนทรัพยากร GPU มหาศาล (ในอดีตผมจำได้ว่า GPU ที่投入ในโปรเจกต์หนึ่งของ Meta มี A100 อยู่ 10,000 ตัว ซึ่งมากกว่าจำนวน A100 ทั้งหมดที่มีอยู่ในเกาหลีใต้ตอนนั้นเสียอีก)

ในเกาหลีใต้ ทั้งกำลังคนและทรัพยากร GPU ที่投入ในการพัฒนา LLM ในความเป็นจริงอยู่ในระดับที่ยากจะแข่งขันกับโลกได้
แทนที่จะบอกว่าเราทำได้ไม่ดีเป็นพิเศษ คงจะถูกกว่าถ้าจะมองว่าสหรัฐฯ และจีนเหนือกว่ามากจนตามได้ยาก

helio 2025-07-11

ผมก็ไม่ค่อยแน่ใจเหมือนกัน แต่พอดูขั้นตอนการ think แล้ว บางทีก็มีกรณีที่ถึงจะถามเป็นภาษาเกาหลีแต่กลับประมวลผลเป็นภาษาอังกฤษ ถ้ากระบวนการแบบนั้นทำเป็นภาษาเกาหลีได้ ก็น่าจะให้คำตอบที่เข้ากับบริบทความรู้สึกแบบในประเทศมากขึ้นได้หรือเปล่าครับ

truestar 2025-07-11

คงเป็นการลงทุนโดยคำนึงถึง AI ใหม่ ๆ ที่จะถูกพัฒนาหรือก้าวหน้าขึ้นในอนาคต รวมถึงการยกระดับมาตรฐานของ AI ที่มีอยู่เดิมให้สูงขึ้นใช่ไหมครับ? อย่างเช่น DeepSeek ถ้านำอารมณ์ความรู้สึกแบบเกาหลีใส่เข้าไปใน AI ลักษณะนี้ ก็ดูน่าจะมีศักยภาพในการแข่งขันนะครับ แม้จะเป็นเรื่องของอนาคตก็ตาม

zihado 2025-07-10

ดูเหมือนว่าพวกเขากำลังพยายามดูดเงินงบประมาณของรัฐที่ใช้อย่างไร้ทิศทาง

clastneo 2025-07-10

อาจเป็นเพราะภาษาเกาหลีเพี้ยนหรือเปล่าครับ? เจมมินี่ก็เป็นเหมือนกัน พอใช้ไปสักพักก็มักมีหลายครั้งมากที่จู่ ๆ ก็เด้งไปเป็นภาษาอื่น..

cckn1985 2025-07-10

ชื่อโมเดล AI นี่ดูเป็นชื่อชวนขนลุกที่น่าจะโผล่มาในเรื่องโพสต์อะพอคคาลิปส์หรือดิสโทเปียเลยนะ 555

Mi:dm 2.0 - LLM โอเพนซอร์สที่ KT พัฒนาขึ้นเอง

องค์ประกอบและกลยุทธ์ด้านข้อมูล

ระบบการจัดหมวดหมู่ข้อมูล

ไปป์ไลน์ควบคุมคุณภาพ

การสร้างข้อมูลสังเคราะห์

สถาปัตยกรรมโมเดลและการฝึก

รีวิวการใช้งานและบทความแนะนำ

บทความที่เกี่ยวข้อง

16 ความคิดเห็น