10 คะแนน โดย xguru 2025-07-10 | 16 ความคิดเห็น | แชร์ทาง WhatsApp
  • "Mi:dm" คือโมเดลโอเพนซอร์สที่ สามารถนำไปใช้เชิงพาณิชย์ได้ โดยสะท้อนลักษณะทางภาษาและวัฒนธรรมของสังคมเกาหลี
  • ใช้กลยุทธ์การปรับแต่งหลายชั้น เช่น การคัดเลือกข้อมูลภาษาเกาหลีคุณภาพสูง การสร้างข้อมูลสังเคราะห์ curriculum learning และ tokenizer เฉพาะที่ปรับให้เหมาะกับภาษาเกาหลี
  • มี 3 โมเดล ได้แก่ mini (2.3B) สำหรับ on-device, base (11B) ที่สมดุลระหว่างประสิทธิภาพและความคุ้มค่า, และ pro ระดับ frontier (41B, มีกำหนดเปิดเผยภายหลัง)
    • Mi:dm 2.0 Mini (2.3B): โมเดลขนาดเบาที่ปรับให้เหมาะกับ สภาพแวดล้อมแบบ embedded และงานเฉพาะทาง
    • Mi:dm 2.0 Base (11.5B): โมเดลขนาดใหญ่สำหรับงานทั่วไป เสริมประสิทธิภาพโดยทำให้โมเดล 8B เดิมลึกขึ้นด้วยเทคนิค Depth-up Scaling
    • ทั้ง Base และ Mini รองรับ อินพุต 32K โทเค็น
  • ทำผลงานได้ในระดับสูงสุดบน เบนช์มาร์กภาษาเกาหลี เช่น KMMLU และ HAERAE และเปิดเผยภายใต้ MIT license ที่ให้อิสระทั้งการวิจัยและการใช้งานเชิงพาณิชย์

องค์ประกอบและกลยุทธ์ด้านข้อมูล

  • ให้ความสำคัญกับการจัดหา เอกสารภาษาเกาหลีคุณภาพสูง โดยคัดเลือกจากเกณฑ์ ความต่อเนื่องตามบริบท ความอ่านง่าย และความไม่เป็นอันตราย
  • ใช้ ข้อมูลสังเคราะห์ (การแปล การสร้างเนื้อหาการสอนจากคีย์เวิร์ด, Chain-of-Thought ฯลฯ) เพื่อเพิ่มความหลากหลายของโดเมน
  • แก้ปัญหาความไม่สมดุลของข้อมูลฝึกด้วย curriculum learning และ domain balancing
  • ใช้ tokenizer ที่ปรับให้เหมาะกับภาษาเกาหลี เพื่อเพิ่มประสิทธิภาพการบีบอัดและการสะท้อนโครงสร้างภาษา
  • ระบบการจัดหมวดหมู่ข้อมูล

    • ใช้ระบบจัดหมวดหมู่หลายมิติ เช่น ภาษา โดเมน แหล่งข้อมูล และรูปแบบ/สไตล์การแสดงออก
    • มี 6 โดเมนหลัก (มนุษยศาสตร์, STEM, วิทยาศาสตร์ประยุกต์, สุขภาพ/อาหาร, ชีวิตประจำวัน/วัฒนธรรม และอื่น ๆ) และ 20 โดเมนย่อย
    • มากกว่า 85.7% เป็นข้อมูลธรรมชาติ (organic) และ 14% เป็นข้อมูลสังเคราะห์
  • ไปป์ไลน์ควบคุมคุณภาพ

    • การกรองเว็บเอกสารขนาดใหญ่ 8 ขั้นตอน: ลบข้อมูลซ้ำ, heuristic, perplexity, ความเสียหาย/การแก้ไขตัวอักษร, ตัวกรองคุณภาพที่อิงโมเดล, ตัวกรองความเป็นอันตราย, ความซ้ำระดับบรรทัด, การทำให้ PII ไม่สามารถระบุตัวตนได้ ฯลฯ
    • ใช้ กระบวนการทำความสะอาดและกฎเฉพาะแยกตามแต่ละแหล่งข้อมูล (เช่น ข่าว, เอกสารกฎหมาย, งานวิจัยวิชาการ ฯลฯ)
  • การสร้างข้อมูลสังเคราะห์

    • สำหรับ สาขาที่มีข้อมูลครอบคลุมน้อย เช่น STEM และเศรษฐศาสตร์ ใช้ข้อมูลโอเพนซอร์สความน่าเชื่อถือสูงเป็นเมล็ดตั้งต้น แล้ว สังเคราะห์ตำรา คำอธิบาย และโจทย์เป็นภาษาเกาหลี เพื่อเสริมข้อมูล
    • แม้แต่เว็บเอกสารที่ไม่ผ่านเกณฑ์ (ไม่เหมาะสม) ก็ยังนำมาใช้โดยดึงเฉพาะหัวข้อสำคัญออกมาแล้วเขียนใหม่
    • นำ ความหลากหลายเชิงโครงสร้างของเว็บเอกสารภาษาอังกฤษ มา แปลงและขยายเป็นภาษาเกาหลี เพื่อสร้างข้อมูล QA และงานเขียนแบบยาว
    • ใช้ ข้อมูล Chain-of-Thought เพื่อเสริมการเรียนรู้การให้เหตุผลเป็นลำดับขั้นในคณิตศาสตร์ โค้ด และงานลักษณะใกล้เคียงกัน

สถาปัตยกรรมโมเดลและการฝึก

  • โครงสร้าง Transformer decoder-only
  • Base: โมเดล 8B → ขยายด้วย Depth-up Scaling (32→48 ชั้น) → เป็น 11.5B และฝึกต่อเนื่อง 2 ระยะด้วยข้อมูลคุณภาพสูง
  • Mini: ย่อองค์ความรู้จาก Base ให้เบาลงด้วย width pruning และ distillation หลายขั้นตอน เพื่อให้ inference ได้อย่างมีประสิทธิภาพ
  • รองรับ อินพุตสูงสุด 32,768 โทเค็น ด้วย การฝึก long-context
  • ใช้เทคโนโลยีล่าสุด เช่น GQA, SiLU, RoPE

รีวิวการใช้งานและบทความแนะนำ

16 ความคิดเห็น

 
miseenscene 2025-07-11

ขอเป็นกำลังใจให้กับความพยายามนะครับ...
แต่ก็หวังว่าจะไม่ทำแบบตั้ง organization ใหม่ แล้วโยนเวอร์ชัน 1.0 ทิ้งไปแบบนั้นนะครับ

 
bakyeono 2025-07-11

แค่ดูจากชื่อก็รู้สึกว่าไม่น่าเชื่อถือแล้วครับ
ทำไมถึงใส่โคลอนไว้กลางชื่อกันนะ? มีเหตุผลในเชิงความหมายหรือเปล่า? หรือว่าจะคิดว่านั่นดูเท่จริงๆ?
แล้วถ้าเป็น mid:eum ก็ควรเขียนเป็นตัวอักษรโรมันว่า mid:m ไม่ใช่เหรอ?

 
xguru 2025-07-11

อาจมีความคิดเห็นที่หลากหลาย แต่โดยพื้นฐานแล้วผมคิดว่าโครงการที่เกี่ยวกับ AI ทุกโครงการที่มีการลองทำในประเทศล้วนมีความหมายครับ ผมคิดว่าสถานการณ์ตอนนี้เป็นช่วงที่เราควรชื่นชมการได้ลงมือพยายาม มากกว่าจะเอาไปเปรียบเทียบกับคนอื่นแล้วประเมินระดับกัน

เป็นความจริงที่ว่าการตอบสนองค่อนข้างช้า และทั้งเงินทุนกับ GPU ก็ยังเป็นรองเมื่อเทียบกับสหรัฐฯ/จีน แต่ถ้าเราให้กำลังใจและช่วยกันใช้เพื่อปรับปรุงไปด้วย ก็น่าจะดีขึ้นได้ไม่ใช่หรือครับ

 
crawler 2025-07-11

ผมเห็นด้วยบางส่วน
ผมคิดว่าการสร้างแรปเปอร์ที่อ้างว่าเป็นบริการ AI แต่ไปใช้ external API นั้นเป็นงานที่ไม่มีผลิตภาพอะไรเลยและเป็นการหากินจากค่าธรรมเนียม
แต่ถ้าบริษัทต่าง ๆ อย่างน้อยก็ทำ model fine-tuning แล้วนำมาเผยแพร่ อย่างไรก็นับว่าเป็นการเปิดเผยโดยใช้ทรัพยากรของบริษัทเอง ดังนั้นผมคิดว่าไม่มีเหตุผลที่จะต้องมองในแง่ลบ

อย่างไรก็ตาม ถ้าเริ่มรับเงินจากภายนอก เช่น จากภาครัฐ ก็คงมองในแง่ดีอย่างเดียวไม่ได้เหมือนกัน...

 
crawler 2025-07-11

> ผมคิดว่าการทำตัวห่อที่อ้างว่าเป็นบริการ AI แต่ใช้ API ภายนอกนั้นเป็นงานที่แทบไม่ก่อให้เกิดผลิตภาพอะไรเลย และเป็นแค่ธุรกิจเก็บค่าธรรมเนียม

ขอเสริมจากคำพูดนี้ว่า ต่อให้ใช้ API ถ้านำไปใช้ได้ดีในระดับเดียวกับ Manus ก็อาจนับว่าเป็นผลงานได้ แต่ดูเหมือนว่าในเกาหลีตอนนี้ยังไม่มีตัวห่อที่ทำได้ถึงระดับนั้นนะครับ

 
mssmss 2025-07-11

เพราะถ้าเป็นแค่โจทย์ในการยกระดับประสิทธิภาพพื้นฐาน ก็ไม่อาจลงแข่งได้อย่างมีความสามารถในการแข่งขัน

 
strn18 2025-07-10

ทำไมบริษัทเกาหลีหรือภาครัฐถึงมุ่งเน้นไปที่โมเดลภาษาที่ปรับให้เหมาะกับภาษาเกาหลีกันนะ? ถ้ามองตามแนวโน้มของ LLM ช่วงนี้ที่ฝึกด้วยข้อมูลขนาดมหาศาลระดับอินเทอร์เน็ตเพื่อเพิ่มประสิทธิภาพแล้ว กลับรู้สึกว่าโมเดลอเนกประสงค์ที่ใช้ได้โดยไม่ขึ้นกับภาษาน่าจะเป็นธรรมชาติมากกว่า เลยไม่ค่อยเข้าใจว่าการมี LM ที่ปรับให้เหมาะกับภาษาเกาหลีโดยเฉพาะนั้นมีข้อดีอะไร

 
ryj0902 2025-07-11

ถ้าคิดจริงๆ ว่า AI คือรากฐานของยุคถัดไป การที่เทคโนโลยีโครงสร้างพื้นฐานหลักระดับชาติจะต้องพึ่งพาเทคโนโลยีจากต่างประเทศก็คงไม่ใช่เรื่องที่พึงปรารถนา...?

 
roxie 2025-07-11

ผมคิดว่าเทคโนโลยีของต่างประเทศ != ข้อมูลของต่างประเทศ

 
dbs0829 2025-07-11

เป็นความจริงที่คุณภาพของภาษาที่มีผู้ใช้เขียนน้อยนั้นด้อยกว่าจริง แต่ถึงอย่างนั้นก็ดูไม่น่าจะทำให้มันเก่งแค่ภาษาเกาหลีอย่างเดียวอยู่ดี ก็ไม่ได้มีเหตุผลอะไรเป็นพิเศษด้วย แล้วปัญหาก็คือ พวกเราดันเป็นผู้ใช้ของภาษาที่มีผู้ใช้จำนวนน้อยนั้นนี่สิ....

 
greenday 2025-07-11

พูดกันอย่างตรงไปตรงมา คือเพราะมันไม่มีความสามารถในการแข่งขัน
การพัฒนาโมเดลโอเพนซอร์สระดับแนวหน้าโดยปกติมักดำเนินการโดยทีม Research Engineer ที่ได้รับเงินเดือนระดับหลายพันล้านวอนต่อปีจากบิ๊กเทค ภายใต้การสนับสนุนทรัพยากร GPU มหาศาล (ในอดีตผมจำได้ว่า GPU ที่投入ในโปรเจกต์หนึ่งของ Meta มี A100 อยู่ 10,000 ตัว ซึ่งมากกว่าจำนวน A100 ทั้งหมดที่มีอยู่ในเกาหลีใต้ตอนนั้นเสียอีก)

ในเกาหลีใต้ ทั้งกำลังคนและทรัพยากร GPU ที่投入ในการพัฒนา LLM ในความเป็นจริงอยู่ในระดับที่ยากจะแข่งขันกับโลกได้
แทนที่จะบอกว่าเราทำได้ไม่ดีเป็นพิเศษ คงจะถูกกว่าถ้าจะมองว่าสหรัฐฯ และจีนเหนือกว่ามากจนตามได้ยาก

 
helio 2025-07-11

ผมก็ไม่ค่อยแน่ใจเหมือนกัน แต่พอดูขั้นตอนการ think แล้ว บางทีก็มีกรณีที่ถึงจะถามเป็นภาษาเกาหลีแต่กลับประมวลผลเป็นภาษาอังกฤษ ถ้ากระบวนการแบบนั้นทำเป็นภาษาเกาหลีได้ ก็น่าจะให้คำตอบที่เข้ากับบริบทความรู้สึกแบบในประเทศมากขึ้นได้หรือเปล่าครับ

 
truestar 2025-07-11

คงเป็นการลงทุนโดยคำนึงถึง AI ใหม่ ๆ ที่จะถูกพัฒนาหรือก้าวหน้าขึ้นในอนาคต รวมถึงการยกระดับมาตรฐานของ AI ที่มีอยู่เดิมให้สูงขึ้นใช่ไหมครับ? อย่างเช่น DeepSeek ถ้านำอารมณ์ความรู้สึกแบบเกาหลีใส่เข้าไปใน AI ลักษณะนี้ ก็ดูน่าจะมีศักยภาพในการแข่งขันนะครับ แม้จะเป็นเรื่องของอนาคตก็ตาม

 
zihado 2025-07-10

ดูเหมือนว่าพวกเขากำลังพยายามดูดเงินงบประมาณของรัฐที่ใช้อย่างไร้ทิศทาง

 
clastneo 2025-07-10

อาจเป็นเพราะภาษาเกาหลีเพี้ยนหรือเปล่าครับ? เจมมินี่ก็เป็นเหมือนกัน พอใช้ไปสักพักก็มักมีหลายครั้งมากที่จู่ ๆ ก็เด้งไปเป็นภาษาอื่น..

 
cckn1985 2025-07-10

ชื่อโมเดล AI นี่ดูเป็นชื่อชวนขนลุกที่น่าจะโผล่มาในเรื่องโพสต์อะพอคคาลิปส์หรือดิสโทเปียเลยนะ 555