NVIDIA Nemotron-Personas-Korea - ชุดข้อมูลเพอร์โซนาสังเคราะห์ 1 ล้านรายการจากการกระจายประชากรจริงของเกาหลีใต้
(huggingface.co)- ชุดข้อมูลเพอร์โซนาภาษาเกาหลีขนาดใหญ่ชุดแรกที่สะท้อนการกระจายด้านประชากรศาสตร์ ภูมิศาสตร์ และบุคลิกภาพตามข้อมูลจริง โดยอ้างอิงข้อมูลสาธารณะจาก Statistics Korea, ศาลฎีกาเกาหลี และ National Health Insurance Service เป็นต้น
- มี 1 ล้านเรคอร์ด รวม 7 ล้านเพอร์โซนา ประกอบด้วย 26 ฟิลด์ เช่น ชื่อ เพศ อายุ สถานภาพสมรส ระดับการศึกษา อาชีพ และพื้นที่อยู่อาศัย
- สร้างขึ้นโดยใช้ NeMo Data Designer ระบบสร้างข้อมูลสังเคราะห์ระดับองค์กร และโมเดล google/gemma-4-31B-it
- เมื่อเทียบกับชุดข้อมูลเพอร์โซนาเดิม ชุดนี้สะท้อนกลุ่มผู้สูงอายุ พื้นที่ชนบท และการกระจายของการศึกษา/อาชีพที่หลากหลายได้ดีกว่า จึงช่วย ลดอคติของโมเดล Sovereign AI
- ใช้งานได้อย่างอิสระทั้งเชิงพาณิชย์และไม่เชิงพาณิชย์ภายใต้ไลเซนส์ CC BY 4.0
ปัญหาของเพอร์โซนาเกาหลีที่ LLM เดิมสร้างขึ้น
- เพอร์โซนาคือคำบรรยายถึงลักษณะเฉพาะ ความสนใจ บุคลิกภาพ อาชีพ ฯลฯ ของบุคคล และชุดข้อมูลที่รวมเพอร์โซนาเหล่านี้ควรสะท้อน ลักษณะทางวัฒนธรรมและการกระจายตัว ของกลุ่มนั้นอย่างถูกต้อง
- แม้จะป้อนพรอมป์ให้ LLM ต่างชาติว่า “สร้างโปรไฟล์บุคคลที่สมจริงและหลากหลายในสังคมเกาหลี” ผลลัพธ์ก็ยัง บิดเบือนอย่างรุนแรง
- เช่น เพอร์โซนาที่สร้างขึ้น 40% เลือกสลัดเป็นอาหารโปรด หรือให้ผลลัพธ์ไม่สมจริงอย่าง “ฉันทำสวนแอปเปิลอยู่ที่เมืองอันดง จังหวัดคย็องซังเหนือ”
- เมื่อนำเพอร์โซนาเกาหลี 2,000 รายการที่สุ่มจาก Claude Opus 4.7 มาตรวจสอบ พบอคติสุดโต่งในด้านการกระจายอาชีพ โดย 77.6% ถูกสร้างเป็น “เกษตรกรปลูกส้มยูจา”
- สำหรับ GPT-5.4 พบว่า 90.1% ถูกสร้างเป็น “ผู้ดูแลผู้สูงอายุ”
- มี อคติที่ไม่สอดคล้องกับสภาพจริงของเกาหลีใต้ในทุกด้าน ไม่ว่าจะเป็นการกระจายตัวของเมือง รูปแบบครอบครัว รูปแบบการอยู่อาศัย หรือความชอบด้านอาหาร
ภาพรวมและวัตถุประสงค์ของชุดข้อมูล
- ชุดข้อมูลเพอร์โซนาสังเคราะห์โอเพนซอร์สที่ออกแบบมาเพื่อสะท้อนความหลากหลายและลักษณะของประชากรเกาหลีใต้อย่างกว้างขวาง
- เขียนเป็น ภาษาเกาหลี เพื่อให้ทุกคนอ่านได้ง่าย
- เป้าหมายหลักคือการ ลดข้อมูลสูญหายและอคติแฝง ในข้อมูลฝึกเมื่อนำไปสร้างระบบ Sovereign AI
- มุ่งแก้อคติในชุดข้อมูลเพอร์โซนาที่ใช้สร้างข้อมูลสังเคราะห์ โดยเฉพาะอคติในมิติอายุ ภูมิภาค ระดับการศึกษา และอาชีพ
แหล่งข้อมูลและวิธีการสร้าง
- ใช้ข้อมูลสำมะโนประชากรจาก KOSIS (พอร์ทัลสถิติแห่งชาติของ Statistics Korea) ที่เกี่ยวข้องกับเพศ ภูมิภาค อุตสาหกรรม อาชีพ การท่องเที่ยว และกิจกรรมยามว่าง
- ใช้ข้อมูลปีเกิด เพศ และชื่อจาก ศาลฎีกาเกาหลี, ข้อมูลตรวจสุขภาพจาก National Health Insurance Service, และผลสำรวจพฤติกรรมการบริโภคอาหารจาก Korea Rural Economic Institute
- NAVER Cloud ให้ข้อมูลเริ่มต้นและองค์ความรู้เฉพาะทางในขั้นตอนการออกแบบ
- ใช้ Probabilistic Graphical Model (PGM) ที่พัฒนาขึ้นเอง ร่วมกับโมเดล google/gemma-4-31B-it ภายใต้ไลเซนส์ Apache-2.0 และวิธีการตรวจสอบ/ประเมินผลของ NeMo Data Designer
- ครอบคลุมชื่อ อายุ เพศ ภูมิภาค การสมรส ครอบครัว ที่อยู่อาศัย การศึกษา สาขาวิชา สถานะทางเศรษฐกิจ รายได้ กลุ่มอุตสาหกรรม กลุ่มอาชีพ ความดันโลหิต น้ำตาลในเลือด รอบเอว BMI การท่องเที่ยว กิจกรรมยามว่าง ประเภทร้านอาหารที่ชอบ ความถี่ในการสั่งเดลิเวอรีและกินนอกบ้าน ฯลฯ
- ข้อมูลทั้งหมดสะท้อนการกระจายจริง แต่ ถูกสังเคราะห์ขึ้นทั้งหมด และความคล้ายคลึงกับบุคคลจริงเป็นเรื่องบังเอิญ
ขนาดและองค์ประกอบของชุดข้อมูล
- รวมทั้งหมด 1.7 พันล้านโทเค็น (โทเค็นเพอร์โซนา 1 พันล้าน) ใน 1 ล้านเรคอร์ด
- 26 ฟิลด์: 7 ฟิลด์เพอร์โซนา, 6 ฟิลด์คุณลักษณะเพอร์โซนา, 12 ฟิลด์บริบทด้านประชากรศาสตร์/ภูมิศาสตร์ และ 1 ตัวระบุเฉพาะ
- ครอบคลุมเขตการปกครอง 17 จังหวัด/นครระดับพิเศษ และ 252 เมือง/เขต/อำเภอ อย่างครบถ้วน
- มี ชุดชื่อ-นามสกุลที่ไม่ซ้ำกันกว่า 209,000 ชุด (118 นามสกุล, 21,400 ชื่อ)
- เพอร์โซนา 7 ประเภท: อาชีพ กีฬา ศิลปะ การท่องเที่ยว อาหาร ครอบครัว และสรุป
- คุณลักษณะเพอร์โซนาเพิ่มเติม: ภูมิหลังทางวัฒนธรรม ทักษะและความเชี่ยวชาญ เป้าหมาย/ความใฝ่ฝันด้านอาชีพ และงานอดิเรก/ความสนใจ
การกระจายของชื่อ
- ปัจจุบันข้อมูลชื่อที่เปิดเผยในเกาหลีใต้มี จำกัดเพียงหลังปี 2008
- Nemotron-Personas-Korea เป็นชุดข้อมูลสาธารณะ ชุดแรกที่อิงข้อมูลชื่อแบบครอบคลุมของเกาหลีใต้ตั้งแต่ปี 1940
- ช่วยแก้ปัญหาการจับคู่ชื่อที่ไม่สอดคล้องกับยุคสมัย เช่น “คิมฮายุล อายุ 82?” หรือ “คิมซุนจา อายุ 21?”
- การกระจายของนามสกุลมี 5 อันดับแรก ได้แก่ Kim (21.5%), Lee (14.7%), Park (8.5%), Jung (4.8%), Choi (4.7%) รวมกันคิดเป็นประมาณ 54% ของทั้งหมด
- ชื่อสะท้อน แนวโน้มการตั้งชื่อตามรุ่นอายุ โดยขึ้นอยู่กับเพศและปีเกิด
- ผู้หญิง: มีทั้งชื่อของคนรุ่นอายุมาก เช่น Young-sook, Jung-sook, Soon-ja และชื่อของคนรุ่นใหม่ เช่น Ji-young, Yoo-jin, Ji-hyun
- ผู้ชาย: ชื่อสมัยใหม่อย่าง Ji-hoon, Hyun-woo, Jun-ho อยู่ในอันดับต้น ๆ
- ชื่อที่พบบ่อยที่สุดโดยรวมคือ Kim Young-sook ซึ่งสอดคล้องกับผลสำรวจจริง
การกระจายของอายุ
- มีโครงสร้างแบบ ทรงไหที่นูนตรงกลาง สะท้อนโครงสร้างประชากรปัจจุบันที่มีทั้งอัตราเกิดต่ำและสังคมสูงวัย
- ช่วงที่มีสัดส่วนหนาแน่นที่สุดคือ 50–64 ปี (สัดส่วนประมาณ 0.09) ซึ่งตรงกับคนรุ่นเบบี้บูมในทศวรรษ 1960–70
- ในกลุ่มอายุ 70 ปีขึ้นไป สัดส่วนผู้หญิงสูงกว่าผู้ชายอย่างชัดเจน
- ในช่วงอายุ 80–89 ปี สัดส่วนผู้หญิงมากกว่าผู้ชายประมาณ 1.52 เท่า
การกระจายของสถานภาพสมรส
- สัดส่วนโสดในช่วงอายุ 19–24 ปีอยู่ที่ มากกว่า 95% และลดลงจาก 55% → 31% ในวัย 30 ปี สอดคล้องกับแนวโน้มแต่งงานช้าที่มีอายุเฉลี่ยแต่งงานครั้งแรก 31–33 ปี
- สัดส่วนผู้มีคู่สมรสเพิ่มขึ้นเป็น 64% ตั้งแต่อายุ 35 ปี และสูงสุดที่ 78% ในช่วงปลายวัย 50
- การเป็นหม้าย/ม่ายเพิ่มขึ้นอย่างรวดเร็วตั้งแต่วัย 60 ปี แตะ 66% ในช่วงปลายวัย 80 และ 74–81% ในวัย 90
- การหย่าร้างสูงสุดราว 12% ในช่วงวัย 50 ถึงต้นวัย 60 สอดคล้องกับแนวโน้มหย่าร้างในบั้นปลายชีวิต
การกระจายของประเภทครัวเรือน
- ในทุกช่วงอายุ ครัวเรือนแบบ คู่สมรส+บุตรโสด มีสัดส่วนสูงที่สุด โดยสูงสุดที่ 63.6% ในวัย 19 ปี
- หลังอายุ 50 ปี ครัวเรือนคู่สมรส เพิ่มขึ้นอย่างรวดเร็ว และสูงสุดที่ 45.7% ในช่วงอายุ 65–69 ปี
- ครัวเรือนคนเดียว มีรูปแบบยอดคู่ โดยสูงในช่วงต้นวัย 20 (15–22%) และหลังอายุ 75 ปี (21–32%)
- ครัวเรือนแม่+บุตรโสด (5–14%) สูงกว่าครัวเรือนพ่อ+บุตรโสด (2–5%) แสดงให้เห็น ความไม่สมมาตรทางเพศ ของครัวเรือนพ่อหรือแม่เลี้ยงเดี่ยว
การกระจายของระดับการศึกษา
- คนรุ่นอายุน้อย 20–34 ปีมี สัดส่วนจบมหาวิทยาลัย 4 ปีมากกว่า 50% และเมื่อรวมวิทยาลัยอาชีวะ/อนุปริญญาแล้ว ราว 75% มีการศึกษาระดับอุดมศึกษาขึ้นไป
- ในกลุ่มอายุ 80 ปีขึ้นไป ผู้ไม่มีการศึกษา (36%) และผู้จบประถมศึกษา (37%) รวมกันคิดเป็น 73% ของทั้งหมด
- ตามภูมิภาค Sejong (49.0%), Seoul (45.1%) และ Daejeon (39.7%) มีสัดส่วนผู้จบปริญญาตรีขึ้นไปสูงที่สุด
- Sejong ได้รับอิทธิพลจากการย้ายเข้าสู่เมืองของข้าราชการและนักวิจัยที่มีการศึกษาสูง หลังการย้ายที่ตั้งของ Government Complex Sejong
การกระจายของอาชีพ
- ผู้เชี่ยวชาญและพนักงานสำนักงาน มีสัดส่วนมากที่สุด สะท้อนโครงสร้างเศรษฐกิจที่ขับเคลื่อนด้วยบริการและความรู้
- ในสายงานขาย พนักงานขายออนไลน์ อยู่อันดับ 1 ที่ 19.8% แสดงถึงสัดส่วนอีคอมเมิร์ซที่สูง
- ในงานแรงงานทั่วไป มีการกระจุกตัวที่เจ้าหน้าที่รักษาความปลอดภัยอาคาร (21.3%) และพนักงานทำความสะอาดอาคาร (16.0%)
- ทหารคิดเป็นประมาณ 1% ของผู้มีงานทำทั้งหมด และมากกว่าสองในสามอยู่ในกองทัพบก
ข้อจำกัดและข้อพิจารณาทางเทคนิค
- เนื่องจากข้อจำกัดด้านความพร้อมใช้และความทันสมัยของข้อมูลสาธารณะ รวมถึงข้อจำกัดเชิงปฏิบัติของโมเดล PGM จึงต้องใช้ สมมติฐานความเป็นอิสระ ระหว่างตัวแปรบางตัว
- ตัวอย่าง: ในการกำหนดอาชีพย่อย สมมติว่าเพศ รายได้ การศึกษา และสาขาวิชาส่งผลอย่างเป็นอิสระต่อกัน โดยไม่สะท้อนปฏิสัมพันธ์ระหว่างตัวแปร
- ไม่มีการรวมข้อมูลเชิงสถิติที่ครอบคลุมเกี่ยวกับ gender เนื่องจากไม่มีอยู่ในข้อมูลสาธารณะของเกาหลีใต้
- รวมเฉพาะเพอร์โซนาผู้ใหญ่ที่มีอายุ 19 ปีขึ้นไป
- ไม่รวมเพอร์โซนาที่เกี่ยวข้องกับลูกค้าองค์กรในด้านการเงิน เฮลท์แคร์ ฯลฯ
ผลการปรับปรุงเมื่อเทียบกับวิธีที่พึ่งพา LLM
- เมื่อพึ่งพา LLM เพียงอย่างเดียว การกระจายของเมืองมักเอนเอียงไปที่เมืองอย่าง Suncheon หรือ Changwon แต่ Nemotron-Personas-Korea สะท้อน การกระจายตามสัดส่วนประชากรจริง เช่น Hwaseong และ Namyangju ใน Gyeonggi รวมถึง Songpa-gu ใน Seoul
- รูปแบบครอบครัวขยายจากการเป็นครัวเรือนคนเดียวเกือบทั้งหมด ไปเป็น รูปแบบที่หลากหลาย เช่น อยู่กับคู่สมรส อยู่กับคู่สมรสและบุตร หรืออยู่กับพ่อแม่
- รูปแบบการครอบครองที่อยู่อาศัยก็เปลี่ยนจากเป็นเจ้าของเอง 100% ไปเป็น สัดส่วนจริงของการเป็นเจ้าของและการเช่า
- การกระจายของอาหารก็เปลี่ยนจากสลัดแทบทั้งหมด ไปเป็น วัฒนธรรมอาหารจริง เช่น bibimbap, อาหารญี่ปุ่น, ไก่, galbi, samgyeopsal, tteokbokki, bunsik, ขนมปัง, doenjang-jjigae และ jajangmyeon
ตัวอย่างการสะท้อนวัฒนธรรม
- “จองจุน อายุ 33 ปี กลุ่มแคงการูที่ปลดความเหนื่อยล้าหลังเลิกงานด้วย samgyeopsal และ soju กับเพื่อนร่วมงานระหว่างทางกลับบ้าน” — อาศัยอยู่ที่ Songpa-gu, Seoul จบมหาวิทยาลัย 4 ปี โสด และอาศัยอยู่กับพ่อแม่ สะท้อน ปรากฏการณ์กลุ่มแคงการู ในสังคมเกาหลี
- “คุณคิมชุนฮี อายุ 73 ปี จาก Ulsan ที่ชอบเพลงของ Shim Soo-bong และชอบอัปโหลดรูปลงแชตรวมของครอบครัว” — ผู้หญิง ไม่มีการศึกษา มีคู่สมรส และไม่ได้ทำงาน สะท้อน ประชากรหญิงสูงวัย
เหตุใดชุดข้อมูลเพอร์โซนาจึงช่วย LLM ได้
- มนุษย์แต่ละคนมี ความรู้เฉพาะตัว และเพอร์โซนาคือ ฟีโนไทป์ ที่ย่อความรู้เฉพาะนั้นไว้
- ตัวอย่าง: เพอร์โซนาช่างไฟฟ้าสามารถเป็นตัวกลางในการดึงความรู้เกี่ยวกับไฟฟ้าออกมาจาก LLM
- ในข้อมูลสังเคราะห์ ความหลากหลายเป็นตัวชี้วัดที่สำคัญมาก และมนุษย์คือแหล่งที่มาของความหลากหลายที่ดีที่สุด
- สามารถสร้างข้อมูลฝึกสังเคราะห์ที่หลากหลายตามเพอร์โซนาได้ในรูปแบบอย่าง “ลองสร้างโจทย์การให้เหตุผลเชิงตรรกะที่เกี่ยวข้องกับ {เพอร์โซนาที่กำหนด}”
ตัวอย่างการใช้งานจริง
- ปรับปรุงประสิทธิภาพการใช้เครื่องมือทั่วไป: ป้อนทั้ง tool set และเพอร์โซนาให้ user-LLM เพื่อสังเคราะห์และฝึกข้อมูล โดย Nemotron-Nano-9B-v2-Japanese ได้นำแนวทางนี้ไปใช้และคว้า อันดับ 1 บนลีดเดอร์บอร์ด Nejumi และยังนำแนวทางคล้ายกันไปใช้กับ Nemotron Nano v3 และ Super v3 ด้วย
- เพิ่มความปลอดภัยของโมเดล: ใช้เป็นข้อมูลตั้งต้นของชุดข้อมูล Sensitive-safety-category-refusals (SSCR) โดยชุดข้อมูล SSCR ถูกรวมอยู่ใน nemotron-safety-blend
วิธีใช้งานและไลเซนส์
- โหลดได้ด้วยไลบรารี Python
datasetsโดยเรียกload_dataset("nvidia/Nemotron-Personas-Korea") - ใช้งานได้อย่างอิสระทั้งเชิงพาณิชย์และไม่เชิงพาณิชย์ภายใต้ไลเซนส์ CC BY 4.0
- มีเวอร์ชันขยายที่สามารถใช้งานได้โดยตรงใน NeMo Data Designer แยกต่างหากด้วย
10 ความคิดเห็น
ผมก็กะว่าจะเอามาลงใน GeekNews อยู่แล้วเหมือนกัน..
https://manyperson.com/
กำลังทำบริการเพอร์โซนาที่เกี่ยวข้องอยู่ครับ
ผมก็ใช้ข้อมูล MDIS เหมือนกัน และใช้ Gemini ครับ
Show GN: ManyPerson - เครื่องมือจำลองความคิดเห็นสาธารณะของ AI Persona เกาหลีบนพื้นฐาน MDIS ของสำนักงานสถิติ
ขอบคุณสำหรับข้อมูล
ขอบคุณสำหรับข้อมูลดี ๆ นะครับ แบบนี้นี่เองที่ใช้สร้างเพอร์โซนา
มีประโยชน์มาก!
https://github.com/civilian7/korean-people-persona
เพราะมีความจำเป็นส่วนตัว
จึงได้ทำและอัปโหลดโปรแกรม Python ที่สามารถแปลงข้อมูลที่เปิดเผยต่อสาธารณะเป็น sqlite3 ได้
พร้อมตัวอย่างเซิร์ฟเวอร์ mcp
ดูเหมือนว่าจนถึงไม่นานมานี้ อัตราการเข้าศึกษาต่อมหาวิทยาลัยหลักสูตร 4 ปีของคนวัย 20 กว่ายังไม่ถึง 50% อยู่เลย แต่ตอนนี้น่าจะเกินแล้วสินะ
มีสถิติที่น่าสนใจอยู่เยอะเลยนะ
ผมได้เสริมคำอธิบายโดยอ้างอิงจากเอกสารนำเสนอเกี่ยวกับชุดข้อมูลนี้
Nemotron-Personas-Korea, เปิดเผยชุดข้อมูลเพอร์โซนาชุดแรกของเกาหลีใต้! - LinkedIn
Nemotron-Personas-Korea : ชุดข้อมูลเพอร์โซนาชุดแรกของเกาหลีใต้ - ลิงก์ PDF
เมื่อเทียบกับสิ่งที่ LLM ต่างประเทศสร้างขึ้น เพอร์โซนาเหล่านี้สมจริงเกินไปจริงๆ
"คุณพัคโฮชอลเป็นที่ปรึกษารุ่นเก๋าของศูนย์ประกันภัยวอนจู ผู้สวมหูฟังรับมือกับคำร้องเรียนรุนแรงนับสิบสายต่อวันอย่างเงียบๆ และอธิบายเงื่อนไขประกันที่ซับซ้อนให้เข้าใจง่ายราวกับลุงข้างบ้านเป็นคนอธิบาย
"เขาใช้ชีวิตท่ามกลางทิวทัศน์อันเงียบสงบริมแม่น้ำอิมจินในพาจูมานานหลายสิบปี และหลังจบมัธยมปลายก็เข้าสู่งานภาคสนามด้านประปาทันที ทำให้มีภูมิปัญญาชีวิตที่สั่งสมจากการลงมือทำอย่างลึกซึ้ง ช่วงหลังมานี้เขามักใช้สมาร์ตโฟนติดตามรีวิวเครื่องใช้ไฟฟ้ารุ่นใหม่ๆ หรือวิดีโอเกี่ยวกับความเป็นไปของโลก เพื่อเปิดรับข้อมูลใหม่ๆ อยู่เสมอ"