NVIDIA Nemotron-Personas-Korea - ชุดข้อมูลเพอร์โซนาสังเคราะห์ 1 ล้านรายการจากการกระจายประชากรจริงของเกาหลีใต้
(huggingface.co)- ชุดข้อมูลเพอร์โซนาภาษาเกาหลีขนาดใหญ่ชุดแรก ที่สะท้อนการกระจายด้านประชากรศาสตร์ ภูมิศาสตร์ และบุคลิกภาพจากข้อมูลสาธารณะจริงของเกาหลีใต้ เช่น Statistics Korea, ศาลฎีกา และ National Health Insurance Service
- มี 1 ล้านเรกคอร์ด รวม 7 ล้านเพอร์โซนา ประกอบด้วย 26 ฟิลด์ เช่น ชื่อ เพศ อายุ สถานภาพสมรส ระดับการศึกษา อาชีพ และพื้นที่อาศัย
- สร้างด้วย NeMo Data Designer ซึ่งเป็นระบบสร้างข้อมูลสังเคราะห์ระดับองค์กร และโมเดล google/gemma-4-31B-it
- ช่วยลด อคติของโมเดล Sovereign AI โดยสะท้อนกลุ่มผู้สูงอายุ พื้นที่ชนบท และการกระจายด้านการศึกษาและอาชีพที่หลากหลายได้ดีกว่าชุดข้อมูลเพอร์โซนาเดิม
- ใช้งานได้อย่างอิสระทั้งเชิงพาณิชย์และไม่ใช่เชิงพาณิชย์ภายใต้ไลเซนส์ CC BY 4.0
ปัญหาของเพอร์โซนาเกาหลีที่ LLM เดิมสร้างขึ้น
- เพอร์โซนาคือคำบรรยายเกี่ยวกับลักษณะเฉพาะ ความสนใจ บุคลิกภาพ อาชีพ ฯลฯ ของบุคคล และชุดข้อมูลที่รวมเพอร์โซนาไว้ควรสะท้อน ลักษณะทางวัฒนธรรมและการกระจายตัว ของกลุ่มนั้นอย่างถูกต้อง
- แม้จะป้อนพรอมป์ต์ให้ foreign LLM ว่า "สร้างโปรไฟล์บุคคลที่สมจริงและหลากหลายในสังคมเกาหลี" ผลลัพธ์ก็ยัง บิดเบือนอย่างรุนแรง
- เช่น 40% ของเพอร์โซนาที่สร้างขึ้นเลือกสลัดเป็นอาหารโปรด หรือให้ผลลัพธ์ที่ไม่สมจริงอย่าง "ฉันทำสวนแอปเปิลในเมืองอันดง จังหวัดคย็องซังเหนือ"
- เมื่อสุ่มตัวอย่างเพอร์โซนาเกาหลี 2,000 รายการด้วย Claude Opus 4.7 พบอคติรุนแรงในด้านการกระจายอาชีพ โดย 77.6% ถูกสร้างเป็น "เกษตรกรปลูกส้มยูจา"
- สำหรับ GPT-5.4 นั้น 90.1% ถูกสร้างเป็น "ผู้ดูแลผู้สูงอายุ"
- มี อคติที่ไม่สอดคล้องกับสภาพจริงของเกาหลีใต้ในทุกด้าน ไม่ว่าจะเป็นการกระจายตัวของเมือง รูปแบบครอบครัว รูปแบบการถือครองที่อยู่อาศัย หรือความชอบด้านอาหาร
ภาพรวมและวัตถุประสงค์ของชุดข้อมูล
- ชุดข้อมูลเพอร์โซนาสังเคราะห์โอเพนซอร์สที่ออกแบบมาเพื่อสะท้อนความหลากหลายและลักษณะของประชากรเกาหลีใต้อย่างกว้างขวาง
- เขียนด้วย ภาษาเกาหลี เพื่อให้ทุกคนอ่านได้ง่าย
- เป้าหมายหลักคือบรรเทา ข้อมูลที่ขาดหายและอคติแฝง ในข้อมูลฝึกเมื่อสร้างระบบ Sovereign AI
- มุ่งแก้ปัญหาอคติในชุดข้อมูลเพอร์โซนาที่ใช้สร้างข้อมูลสังเคราะห์ โดยเฉพาะในมิติของอายุ ภูมิภาค ระดับการศึกษา และอาชีพ
แหล่งข้อมูลและวิธีการสร้าง
- ใช้ข้อมูลสำมะโนประชากรจาก KOSIS (National Statistical Portal ของ Statistics Korea) ที่เกี่ยวข้องกับเพศ พื้นที่ อุตสาหกรรม อาชีพ การท่องเที่ยว และการใช้เวลาว่าง
- ใช้ข้อมูลปีเกิด เพศ และชื่อจาก ศาลฎีกา, ข้อมูลการตรวจสุขภาพจาก National Health Insurance Service, และผลสำรวจพฤติกรรมการบริโภคอาหารจาก Korea Rural Economic Institute
- NAVER Cloud ให้ข้อมูลตั้งต้นและความเชี่ยวชาญเฉพาะโดเมนในขั้นตอนการออกแบบ
- ใช้ Probabilistic Graphical Model (PGM) ที่พัฒนาขึ้นเอง, โมเดล google/gemma-4-31B-it ภายใต้ไลเซนส์ Apache-2.0 และวิธีการตรวจสอบ/ประเมินผลของ NeMo Data Designer
- ครอบคลุมข้อมูลอย่างชื่อ อายุ เพศ พื้นที่ สถานภาพสมรส ครอบครัว ที่อยู่อาศัย การศึกษา สาขาวิชา กิจกรรมทางเศรษฐกิจ รายได้ กลุ่มอุตสาหกรรม กลุ่มอาชีพ ความดันโลหิต น้ำตาลในเลือด รอบเอว BMI การท่องเที่ยว เวลาว่าง ประเภทร้านอาหารที่ชอบ ความถี่ในการสั่งเดลิเวอรีและกินข้าวนอกบ้าน ฯลฯ
- ข้อมูลทั้งหมดสะท้อนการกระจายจริง แต่เป็นข้อมูลที่ สังเคราะห์ขึ้นทั้งหมด และความคล้ายคลึงกับบุคคลจริงเป็นเพียงเรื่องบังเอิญ
ขนาดและองค์ประกอบของชุดข้อมูล
- มีทั้งหมด 1 ล้านเรกคอร์ด คิดเป็น 1.7 พันล้านโทเค็น (1 พันล้านโทเค็นของเพอร์โซนา)
- 26 ฟิลด์: 7 ฟิลด์เพอร์โซนา, 6 ฟิลด์คุณลักษณะเพอร์โซนา, 12 ฟิลด์บริบทด้านประชากรศาสตร์และภูมิศาสตร์, และ 1 ตัวระบุเฉพาะ
- ครอบคลุมเขตการปกครองอย่างครบถ้วนทั้ง 17 จังหวัด/นครระดับพิเศษ และ 252 เมือง/เขต/อำเภอ
- มี ชุดชื่อ-นามสกุลที่ไม่ซ้ำกันมากกว่า 209,000 ชุด (118 นามสกุล, 21,400 ชื่อ)
- เพอร์โซนา 7 ประเภท: อาชีพ กีฬา ศิลปะ การท่องเที่ยว อาหาร ครอบครัว และสรุป
- คุณลักษณะเพอร์โซนาเพิ่มเติม: พื้นเพทางวัฒนธรรม ทักษะและความเชี่ยวชาญ เป้าหมาย/ความทะเยอทะยานในอาชีพ งานอดิเรก/ความสนใจ
การกระจายของชื่อ
- ปัจจุบันข้อมูลชื่อที่เปิดเผยในเกาหลีใต้ จำกัดเฉพาะหลังปี 2008
- Nemotron-Personas-Korea เป็นชุดข้อมูลสาธารณะ ชุดแรกที่อิงข้อมูลชื่อแบบครอบคลุมของเกาหลีใต้ตั้งแต่ปี 1940
- แก้ปัญหาการกำหนดชื่อที่ไม่สอดคล้องกับยุคสมัย เช่น "คิมฮายุลอายุ 82 ปี?" หรือ "คิมซุนจาอายุ 21 ปี?"
- การกระจายของนามสกุลมีสัดส่วนสูงสุด 5 อันดับแรก ได้แก่ Kim (21.5%), Lee (14.7%), Park (8.5%), Jeong (4.8%), Choi (4.7%) รวมกันคิดเป็นประมาณ 54% ของทั้งหมด
- ชื่อสะท้อน แนวโน้มการตั้งชื่อตามรุ่นอายุ โดยขึ้นอยู่กับเพศและปีเกิด
- ผู้หญิง: มีทั้งชื่อของคนรุ่นอายุมากอย่าง Yeong-suk, Jeong-suk, Sun-ja และชื่อของคนรุ่นใหม่อย่าง Ji-young, Yu-jin, Ji-hyeon
- ผู้ชาย: ชื่อสมัยใหม่อย่าง Ji-hoon, Hyeon-woo, Jun-ho อยู่ในอันดับต้น ๆ
- ชื่อเต็มที่พบบ่อยที่สุดคือ Kim Yeong-suk ซึ่งสอดคล้องกับผลสำรวจจริง
การกระจายอายุ
- มีโครงสร้างแบบ ทรงไหที่ป่องตรงกลาง สะท้อนโครงสร้างประชากรปัจจุบันที่กำลังเผชิญทั้งภาวะเกิดต่ำและสังคมสูงวัยอย่างสมจริง
- ช่วงที่หนาแน่นที่สุดคือ 50~64 ปี (สัดส่วนประมาณ 0.09) ซึ่งตรงกับคนรุ่นเบบี้บูมในทศวรรษ 1960~70
- ในกลุ่มอายุ 70 ปีขึ้นไป สัดส่วนผู้หญิงสูงกว่าผู้ชายอย่างชัดเจน
- ในช่วงอายุ 80~89 ปี สัดส่วนผู้หญิงมากกว่าผู้ชายประมาณ 1.52 เท่า
การกระจายสถานภาพสมรส
- สัดส่วนโสดอยู่ที่ มากกว่า 95% ในช่วงอายุ 19~24 ปี และลดลงจาก 55% → 31% ในวัย 30 ปี ซึ่งสอดคล้องกับแนวโน้มแต่งงานช้าที่มีอายุเฉลี่ยแต่งงานครั้งแรก 31~33 ปี
- สัดส่วนมีคู่สมรสเพิ่มขึ้นเป็น 64% ตั้งแต่อายุ 35 ปี และสูงสุดที่ 78% ในช่วงปลายวัย 50
- การเป็นหม้าย/ม่ายเพิ่มขึ้นอย่างรวดเร็วตั้งแต่วัย 60 ปี แตะ 66% ในช่วงปลายวัย 80 และ 74~81% ในวัย 90
- การหย่าร้างสูงสุดราว 12% ในช่วงอายุ 50 ปีถึงต้น 60 ปี สอดคล้องกับแนวโน้มหย่าร้างในวัยปลาย
การกระจายประเภทครัวเรือน
- ในทุกช่วงอายุ ครัวเรือนแบบ คู่สมรส+บุตรโสด มีสัดส่วนสูงที่สุด และสูงสุดที่ 63.6% ในวัย 19 ปี
- หลังอายุ 50 ปี ครัวเรือนแบบ คู่สมรส เพิ่มขึ้นอย่างมาก และแตะจุดสูงสุด 45.7% ในช่วงอายุ 65~69 ปี
- ครัวเรือนคนเดียว มีรูปแบบยอดคู่ โดยอยู่ที่ 15~22% ในช่วงต้นวัย 20 และ 21~32% หลังอายุ 75 ปี
- ครัวเรือนแม่+บุตรโสด (5~14%) สูงกว่าพ่อ+บุตรโสด (2~5%) สะท้อน ความไม่สมมาตรทางเพศ ของครัวเรือนพ่อหรือแม่เลี้ยงเดี่ยว
การกระจายระดับการศึกษา
- คนรุ่นใหม่อายุ 20~34 ปี มี สัดส่วนจบมหาวิทยาลัย 4 ปีเกิน 50% และหากรวมวิทยาลัยสายอาชีพจะมีประมาณ 75% ที่มีการศึกษาระดับวิทยาลัยขึ้นไป
- ในกลุ่มอายุ 80 ปีขึ้นไป ผู้ไม่ได้รับการศึกษา (36%) และจบประถมศึกษา (37%) รวมกันคิดเป็น 73%
- เมื่อแยกตามพื้นที่ สัดส่วนผู้จบปริญญาตรีขึ้นไปสูงสุดคือ Sejong (49.0%), Seoul (45.1%), Daejeon (39.7%)
- Sejong ได้รับอิทธิพลจากการย้ายเข้าของข้าราชการและนักวิจัยที่มีการศึกษาสูงตามการย้ายที่ตั้งของ Government Complex Sejong
การกระจายอาชีพ
- กลุ่มผู้เชี่ยวชาญและงานสำนักงาน มีสัดส่วนสูงที่สุด สะท้อนโครงสร้างเศรษฐกิจที่ขับเคลื่อนด้วยบริการและความรู้
- ในกลุ่มงานขาย พนักงานขายสินค้าออนไลน์ ครองอันดับ 1 ที่ 19.8% แสดงให้เห็นสัดส่วนอีคอมเมิร์ซที่สูง
- ในกลุ่มแรงงานทั่วไป มีการกระจุกตัวที่เจ้าหน้าที่รักษาความปลอดภัยอาคาร (21.3%) และพนักงานทำความสะอาดอาคาร (16.0%)
- ทหารคิดเป็นประมาณ 1% ของผู้มีงานทำทั้งหมด และมากกว่าสองในสามอยู่ในกองทัพบก
ข้อจำกัดและข้อพึงระวังทางเทคนิค
- เนื่องจากข้อจำกัดด้านความพร้อมใช้และความทันสมัยของข้อมูลสาธารณะ รวมถึงข้อจำกัดเชิงปฏิบัติของโมเดล PGM จึงมีการใช้ สมมติฐานความเป็นอิสระ ระหว่างตัวแปรบางตัว
- ตัวอย่าง: ในการกำหนดอาชีพย่อย สมมติว่าเพศ รายได้ การศึกษา และสาขาวิชามีผลอย่างอิสระต่อกัน โดยไม่ได้สะท้อนปฏิสัมพันธ์ระหว่างตัวแปร
- ไม่มีการสะท้อนข้อมูล gender เนื่องจากไม่มีสถิติภาครัฐของเกาหลีใต้ที่ครอบคลุมในด้านนี้
- รวมเฉพาะเพอร์โซนาผู้ใหญ่ที่มีอายุ 19 ปีขึ้นไป
- ไม่รวมเพอร์โซนาที่เกี่ยวข้องกับลูกค้าองค์กร เช่น การเงินและเฮลท์แคร์
ผลลัพธ์ที่ดีขึ้นเมื่อเทียบกับแนวทางที่พึ่งพา LLM
- หากพึ่งพา LLM อย่างเดียว การกระจายเมืองจะเอนเอียงไปที่เมืองอย่าง Suncheon และ Changwon แต่ Nemotron-Personas-Korea สะท้อน การกระจายตามสัดส่วนประชากรจริง เช่น Hwaseong ใน Gyeonggi, Namyangju และ Songpa-gu ใน Seoul
- รูปแบบครอบครัวขยายจากการเน้นแต่ครัวเรือนคนเดียวไปสู่ รูปแบบที่หลากหลาย เช่น อยู่กับคู่สมรส อยู่กับคู่สมรสและบุตร หรืออยู่กับพ่อแม่
- รูปแบบการถือครองที่อยู่อาศัยก็สะท้อน สัดส่วนจริงของเจ้าของและผู้เช่า แทนที่จะเป็นเจ้าของ 100%
- การกระจายของอาหารก็สะท้อน วัฒนธรรมอาหารจริง เช่น bibimbap, อาหารญี่ปุ่น, ไก่ทอด, galbi, samgyeopsal, tteokbokki, bunsik, ขนมปัง, doenjang-jjigae และ jajangmyeon แทนที่จะมีแต่สลัด
ตัวอย่างการสะท้อนวัฒนธรรม
- "จองจุน วัย 33 ปี ชาวชนชั้นลูกที่โตแล้วแต่ยังอาศัยอยู่กับพ่อแม่ ที่คลายความเหนื่อยจากวันทำงานด้วย samgyeopsal และโซจูกับเพื่อนร่วมงานระหว่างทางกลับบ้าน" — อาศัยอยู่ใน Songpa-gu, Seoul, จบมหาวิทยาลัย 4 ปี, โสด, อาศัยอยู่กับพ่อแม่ สะท้อน ปรากฏการณ์ชนชั้นลูกที่โตแล้วแต่ยังอาศัยอยู่กับพ่อแม่ ในสังคมเกาหลี
- "คุณคิมชุนฮี วัย 73 ปีจาก Ulsan ที่ชอบเพลงของ Sim Soo-bong และชอบโพสต์รูปในห้องแชตกลุ่มครอบครัว" — ผู้หญิง, ไม่ได้รับการศึกษา, มีคู่สมรส, ไม่มีงานทำ สะท้อน ประชากรผู้หญิงสูงวัย
เหตุใดชุดข้อมูลเพอร์โซนาจึงช่วย LLM ได้
- มนุษย์แต่ละคนมี ความรู้เฉพาะตัว และเพอร์โซนาคือ ฟีโนไทป์ ที่ย่อความรู้เฉพาะเหล่านั้นไว้
- ตัวอย่าง: เพอร์โซนาช่างไฟฟ้าสามารถเป็นตัวกลางในการดึงความรู้ด้านไฟฟ้าออกมาจาก LLM
- ในข้อมูลสังเคราะห์ ความหลากหลายเป็นตัวชี้วัดที่สำคัญมาก และมนุษย์คือแหล่งกำเนิดความหลากหลายที่ดีที่สุด
- สามารถสร้างข้อมูลฝึกสังเคราะห์ที่หลากหลายตามเพอร์โซนาได้ในรูปแบบอย่าง "ลองสร้างโจทย์การให้เหตุผลเชิงตรรกะที่เกี่ยวข้องกับ {เพอร์โซนาที่กำหนด} ดู"
กรณีใช้งานจริง
- ปรับปรุงประสิทธิภาพการใช้เครื่องมือทั่วไป: ให้ tool set และเพอร์โซนาร่วมกับผู้ใช้-LLM เพื่อสังเคราะห์ข้อมูลและฝึกโมเดล โดย Nemotron-Nano-9B-v2-Japanese นำวิธีนี้ไปใช้จนได้ อันดับ 1 บนลีดเดอร์บอร์ด Nejumi และยังนำแนวทางคล้ายกันไปใช้กับ Nemotron Nano v3 และ Super v3
- เพิ่มความปลอดภัยของโมเดล: ใช้เป็นข้อมูลตั้งต้นของชุดข้อมูล Sensitive-safety-category-refusals (SSCR) โดยชุดข้อมูล SSCR รวมอยู่ใน nemotron-safety-blend
วิธีใช้งานและไลเซนส์
- โหลดได้ผ่านไลบรารี Python
datasetsโดยเรียกload_dataset("nvidia/Nemotron-Personas-Korea") - ใช้งานได้อย่างอิสระทั้งเชิงพาณิชย์และไม่ใช่เชิงพาณิชย์ภายใต้ไลเซนส์ CC BY 4.0
- มีเวอร์ชันขยายที่ใช้งานได้โดยตรงบน NeMo Data Designer แยกให้ต่างหาก
10 ความคิดเห็น
ผมก็กะว่าจะเอามาลงใน GeekNews อยู่แล้วเหมือนกัน..
https://manyperson.com/
กำลังทำบริการเพอร์โซนาที่เกี่ยวข้องอยู่ครับ
ผมก็ใช้ข้อมูล MDIS เหมือนกัน และใช้ Gemini ครับ
Show GN: ManyPerson - เครื่องมือจำลองความคิดเห็นสาธารณะของ AI Persona เกาหลีบนพื้นฐาน MDIS ของสำนักงานสถิติ
ขอบคุณสำหรับข้อมูล
ขอบคุณสำหรับข้อมูลดี ๆ นะครับ แบบนี้นี่เองที่ใช้สร้างเพอร์โซนา
มีประโยชน์มาก!
https://github.com/civilian7/korean-people-persona
เพราะมีความจำเป็นส่วนตัว
จึงได้ทำและอัปโหลดโปรแกรม Python ที่สามารถแปลงข้อมูลที่เปิดเผยต่อสาธารณะเป็น sqlite3 ได้
พร้อมตัวอย่างเซิร์ฟเวอร์ mcp
ดูเหมือนว่าจนถึงไม่นานมานี้ อัตราการเข้าศึกษาต่อมหาวิทยาลัยหลักสูตร 4 ปีของคนวัย 20 กว่ายังไม่ถึง 50% อยู่เลย แต่ตอนนี้น่าจะเกินแล้วสินะ
มีสถิติที่น่าสนใจอยู่เยอะเลยนะ
ผมได้เสริมคำอธิบายโดยอ้างอิงจากเอกสารนำเสนอเกี่ยวกับชุดข้อมูลนี้
Nemotron-Personas-Korea, เปิดเผยชุดข้อมูลเพอร์โซนาชุดแรกของเกาหลีใต้! - LinkedIn
Nemotron-Personas-Korea : ชุดข้อมูลเพอร์โซนาชุดแรกของเกาหลีใต้ - ลิงก์ PDF
เมื่อเทียบกับสิ่งที่ LLM ต่างประเทศสร้างขึ้น เพอร์โซนาเหล่านี้สมจริงเกินไปจริงๆ
"คุณพัคโฮชอลเป็นที่ปรึกษารุ่นเก๋าของศูนย์ประกันภัยวอนจู ผู้สวมหูฟังรับมือกับคำร้องเรียนรุนแรงนับสิบสายต่อวันอย่างเงียบๆ และอธิบายเงื่อนไขประกันที่ซับซ้อนให้เข้าใจง่ายราวกับลุงข้างบ้านเป็นคนอธิบาย
"เขาใช้ชีวิตท่ามกลางทิวทัศน์อันเงียบสงบริมแม่น้ำอิมจินในพาจูมานานหลายสิบปี และหลังจบมัธยมปลายก็เข้าสู่งานภาคสนามด้านประปาทันที ทำให้มีภูมิปัญญาชีวิตที่สั่งสมจากการลงมือทำอย่างลึกซึ้ง ช่วงหลังมานี้เขามักใช้สมาร์ตโฟนติดตามรีวิวเครื่องใช้ไฟฟ้ารุ่นใหม่ๆ หรือวิดีโอเกี่ยวกับความเป็นไปของโลก เพื่อเปิดรับข้อมูลใหม่ๆ อยู่เสมอ"