61 คะแนน โดย GN⁺ 3 일 전 | 10 ความคิดเห็น | แชร์ทาง WhatsApp
  • ชุดข้อมูลเพอร์โซนาภาษาเกาหลีขนาดใหญ่ชุดแรกที่สะท้อนการกระจายด้านประชากรศาสตร์ ภูมิศาสตร์ และบุคลิกภาพตามข้อมูลจริง โดยอ้างอิงข้อมูลสาธารณะจาก Statistics Korea, ศาลฎีกาเกาหลี และ National Health Insurance Service เป็นต้น
  • มี 1 ล้านเรคอร์ด รวม 7 ล้านเพอร์โซนา ประกอบด้วย 26 ฟิลด์ เช่น ชื่อ เพศ อายุ สถานภาพสมรส ระดับการศึกษา อาชีพ และพื้นที่อยู่อาศัย
  • สร้างขึ้นโดยใช้ NeMo Data Designer ระบบสร้างข้อมูลสังเคราะห์ระดับองค์กร และโมเดล google/gemma-4-31B-it
  • เมื่อเทียบกับชุดข้อมูลเพอร์โซนาเดิม ชุดนี้สะท้อนกลุ่มผู้สูงอายุ พื้นที่ชนบท และการกระจายของการศึกษา/อาชีพที่หลากหลายได้ดีกว่า จึงช่วย ลดอคติของโมเดล Sovereign AI
  • ใช้งานได้อย่างอิสระทั้งเชิงพาณิชย์และไม่เชิงพาณิชย์ภายใต้ไลเซนส์ CC BY 4.0

ปัญหาของเพอร์โซนาเกาหลีที่ LLM เดิมสร้างขึ้น

  • เพอร์โซนาคือคำบรรยายถึงลักษณะเฉพาะ ความสนใจ บุคลิกภาพ อาชีพ ฯลฯ ของบุคคล และชุดข้อมูลที่รวมเพอร์โซนาเหล่านี้ควรสะท้อน ลักษณะทางวัฒนธรรมและการกระจายตัว ของกลุ่มนั้นอย่างถูกต้อง
  • แม้จะป้อนพรอมป์ให้ LLM ต่างชาติว่า “สร้างโปรไฟล์บุคคลที่สมจริงและหลากหลายในสังคมเกาหลี” ผลลัพธ์ก็ยัง บิดเบือนอย่างรุนแรง
    • เช่น เพอร์โซนาที่สร้างขึ้น 40% เลือกสลัดเป็นอาหารโปรด หรือให้ผลลัพธ์ไม่สมจริงอย่าง “ฉันทำสวนแอปเปิลอยู่ที่เมืองอันดง จังหวัดคย็องซังเหนือ”
  • เมื่อนำเพอร์โซนาเกาหลี 2,000 รายการที่สุ่มจาก Claude Opus 4.7 มาตรวจสอบ พบอคติสุดโต่งในด้านการกระจายอาชีพ โดย 77.6% ถูกสร้างเป็น “เกษตรกรปลูกส้มยูจา”
  • สำหรับ GPT-5.4 พบว่า 90.1% ถูกสร้างเป็น “ผู้ดูแลผู้สูงอายุ”
  • มี อคติที่ไม่สอดคล้องกับสภาพจริงของเกาหลีใต้ในทุกด้าน ไม่ว่าจะเป็นการกระจายตัวของเมือง รูปแบบครอบครัว รูปแบบการอยู่อาศัย หรือความชอบด้านอาหาร

ภาพรวมและวัตถุประสงค์ของชุดข้อมูล

  • ชุดข้อมูลเพอร์โซนาสังเคราะห์โอเพนซอร์สที่ออกแบบมาเพื่อสะท้อนความหลากหลายและลักษณะของประชากรเกาหลีใต้อย่างกว้างขวาง
  • เขียนเป็น ภาษาเกาหลี เพื่อให้ทุกคนอ่านได้ง่าย
  • เป้าหมายหลักคือการ ลดข้อมูลสูญหายและอคติแฝง ในข้อมูลฝึกเมื่อนำไปสร้างระบบ Sovereign AI
  • มุ่งแก้อคติในชุดข้อมูลเพอร์โซนาที่ใช้สร้างข้อมูลสังเคราะห์ โดยเฉพาะอคติในมิติอายุ ภูมิภาค ระดับการศึกษา และอาชีพ

แหล่งข้อมูลและวิธีการสร้าง

  • ใช้ข้อมูลสำมะโนประชากรจาก KOSIS (พอร์ทัลสถิติแห่งชาติของ Statistics Korea) ที่เกี่ยวข้องกับเพศ ภูมิภาค อุตสาหกรรม อาชีพ การท่องเที่ยว และกิจกรรมยามว่าง
  • ใช้ข้อมูลปีเกิด เพศ และชื่อจาก ศาลฎีกาเกาหลี, ข้อมูลตรวจสุขภาพจาก National Health Insurance Service, และผลสำรวจพฤติกรรมการบริโภคอาหารจาก Korea Rural Economic Institute
  • NAVER Cloud ให้ข้อมูลเริ่มต้นและองค์ความรู้เฉพาะทางในขั้นตอนการออกแบบ
  • ใช้ Probabilistic Graphical Model (PGM) ที่พัฒนาขึ้นเอง ร่วมกับโมเดล google/gemma-4-31B-it ภายใต้ไลเซนส์ Apache-2.0 และวิธีการตรวจสอบ/ประเมินผลของ NeMo Data Designer
  • ครอบคลุมชื่อ อายุ เพศ ภูมิภาค การสมรส ครอบครัว ที่อยู่อาศัย การศึกษา สาขาวิชา สถานะทางเศรษฐกิจ รายได้ กลุ่มอุตสาหกรรม กลุ่มอาชีพ ความดันโลหิต น้ำตาลในเลือด รอบเอว BMI การท่องเที่ยว กิจกรรมยามว่าง ประเภทร้านอาหารที่ชอบ ความถี่ในการสั่งเดลิเวอรีและกินนอกบ้าน ฯลฯ
  • ข้อมูลทั้งหมดสะท้อนการกระจายจริง แต่ ถูกสังเคราะห์ขึ้นทั้งหมด และความคล้ายคลึงกับบุคคลจริงเป็นเรื่องบังเอิญ

ขนาดและองค์ประกอบของชุดข้อมูล

  • รวมทั้งหมด 1.7 พันล้านโทเค็น (โทเค็นเพอร์โซนา 1 พันล้าน) ใน 1 ล้านเรคอร์ด
  • 26 ฟิลด์: 7 ฟิลด์เพอร์โซนา, 6 ฟิลด์คุณลักษณะเพอร์โซนา, 12 ฟิลด์บริบทด้านประชากรศาสตร์/ภูมิศาสตร์ และ 1 ตัวระบุเฉพาะ
  • ครอบคลุมเขตการปกครอง 17 จังหวัด/นครระดับพิเศษ และ 252 เมือง/เขต/อำเภอ อย่างครบถ้วน
  • มี ชุดชื่อ-นามสกุลที่ไม่ซ้ำกันกว่า 209,000 ชุด (118 นามสกุล, 21,400 ชื่อ)
  • เพอร์โซนา 7 ประเภท: อาชีพ กีฬา ศิลปะ การท่องเที่ยว อาหาร ครอบครัว และสรุป
  • คุณลักษณะเพอร์โซนาเพิ่มเติม: ภูมิหลังทางวัฒนธรรม ทักษะและความเชี่ยวชาญ เป้าหมาย/ความใฝ่ฝันด้านอาชีพ และงานอดิเรก/ความสนใจ

การกระจายของชื่อ

  • ปัจจุบันข้อมูลชื่อที่เปิดเผยในเกาหลีใต้มี จำกัดเพียงหลังปี 2008
  • Nemotron-Personas-Korea เป็นชุดข้อมูลสาธารณะ ชุดแรกที่อิงข้อมูลชื่อแบบครอบคลุมของเกาหลีใต้ตั้งแต่ปี 1940
  • ช่วยแก้ปัญหาการจับคู่ชื่อที่ไม่สอดคล้องกับยุคสมัย เช่น “คิมฮายุล อายุ 82?” หรือ “คิมซุนจา อายุ 21?”
  • การกระจายของนามสกุลมี 5 อันดับแรก ได้แก่ Kim (21.5%), Lee (14.7%), Park (8.5%), Jung (4.8%), Choi (4.7%) รวมกันคิดเป็นประมาณ 54% ของทั้งหมด
  • ชื่อสะท้อน แนวโน้มการตั้งชื่อตามรุ่นอายุ โดยขึ้นอยู่กับเพศและปีเกิด
    • ผู้หญิง: มีทั้งชื่อของคนรุ่นอายุมาก เช่น Young-sook, Jung-sook, Soon-ja และชื่อของคนรุ่นใหม่ เช่น Ji-young, Yoo-jin, Ji-hyun
    • ผู้ชาย: ชื่อสมัยใหม่อย่าง Ji-hoon, Hyun-woo, Jun-ho อยู่ในอันดับต้น ๆ
  • ชื่อที่พบบ่อยที่สุดโดยรวมคือ Kim Young-sook ซึ่งสอดคล้องกับผลสำรวจจริง

การกระจายของอายุ

  • มีโครงสร้างแบบ ทรงไหที่นูนตรงกลาง สะท้อนโครงสร้างประชากรปัจจุบันที่มีทั้งอัตราเกิดต่ำและสังคมสูงวัย
  • ช่วงที่มีสัดส่วนหนาแน่นที่สุดคือ 50–64 ปี (สัดส่วนประมาณ 0.09) ซึ่งตรงกับคนรุ่นเบบี้บูมในทศวรรษ 1960–70
  • ในกลุ่มอายุ 70 ปีขึ้นไป สัดส่วนผู้หญิงสูงกว่าผู้ชายอย่างชัดเจน
    • ในช่วงอายุ 80–89 ปี สัดส่วนผู้หญิงมากกว่าผู้ชายประมาณ 1.52 เท่า

การกระจายของสถานภาพสมรส

  • สัดส่วนโสดในช่วงอายุ 19–24 ปีอยู่ที่ มากกว่า 95% และลดลงจาก 55% → 31% ในวัย 30 ปี สอดคล้องกับแนวโน้มแต่งงานช้าที่มีอายุเฉลี่ยแต่งงานครั้งแรก 31–33 ปี
  • สัดส่วนผู้มีคู่สมรสเพิ่มขึ้นเป็น 64% ตั้งแต่อายุ 35 ปี และสูงสุดที่ 78% ในช่วงปลายวัย 50
  • การเป็นหม้าย/ม่ายเพิ่มขึ้นอย่างรวดเร็วตั้งแต่วัย 60 ปี แตะ 66% ในช่วงปลายวัย 80 และ 74–81% ในวัย 90
  • การหย่าร้างสูงสุดราว 12% ในช่วงวัย 50 ถึงต้นวัย 60 สอดคล้องกับแนวโน้มหย่าร้างในบั้นปลายชีวิต

การกระจายของประเภทครัวเรือน

  • ในทุกช่วงอายุ ครัวเรือนแบบ คู่สมรส+บุตรโสด มีสัดส่วนสูงที่สุด โดยสูงสุดที่ 63.6% ในวัย 19 ปี
  • หลังอายุ 50 ปี ครัวเรือนคู่สมรส เพิ่มขึ้นอย่างรวดเร็ว และสูงสุดที่ 45.7% ในช่วงอายุ 65–69 ปี
  • ครัวเรือนคนเดียว มีรูปแบบยอดคู่ โดยสูงในช่วงต้นวัย 20 (15–22%) และหลังอายุ 75 ปี (21–32%)
  • ครัวเรือนแม่+บุตรโสด (5–14%) สูงกว่าครัวเรือนพ่อ+บุตรโสด (2–5%) แสดงให้เห็น ความไม่สมมาตรทางเพศ ของครัวเรือนพ่อหรือแม่เลี้ยงเดี่ยว

การกระจายของระดับการศึกษา

  • คนรุ่นอายุน้อย 20–34 ปีมี สัดส่วนจบมหาวิทยาลัย 4 ปีมากกว่า 50% และเมื่อรวมวิทยาลัยอาชีวะ/อนุปริญญาแล้ว ราว 75% มีการศึกษาระดับอุดมศึกษาขึ้นไป
  • ในกลุ่มอายุ 80 ปีขึ้นไป ผู้ไม่มีการศึกษา (36%) และผู้จบประถมศึกษา (37%) รวมกันคิดเป็น 73% ของทั้งหมด
  • ตามภูมิภาค Sejong (49.0%), Seoul (45.1%) และ Daejeon (39.7%) มีสัดส่วนผู้จบปริญญาตรีขึ้นไปสูงที่สุด
    • Sejong ได้รับอิทธิพลจากการย้ายเข้าสู่เมืองของข้าราชการและนักวิจัยที่มีการศึกษาสูง หลังการย้ายที่ตั้งของ Government Complex Sejong

การกระจายของอาชีพ

  • ผู้เชี่ยวชาญและพนักงานสำนักงาน มีสัดส่วนมากที่สุด สะท้อนโครงสร้างเศรษฐกิจที่ขับเคลื่อนด้วยบริการและความรู้
  • ในสายงานขาย พนักงานขายออนไลน์ อยู่อันดับ 1 ที่ 19.8% แสดงถึงสัดส่วนอีคอมเมิร์ซที่สูง
  • ในงานแรงงานทั่วไป มีการกระจุกตัวที่เจ้าหน้าที่รักษาความปลอดภัยอาคาร (21.3%) และพนักงานทำความสะอาดอาคาร (16.0%)
  • ทหารคิดเป็นประมาณ 1% ของผู้มีงานทำทั้งหมด และมากกว่าสองในสามอยู่ในกองทัพบก

ข้อจำกัดและข้อพิจารณาทางเทคนิค

  • เนื่องจากข้อจำกัดด้านความพร้อมใช้และความทันสมัยของข้อมูลสาธารณะ รวมถึงข้อจำกัดเชิงปฏิบัติของโมเดล PGM จึงต้องใช้ สมมติฐานความเป็นอิสระ ระหว่างตัวแปรบางตัว
    • ตัวอย่าง: ในการกำหนดอาชีพย่อย สมมติว่าเพศ รายได้ การศึกษา และสาขาวิชาส่งผลอย่างเป็นอิสระต่อกัน โดยไม่สะท้อนปฏิสัมพันธ์ระหว่างตัวแปร
  • ไม่มีการรวมข้อมูลเชิงสถิติที่ครอบคลุมเกี่ยวกับ gender เนื่องจากไม่มีอยู่ในข้อมูลสาธารณะของเกาหลีใต้
  • รวมเฉพาะเพอร์โซนาผู้ใหญ่ที่มีอายุ 19 ปีขึ้นไป
  • ไม่รวมเพอร์โซนาที่เกี่ยวข้องกับลูกค้าองค์กรในด้านการเงิน เฮลท์แคร์ ฯลฯ

ผลการปรับปรุงเมื่อเทียบกับวิธีที่พึ่งพา LLM

  • เมื่อพึ่งพา LLM เพียงอย่างเดียว การกระจายของเมืองมักเอนเอียงไปที่เมืองอย่าง Suncheon หรือ Changwon แต่ Nemotron-Personas-Korea สะท้อน การกระจายตามสัดส่วนประชากรจริง เช่น Hwaseong และ Namyangju ใน Gyeonggi รวมถึง Songpa-gu ใน Seoul
  • รูปแบบครอบครัวขยายจากการเป็นครัวเรือนคนเดียวเกือบทั้งหมด ไปเป็น รูปแบบที่หลากหลาย เช่น อยู่กับคู่สมรส อยู่กับคู่สมรสและบุตร หรืออยู่กับพ่อแม่
  • รูปแบบการครอบครองที่อยู่อาศัยก็เปลี่ยนจากเป็นเจ้าของเอง 100% ไปเป็น สัดส่วนจริงของการเป็นเจ้าของและการเช่า
  • การกระจายของอาหารก็เปลี่ยนจากสลัดแทบทั้งหมด ไปเป็น วัฒนธรรมอาหารจริง เช่น bibimbap, อาหารญี่ปุ่น, ไก่, galbi, samgyeopsal, tteokbokki, bunsik, ขนมปัง, doenjang-jjigae และ jajangmyeon

ตัวอย่างการสะท้อนวัฒนธรรม

  • “จองจุน อายุ 33 ปี กลุ่มแคงการูที่ปลดความเหนื่อยล้าหลังเลิกงานด้วย samgyeopsal และ soju กับเพื่อนร่วมงานระหว่างทางกลับบ้าน” — อาศัยอยู่ที่ Songpa-gu, Seoul จบมหาวิทยาลัย 4 ปี โสด และอาศัยอยู่กับพ่อแม่ สะท้อน ปรากฏการณ์กลุ่มแคงการู ในสังคมเกาหลี
  • “คุณคิมชุนฮี อายุ 73 ปี จาก Ulsan ที่ชอบเพลงของ Shim Soo-bong และชอบอัปโหลดรูปลงแชตรวมของครอบครัว” — ผู้หญิง ไม่มีการศึกษา มีคู่สมรส และไม่ได้ทำงาน สะท้อน ประชากรหญิงสูงวัย

เหตุใดชุดข้อมูลเพอร์โซนาจึงช่วย LLM ได้

  • มนุษย์แต่ละคนมี ความรู้เฉพาะตัว และเพอร์โซนาคือ ฟีโนไทป์ ที่ย่อความรู้เฉพาะนั้นไว้
    • ตัวอย่าง: เพอร์โซนาช่างไฟฟ้าสามารถเป็นตัวกลางในการดึงความรู้เกี่ยวกับไฟฟ้าออกมาจาก LLM
  • ในข้อมูลสังเคราะห์ ความหลากหลายเป็นตัวชี้วัดที่สำคัญมาก และมนุษย์คือแหล่งที่มาของความหลากหลายที่ดีที่สุด
  • สามารถสร้างข้อมูลฝึกสังเคราะห์ที่หลากหลายตามเพอร์โซนาได้ในรูปแบบอย่าง “ลองสร้างโจทย์การให้เหตุผลเชิงตรรกะที่เกี่ยวข้องกับ {เพอร์โซนาที่กำหนด}”

ตัวอย่างการใช้งานจริง

  • ปรับปรุงประสิทธิภาพการใช้เครื่องมือทั่วไป: ป้อนทั้ง tool set และเพอร์โซนาให้ user-LLM เพื่อสังเคราะห์และฝึกข้อมูล โดย Nemotron-Nano-9B-v2-Japanese ได้นำแนวทางนี้ไปใช้และคว้า อันดับ 1 บนลีดเดอร์บอร์ด Nejumi และยังนำแนวทางคล้ายกันไปใช้กับ Nemotron Nano v3 และ Super v3 ด้วย
  • เพิ่มความปลอดภัยของโมเดล: ใช้เป็นข้อมูลตั้งต้นของชุดข้อมูล Sensitive-safety-category-refusals (SSCR) โดยชุดข้อมูล SSCR ถูกรวมอยู่ใน nemotron-safety-blend

วิธีใช้งานและไลเซนส์

  • โหลดได้ด้วยไลบรารี Python datasets โดยเรียก load_dataset("nvidia/Nemotron-Personas-Korea")
  • ใช้งานได้อย่างอิสระทั้งเชิงพาณิชย์และไม่เชิงพาณิชย์ภายใต้ไลเซนส์ CC BY 4.0
  • มีเวอร์ชันขยายที่สามารถใช้งานได้โดยตรงใน NeMo Data Designer แยกต่างหากด้วย

10 ความคิดเห็น

 
calmlake79 3 일 전

ผมก็กะว่าจะเอามาลงใน GeekNews อยู่แล้วเหมือนกัน..

https://manyperson.com/

กำลังทำบริการเพอร์โซนาที่เกี่ยวข้องอยู่ครับ
ผมก็ใช้ข้อมูล MDIS เหมือนกัน และใช้ Gemini ครับ

 
recast7838 2 일 전

ขอบคุณสำหรับข้อมูล

 
rlaaudgjs5638 2 일 전

ขอบคุณสำหรับข้อมูลดี ๆ นะครับ แบบนี้นี่เองที่ใช้สร้างเพอร์โซนา

 
dongho42 2 일 전

มีประโยชน์มาก!

 
civilian 3 일 전

https://github.com/civilian7/korean-people-persona

เพราะมีความจำเป็นส่วนตัว
จึงได้ทำและอัปโหลดโปรแกรม Python ที่สามารถแปลงข้อมูลที่เปิดเผยต่อสาธารณะเป็น sqlite3 ได้
พร้อมตัวอย่างเซิร์ฟเวอร์ mcp

 
nvkzrx 3 일 전

ดูเหมือนว่าจนถึงไม่นานมานี้ อัตราการเข้าศึกษาต่อมหาวิทยาลัยหลักสูตร 4 ปีของคนวัย 20 กว่ายังไม่ถึง 50% อยู่เลย แต่ตอนนี้น่าจะเกินแล้วสินะ

 
nvkzrx 3 일 전

มีสถิติที่น่าสนใจอยู่เยอะเลยนะ

 
xguru 3 일 전

เมื่อเทียบกับสิ่งที่ LLM ต่างประเทศสร้างขึ้น เพอร์โซนาเหล่านี้สมจริงเกินไปจริงๆ

"คุณพัคโฮชอลเป็นที่ปรึกษารุ่นเก๋าของศูนย์ประกันภัยวอนจู ผู้สวมหูฟังรับมือกับคำร้องเรียนรุนแรงนับสิบสายต่อวันอย่างเงียบๆ และอธิบายเงื่อนไขประกันที่ซับซ้อนให้เข้าใจง่ายราวกับลุงข้างบ้านเป็นคนอธิบาย

"เขาใช้ชีวิตท่ามกลางทิวทัศน์อันเงียบสงบริมแม่น้ำอิมจินในพาจูมานานหลายสิบปี และหลังจบมัธยมปลายก็เข้าสู่งานภาคสนามด้านประปาทันที ทำให้มีภูมิปัญญาชีวิตที่สั่งสมจากการลงมือทำอย่างลึกซึ้ง ช่วงหลังมานี้เขามักใช้สมาร์ตโฟนติดตามรีวิวเครื่องใช้ไฟฟ้ารุ่นใหม่ๆ หรือวิดีโอเกี่ยวกับความเป็นไปของโลก เพื่อเปิดรับข้อมูลใหม่ๆ อยู่เสมอ"