75 คะแนน โดย GN⁺ 23 일 전 | 10 ความคิดเห็น | แชร์ทาง WhatsApp
  • ชุดข้อมูลเพอร์โซนาภาษาเกาหลีขนาดใหญ่ชุดแรก ที่สะท้อนการกระจายด้านประชากรศาสตร์ ภูมิศาสตร์ และบุคลิกภาพจากข้อมูลสาธารณะจริงของเกาหลีใต้ เช่น Statistics Korea, ศาลฎีกา และ National Health Insurance Service
  • มี 1 ล้านเรกคอร์ด รวม 7 ล้านเพอร์โซนา ประกอบด้วย 26 ฟิลด์ เช่น ชื่อ เพศ อายุ สถานภาพสมรส ระดับการศึกษา อาชีพ และพื้นที่อาศัย
  • สร้างด้วย NeMo Data Designer ซึ่งเป็นระบบสร้างข้อมูลสังเคราะห์ระดับองค์กร และโมเดล google/gemma-4-31B-it
  • ช่วยลด อคติของโมเดล Sovereign AI โดยสะท้อนกลุ่มผู้สูงอายุ พื้นที่ชนบท และการกระจายด้านการศึกษาและอาชีพที่หลากหลายได้ดีกว่าชุดข้อมูลเพอร์โซนาเดิม
  • ใช้งานได้อย่างอิสระทั้งเชิงพาณิชย์และไม่ใช่เชิงพาณิชย์ภายใต้ไลเซนส์ CC BY 4.0

ปัญหาของเพอร์โซนาเกาหลีที่ LLM เดิมสร้างขึ้น

  • เพอร์โซนาคือคำบรรยายเกี่ยวกับลักษณะเฉพาะ ความสนใจ บุคลิกภาพ อาชีพ ฯลฯ ของบุคคล และชุดข้อมูลที่รวมเพอร์โซนาไว้ควรสะท้อน ลักษณะทางวัฒนธรรมและการกระจายตัว ของกลุ่มนั้นอย่างถูกต้อง
  • แม้จะป้อนพรอมป์ต์ให้ foreign LLM ว่า "สร้างโปรไฟล์บุคคลที่สมจริงและหลากหลายในสังคมเกาหลี" ผลลัพธ์ก็ยัง บิดเบือนอย่างรุนแรง
    • เช่น 40% ของเพอร์โซนาที่สร้างขึ้นเลือกสลัดเป็นอาหารโปรด หรือให้ผลลัพธ์ที่ไม่สมจริงอย่าง "ฉันทำสวนแอปเปิลในเมืองอันดง จังหวัดคย็องซังเหนือ"
  • เมื่อสุ่มตัวอย่างเพอร์โซนาเกาหลี 2,000 รายการด้วย Claude Opus 4.7 พบอคติรุนแรงในด้านการกระจายอาชีพ โดย 77.6% ถูกสร้างเป็น "เกษตรกรปลูกส้มยูจา"
  • สำหรับ GPT-5.4 นั้น 90.1% ถูกสร้างเป็น "ผู้ดูแลผู้สูงอายุ"
  • มี อคติที่ไม่สอดคล้องกับสภาพจริงของเกาหลีใต้ในทุกด้าน ไม่ว่าจะเป็นการกระจายตัวของเมือง รูปแบบครอบครัว รูปแบบการถือครองที่อยู่อาศัย หรือความชอบด้านอาหาร

ภาพรวมและวัตถุประสงค์ของชุดข้อมูล

  • ชุดข้อมูลเพอร์โซนาสังเคราะห์โอเพนซอร์สที่ออกแบบมาเพื่อสะท้อนความหลากหลายและลักษณะของประชากรเกาหลีใต้อย่างกว้างขวาง
  • เขียนด้วย ภาษาเกาหลี เพื่อให้ทุกคนอ่านได้ง่าย
  • เป้าหมายหลักคือบรรเทา ข้อมูลที่ขาดหายและอคติแฝง ในข้อมูลฝึกเมื่อสร้างระบบ Sovereign AI
  • มุ่งแก้ปัญหาอคติในชุดข้อมูลเพอร์โซนาที่ใช้สร้างข้อมูลสังเคราะห์ โดยเฉพาะในมิติของอายุ ภูมิภาค ระดับการศึกษา และอาชีพ

แหล่งข้อมูลและวิธีการสร้าง

  • ใช้ข้อมูลสำมะโนประชากรจาก KOSIS (National Statistical Portal ของ Statistics Korea) ที่เกี่ยวข้องกับเพศ พื้นที่ อุตสาหกรรม อาชีพ การท่องเที่ยว และการใช้เวลาว่าง
  • ใช้ข้อมูลปีเกิด เพศ และชื่อจาก ศาลฎีกา, ข้อมูลการตรวจสุขภาพจาก National Health Insurance Service, และผลสำรวจพฤติกรรมการบริโภคอาหารจาก Korea Rural Economic Institute
  • NAVER Cloud ให้ข้อมูลตั้งต้นและความเชี่ยวชาญเฉพาะโดเมนในขั้นตอนการออกแบบ
  • ใช้ Probabilistic Graphical Model (PGM) ที่พัฒนาขึ้นเอง, โมเดล google/gemma-4-31B-it ภายใต้ไลเซนส์ Apache-2.0 และวิธีการตรวจสอบ/ประเมินผลของ NeMo Data Designer
  • ครอบคลุมข้อมูลอย่างชื่อ อายุ เพศ พื้นที่ สถานภาพสมรส ครอบครัว ที่อยู่อาศัย การศึกษา สาขาวิชา กิจกรรมทางเศรษฐกิจ รายได้ กลุ่มอุตสาหกรรม กลุ่มอาชีพ ความดันโลหิต น้ำตาลในเลือด รอบเอว BMI การท่องเที่ยว เวลาว่าง ประเภทร้านอาหารที่ชอบ ความถี่ในการสั่งเดลิเวอรีและกินข้าวนอกบ้าน ฯลฯ
  • ข้อมูลทั้งหมดสะท้อนการกระจายจริง แต่เป็นข้อมูลที่ สังเคราะห์ขึ้นทั้งหมด และความคล้ายคลึงกับบุคคลจริงเป็นเพียงเรื่องบังเอิญ

ขนาดและองค์ประกอบของชุดข้อมูล

  • มีทั้งหมด 1 ล้านเรกคอร์ด คิดเป็น 1.7 พันล้านโทเค็น (1 พันล้านโทเค็นของเพอร์โซนา)
  • 26 ฟิลด์: 7 ฟิลด์เพอร์โซนา, 6 ฟิลด์คุณลักษณะเพอร์โซนา, 12 ฟิลด์บริบทด้านประชากรศาสตร์และภูมิศาสตร์, และ 1 ตัวระบุเฉพาะ
  • ครอบคลุมเขตการปกครองอย่างครบถ้วนทั้ง 17 จังหวัด/นครระดับพิเศษ และ 252 เมือง/เขต/อำเภอ
  • มี ชุดชื่อ-นามสกุลที่ไม่ซ้ำกันมากกว่า 209,000 ชุด (118 นามสกุล, 21,400 ชื่อ)
  • เพอร์โซนา 7 ประเภท: อาชีพ กีฬา ศิลปะ การท่องเที่ยว อาหาร ครอบครัว และสรุป
  • คุณลักษณะเพอร์โซนาเพิ่มเติม: พื้นเพทางวัฒนธรรม ทักษะและความเชี่ยวชาญ เป้าหมาย/ความทะเยอทะยานในอาชีพ งานอดิเรก/ความสนใจ

การกระจายของชื่อ

  • ปัจจุบันข้อมูลชื่อที่เปิดเผยในเกาหลีใต้ จำกัดเฉพาะหลังปี 2008
  • Nemotron-Personas-Korea เป็นชุดข้อมูลสาธารณะ ชุดแรกที่อิงข้อมูลชื่อแบบครอบคลุมของเกาหลีใต้ตั้งแต่ปี 1940
  • แก้ปัญหาการกำหนดชื่อที่ไม่สอดคล้องกับยุคสมัย เช่น "คิมฮายุลอายุ 82 ปี?" หรือ "คิมซุนจาอายุ 21 ปี?"
  • การกระจายของนามสกุลมีสัดส่วนสูงสุด 5 อันดับแรก ได้แก่ Kim (21.5%), Lee (14.7%), Park (8.5%), Jeong (4.8%), Choi (4.7%) รวมกันคิดเป็นประมาณ 54% ของทั้งหมด
  • ชื่อสะท้อน แนวโน้มการตั้งชื่อตามรุ่นอายุ โดยขึ้นอยู่กับเพศและปีเกิด
    • ผู้หญิง: มีทั้งชื่อของคนรุ่นอายุมากอย่าง Yeong-suk, Jeong-suk, Sun-ja และชื่อของคนรุ่นใหม่อย่าง Ji-young, Yu-jin, Ji-hyeon
    • ผู้ชาย: ชื่อสมัยใหม่อย่าง Ji-hoon, Hyeon-woo, Jun-ho อยู่ในอันดับต้น ๆ
  • ชื่อเต็มที่พบบ่อยที่สุดคือ Kim Yeong-suk ซึ่งสอดคล้องกับผลสำรวจจริง

การกระจายอายุ

  • มีโครงสร้างแบบ ทรงไหที่ป่องตรงกลาง สะท้อนโครงสร้างประชากรปัจจุบันที่กำลังเผชิญทั้งภาวะเกิดต่ำและสังคมสูงวัยอย่างสมจริง
  • ช่วงที่หนาแน่นที่สุดคือ 50~64 ปี (สัดส่วนประมาณ 0.09) ซึ่งตรงกับคนรุ่นเบบี้บูมในทศวรรษ 1960~70
  • ในกลุ่มอายุ 70 ปีขึ้นไป สัดส่วนผู้หญิงสูงกว่าผู้ชายอย่างชัดเจน
    • ในช่วงอายุ 80~89 ปี สัดส่วนผู้หญิงมากกว่าผู้ชายประมาณ 1.52 เท่า

การกระจายสถานภาพสมรส

  • สัดส่วนโสดอยู่ที่ มากกว่า 95% ในช่วงอายุ 19~24 ปี และลดลงจาก 55% → 31% ในวัย 30 ปี ซึ่งสอดคล้องกับแนวโน้มแต่งงานช้าที่มีอายุเฉลี่ยแต่งงานครั้งแรก 31~33 ปี
  • สัดส่วนมีคู่สมรสเพิ่มขึ้นเป็น 64% ตั้งแต่อายุ 35 ปี และสูงสุดที่ 78% ในช่วงปลายวัย 50
  • การเป็นหม้าย/ม่ายเพิ่มขึ้นอย่างรวดเร็วตั้งแต่วัย 60 ปี แตะ 66% ในช่วงปลายวัย 80 และ 74~81% ในวัย 90
  • การหย่าร้างสูงสุดราว 12% ในช่วงอายุ 50 ปีถึงต้น 60 ปี สอดคล้องกับแนวโน้มหย่าร้างในวัยปลาย

การกระจายประเภทครัวเรือน

  • ในทุกช่วงอายุ ครัวเรือนแบบ คู่สมรส+บุตรโสด มีสัดส่วนสูงที่สุด และสูงสุดที่ 63.6% ในวัย 19 ปี
  • หลังอายุ 50 ปี ครัวเรือนแบบ คู่สมรส เพิ่มขึ้นอย่างมาก และแตะจุดสูงสุด 45.7% ในช่วงอายุ 65~69 ปี
  • ครัวเรือนคนเดียว มีรูปแบบยอดคู่ โดยอยู่ที่ 15~22% ในช่วงต้นวัย 20 และ 21~32% หลังอายุ 75 ปี
  • ครัวเรือนแม่+บุตรโสด (5~14%) สูงกว่าพ่อ+บุตรโสด (2~5%) สะท้อน ความไม่สมมาตรทางเพศ ของครัวเรือนพ่อหรือแม่เลี้ยงเดี่ยว

การกระจายระดับการศึกษา

  • คนรุ่นใหม่อายุ 20~34 ปี มี สัดส่วนจบมหาวิทยาลัย 4 ปีเกิน 50% และหากรวมวิทยาลัยสายอาชีพจะมีประมาณ 75% ที่มีการศึกษาระดับวิทยาลัยขึ้นไป
  • ในกลุ่มอายุ 80 ปีขึ้นไป ผู้ไม่ได้รับการศึกษา (36%) และจบประถมศึกษา (37%) รวมกันคิดเป็น 73%
  • เมื่อแยกตามพื้นที่ สัดส่วนผู้จบปริญญาตรีขึ้นไปสูงสุดคือ Sejong (49.0%), Seoul (45.1%), Daejeon (39.7%)
    • Sejong ได้รับอิทธิพลจากการย้ายเข้าของข้าราชการและนักวิจัยที่มีการศึกษาสูงตามการย้ายที่ตั้งของ Government Complex Sejong

การกระจายอาชีพ

  • กลุ่มผู้เชี่ยวชาญและงานสำนักงาน มีสัดส่วนสูงที่สุด สะท้อนโครงสร้างเศรษฐกิจที่ขับเคลื่อนด้วยบริการและความรู้
  • ในกลุ่มงานขาย พนักงานขายสินค้าออนไลน์ ครองอันดับ 1 ที่ 19.8% แสดงให้เห็นสัดส่วนอีคอมเมิร์ซที่สูง
  • ในกลุ่มแรงงานทั่วไป มีการกระจุกตัวที่เจ้าหน้าที่รักษาความปลอดภัยอาคาร (21.3%) และพนักงานทำความสะอาดอาคาร (16.0%)
  • ทหารคิดเป็นประมาณ 1% ของผู้มีงานทำทั้งหมด และมากกว่าสองในสามอยู่ในกองทัพบก

ข้อจำกัดและข้อพึงระวังทางเทคนิค

  • เนื่องจากข้อจำกัดด้านความพร้อมใช้และความทันสมัยของข้อมูลสาธารณะ รวมถึงข้อจำกัดเชิงปฏิบัติของโมเดล PGM จึงมีการใช้ สมมติฐานความเป็นอิสระ ระหว่างตัวแปรบางตัว
    • ตัวอย่าง: ในการกำหนดอาชีพย่อย สมมติว่าเพศ รายได้ การศึกษา และสาขาวิชามีผลอย่างอิสระต่อกัน โดยไม่ได้สะท้อนปฏิสัมพันธ์ระหว่างตัวแปร
  • ไม่มีการสะท้อนข้อมูล gender เนื่องจากไม่มีสถิติภาครัฐของเกาหลีใต้ที่ครอบคลุมในด้านนี้
  • รวมเฉพาะเพอร์โซนาผู้ใหญ่ที่มีอายุ 19 ปีขึ้นไป
  • ไม่รวมเพอร์โซนาที่เกี่ยวข้องกับลูกค้าองค์กร เช่น การเงินและเฮลท์แคร์

ผลลัพธ์ที่ดีขึ้นเมื่อเทียบกับแนวทางที่พึ่งพา LLM

  • หากพึ่งพา LLM อย่างเดียว การกระจายเมืองจะเอนเอียงไปที่เมืองอย่าง Suncheon และ Changwon แต่ Nemotron-Personas-Korea สะท้อน การกระจายตามสัดส่วนประชากรจริง เช่น Hwaseong ใน Gyeonggi, Namyangju และ Songpa-gu ใน Seoul
  • รูปแบบครอบครัวขยายจากการเน้นแต่ครัวเรือนคนเดียวไปสู่ รูปแบบที่หลากหลาย เช่น อยู่กับคู่สมรส อยู่กับคู่สมรสและบุตร หรืออยู่กับพ่อแม่
  • รูปแบบการถือครองที่อยู่อาศัยก็สะท้อน สัดส่วนจริงของเจ้าของและผู้เช่า แทนที่จะเป็นเจ้าของ 100%
  • การกระจายของอาหารก็สะท้อน วัฒนธรรมอาหารจริง เช่น bibimbap, อาหารญี่ปุ่น, ไก่ทอด, galbi, samgyeopsal, tteokbokki, bunsik, ขนมปัง, doenjang-jjigae และ jajangmyeon แทนที่จะมีแต่สลัด

ตัวอย่างการสะท้อนวัฒนธรรม

  • "จองจุน วัย 33 ปี ชาวชนชั้นลูกที่โตแล้วแต่ยังอาศัยอยู่กับพ่อแม่ ที่คลายความเหนื่อยจากวันทำงานด้วย samgyeopsal และโซจูกับเพื่อนร่วมงานระหว่างทางกลับบ้าน" — อาศัยอยู่ใน Songpa-gu, Seoul, จบมหาวิทยาลัย 4 ปี, โสด, อาศัยอยู่กับพ่อแม่ สะท้อน ปรากฏการณ์ชนชั้นลูกที่โตแล้วแต่ยังอาศัยอยู่กับพ่อแม่ ในสังคมเกาหลี
  • "คุณคิมชุนฮี วัย 73 ปีจาก Ulsan ที่ชอบเพลงของ Sim Soo-bong และชอบโพสต์รูปในห้องแชตกลุ่มครอบครัว" — ผู้หญิง, ไม่ได้รับการศึกษา, มีคู่สมรส, ไม่มีงานทำ สะท้อน ประชากรผู้หญิงสูงวัย

เหตุใดชุดข้อมูลเพอร์โซนาจึงช่วย LLM ได้

  • มนุษย์แต่ละคนมี ความรู้เฉพาะตัว และเพอร์โซนาคือ ฟีโนไทป์ ที่ย่อความรู้เฉพาะเหล่านั้นไว้
    • ตัวอย่าง: เพอร์โซนาช่างไฟฟ้าสามารถเป็นตัวกลางในการดึงความรู้ด้านไฟฟ้าออกมาจาก LLM
  • ในข้อมูลสังเคราะห์ ความหลากหลายเป็นตัวชี้วัดที่สำคัญมาก และมนุษย์คือแหล่งกำเนิดความหลากหลายที่ดีที่สุด
  • สามารถสร้างข้อมูลฝึกสังเคราะห์ที่หลากหลายตามเพอร์โซนาได้ในรูปแบบอย่าง "ลองสร้างโจทย์การให้เหตุผลเชิงตรรกะที่เกี่ยวข้องกับ {เพอร์โซนาที่กำหนด} ดู"

กรณีใช้งานจริง

  • ปรับปรุงประสิทธิภาพการใช้เครื่องมือทั่วไป: ให้ tool set และเพอร์โซนาร่วมกับผู้ใช้-LLM เพื่อสังเคราะห์ข้อมูลและฝึกโมเดล โดย Nemotron-Nano-9B-v2-Japanese นำวิธีนี้ไปใช้จนได้ อันดับ 1 บนลีดเดอร์บอร์ด Nejumi และยังนำแนวทางคล้ายกันไปใช้กับ Nemotron Nano v3 และ Super v3
  • เพิ่มความปลอดภัยของโมเดล: ใช้เป็นข้อมูลตั้งต้นของชุดข้อมูล Sensitive-safety-category-refusals (SSCR) โดยชุดข้อมูล SSCR รวมอยู่ใน nemotron-safety-blend

วิธีใช้งานและไลเซนส์

  • โหลดได้ผ่านไลบรารี Python datasets โดยเรียก load_dataset("nvidia/Nemotron-Personas-Korea")
  • ใช้งานได้อย่างอิสระทั้งเชิงพาณิชย์และไม่ใช่เชิงพาณิชย์ภายใต้ไลเซนส์ CC BY 4.0
  • มีเวอร์ชันขยายที่ใช้งานได้โดยตรงบน NeMo Data Designer แยกให้ต่างหาก

10 ความคิดเห็น

 
calmlake79 23 일 전

ผมก็กะว่าจะเอามาลงใน GeekNews อยู่แล้วเหมือนกัน..

https://manyperson.com/

กำลังทำบริการเพอร์โซนาที่เกี่ยวข้องอยู่ครับ
ผมก็ใช้ข้อมูล MDIS เหมือนกัน และใช้ Gemini ครับ

 
recast7838 23 일 전

ขอบคุณสำหรับข้อมูล

 
rlaaudgjs5638 23 일 전

ขอบคุณสำหรับข้อมูลดี ๆ นะครับ แบบนี้นี่เองที่ใช้สร้างเพอร์โซนา

 
dongho42 23 일 전

มีประโยชน์มาก!

 
civilian 23 일 전

https://github.com/civilian7/korean-people-persona

เพราะมีความจำเป็นส่วนตัว
จึงได้ทำและอัปโหลดโปรแกรม Python ที่สามารถแปลงข้อมูลที่เปิดเผยต่อสาธารณะเป็น sqlite3 ได้
พร้อมตัวอย่างเซิร์ฟเวอร์ mcp

 
nvkzrx 23 일 전

ดูเหมือนว่าจนถึงไม่นานมานี้ อัตราการเข้าศึกษาต่อมหาวิทยาลัยหลักสูตร 4 ปีของคนวัย 20 กว่ายังไม่ถึง 50% อยู่เลย แต่ตอนนี้น่าจะเกินแล้วสินะ

 
nvkzrx 23 일 전

มีสถิติที่น่าสนใจอยู่เยอะเลยนะ

 
xguru 23 일 전

เมื่อเทียบกับสิ่งที่ LLM ต่างประเทศสร้างขึ้น เพอร์โซนาเหล่านี้สมจริงเกินไปจริงๆ

"คุณพัคโฮชอลเป็นที่ปรึกษารุ่นเก๋าของศูนย์ประกันภัยวอนจู ผู้สวมหูฟังรับมือกับคำร้องเรียนรุนแรงนับสิบสายต่อวันอย่างเงียบๆ และอธิบายเงื่อนไขประกันที่ซับซ้อนให้เข้าใจง่ายราวกับลุงข้างบ้านเป็นคนอธิบาย

"เขาใช้ชีวิตท่ามกลางทิวทัศน์อันเงียบสงบริมแม่น้ำอิมจินในพาจูมานานหลายสิบปี และหลังจบมัธยมปลายก็เข้าสู่งานภาคสนามด้านประปาทันที ทำให้มีภูมิปัญญาชีวิตที่สั่งสมจากการลงมือทำอย่างลึกซึ้ง ช่วงหลังมานี้เขามักใช้สมาร์ตโฟนติดตามรีวิวเครื่องใช้ไฟฟ้ารุ่นใหม่ๆ หรือวิดีโอเกี่ยวกับความเป็นไปของโลก เพื่อเปิดรับข้อมูลใหม่ๆ อยู่เสมอ"