1 คะแนน โดย GN⁺ 19 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Frontier LLM 5 รุ่น มีคำตัดสินไม่ตรงกันใน 67% ของข้ออ้าง 1,000 รายการที่ผู้ใช้ส่งเข้ามาจริง และกรณีที่ทั้ง 5 รุ่นให้คำตัดสินตรงกันทั้งหมดมีเพียง 33%
  • คำตัดสินของเสียงข้างมาก ไม่ใช่ฉลากคำตอบที่ถูกต้อง แต่เป็นเกณฑ์สำหรับวัดความไม่ตรงกัน ดังนั้นใน 67% ที่ไม่เป็นเอกฉันท์ อย่างน้อย 1 โมเดลย่อมต้องตัดสินผิด
  • ในรูบริก 4 ระดับ มี ความไม่ตรงกันอย่างมีนัยสำคัญ ที่ห่างกันตั้งแต่ 2 ช่องขึ้นไปอยู่ 34% และยังพบการแตกแยกสุดขั้วระหว่าง True กับ False สูงถึง 21%
  • อัตราความสอดคล้องของฉลากระหว่างคู่โมเดลอยู่ที่ 53~75% โดยคู่ที่สอดคล้องกันมากที่สุดคือ Gemini 3 Pro กับเวอร์ชัน Search ซึ่งใช้โมเดลฐานเดียวกัน
  • ข้อมูลดึงมาจากข้ออ้างจริงล่าสุดของ Lenz และวัดผลโดยไม่ใช้ฉลากคำตอบหรือ LLM grader จึงเผยให้เห็น ความไม่เสถียรของโครงสร้างการตัดสิน มากกว่าความแม่นยำ

คำตัดสินแตกต่างกันบ่อยแค่ไหนในข้ออ้างจริง

  • จากข้ออ้าง 1,000 รายการที่วิเคราะห์ มี 672 รายการ หรือ 67% (95% CI 64–70%) ที่คำตัดสินของโมเดล frontier ทั้ง 5 รุ่นไม่ตรงกัน
    • ข้ออ้างที่ทั้ง 5 โมเดลให้คำตัดสินเหมือนกันทั้งหมดมี 328 รายการ หรือ 33% (95% CI 30–36%)
    • ข้ออ้างที่มีเพียง 1 โมเดลให้คำตัดสินต่างออกไปมี 224 รายการ หรือ 22% (95% CI 20–25%)
    • ข้ออ้างที่มี 2 โมเดลให้คำตัดสินต่างออกไปมี 316 รายการ หรือ 32% (95% CI 29–35%)
    • การแตกเป็นกลุ่มแบบ 2-2-1 หรือ 2-1-1-1 ที่ไม่เกิดเสียงข้างมากแบบเคร่งครัดมี 132 รายการ หรือ 13% (95% CI 11–15%)
    • กรณีที่มีอย่างน้อย 2 โมเดลให้คำตัดสินต่างออกไปมี 448 รายการ หรือ 45% (95% CI 42–48%)
  • คำตัดสินของเสียงข้างมาก เป็นเกณฑ์เชิงโครงสร้างสำหรับนับความไม่ตรงกัน ไม่ใช่ตัวแทนของความถูกต้อง
    • คำตัดสินของเสียงข้างมากอาจผิดก็ได้ และโมเดลที่ให้คำตัดสินแบบเสียงข้างน้อยอาจถูกก็ได้
    • หากถือว่าใน 4 บักเก็ตของคำตัดสินมีเพียง 1 บักเก็ตที่เป็นคำตอบถูกต้อง ใน 67% ของข้ออ้างที่ไม่เป็นเอกฉันท์ จะมีอย่างน้อย 1 โมเดลที่ผิด
    • ใน 45% ที่รวมรูปแบบแตกเป็น 3-2, 3-1-1 และกรณีไม่มีเสียงข้างมาก จะมีอย่างน้อย 2 โมเดลที่ผิด
    • ใน 13% ที่ไม่มีเสียงข้างมาก ไม่มีบักเก็ตใดได้ถึง 3 เสียง ดังนั้นอย่างน้อย 3 โมเดลจึงผิด
    • แม้แต่ใน 33% ที่ทั้ง 5 โมเดลเห็นตรงกัน ก็ยังอาจมี blind spot ร่วมกันได้
  • ระดับฉันทามติของคณะประเมินอยู่ที่ Krippendorff’s α(ordinal)=0.639
    • คำตัดสินของโมเดลไม่ได้ใกล้เคียงการสุ่ม แต่ก็ยังไม่สม่ำเสมอพอที่จะมองว่าโมเดลทั้ง 5 เป็นผู้ตัดสินที่สลับแทนกันได้
    • ใช้ค่า ordinal α เพราะ True / Mostly True / Misleading / False เป็นหมวดหมู่แบบมีลำดับ

ความต่างด้านนัยและความไม่ตรงกันอย่างมีนัยสำคัญ

  • จากข้ออ้าง 1,000 รายการ มี 343 รายการ หรือ 34% (95% CI 31–37%) ที่อย่างน้อยสองโมเดลให้คำตัดสินห่างกันตั้งแต่ 2 ช่องขึ้นไปในรูบริก 4 ระดับ
    • ความต่างระหว่าง True กับ Mostly True ถูกมองเป็นความต่างด้านนัยที่ใกล้เคียงกับการปรับระดับความน่าเชื่อถือ
    • ความต่างระหว่าง True กับ False ถูกมองเป็นความไม่ตรงกันอย่างมีนัยสำคัญที่คำตอบขัดกันโดยตรง
  • การวัดคำนวณจาก ระยะห่างสูงสุดของบักเก็ตแบบรายคู่ ในคำตัดสินทั้ง 5
    • ลำดับของคำตัดสินคือ True (0) → Mostly True (1) → Misleading (2) → False (3)
    • ระยะห่าง 0 มี 328 รายการ หรือ 33% (95% CI 30–36%) หมายถึงทั้ง 5 โมเดลเลือกบักเก็ตเดียวกันทั้งหมด
    • ระยะห่าง 1 มี 329 รายการ หรือ 33% (95% CI 30–36%) สะท้อนความต่างด้านนัย เช่น True ↔ Mostly True
    • ระยะห่าง 2 มี 132 รายการ หรือ 13% (95% CI 11–15%) เป็นความไม่ตรงกันอย่างมีนัยสำคัญ เช่น True ↔ Misleading หรือ Mostly True ↔ False
    • ระยะห่าง 3 มี 211 รายการ หรือ 21% (95% CI 19–24%) เป็นการแตกแยกสุดขั้วแบบ True ↔ False
  • ระยะห่างของบักเก็ต ไม่ใช่มาตรวัดขนาดความผิดพลาดที่ละเอียดแม่นยำ แต่เป็นเพียงตัวชี้วัดแบบหยาบ
    • มีการทำให้ง่ายขึ้นโดยมอง True / Mostly True / Misleading / False เป็นสเกลลำดับที่มีช่วงห่างเท่ากัน
    • ความต่าง 2 ช่องอาจเกิดจากความกำกวมของรูบริก ความต่างของเกณฑ์เวลา หรือความต่างในการตีความคำว่า “Misleading” ได้เช่นกัน

อัตราความสอดคล้องระหว่างโมเดล

  • อัตราความสอดคล้องของฉลากระหว่างคู่โมเดลทั้ง 5 อยู่ในช่วง 53%~75%
    • อัตราสูงสุดคือ Gemini 3 Pro × Gemini 3 Pro + Search ที่ 75% (95% CI 72–77%) และทั้งสองโมเดลใช้โมเดลฐานร่วมกัน
    • อัตราต่ำสุดคือ 53% (95% CI 50–56%) ซึ่งพบใน 3 คู่
  • อัตราความสอดคล้องรายคู่ที่สำคัญ
    • GPT-5.4 × Claude Opus 4.7: 65% (95% CI 62–68%)
    • GPT-5.4 × Gemini 3 Pro: 65% (95% CI 62–68%)
    • GPT-5.4 × Gemini 3 Pro + Search: 60% (95% CI 57–63%)
    • GPT-5.4 × Sonar Pro: 60% (95% CI 57–63%)
    • Claude Opus 4.7 × Gemini 3 Pro: 53% (95% CI 50–56%)
    • Claude Opus 4.7 × Gemini 3 Pro + Search: 53% (95% CI 50–56%)
    • Claude Opus 4.7 × Sonar Pro: 58% (95% CI 55–61%)
    • Gemini 3 Pro × Sonar Pro: 53% (95% CI 50–56%)
    • Gemini 3 Pro + Search × Sonar Pro: 58% (95% CI 55–61%)

แนวโน้มการตัดสินของแต่ละโมเดล

  • การกระจายของคำตัดสิน

    • แต่ละโมเดลต่างกันทั้งในระดับการเอนเอียงไปยังขั้ว True/False และระดับการใช้บักเก็ตกึ่งกลางอย่าง Mostly True/Misleading
    • เนื่องจากไม่มีฉลากคำตอบ จึงไม่สามารถแยกอิทธิพลของแนวโน้มเดิมของโมเดลออกจากอิทธิพลของลักษณะข้ออ้างได้
    • GPT-5.4: True 42% (95% CI 39–45%), Mostly True 16% (14–19%), Misleading 12% (10–14%), False 30% (28–33%)
    • Claude Opus 4.7: True 38% (35–41%), Mostly True 26% (23–29%), Misleading 19% (17–22%), False 17% (15–20%)
    • Gemini 3 Pro: True 54% (51–57%), Mostly True 3% (2–4%), Misleading 3% (2–4%), False 40% (37–43%)
    • Gemini 3 Pro + Search: True 52% (49–55%), Mostly True 4% (3–5%), Misleading 9% (7–11%), False 35% (32–38%)
    • Sonar Pro: True 35% (32–38%), Mostly True 23% (21–26%), Misleading 16% (14–18%), False 26% (23–28%)
  • ความสอดคล้องกับเสียงข้างมากของคณะประเมินที่เหลือ

    • สัดส่วนที่แต่ละโมเดลให้คำตัดสินตรงกับเสียงข้างมากแบบเคร่งครัดที่เกิดจากอย่างน้อย 3 ใน 4 โมเดลที่เหลืออยู่ อยู่ที่ 69%~81%
    • ค่านี้เป็นระดับการจัดแนวกับเพื่อนร่วมกลุ่มในคอร์ปัสนี้ ไม่ใช่ความถูกต้อง
    • การคำนวณรวมเฉพาะข้ออ้างที่อีก 4 โมเดลสร้างเสียงข้างมากได้ตั้งแต่ 3/4 ขึ้นไป ทำให้ค่า eligible n ของแต่ละโมเดลต่างกัน
    • GPT-5.4: 81% (95% CI 78–84%), eligible n=650, ineligible=350
    • Claude Opus 4.7: 70% (95% CI 67–74%), eligible n=691, ineligible=309
    • Gemini 3 Pro: 77% (95% CI 74–80%), eligible n=683, ineligible=317
    • Gemini 3 Pro + Search: 76% (95% CI 73–79%), eligible n=693, ineligible=307
    • Sonar Pro: 69% (95% CI 66–73%), eligible n=675, ineligible=325

ความไม่สอดคล้องกันแยกตามหมวด

  • ตัวหารของแต่ละหมวดคือจำนวน claim ในหมวดนั้น และในหมวดส่วนใหญ่ อัตราความไม่สอดคล้องกัน สูงเกินครึ่งอย่างมาก
    • Finance: 75 รายการ, ความไม่สอดคล้องกันแบบใดก็ได้ 67%(95% CI 55–76%), ความไม่สอดคล้องกันเชิงสาระ 39%(28–50%), ไม่มีเสียงข้างมาก 20%(13–30%)
    • General: 179 รายการ, ความไม่สอดคล้องกันแบบใดก็ได้ 68%(60–74%), ความไม่สอดคล้องกันเชิงสาระ 40%(33–48%), ไม่มีเสียงข้างมาก 12%(8–17%)
    • Health: 171 รายการ, ความไม่สอดคล้องกันแบบใดก็ได้ 71%(64–78%), ความไม่สอดคล้องกันเชิงสาระ 29%(23–36%), ไม่มีเสียงข้างมาก 12%(8–17%)
    • History: 131 รายการ, ความไม่สอดคล้องกันแบบใดก็ได้ 53%(44–61%), ความไม่สอดคล้องกันเชิงสาระ 24%(17–32%), ไม่มีเสียงข้างมาก 13%(8–20%)
    • Legal: 48 รายการ, ความไม่สอดคล้องกันแบบใดก็ได้ 77%(63–87%), ความไม่สอดคล้องกันเชิงสาระ 40%(27–54%), ไม่มีเสียงข้างมาก 19%(10–32%)
    • Politics: 168 รายการ, ความไม่สอดคล้องกันแบบใดก็ได้ 70%(62–76%), ความไม่สอดคล้องกันเชิงสาระ 38%(31–46%), ไม่มีเสียงข้างมาก 8%(5–13%)
    • Science: 151 รายการ, ความไม่สอดคล้องกันแบบใดก็ได้ 68%(60–75%), ความไม่สอดคล้องกันเชิงสาระ 36%(29–44%), ไม่มีเสียงข้างมาก 21%(15–28%)
    • Tech: 77 รายการ, ความไม่สอดคล้องกันแบบใดก็ได้ 69%(58–78%), ความไม่สอดคล้องกันเชิงสาระ 31%(22–42%), ไม่มีเสียงข้างมาก 8%(4–16%)
  • การแบ่งหมวดสะท้อนรูปแบบทราฟฟิกของ Lenz และไม่ใช่ผลจากการสุ่มตัวอย่างแบบเท่า ๆ กันจาก claim ที่ตรวจสอบข้อเท็จจริงได้ทั้งหมด

ฉันทามติแยกตาม bucket ของคำตัดสิน

  • เมื่อคณะโมเดลไปถึง bucket ตรงกลาง ก็แทบไม่เกิดการลู่เข้าหากันเลย
    • ในคำตัดสินเสียงข้างมากแบบ Mostly True และ Misleading การเห็นพ้องเป็นเอกฉันท์มีได้สูงสุดเพียงราว 5% ในแต่ละกรณี
    • สัดส่วนการเห็นพ้องเป็นเอกฉันท์ของคำตัดสินเสียงข้างมากแบบ True และ False อยู่ที่ 47% และ 43% ตามลำดับ
  • อิงจาก claim ที่มีเสียงข้างมากแบบเข้มงวดอย่างน้อย 3/5 ให้คำตัดสินนั้น
    • True: eligible n=438, เอกฉันท์ 47%(95% CI 42–51%), เสียงข้างมาก 3~4 เสียง 53%(49–58%)
    • Mostly True: eligible n=76, เอกฉันท์ 0%(95% CI 0–5%), เสียงข้างมาก 3~4 เสียง 100%(95% CI 95–100%)
    • Misleading: eligible n=74, เอกฉันท์ 5%(95% CI 2–13%), เสียงข้างมาก 3~4 เสียง 95%(87–98%)
    • False: eligible n=280, เอกฉันท์ 43%(95% CI 37–49%), เสียงข้างมาก 3~4 เสียง 57%(51–63%)
  • แม้แต่ claim 328 รายการที่ทั้ง 5 โมเดลให้คำตัดสินตรงกันทั้งหมดก็ยังกระจุกอยู่ที่สองขั้ว
    • True: 204 รายการ, 62% ของกรณีเอกฉันท์(95% CI 57–67%)
    • Mostly True: 0 รายการ, 0%(95% CI 0–1%)
    • Misleading: 4 รายการ, 1%(95% CI 0–3%)
    • False: 120 รายการ, 37%(95% CI 32–42%)
  • งาน ablation ของ Llama-3 ตระกูลเดียวบน PolitiFact 17,856 claim, Schwab et al. 2025 ก็พบผลลัพธ์ที่เกี่ยวข้องกันว่า ความผิดพลาดของโมเดลตัดสิน fact-check มักกระจุกตัวในฉลากที่ละเอียดมากขึ้น

ชุดข้อมูลและเกณฑ์การคัดออก

  • ขอบเขตการวิเคราะห์คือ 1,000 claim
    • เป็น claim ล่าสุดที่ผ่านเงื่อนไขคัดออก จากคำขอจริงของผู้ใช้ที่ส่งเข้ามายังแพลตฟอร์ม fact-check ของ Lenz
    • claim ทั้งหมดถูกสร้างขึ้นหลังวันที่ 15 กุมภาพันธ์ 2026
    • คำตัดสินของ Lenz เอง ไม่ได้ถูกนำมาใช้ในการวิเคราะห์ และการวิเคราะห์นี้ไม่ได้เปรียบเทียบ Lenz กับโมเดล frontier แต่เป็นการวัดเฉพาะความไม่สอดคล้องกันระหว่างโมเดล frontier เท่านั้น
  • ฟิลด์ atomic_claim ไม่ใช่ต้นฉบับที่ผู้ใช้ป้อน แต่เป็นข้อเสนอเชิงกลางและตรวจสอบได้ที่จัดระเบียบผ่าน ขั้นตอนการจัดกรอบ ของ Lenz
    • ตัวอย่างเช่น ข้อความป้อนเข้า “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” จะถูกเปลี่ยนเป็นข้อความ “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”
  • claim ที่ถูกคัดออก
    • claim ที่ผู้ส่งตั้งค่าเป็นส่วนตัว
    • claim จากพนักงานแพลตฟอร์ม, บัญชีภายใน, agent/API submissions
    • claim ที่มีสถานะการแก้ไขเป็น pending หรือ hidden
    • claim ที่ถูกติดธงอัตโนมัติในขั้นตอนคัดกรอง PII ของ Lenz เนื่องจากมีข้อมูลส่วนบุคคลของบุคคลทั่วไปที่ไม่ใช่บุคคลสาธารณะ
    • claim ซ้ำใกล้เคียงที่มีระยะ cosine ระหว่าง atomic_claim ไม่เกิน 0.2 บน embedding 1536 มิติของ OpenAI text-embedding-3-small
    • claim ที่แม้จะลองใหม่หนึ่งครั้งแล้ว แต่ยังมีอย่างน้อยหนึ่งใน 5 โมเดลที่ไม่สามารถให้คำตัดสินซึ่ง parse ได้
    • claim ที่เก่ากว่า 180 วัน ณ เวลาที่เก็บข้อมูล
  • ในกรณีของ claim ซ้ำใกล้เคียง หากเป็นข้อความที่ขึ้นกับเวลา จะเลือก claim ที่ใหม่กว่าเป็นแถวตัวแทน ส่วนกรณีอื่นจะเลือก claim เดิมที่มียอดเข้าชมสูงสุดใน Lenz เป็นแถวตัวแทน

ระเบียบวิธี

  • โมเดลและพรอมป์ต์

    • โมเดลพาราเมตริก: GPT-5.4(OpenAI), Claude Opus 4.7(Anthropic), Gemini 3 Pro(Google)
    • โมเดลเสริมการค้นหา: Gemini 3 Pro + Search(Google), Sonar Pro(Perplexity)
    • claim แต่ละรายการถูกนำเสนอพร้อมวันที่อ้างอิงในรูปแบบ “as of YYYY-MM-DD” ที่สอดคล้องกับวันที่ส่ง
    • โมเดลต้องเลือกอย่างใดอย่างหนึ่งแบบบังคับจาก True, Mostly True, Misleading, False
Classify this claim as of <date>: "<atomic claim>"

Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.
  • ไม่มีตัวเลือกให้ abstain และใช้การบังคับเลือกเพื่อคงความสมมาตรในการเปรียบเทียบระหว่างโมเดล
  • การตั้งค่าการเรียกใช้และการให้คะแนน

    • โมเดลทั้งหมดได้รับ system placeholder . แบบเดียวกัน และใช้เทมเพลต user prompt usr_v2 แบบเดียวกัน
    • ไม่ใช้ structured output schema, tool calling schema, seed, top-p หรือการควบคุม logit-bias
    • ในกรณีที่รองรับ จะร้องขอการถอดรหัสแบบกำหนดแน่นอนโดยใช้ temperature=0.0
    • GPT-5.4 และ Claude Opus 4.7 ถูกเรียกใช้โดยไม่มีการระบุ temperature อย่างชัดเจน เพราะ provider adapter ปฏิเสธการตั้งค่า temperature แบบกำหนดเอง
    • GPT-5.4, Claude Opus 4.7 และ Sonar Pro จำกัดความยาวเอาต์พุตไว้ที่ 16 โทเค็น ส่วน Gemini 3 Pro และ Gemini 3 Pro + Search ใช้ขีดจำกัด 1024 โทเค็น
    • Gemini 3 Pro + Search เปิดใช้ Google Search grounding และ Sonar Pro ถูกจัดเป็นโมเดลเสริมการค้นหาผ่าน search-backed API ของ Perplexity
    • หลังการทำ normalization เอาต์พุตจะถือว่า parse ได้ก็ต่อเมื่อ ตรงกับหนึ่งในสี่ฉลากแบบพอดีเท่านั้น
    • ไม่ได้ใช้ LLM-as-a-judge หรือฉลากคำตอบอ้างอิง และการวัดทั้งหมดมาจากความตรงกันของฉลากที่ parse ได้โดยตรงจากทั้ง 5 โมเดล
  • การประมวลผลทางสถิติ

    • คอร์ปัสนี้คือ claim ล่าสุด 1,000 รายการที่ eligible ซึ่งถูกส่งมายังแพลตฟอร์ม fact-check เดียว ไม่ใช่ตัวอย่างเชิงความน่าจะเป็นจากประชากรที่กว้างกว่า
    • ช่วงความเชื่อมั่น Wilson 95% เป็นช่วงทวินามเชิงนามภายใต้แบบจำลองที่ claim แต่ละรายการถูกสุ่มอย่างอิสระจากกระแส submission ที่ eligible คล้ายกันซึ่งใช้กฎการคัดกรองเดียวกัน
    • claim ของ Lenz มักกระจุกตัวรอบเหตุการณ์ข่าว และผู้ใช้คนเดียวกันอาจส่ง claim ที่เกี่ยวข้องกันหลายรายการในเซสชันเดียว จึงไม่เป็นอิสระและไม่แจกแจงเหมือนกัน
    • ภายใต้แบบจำลองคลัสเตอร์ที่ซื่อสัตย์กว่า ความแปรปรวนตัวอย่างจริงอาจมากกว่าช่วง Wilson
    • ไม่มีการทดสอบนัยสำคัญระหว่างโมเดล และรายงานอัตราความสอดคล้องรายคู่พร้อม Wilson 95% CI เป็นสถิติเชิงพรรณนาเท่านั้น

ความสามารถในการทำซ้ำและผลลัพธ์ที่เผยแพร่

  • มีการเผยแพร่ข้อมูลทั้งหมดแยกตามแต่ละ claim เป็นไฟล์ CSV
    • แต่ละแถวประกอบด้วย claim ID และ URL, ข้อความ atomic claim, คำตัดสินจากฟรอนเทียร์ 5 รายการ, ระยะห่างของ bucket แบบจับคู่สูงสุด, หมวดหมู่ และวันที่สร้าง
    • หากผู้ส่งลบ claim ภายหลังหรือตั้งเป็นส่วนตัว บางหน้าก็อาจใช้งานไม่ได้
  • PDF เป็นฉบับเรนเดอร์ที่ไม่ขึ้นกับเบราว์เซอร์สำหรับการอ่านแบบออฟไลน์ การอ้างอิง และการโฮสต์พรีพรินต์สไตล์ arXiv
  • สแนปชอตคือ v1.0 และวันที่อ้างอิงของข้อมูลคือ 21 พฤษภาคม 2026
    • URL สำหรับเก็บถาวร https://lenz.io/research/llm-disagreement/v1.0 จะให้บริการสแนปชอต v1.0 อย่างถาวร
    • ช่วยคงเสถียรภาพของการอ้างอิง แม้ URL ทั่วไปจะเปลี่ยนเป็นเวอร์ชันในอนาคตก็ตาม
  • บันทึกถาวรและการอ้างอิงมีให้ที่ doi.org/10.5281/zenodo.20344847

ข้อจำกัด

  • ขอบล่างของความผิดพลาดตามหลักการรังนกพิราบ เป็นขอบล่างของความไม่สอดคล้องของ rubric ไม่ใช่คำตัดสินว่าโมเดลใดผิดเชิงข้อเท็จจริงใน claim ใดโดยเฉพาะ
    • เนื่องจากในสี่ bucket มีได้เพียงหนึ่งเดียวที่เป็นคำตอบถูกต้อง ดังนั้นทุกความไม่ตรงกันจึงหมายถึงมีคำตัดสินที่ไม่สอดคล้องอย่างน้อยหนึ่งรายการ
    • แต่ไม่สามารถรู้ได้ว่าโมเดลใดผิดใน claim ใด
  • ลำดับเชิงอันดับของระยะห่างระหว่าง bucket เป็นการทำให้ง่ายลง
    • โดยปฏิบัติต่อ True / Mostly True / Misleading / False เป็นสเกลลำดับที่มีระยะห่างเท่ากัน
    • ความต่าง 2 ขั้นอาจเกิดจากความกำกวมของ rubric, ความต่างของจุดอ้างอิงด้านเวลา, หรือความต่างในการตีความ “Misleading” และไม่ได้หมายความว่าเป็นความผิดพลาดเชิงข้อเท็จจริงที่มากกว่าเสมอไป
  • ความกำกวมของคำตัดสินไม่ใช่ปัญหาเฉพาะของ LLM แต่ยังเป็น คุณสมบัติของตัวงานเอง
    • AVeriTeC เป็นคอร์ปัสของ 4,568 claim ที่ผ่านการทบทวนหลายรอบโดยอ้างอิงจากองค์กร fact-check 50 แห่ง และความเห็นพ้องระหว่างผู้ทำ annotation ของคำตัดสินอยู่ที่เพียง κ=0.619
    • ความไม่สอดคล้องกันส่วนหนึ่งของโมเดลฟรอนเทียร์สะท้อนธรรมชาติของตัว label ที่ยากแม้แต่สำหรับผู้ประเมินมนุษย์
  • สแนปชอตถูกตรึงไว้กับวันที่และเวอร์ชันโมเดลที่กำหนด
    • ฟรอนเทียร์ LLM เป็นระบบไม่กำหนดแน่นอน ดังนั้นแม้รันใหม่ด้วยโมเดลและพรอมต์เดิม ตัวเลขก็อาจเปลี่ยนไปได้ในระดับหนึ่ง
    • หากรันใหม่ด้วยโมเดลใหม่หรือพรอมต์อื่น ตัวเลขอาจขยับมากกว่านั้น
  • โมเดลที่มีการช่วยค้นหาอาจเข้าถึงแหล่งข้อมูลขณะทำ inference แต่ไม่ได้มีการควบคุมหรือตรวจสอบว่าได้ค้นหาอะไรไปบ้าง

งานวิจัยเดิมและแผนต่อเนื่อง

  • Yang & Wang (2026) แสดงให้เห็นว่าโมเดลฟรอนเทียร์ระดับบนสุดยังไม่ตรงกันใน 16~38% ของข้อใน MMLU-Pro และ GPQA แม้จะมีความแม่นยำรวมเท่ากัน
  • AVeriTeC ถูกเสนอเป็น benchmark การทำ annotation โดยมนุษย์ที่เข้มงวดสำหรับการตรวจสอบ claim จริง
  • สำหรับคอร์ปัส fact-check ที่ใหญ่กว่า มี 17,856 claim ของ PolitiFact ในการตั้งค่า ablation ของ Llama-3 ตระกูลเดียว
  • คอร์ปัสของ Lenz มาจากการส่งจริงของผู้ใช้ในช่วง 180 วันที่ผ่านมา ถูกทำดัชนีเฉพาะบน lenz.io และไม่เคยถูกจับคู่กับคำตัดสินมาตรฐานในชุดฝึกสาธารณะ
  • งานวิจัยต่อไปจะให้มนุษย์ติดป้ายกำกับทั้งคอร์ปัสเดียวกัน และใช้ label เหล่านั้นเป็น ground truth เพื่อประเมินโมเดลฟรอนเทียร์ทั้ง 5 และคำตัดสินของ Lenz เอง
  • เป้าหมายไม่ใช่ leaderboard แต่คือการวิเคราะห์ว่าพาเนลฟรอนเทียร์เบี่ยงออกจากฉันทามติของมนุษย์ตรงไหน, Lenz เบี่ยงจากทั้งสองฝั่งตรงไหน และหมวดหมู่ใดที่ทำให้เกิดความไม่สอดคล้อง

จริยธรรมและการใช้ข้อมูล

  • ฟิลด์ที่ใช้มีเพียง ข้อความ atomic claim และวันที่สร้าง ซึ่งเป็นฟิลด์ claim แบบสาธารณะ
    • ไม่มีการใช้ข้อมูลส่วนบุคคล
    • claim ที่เป็นส่วนตัวและ claim ของพนักงานถูกตัดออก
    • โมเดลฟรอนเทียร์จะได้รับเพียงข้อความ claim และวันที่อ้างอิงเท่านั้น โดยไม่ได้รับตัวตนของผู้ส่งหรือสัญญาณการวิเคราะห์
  • หากผู้ส่งตั้ง claim เป็นส่วนตัวหรือลบออกในภายหลัง claim นั้นอาจถูกนำออกจากสแนปชอตและการดาวน์โหลดในอนาคต

ตัวอย่างกรณีที่พาเนลฟรอนเทียร์เห็นต่างกันมาก

1 ความคิดเห็น

 
ความเห็นจาก Hacker News
  • พรอมป์ต์ที่ใช้มีดังนี้: Classify this claim as of : "" / Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.
    รายการข้ออ้างอยู่ที่ https://lenz.io/research/llm-disagreement/data.csv และได้นำไปใส่ไว้ใน Datasette Lite เพื่อให้สำรวจได้ง่ายขึ้น ตัวอย่างความไม่ตรงกันอยู่ที่ https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
    ข้ออ้างว่า “อัลมอนด์ทั้งหมดปลูกในรัฐแคลิฟอร์เนียของสหรัฐฯ” เป็นเท็จ แต่มีเพียง Opus 4.7 ที่ตอบว่า “misleading” การใส่ทั้ง “mostly true” และ “misleading” ไว้ในตัวเลือก แถมยังมีกฎ “ห้ามอธิบาย” อีก ทำให้ข้อสรุปนี้มีน้ำหนักน้อยลง
    ตัวอย่างที่ดีกว่าคือ “คำขอวีซ่าอียิปต์ที่กรอกไม่ครบเป็นหนึ่งในสาเหตุที่พบบ่อยที่สุดที่ทำให้คำขอวีซ่าอียิปต์ถูกปฏิเสธ” ซึ่งโมเดลแบ่งเป็น “true” กับ “mostly true” แต่ในเชิงถ้อยคำ “among the most” ทำให้สองคำตอบนี้แทบมีความหมายเดียวกัน
    ตัวอย่างที่ชี้ขาดกว่าคือ “เมื่อวันที่ 18 พฤษภาคม 2026 ยูเครนได้ดำเนินการโจมตีด้วยโดรนต่อมอสโก ประเทศรัสเซีย” หากไม่มีเครื่องมือค้นหา คำตอบที่ถูกต้องมีได้เพียง “ตรวจสอบไม่ได้” เท่านั้น แต่ไม่มีตัวเลือกนั้น และคำตอบก็แยกเป็น true/false: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
    • หากไม่ได้ให้คำนิยามของ True / Mostly True / Misleading / False แก่ผู้ประเมินแต่ละราย ผมก็คงมองว่าข้ออ้างของบทความที่ว่า “ข้ออ้างหนึ่งมีหมวดคำตอบที่ถูกต้องได้เพียงหมวดเดียว” นั้นเป็น false
      ข้ออ้างบางอย่างอาจเป็นทั้ง “misleading” และ true หรือ false ได้พร้อมกัน และก็ยังไม่ชัดเจนด้วยว่ากรณี “ส่วนใหญ่เป็นเท็จ” ควรถูกจัดอยู่ในหมวดไหน
      อีกทั้งก็ไม่มีเกณฑ์ว่าต้องผิดมากแค่ไหนจึงจะเปลี่ยนจาก “mostly true” ไปเป็น “false” สุดท้ายจึงไม่ใช่แค่ทดสอบความเข้าใจข้อเท็จจริง แต่เป็นการทดสอบด้วยว่าโมเดลนิยาม mostly และ misleading อย่างไรด้วย ดังนั้นการบอกว่าโมเดลมีความไม่ตรงกันอย่างเป็นรากฐานต่อข้อเท็จจริงนั้นเป็นการพูดเกินจริง
    • ข้อผิดพลาดร้ายแรงอีกอย่างคือไม่ได้พยายามวัด ความแปรปรวนภายในโมเดล
      หากนำการประเมินที่เข้มงวดไปเชื่อมใช้งานจริง ในการเรียกใช้เครื่องมืออย่างการค้นเว็บก็จะมีปัญหาโครงสร้างพื้นฐาน ความล้มเหลวชั่วคราว และความไม่เป็นเชิงกำหนดสารพัดอย่างปะปนเข้ามาทันที
      ควรแยกตัวเลขระหว่าง 3 โมเดลที่ไม่มีการค้นหา กับเอเจนต์ค้นหาออกจากกัน สำหรับข้ออ้างเชิงข้อเท็จจริงล่าสุดหลังวันตัดความรู้ โมเดลที่ไม่มีการค้นหาแทบไม่มีความหมายอยู่แล้ว และเมื่อไม่มีตัวเลือก “ไม่รู้” ผลลัพธ์ก็แทบจะเป็นโมฆะโดยสิ้นเชิง พอไม่รู้แต่พูดว่าไม่รู้ไม่ได้ ก็เลยต้องเดาคำตอบที่ฟังดูน่าเชื่อถือ
      ผมยังเห็นด้วยด้วยว่าการบังคับให้เลือกและการแยกแบบ “อ่อน/แข็ง” ทำให้ตัวเลขในพาดหัวพองเกินจริง หากจะทำการแยกแบบนี้ จำเป็นต้องใช้พรอมป์ต์ที่เข้มงวดกว่านี้มาก และมีความเป็นไปได้สูงว่าต้องใส่ตัวอย่างในบริบท (ICL) ด้วย เพื่อไม่ให้ปล่อยให้โมเดลตีความเองว่า “mostly” หมายถึงอะไร
    • ถ้า “ส่วนใหญ่” หมายถึงประมาณ 51% ตามเกณฑ์ของ Wikipedia[1] ก็ไม่เข้าใจว่า 51% จะถูกมองว่าใกล้เคียงกับ “ทั้งหมด” ได้อย่างไร จนทำให้ “misleading” เป็นคำตอบที่ใช้ได้
      เลยสงสัยว่าผมพลาดอะไรไปหรือเปล่า
      [1]: https://en.wikipedia.org/wiki/Almond#Production
    • เคยรู้สึกว่า Opus 4.7 ให้ คำตอบแบบสงวนท่าที มากกว่าโมเดลอื่น และก็เป็นจริงตามนั้น
      claude-opus-4-7 อยู่ที่ 451 จาก 1000 หรือ 45.1%, sonar-pro 39.1%, gpt-5.4 27.7%, gemini-3-retrieval 12.9%, และ gemini-3-pro 6.0%

มีคิวรี Datasette อยู่ที่นี่: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...

  • ถ้าจะใช้ LLM ราวกับเป็นเทพพยากรณ์ ผมก็ไม่คิดว่าพรอมป์ต์นี้จะไร้เหตุผลนัก LLM ถูกขายเหมือนเป็นอัจฉริยะ และผู้คนก็ปฏิบัติกับมันแบบนั้น โดยเฉพาะเพราะ AI ในนิยายวิทยาศาสตร์มักถูกวาดภาพว่าเป็นสิ่งที่แม่นยำเกินจริง
    ถ้าเป็นเครื่องมือที่สมบูรณ์แบบและมี “สติปัญญาระดับอัจฉริยะ” ก็ควรตอบให้ถูกต้อง
  • สำหรับข้ออ้างว่า “สิ่งมีชีวิตนอกโลกมีอยู่จริงที่ไหนสักแห่งในจักรวาล” นั้น GPT-5.4 และ Opus 4.7 ตอบว่า Misleading ส่วน Gemini 3, Gemini 3 (Retrieval) และ Sonar Pro ตอบว่า FALSE
    เป็นข้ออ้างเชิงข้อเท็จจริงที่ประหลาดมาก คำตอบที่ถูกจริง ๆ คือ ไม่มีใครรู้แน่ชัด แต่กลับไม่มีตัวเลือกนั้น

    • การบอกว่าความไม่ตรงกันนี้แสดงให้เห็นปัญหาก็ยังแปลกกว่าอีก ถ้าให้มนุษย์ 5 คนที่มีความรู้เรื่องนี้มากมาเลือกคำตอบแบบปรนัย ก็มีแนวโน้มว่าจะแตกกันมากกว่า 5 LLM นี้เสียอีก
      ไม่ได้หมายความว่าอาการหลอนเป็นปัญหาไม่จริง แต่การทดสอบมันด้วยวิธีนี้แย่มาก
    • ในบรรดาตัวเลือกที่ให้มา “Misleading” น่าจะดีที่สุด เพราะมันนำเสนอสิ่งที่ยังพิสูจน์ไม่ได้แต่มีความเป็นไปได้สูงราวกับเป็นข้อเท็จจริง
      แต่ก็ควรมีหมวด unknown หรือ undecidable
    • รูปแบบแบบนี้โผล่มาเรื่อย ๆ และในฐานะ benchmark มันดูหละหลวมมาก ไม่ใช่ข้ออ้างแบบที่คาดหวังเลย
    • ถ้าอย่างนั้นในที่นี้ misleading ก็เป็นตัวเลือกที่ถูกไม่ใช่หรือ?
    • ไม่เข้าใจว่า “misleading” จะมาแทน “unknown” ได้อย่างไร
  • ส่วนที่บอกว่า “นี่ไม่ใช่รายการ benchmark ที่มีเฉลยสาธารณะ แต่เป็นข้ออ้างที่ผู้ใช้จริงส่งคำขอให้ตรวจสอบมายังแพลตฟอร์ม fact-checking” นั้นถือว่าดี
    แต่ถ้าผู้เขียนไม่เปิดเผยให้ชัดเจนว่า ใช้ LLM มากแค่ไหน ในการเขียนและจัดทำรายงานฉบับนี้ ก็ไม่แน่ใจว่ามันมีความหมายมากน้อยแค่ไหน แม้จะมีถึงส่วน “11. Ethics & data use” และพูดถึงประเด็นคล้ายความไม่ผิดพลาดของ LLM แต่กลับไม่พูดเลยว่าใช้ LLM ในการทำรายงานหรือไม่

    • การเก็บและประมวลผลข้อมูลทำด้วยมือ และ LLM ช่วยร่างรายงานฉบับแรก ก่อนตีพิมพ์ทั้งหมดได้รับการตรวจทานโดยมนุษย์
  • น่าจะเห็นพ้องกันได้ว่า การที่การทดลองนี้มีข้อบกพร่องหลายด้านนั้นเป็น TRUE
    ถึงอย่างนั้นมันก็เป็นแบบฝึกหัดที่ยอดเยี่ยมในการหาความผิดพลาดที่คนมักทำเวลาใช้ LLM น่าจะเหมาะเป็นคำถามสัมภาษณ์งานสาย prompt engineering

  • โมเดลกำลัง เหมือนมนุษย์ มากขึ้นทุกวัน

    • ทุกวันนี้มนุษย์จำนวนมากก็ยังตกลงกันไม่ได้ว่าอะไรคือข้อเท็จจริง ดูเหมือนจะแย่ลงเรื่อย ๆ และไม่ค่อยรู้ว่าจะแก้อย่างไร
  • เพราะกฎของ Goodhart “benchmark” นี้จะหมดความหมายภายในไม่กี่วัน หรืออย่างช้าก็ไม่กี่สัปดาห์
    มันจะถูกดูดกลับเข้าไปในการฝึกอีกครั้งและดูเหมือนว่า “แก้ได้แล้ว” แต่ไม่ใช่ว่าเกิดการให้เหตุผลขึ้นมา แค่ความน่าจะเป็นเชิงสถิติของการตอบให้ฟังดูถูกต้องใน “ปัญหา” ใหม่ ๆ เพิ่มขึ้นเพราะมีการส่องไฟไปที่มันเท่านั้น จากนั้นก็จะมีการโหมว่าเป็น “ความก้าวหน้า” มหาศาลที่ “เปลี่ยนทุกอย่าง”
    และขอเสริมว่า อาจมีหรือไม่มีปริญญาด้านกลยุทธ์องค์กรและ PR ก็ได้

    • มีผลแบบนั้นอยู่ แต่ไม่ถึงขั้นเป็นหมัดน็อก ยังมี benchmark แบบปิด ที่อิงทราฟฟิกของผลิตภัณฑ์จริงจำนวนมาก และก็ยังมีโจทย์สาธารณะที่ไม่ปนเปื้อนอยู่
      โดยทั่วไปคนในแล็บก็รู้ว่าตัวเองกำลังทำอะไร และไม่ได้ไม่รู้ปัญหาเหล่านี้
    • สติปัญญามนุษย์ก็ไม่เหมือนกันหรือ? แม้แต่คนฉลาดที่รู้จักหลายคนก็ยังมีความเชื่อที่ดูเหมือนไม่มีค่าความจริงที่ชัดเจน
  • ไม่เข้าใจว่าทำไมถึงตัด Grok ออกไป ทั้งที่ความแตกต่างเชิงปรัชญาในวิธีฝึก Grok ถูกเปิดเผยไว้แล้ว มันน่าจะเป็นจุดข้อมูลที่น่าสนใจ
    จะถกเถียงกันเรื่องความแตกต่างนั้นได้ทั้งวันก็จริง แต่ก็น่าเสียดายที่พลาดโอกาสสังเกตมันอย่างเป็นกลาง

    • ในชื่อมีคำว่า “Frontier” อยู่ ดังนั้น Grok ก็น่าจะถูกตัดออก
      Grok ถูกฝึกให้มีอคติแบบที่หลายคนชอบ แต่ไม่ได้เป็นโมเดลที่ตั้งใจให้แม่นยำ
    • เห็นด้วย น่าจะสนุกถ้าได้เห็นว่า Grok ทำได้แย่กว่านี้แค่ไหน
  • ไม่แน่ใจว่านี่แสดงอะไรที่เราไม่รู้อยู่แล้ว LLM ไม่สามารถให้คำตอบที่แม่นยำกับคำถามเกี่ยวกับข้อมูลที่ไม่อยู่ในชุดฝึกได้
    ดูเหมือนไม่มีเนื้อหาอะไรนัก

    • LLM สามารถตอบไม่แม่นยำได้แม้กับคำถามเกี่ยวกับข้อมูลที่อยู่ในชุดฝึก และนั่นคือธรรมชาติของ neural network เพียงแต่ความเป็นไปได้นั้นจะสูงขึ้นเมื่อข้อมูลไม่อยู่ในชุดฝึก
    • น่าเสียดายที่คนส่วนใหญ่ไม่รู้เรื่องนี้ และปฏิบัติต่อ LLM ราวกับเป็นสมองพลังวิเศษที่รู้ทุกอย่างและทำได้ทุกอย่าง
    • ถ้าอย่างนั้นมันก็แสดงว่าโมเดลเหล่านี้ใช้ชุดฝึกที่ต่างกันมาก และยังแสดง ความมั่นใจสูง ในเวลาที่ไม่ควรมั่นใจ
      คำถามอย่าง “น้ำยาบ้วนปากมีประสิทธิภาพหรือไม่” ดูเหมือนน่าจะมีแหล่งข้อมูลแข็งแรงอย่างวารสารการแพทย์สักฉบับหนึ่ง
    • มันยินดีจะค้นหาแทนคุณแล้วเอาคอมเมนต์บนสุดของ Reddit มาเป็นคำตอบให้
      แบบนั้นแย่กว่าอีก
  • ไม่เข้าใจว่าทำไมทุกคนถึงหมกมุ่นจะให้ LLM ทำ fact-checking นัก
    เทคโนโลยีนี้ไม่ได้มีไว้ใช้แบบนั้น ในบางสถานการณ์มันอาจพอใช้ได้งู ๆ ปลา ๆ แต่ก็ไม่ได้แปลว่าเป็นเครื่องมือที่เหมาะ
    ก็เหมือนซื้อ ตู้เย็น มาไว้เก็บเสื้อผ้า

    • Nietzsche คงอาจพูดว่านี่ไม่ใช่ภาพลวงตาเรื่องความจริง แต่เป็นภาพลวงตาเรื่องความสบายใจ
      มนุษย์ยุคสุดท้ายต้องการเครื่องจักรที่คอยบอกว่า “ผิดตามข้อเท็จจริง” หรือ “ถูกตามข้อเท็จจริง” เพราะอยากทำให้ห้วงลึกที่ไร้ความจริงสูงสุดเล็กลงพอจะนอนหลับข้าง ๆ มันได้
    • ผู้คนถามคำถามเพื่อให้ได้คำตอบ ส่วนตัวคิดว่านี่สำคัญทีเดียว โดยเฉพาะเมื่อเสิร์ชเอนจินเริ่มยัดคำตอบจาก LLM มากขึ้น
    • แต่ผู้คนก็ใช้งานมันแบบนั้นจริง ๆ แล้วประเด็นคืออะไรล่ะ?
  • ผมสร้างสิ่งนี้ขึ้นมาสำหรับ 100% local CPU fact-checking: https://news.ycombinator.com/item?id=48301003

    • ไม่มีทั้ง paper, benchmark หรือแม้แต่ README ที่มนุษย์เขียน แล้วทำไมต้องเชื่อสิ่งนี้ด้วย?