- งานวิจัยนานาชาติร่วมที่นำโดย European Broadcasting Union (EBU) และ BBC พบว่า AI Assistant หลัก 4 รายการ (ChatGPT, Copilot, Gemini, Perplexity) แสดง การบิดเบือนหรือข้อผิดพลาดใน 45% ของการถ่ายทอดเนื้อหาข่าว
- งานวิจัยนี้มีสถานีสาธารณะ 22 แห่งจาก 18 ประเทศเข้าร่วม ประเมิน 14 ภาษา และคำตอบมากกว่า 3,000 รายการ โดยพบปัญหาจำนวนมาก เช่น การละเลยหรือระบุแหล่งที่มาไม่ถูกต้อง (31%) และ ข้อผิดพลาดด้านข้อเท็จจริงหรือภาพหลอนของ AI (20%)
- โดยเฉพาะ Gemini มีสัดส่วนปัญหาสูงถึง 76% ซึ่งวิเคราะห์ว่าสาเหตุหลักมาจาก การไม่ระบุแหล่งที่มา
- แม้จะมีการปรับปรุงบางส่วนเมื่อเทียบกับงานวิจัยก่อนหน้าของ BBC แต่ก็ยังยืนยันได้ว่าปัญหานี้เกิดขึ้นในระดับ เป็นระบบและข้ามพรมแดนหลายประเทศ
- ท่ามกลางแนวโน้มที่ AI Assistant กำลังเข้ามาแทนที่การค้นหาข่าว จึงเกิดข้อกังวลถึง ความเสี่ยงต่อความเชื่อมั่นสาธารณะและการมีส่วนร่วมทางประชาธิปไตยที่อาจลดลง
ภาพรวมของงานวิจัย
- งานวิจัยนี้ซึ่งประกาศใน ที่ประชุม EBU News Assembly (เนเปิลส์) เป็น การทดลองข้ามชาติครั้งใหญ่ที่สุดเท่าที่เคยมีมา และสรุปว่า AI Assistant แสดงการบิดเบือนข่าวอย่างสม่ำเสมอโดยไม่ขึ้นกับภาษา ประเทศ หรือแพลตฟอร์ม
- หน่วยงานที่เข้าร่วม: BBC, ARD, ZDF, CBC, NPR และ สถานีสาธารณะ 22 แห่งทั่วโลก
- เกณฑ์ประเมิน: ตัวชี้วัดจริยธรรมสื่อหลัก เช่น ความถูกต้อง, การระบุแหล่งที่มา, การแยกข้อเท็จจริงออกจากความเห็น และ การให้บริบท
ผลลัพธ์สำคัญ
- พบ ปัญหาร้ายแรงใน 45% ของคำตอบทั้งหมด
- 31% เป็นข้อผิดพลาดด้านแหล่งที่มา (ละเลยแหล่งที่มา, อ้างอิงผิด, ระบุแหล่งที่มาผิด)
- 20% เป็นข้อบกพร่องด้านความแม่นยำ (รวมถึงภาพหลอนของ AI, ข้อมูลล้าสมัย, ข้อมูลผิด)
- Gemini มีสัดส่วนปัญหาสูงถึง 76% ซึ่งมากกว่ารุ่นอื่นราวสองเท่า
- แม้บางตัวชี้วัดจะดีขึ้นเมื่อเทียบกับงานวิจัยที่ BBC เผยแพร่เมื่อต้นปีนี้ แต่ อัตราการบิดเบือนโดยรวมยังคงสูง
ทำไมการบิดเบือนนี้จึงสำคัญ
- AI Assistant ได้กลายเป็น ช่องทางรับข่าวที่เข้ามาแทนเสิร์ชเอนจิน สำหรับผู้ใช้จำนวนมากแล้ว
- ตาม ‘Digital News Report 2025’ ของ Reuters Institute ผู้บริโภคข่าวออนไลน์ทั้งหมด 7% (และ 15% ในกลุ่มอายุต่ำกว่า 25 ปี) ใช้ AI Assistant เป็นแหล่งข่าว
- Jean Philip De Tender (ผู้อำนวยการด้านสื่อของ EBU) เตือนว่า “ปัญหาของ AI Assistant เป็น ปรากฏการณ์เชิงระบบที่ข้ามพรมแดนและภาษา ซึ่ง คุกคามความเชื่อมั่นสาธารณะ”
- Peter Archer จาก BBC เน้นว่า “AI มีศักยภาพสูง แต่สิ่งสำคัญอันดับแรกคือต้อง ส่งมอบข้อมูลที่เชื่อถือได้ และจำเป็นต้องมี การรับมือร่วมกันระหว่างองค์กรสื่อและบริษัท AI”
การรับมือและขั้นตอนถัดไป
- ทีมวิจัยได้เผยแพร่ ‘News Integrity in AI Assistants Toolkit’ เพื่อช่วยแก้ปัญหา
- เสนอเกณฑ์ของคำตอบ AI ที่ดีและแนวทางแก้ไขปัญหา
- ตั้งเป้ายกระดับคุณภาพคำตอบของ AI และเพิ่ม ทักษะการรู้เท่าทันสื่อ ของผู้ใช้
- EBU เรียกร้องให้สหภาพยุโรปและหน่วยงานกำกับดูแลของแต่ละประเทศ บังคับใช้กฎหมายด้านความสมบูรณ์ของข้อมูลและบริการดิจิทัลอย่างเข้มงวดขึ้น พร้อมเสนอให้มี การติดตามตรวจสอบ AI Assistant อย่างอิสระและต่อเนื่อง
งานวิจัยเพิ่มเติมและการสำรวจการรับรู้
- BBC ยังเผยแพร่รายงานแยกชื่อ ‘Audience Use and Perceptions of AI Assistants for News’ ซึ่งระบุว่า
- มากกว่าหนึ่งในสาม (ผู้ใหญ่ในสหราชอาณาจักร) ตอบว่าพวกเขาเชื่อถือสรุปข่าวที่สร้างโดย AI และ
- เมื่อพบข้อผิดพลาด มีแนวโน้มที่จะ ถือว่าองค์กรข่าวต้องรับผิดชอบด้วย ไม่ใช่แค่ AI เท่านั้น
- สิ่งนี้แสดงให้เห็นว่า ข้อผิดพลาดของ AI Assistant อาจส่งผลลบต่อความน่าเชื่อถือของแบรนด์ข่าวด้วย
รายชื่อสถานีที่เข้าร่วม
- เบลเยียม (RTBF, VRT), แคนาดา (CBC-Radio Canada), เช็กเกีย (Czech Radio), ฟินแลนด์ (YLE), ฝรั่งเศส (Radio France),
จอร์เจีย (GPB), เยอรมนี (ARD, ZDF, Deutsche Welle), อิตาลี (Rai), ลิทัวเนีย (LRT),
เนเธอร์แลนด์ (NOS/NPO), นอร์เวย์ (NRK), โปรตุเกส (RTP), สเปน (RTVE), สวีเดน (SVT),
สวิตเซอร์แลนด์ (SRF), ยูเครน (Suspilne), สหราชอาณาจักร (BBC), สหรัฐอเมริกา (NPR)
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ถ้าไปดูรายงานจริง จะเห็นได้ว่าตัวเลขนี้คำนวณออกมาอย่างไร ข้อผิดพลาดส่วนใหญ่เป็นเรื่อง “แหล่งที่มา” คือ AI assistant ไม่อ้างอิงแหล่งที่มาของข้อกล่าวอ้าง หรือไม่ก็อ้าง Wikipedia แทน BBC อย่างน่าตกใจ นอกจากนี้ รายงานนี้ก็ไม่ได้ระบุชัดเจนว่าใช้โมเดลใดบ้างด้วยซ้ำ (มีพูดถึงในภาคผนวก) และก็ตัด Anthropic ออกไป ทั้งที่สำหรับงานแบบนี้ผมมองว่าดีที่สุด กลับไปโฟกัสแค่ Perplexity กับ Copilot อีกทั้งยังเอาเนื้อหาจากรายงานล่าสุดมาปนกับงานวิจัยเมื่อปีก่อนจนบริบทหายไป ทำให้พลาดประเด็นว่าสถานการณ์เปลี่ยนไปมากแล้ว บทความนี้มีปัญหาสำคัญหลายข้อ
นักข่าวที่เป็นมนุษย์เองก็ถ่ายทอดเนื้อหาไวท์เปเปอร์ผิดประมาณ 85% พอมองแบบนี้ ตัวเลข 45% ก็ไม่ได้รู้สึกว่าแย่ขนาดนั้น
เรื่องปัญหาการอ้างอิง อาจเป็นเพราะ robots.txt ของ BBC บล็อก AI crawler และ user agent ส่วนใหญ่ก็ได้
ผมเห็นด้วยมากว่าปัญหาจากการตีความข้อความที่มนุษย์เขียนนั้นใหญ่จริง ถึงบทความนี้จะไม่ดี แต่ปัญหาที่บทความพยายามชี้ก็มีอยู่จริงอย่างร้ายแรง LLM มักเข้าใจประโยคเดี่ยว ๆ ผิด หรือหลุดตามไม่ทันว่าใครเป็นคนพูดอะไร ซึ่งยังเกิดขึ้นบ่อยแม้ในโมเดลรุ่นใหม่สุดรวมถึง GPT-5 โดยเฉพาะเวลาสั่งให้วิเคราะห์การสนทนาที่มนุษย์เขียน ปัญหานี้อาจแก้ได้ในอนาคต แต่ตอนนี้ยังห่างไกลจากคำว่าแก้เสร็จสมบูรณ์มาก
ผมอยากเสริมจากประเด็นที่ว่าการอ้าง Wikipedia แทน BBC เป็นปัญหา จริง ๆ ปัญหาที่ใหญ่กว่าคือมันอ้างบทความ Wikipedia ที่ “ไม่มีอยู่จริง” ตัวอย่างเช่น ChatGPT ใส่ลิงก์ไปยังบทความวิกิที่ไม่มีจริงชื่อ “European Union Enlargement Goals for 2040” ซึ่งก็ไม่ใช่นโยบายทางการของ EU ด้วย มันสร้างทั้ง URL ที่ไม่มีอยู่จริง เป้าหมายสมมุติของ EU และนโยบายปลอมขึ้นมาหมด
ผมมองว่าบทความนี้กำลังทำหน้าที่ของมันได้ดี คือโยนพาดหัวที่คนจะเอาไปอ้างต่อในภายหลัง อีกหนึ่งหรือสองเดือนจากนี้เราคงได้เห็นคนแปะลิงก์บทความนี้หรืออ้างลอย ๆ อย่าง “95% ของโครงการ AI ล้มเหลว” โผล่มาเต็มไปหมด POSIWID (คำย่อของ “the purpose of a system is what it does” หมายถึง จุดประสงค์ของระบบคือสิ่งที่มันทำจริง)
ผมสงสัยว่ามีคนสักกี่คนที่เคยเอาสรุปจาก AI ไปเทียบกับต้นฉบับจริง ๆ ผมเคยลองเทียบเองหลายครั้งแล้ว ผลลัพธ์แย่มาก มันไม่ใช่การสรุป แต่เหมือน “การบีบอัดแบบสุ่ม” มากกว่า ซึ่งคนละเรื่องกับการสรุปโดยสิ้นเชิง ในกรณีหนัก ๆ ข้อสรุปหลักกลับกลายเป็นตรงข้ามกับต้นฉบับไปเลย เพราะงั้นตอนนี้ผมไม่เชื่อถือฟีเจอร์สรุปของ AI อีกแล้ว
ถ้าคุณลองตรวจฟีเจอร์สรุปการโทรของ Gemini เอง จะพบว่าแทบทุกครั้งมีปัญหาร้ายแรงอยู่ เมื่อวานนี้ Gemini ยังบันทึกเรื่องที่เราไม่ได้ตกลงกันให้กลายเป็นเหมือนมีมติแล้ว ซึ่งเป็นประเด็นที่สำคัญที่สุดด้วย และออกมาตรงข้ามกับความจริงโดยสิ้นเชิง ไม่มีมันยังจะดีกว่า
คำว่า “การบีบอัดแบบสุ่ม” นี่เหมาะมาก ผมรู้สึกว่าอาการนี้โผล่ชัดมากในสรุปอีเมลหรือข้อความ มันจับใจความหลักของข้อความไม่ได้เลย แล้วสุ่มหยิบประโยคขึ้นมา ซึ่ง 99.9% ของกรณีก็ไม่ใช่ประเด็นสำคัญจริง ๆ จนสุดท้ายผมเลือกจะไม่สนใจมันเลย
จากที่ผมลองใช้ ปัญหานี้มักเกิดกับโมเดลโอเพนซอร์สขนาดเล็กหรือโมเดลมินิเป็นหลัก ส่วนโมเดลระดับ SOTA เช่น Sonnet-4.5, Opus-4.1, GPT-5-Thinking แทบไม่มีปัญหานี้ แต่ต้นทุนมันสูงเกินไป เลยทำให้บริษัทส่วนใหญ่เลือกใช้โมเดลถูก ๆ หรือ TTC ที่ยังทำไม่เสร็จ เพราะเรื่องต้นทุนหรือความเร็ว
ผมสงสัยเหมือนกันว่าปัญหานี้อาจเกี่ยวกับการที่หัวข้อข่าวมักเป็นคลิกเบตหรือเปล่า ถ้า AI อ่านแค่พาดหัวแล้วสรุปเนื้อหา ก็คงไม่น่าแปลกใจที่มันจะเข้าใจต้นฉบับผิดเกินครึ่ง
บางครั้ง AI ก็แต่งเนื้อหาที่ไม่มีอยู่ขึ้นมาล้วน ๆ เลย ผมเคยเห็นการอ้างอิงที่แต่งเองหมดทั้งชื่อบทความวิชาการ ผู้เขียน และผลลัพธ์ โดยไม่มีมูลความจริงใด ๆ
ผมเคยสั่ง Gemini ให้รวบรวมข่าวล่าสุดมาแสดง แต่แทนที่จะใช้การค้นหา มันกลับแต่งทั้งพาดหัว สรุป และลิงก์ขึ้นมาทั้งหมด เรื่องแบบนี้เกิดขึ้นหลายครั้ง ไม่ใช่แค่ครั้งสองครั้ง ตอนนี้เลยเริ่มกลัวที่จะใช้ Gemini กับงานอะไรก็ตามที่เกี่ยวข้องกับการค้นเว็บ ตัวอย่างเช่น มันเคยส่งเรื่อง “Google DeepMind และนักวิจัย Harvard เสนอวิธีใหม่ในการประเมิน ‘ทฤษฎีจิตใจ’ ของ LLM” พร้อมลิงก์มาให้ แต่ลิงก์ใช้ไม่ได้ และค้นหาชื่อข่าวก็ไม่เจอด้วย
ถ้าดูคำตอบของ Gemini สิบครั้ง มากกว่าเจ็ดครั้งเป็นคำตอบผิด บางทีก็จำชื่อผลิตภัณฑ์ผิด หรือบอกเวลาเปิดทำการผิดจากความเป็นจริง อย่างเช่นมันเคยบอกร้านอาหารที่ผมไปกับภรรยาว่าเปิดจันทร์ถึงศุกร์ แต่จริง ๆ ร้านเปิดอังคารถึงเสาร์ ทำให้เสียเที่ยวมาแล้ว บางทีก็ถึงขั้นแต่ง “ข้อเท็จจริง” ขึ้นมาหลายสิบข้อแบบไร้สาระ ทุกวันนี้ภรรยาผมเลยเช็กเองละเอียดขึ้นมาก และถึงขั้นมีเจ้าของร้านล้อว่า “ถ้า Gemini บอกว่า X ความจริงน่าจะเป็น Y มากกว่า”
ผมยังทำให้เกิดพฤติกรรมแบบนี้ซ้ำไม่ได้ เลยอยากรู้ว่าใช้พรอมป์ตอะไร ถ้าขอข่าวเด่นประจำวัน มันก็ใช้ Google Search และให้ลิงก์จริงมาอยู่นะ
ผมก็อยากรู้เหมือนกันว่าใช้ Gemini เวอร์ชันไหน เรียกผ่าน API โดยตรงหรือใช้ผ่านเว็บแอปอย่าง Gemini หรือ AI Studio เพราะแอป LLM แต่ละตัวไม่ได้เปิดฟีเจอร์ค้นเว็บ/ข่าวไว้เหมือนกันเสมอไป ผลลัพธ์จึงต่างกันมากตามสิทธิ์เข้าถึง แน่นอนว่า ถ้า AI ไม่มีสิทธิ์ค้นเว็บ มันก็ควรบอกตามนั้น ไม่ใช่แต่งลิงก์ปลอมขึ้นมาเอง และถ้าฟีเจอร์ค้นเว็บเปิดอยู่แต่กลับไม่ยอมค้นจริง นั่นก็เป็นปัญหาในตัวมันเอง
ถ้าเป็นแบบนี้ ผมก็อยากถามว่าทำไมไม่เข้าเว็บไซต์ข่าวทั่วไปแล้วอ่านพาดหัวเองเลยจะดีกว่าไหม
ถึงจะเป็นลิงก์ที่ AI ให้มาก็ยังต้องกดเข้าไปตรวจเองอยู่ดี ว่ามันอธิบายเนื้อหาได้ถูกต้องจริงหรือไม่
ผมสงสัยว่าพวกนักเผยแพร่ศรัทธา LLM ตระหนักไหมว่าผู้ใช้จะผิดหวังแค่ไหนเมื่อพวกเขารีบหาเหตุผลมาแก้ตัวให้ประสิทธิภาพอันหละหลวมของเครื่องมือพวกนี้ทันที มันไม่ใช่แค่ข้อจำกัดทางเทคนิค แต่ดูเหมือนเป็นระดับ “ความเชื่อ” ไปแล้ว ราวกับว่าแม้แต่คำว่า “ความสามารถ” เองก็กลายเป็นความคาดหวังที่มากเกินไป
ผมรู้สึกว่าหลายคนในกลุ่มนักเผยแพร่พวกนั้น สุดท้ายก็คงเป็นผู้ก่อตั้งสตาร์ตอัปที่เอาแต่โชว์ต้นแบบที่ทำด้วย AI ไปก่อน แล้วพอกระแสหมดก็พังลงมา หรือไม่ก็เป็นนักพัฒนาที่ตามผู้นำไปเพราะรู้สึกว่าตัวเองดูฉลาดขึ้น วัฒนธรรมแบบ fake-it-till-you-make-it ในวงการเทคมันแพร่หลายเกินไปจนน่าผิดหวัง
ผมมองว่าเรากำลังอยู่ในสังคมแบบ post-truth อยู่แล้ว จะพูดอะไรจริงหรือไม่จริงก็ไม่สำคัญ สิ่งสำคัญมีแค่ว่าคำพูดนั้นช่วยเพิ่มอำนาจให้ตัวเองหรือสิ่งที่ตัวเองผลักดันอยู่หรือไม่
ใครก็ตามที่ลงเงินไปกับโครงสร้างแบบ Ponzi เชิงวงจร ก็ย่อมพร้อมปกป้องความล้มเหลวของ LLM แบบไร้เงื่อนไข พวกเขาอยากเชื่อจริง ๆ ว่าการกระจายโทเคนที่ไร้ความหมายนั้นคือภาพลวงของ “การรับรู้ของเครื่องจักร” หรือไม่ก็หาเหตุผลว่าถึงจะไม่สมบูรณ์แต่ก็ใช้ได้เกือบตลอด ภาพลวงแบบนี้แหละที่ถูกใช้ค้ำมูลค่าระดับหลายล้านล้านดอลลาร์ร่วมกัน
ปัญหานี้เป็นปัญหาเฉพาะของ LLM จริงหรือ ผมว่าในสังคมวงกว้าง เราเลิกให้ความสำคัญกับ “ความสามารถ” มานานแล้ว เช่น การให้ใบจบกับนักเรียนที่อ่านหนังสือไม่ถึงระดับ ป.5 หรือการเอาต์ซอร์สคอลเซ็นเตอร์ไปยังที่ที่คนพูดอังกฤษไม่คล่อง เป็นต้น
ผมเห็นด้วยบางส่วน แต่รู้สึกว่าช่วงนี้การถกเถียงมักไหลไปทางการวิจารณ์สื่อข่าวหรือประเด็นอื่น ๆ ตลอด สำหรับผลการศึกษานี้เองผมก็ยังสงสัยหลายอย่าง เพราะมันไม่ใช่งานวิชาการ แต่เป็นงานวิจัย Ipsos แบบว่าจ้างเสียเงิน เลยไม่เข้าใจว่าทำไมมาตรฐานถึงต่ำขนาดนี้ อย่างน้อยควรระบุโมเดลที่ใช้ ค่า search R@k เมตริกความแม่นยำของการสรุปอย่าง BLEU/ROUGE และเมตริกการประเมินโดยมนุษย์ ถ้าไม่มีสิ่งเหล่านี้ ผมมองว่าผลลัพธ์นี้ไม่มีประโยชน์อะไรเลย ไม่ว่าจะในวงการนี้หรือนอกวงการ
ตั้งแต่หน้า 10 ของ PDF มีตัวอย่างความผิดพลาดแบบเจาะจงอยู่: รายงานอย่างเป็นทางการของ BBC
ตัวอย่าง: ChatGPT อ้างบทความ Wikipedia ที่ไม่มีอยู่จริงชื่อ “European Union Enlargement Goals for 2040” ทั้งที่ EU ไม่มีนโยบายชื่อนี้จริง มันแต่งขึ้นมาทั้ง URL ปลอม เป้าหมายของ EU และนโยบาย
ควรจำไว้เสมอว่า ถ้าปล่อยให้ LLM สรุปการประชุม อีเมล หรือการสื่อสารแทน คนคนนั้นจะไม่ได้รับสารที่แท้จริง
เรื่องนี้น่ากลัวมาก มันไม่ใช่แค่การมอบหมายความคิดให้คนอื่น แต่เป็นการทำลายเครื่องมือเดียวที่ใช้ทดแทนได้เสียเอง ผมเคยมีประสบการณ์คล้ายกัน ตอนหนึ่งผมลังเลว่าจะให้ AI ช่วยดูประวัติการแก้ไขเอกสารที่ที่มาไม่ชัดเจนดีไหม แต่สุดท้ายไม่มีเวลาเลยไม่ทำ ถ้าให้มันทำ ก็คงได้บันทึกที่ฟังดูน่าเชื่อถือมาก แต่แทนที่จะบอกว่ามีอะไรเปลี่ยนไปจริง ๆ มันอาจทำให้ผมเชื่อสิ่งที่บิดเบือนตรงกันข้ามด้วยซ้ำ ไม่ใช่แค่ขาดความรู้ แต่เป็นการได้ “ความรู้ผิด” หรือ anti knowledge มาแทน
ถ้านี่เป็นความจริงก็ถือเป็นคำเตือนสำคัญ แต่จากประสบการณ์ตรงของผมไม่เป็นแบบนั้นเลย ผมประชุมขายทุกวัน และรับสรุปการประชุมจากเครื่องมือ AI หลายตัว พอผมย้อนตรวจสรุปที่เก็บใน CRM มันแทบจะถูกต้องมากเสมอ เพราะผมเข้าร่วมประชุมเองและตรวจสอบได้โดยตรง
เราใช้ MS Copilot ในการประชุมมาหลายเดือนแล้ว และมันสรุปได้ดีมากว่าใครพูดอะไร ใครรับผิดชอบงานไหน มีประโยชน์มาก และในประสบการณ์ของผมก็ชัดเจนแม่นยำสูง
ผมคิดว่า Kagi News ค่อนข้างแม่นนะ มันสรุปพร้อมบอกแหล่งข่าวต้นทางและรายละเอียดสำคัญด้วย สรุปด้วย AI ช่วยให้รู้คร่าว ๆ ว่าควรอ่านบทความนั้นเต็มหรือไม่ แต่ข้อเท็จจริงที่สำคัญผมก็ยังตรวจเองเสมอ
ผมสงสัยว่าการตรวจข้อเท็จจริงจะทำได้ไกลแค่ไหนกันแน่ เพราะถ้าจะให้มั่นใจว่าสรุปถูกจริง ก็คงต้องลงพื้นที่รายงานเอง หรืออ่านงานวิจัยและเอกสารอ้างอิงของแต่ละสาขาไปเลย สุดท้ายแล้วมันก็ต้องมีจุดที่เราจำเป็นต้องพึ่งพาความเชื่อถือจากที่ใดที่หนึ่งอยู่ดี
ผมเคยทำโปรเจกต์คล้าย ๆ กันเลยมีประสบการณ์ตรง งานสรุปข่าวจาก RSS ให้ผลออกมาค่อนข้างดี โดยเฉพาะตอนใช้โมเดลที่เน้น "reasoning" ผลลัพธ์ดีกว่าชัดเจน
Kagi News ทำงานโดยดึงหลายบทความข่าวมาใส่เป็นบริบทแล้วค่อยสรุป ซึ่งโครงสร้างนี้ต่างจากกรณีในโพสต์ต้นทางที่เป็น “ให้ LLM ค้นเว็บแล้วเอาข่าวมาให้”
ยังมีบริการแบบนี้ด้วย: rawdiary.com
เห็นด้วยเรื่อง Kagi News แต่ผมว่า Particle News ก็ดีเหมือนกัน เพียงแต่ Particle News เคยรับเงินลงทุนจาก The Atlantic และเคยให้ตำแหน่ง "Featured Article" กับบทความของสื่อนั้น กรณีแบบนี้แม้จะมีกราฟิกบอกแนวโน้มอคติ แต่จะไม่ใช้กับ Featured Article ส่วนผู้ลงทุนรายอื่นก็คงคล้ายกัน แต่กรณีโปรโมต Atlantic นี้เป็นตัวอย่างที่ค่อนข้างใหม่
ในรายงานระบุชัดว่าใช้เฉพาะเวอร์ชันฟรี/คอนซูเมอร์ของ ChatGPT, Copilot, Perplexity และ Gemini เท่านั้น นั่นหมายความว่า Copilot ใช้โมเดลของ ChatGPT และตัวอื่น ๆ อย่าง Grok ไม่ได้ถูกทดสอบเลย
ผมใช้ DeepSeek V3 กับงานวิเคราะห์ข่าวคริปโตแบบอัตโนมัติ และในรายงานความแม่นยำล่าสุดของผมได้ตัวเลข 98.5% เลยค่อนข้างแปลกใจกับผลในบทความนี้
รายงานความแม่นยำของผม
ครึ่งหนึ่งของคำถามในบทความเป็นประเด็นอ่อนไหวทางการเมือง ซึ่งก็น่าสนใจ แต่ถ้าจะประเมินว่า AI ทำผลงานกับข่าวทั่วไปที่ไม่ยั่วยุเท่าไรได้อย่างไร ก็น่าจะต้องมีคำถามที่เป็นสากลกว่านี้ อีกทั้งบางคำถามก็ดูเหมาะกับโหมดวิจัยเชิงลึกมากกว่าการตอบเร็ว และข่าวจริงจำนวนมากก็มักเต็มไปด้วยความเห็นต่อคำตอบอยู่แล้ว