- สรุปการค้นหาด้วย AI ไม่ได้ถูกต้องเสมอไป
- เมื่อค้นหาข้อมูลเกี่ยวกับ PS/2 Model 280 ซ้ำหลายครั้ง ก็ได้รับข้อมูลที่แตกต่างกันทุกครั้ง
- เกิดปัญหาอาการหลอนของ AI ที่ อธิบายแม้แต่หมายเลขรุ่นที่ไม่มีอยู่จริงได้อย่างน่าเชื่อถือ
- ความน่าจะเป็นที่จะได้คำตอบที่ถูกต้องอยู่ในระดับต่ำมาก
- ผู้ที่ไม่ใช่ผู้เชี่ยวชาญ มีความเสี่ยงสูงที่จะเข้าใจข้อมูลผิดว่าเป็นความจริงได้ง่าย
ประสบการณ์กับปัญหาความน่าเชื่อถือของสรุปการค้นหาด้วย AI
การลองค้นหารุ่น IBM PS/2
- ค้นหาใน Google เพื่อหารุ่นเฉพาะของระบบ PS/2 Server ที่เปิดตัวในปี 1992
- ข้อมูลที่แสดงในผลการค้นหาไม่ตรงกับเครื่องที่ตามหา โดยรุ่นจริงมีลักษณะเด่นคือใช้ โปรเซสเซอร์ 486 (หลายตัว) และ Microchannel(MCA)
ผลลัพธ์ที่ซ้ำและคำตอบที่ไม่สอดคล้องกัน
- แม้จะรันคิวรีเดิมซ้ำ ผลสรุปจาก AI ก็ออกมาไม่เหมือนกันทุกครั้ง
- ตัวอย่างเช่น มีการย้ำซ้ำๆ ว่า PS/2 Model 280 เป็นระบบ ISA ที่ใช้ 286 เป็นพื้นฐาน
- ในแต่ละคำตอบ แม้แต่ข้อมูล ขนาดและสเปก RAM ก็ยังเปลี่ยนไป ทำให้เห็นชัดว่าเป็นข้อมูลที่ไม่สม่ำเสมอ
คำอธิบายแบบหลอนเกี่ยวกับรุ่นที่ไม่มีอยู่จริง
- หลังจากถามหลายครั้ง ยังมีการสร้างข้อมูลที่ เป็นไปไม่ได้ในทางเทคนิค เช่น อ้างว่าระบบ 286 สามารถขยายได้ถึง 128MB
- ยังมีคำอธิบายเพิ่มเติมว่า PS/2 Model 280 เป็น พัฒนาการสำคัญของสายผลิตภัณฑ์ IBM PC
- ทั้งที่จริงแล้ว PS/2 Model 280 ไม่มีอยู่จริงเลย แต่ AI กลับให้คำอธิบายที่ไร้หลักฐานได้อย่างน่าเชื่อถือมาก
ความถี่ต่ำของคำตอบที่ถูกต้อง
- ต้องลองคิวรีหลายครั้งกว่าจะมีคำตอบที่ถูกต้องโผล่มาเป็นครั้งคราวว่า “Model 280 ไม่มีอยู่จริงในซีรีส์ PS/2”
- สัดส่วนของคำตอบที่ถูกต้องต่ำมาก และในกรณีส่วนใหญ่ AI จะสร้างข้อมูลที่ไม่มีมูลขึ้นมาเอง
- คำตอบที่เกิดจากอาการหลอนไม่มีคุณค่าในฐานะข้อมูล และยิ่งกว่านั้นยังทำให้เกิดความมั่นใจผิดๆ
อย่าหลงเชื่อสรุปการค้นหาด้วย AI โดยไม่ตรวจสอบ
- การค้นหาอินเทอร์เน็ตด้วย AI อาจดูน่าเชื่อถือมากสำหรับคนที่ไม่ใช่ผู้เชี่ยวชาญ
- ผู้เชี่ยวชาญอาจจับผิดได้ทันที แต่สำหรับ ผู้ใช้ที่ขาดความสามารถในการตรวจสอบข้อมูล ก็มีโอกาสสูงที่จะถูกข้อมูลเท็จชักจูงได้ง่าย
- คำเตือนที่ว่า AI “อาจทำผิดพลาดได้” ไม่ใช่เรื่องที่ควรมองข้าม และการพึ่งพาคำตอบจาก AI โดยไม่มีขั้นตอนตรวจสอบข้อเท็จจริงที่เชื่อถือได้นั้นเป็นเรื่องอันตราย
- ขอเน้นว่า ฟังดูน่าเชื่อถือ ไม่ได้แปลว่าอิงจากข้อเท็จจริงจริงๆ เสมอไป
- ควรตระหนักอยู่เสมอว่าจำเป็นต้อง ตั้งข้อสงสัยและตรวจสอบข้อเท็จจริง กับสรุปหรือผลการค้นหาที่อิง AI เสมอ
2 ความคิดเห็น
ดูเหมือนว่าควรให้ LLM ทำแค่การสรุปจะดีกว่า กระบวนการค้นหาแหล่งที่มาของข้อมูลและการตรวจสอบยืนยันเป็นสิ่งที่จำเป็นอย่างยิ่ง
ความเห็นจาก Hacker News
มีการพูดถึงลักษณะการ confabulation ของ Google Gemini ที่แต่งคำตอบขึ้นมาแบบส่ง ๆ ให้ดูเหมือนตรงกับคำถาม พร้อมชี้ว่ามันไม่สนใจทั้งบริบทและความถูกต้อง โดยเล่าว่าถ้ารู้อยู่แล้วว่าควรได้ผลลัพธ์แบบไหน ก็อาจใช้เป็นตัวช่วยจำได้บ้าง แต่ถ้าไม่ใช่ก็เชื่อถือไม่ได้เลย อีกทั้งผลลัพธ์จาก Google Veo ก็มีช่องโหว่มากมาย เห็นได้ชัดว่าผลลัพธ์จาก AI ไม่มีตรรกะหรือการให้เหตุผลจริง ๆ พร้อมยกตัวอย่างกรณีที่ Veo ให้ผลลัพธ์เพี้ยน ๆ และแชร์ลิงก์ข่าวอุบัติเหตุที่ Tesla FSD ทำงานผิดปกติ
[ความสมจริงของวิดีโอ AI] (https://arstechnica.com/ai/2025/05/ai-video-just-took-a-star...)
[ข่าวอุบัติเหตุ Tesla FSD] (https://electrek.co/2025/05/23/tesla-full-self-driving-veers...)
บรรยากาศตอนนี้เหมือนคุณภาพระดับนี้ถูกยอมรับไปแล้วว่าเป็นเรื่อง 'ปกติ' และ 'พอรับได้' ทั้งที่แทบไม่มีใครมองว่าเป็นปัญหา ซึ่งน่ากังวลมาก ถ้าเป็นเมื่อก่อนคงไม่มีทางยอมรับได้ จึงสงสัยว่าทำไมตอนนี้ผลลัพธ์ที่ไม่แม่นยำถึงค่อย ๆ ถูกยอมรับมากขึ้น
มีคนเล่าว่าตอนค้นหาฟังก์ชันเกี่ยวกับรถยนต์ เดิมที Google Search แบบเก่าจัดการคำค้นประเภทนี้ได้ดีมาก แต่ตอนนี้กลับเต็มไปด้วยผลลัพธ์ AI ที่ 90% ปะปนข้อมูลปีรุ่น รุ่นย่อย และแบรนด์ผิด ๆ มีเพียง YouTube อันหนึ่งที่พอช่วยได้ และคำตอบที่ถูกจริง ๆ กลับไปอยู่มุมล่างสุดของหน้าใน car forum แบบเก่า เลยกล่าวขอบคุณ CamaroZ28.com
มองว่านี่เป็นปรากฏการณ์ที่ชวนตกใจยิ่งกว่าเทคโนโลยีใด ๆ และไม่เข้าใจว่า Google ถึงกล้าเดิมพันธุรกิจหลักของตัวเองกับการเปลี่ยนทิศทางไปสู่เทคโนโลยีที่มีข้อบกพร่องร้ายแรงแบบนี้ได้อย่างไร อีกทั้งคิดว่าคำสัญญาแบบ Ben Evans ที่บอกว่า 'มันจะดีขึ้น' ก็เป็นเพียงคำพูดลอย ๆ ยกตัวอย่างว่าพอค้นหาอีเวนต์รำลึกในเยอรมนีเมื่อวาน AI Overview กลับดึงชื่อของนักดนตรีชาวอิตาลีที่เสียชีวิตไปแล้วมา แล้วแต่งเรื่องว่าฮอลล์จัดงานนั้นเป็นผลงานชิ้นเอกของนักดนตรีคนนั้นเสียเอง พอนำคำตอบนี้ไปวางใน ChatGPT ก็ได้คำตอบเชิงเสียดสีแบบสุภาพและเฉียบคมที่ล้อความผิดพลาดของ AI Overview จนรู้สึกขำ
AI ภายนอกดูเหมือนฉลาดที่สุดเท่าที่เคยมีมา แต่พอตามตรรกะหรือเหตุผลภายในกลับไปไม่ถึง เลยให้ความรู้สึกประหลาดแบบ 'uncanny valley'
พูดตรง ๆ ว่าไม่ค่อยเข้าใจว่าคนที่ใช้ LLM แทนการค้นหานั้นใช้งานกันอย่างไร เพราะแชตบอตมักให้แค่ข้อมูลที่อยู่ใกล้กับสิ่งที่ต้องการ เช่น ถ้าขอแหล่งที่มา กลับได้มาแค่ข้อความอ้างอิง เลยสงสัยว่าหรือจริง ๆ ตัวเองใช้การค้นหาผิดวิธี
แม้จะเข้าใจข้อจำกัดและธรรมชาติแบบความน่าจะเป็นของ LLM อยู่แล้ว แต่ก็เล่าว่าพอเห็นครอบครัวหรือเพื่อนรอบตัวเชื่อใจ LLM แล้วเอาไปใช้กับงานที่ไม่เหมาะสม ก็รู้สึกเหมือนมีแต่ตัวเองที่เป็นพวกไม่เชื่อ AI คนอื่นถึงขั้นให้ AI ช่วยหารตัวเลข เช่น การหารค่าใช้จ่าย และมีปัญหาตรงที่เชื่อผลลัพธ์จาก LLM แบบไม่มีเงื่อนไข
เป็นตัวอย่างคลาสสิกของการใช้เทคโนโลยีชั้นสูงไปแก้ปัญหาชั้นต่ำ พร้อมแซวว่าต่อให้เป็นการคำนวณง่าย ๆ ก็ยังต้องยกให้เครื่องทำ
ส่วนที่ tricky คือในงานใช้ชีวิตประจำวัน ผลลัพธ์มักจะ 'พอใช้ได้' บ่อยพอที่จะทำให้คนติดเป็นนิสัยและพึ่งพามัน
การให้ LLM คำนวณอะไรเรียบง่ายจริง ๆ แล้วก็ค่อนข้างตลก มีคนล้อว่าถ้าจะให้ดี ก็น่าจะให้มันเขียน Python ใส่ตัวแปรให้เลย
มีการเปรียบว่าการใช้ LLM เองก็เป็นสิ่งที่ส่งผลกระทบต่อคนรอบข้างด้วย เหมือนการสูบบุหรี่ในที่ร่ม
ต่อประเด็นที่ว่า 'สั่ง AI คำนวณและให้หาข้อมูล แล้วก็เชื่อผล 100%' ก็มีคนแย้งว่าอย่างน้อยงานกลไกง่าย ๆ ระดับนี้ แชตบอตยุคนี้ก็ทำถูกเกือบหมดอยู่แล้วไม่ใช่หรือ อีกทั้งมันจัดการได้หลายอย่างในที่เดียว จะต้องสลับแอปตามสถานการณ์ไปทำไม สุดท้ายแรงขับที่ทรงพลังที่สุดก็คือ Usability
มีการชี้ว่าข้อความง่าย ๆ อย่าง "คำตอบจาก AI อาจมีข้อผิดพลาด" หรือคำเตือนด้านล่างของ ChatGPT นั้นไม่เพียงพอแล้ว แม้จะเตือนเรื่อง hallucination ของ LLM มาหลายปี คนก็ยังพลาดเหมือนเดิม จึงมองว่าผู้ให้บริการ LLM ควรให้การศึกษาผู้ใช้อย่างเข้มข้นกว่านี้เกี่ยวกับข้อจำกัดของมัน แม้จะทำให้ประสบการณ์ใช้งานไม่สะดวกขึ้นก็ยังถือว่าจำเป็น
มีคนมองว่าในประเด็นนี้ สิ่งที่จะทำเพิ่มได้ก็มีเพียงบังคับให้ผู้ให้บริการโมเดลรับผิดชอบ หรือไม่ก็รักษาระบบการแจ้งเตือนล่วงหน้าแบบจำกัดในปัจจุบันไว้เท่านั้น ตอนนี้ทั้งโมเดล AI และบริการคลาวด์ต่างก็มีการกรองและการเซ็นเซอร์หลายชั้นอยู่แล้ว แรงเสียดทานที่มากกว่านี้สุดท้ายก็อาจเป็นแค่การเพิ่มป๊อปอัปเท่านั้น และถ้าเริ่มทำให้ผู้ให้บริการโมเดลต้องรับผิดชอบจริง ๆ ธุรกิจโมเดลแบบเปิดสู่สาธารณะก็คงทำไม่ได้อีกต่อไป จะเหลือเพียงการทำสัญญาไลเซนส์กันระหว่างบริษัท และ API สำหรับสาธารณะก็เปิดไม่ได้ โดยคาดว่าอาจมีเพียงการผ่อนคลายข้อจำกัดทีละน้อยในอนาคตตามการเปลี่ยนแปลงของบรรยากาศโดยรวม
ต่อข้อเสนอว่า 'ควรให้การศึกษาผู้ใช้อย่างมีประสิทธิภาพมากขึ้น' ก็มีความเห็นว่าท้ายที่สุดนี่เป็นเรื่องที่คนต้องเรียนรู้จากประสบการณ์เอง เป็นปัญหาแบบ 'ต้องเจอกับตัวถึงจะเข้าใจ' ไม่มีคำเตือนใดทรงพลังเท่าความเสียหายจริงที่เกิดขึ้น
มีมุมมองว่าโดยแก่นแล้ว LLM ถูกเสนอขายในฐานะสิ่งที่จะมาแทนแรงงานความรู้ของมนุษย์ จึงเป็นไปไม่ได้ที่ผู้ให้บริการจะออกมาย้ำข้อจำกัดของมันอย่างจริงจัง ซึ่งขัดแย้งกับคำพูดของ CEO ของ Anthropic ที่พูดหลายครั้งว่าการตกงานจำนวนมากเป็นสิ่งหลีกเลี่ยงไม่ได้
มีการพูดถึงสมัยก่อนที่ Apple Maps และ Google Maps เคยต้องรับมือวิกฤต PR จากการนำทางผิดพลาด แต่ตอนนี้บรรยากาศกลับเหมือนแค่ติดคำเตือนไว้ก็จบ ไม่มีปัญหาอะไร ทำให้รู้สึกผิดหวังที่เทคโนโลยีใหม่ได้รับความผ่อนปรนมากเกินไป
ย้ำว่าคำเตือนควรอยู่ด้านบนสุดของหน้า เป็นตัวอักษรสีแดงขนาดใหญ่
มีการอธิบายว่า language model ไม่ได้ถูกออกแบบมาเพื่อ 'รู้' ความรู้ แต่ถูกสร้างมาเพื่อ 'พูด' จึงเรียกว่า 'language model' ไม่ใช่ 'knowledge model' สิ่งที่มันทำก็แค่ต่อคำถัดไปตามความน่าจะเป็นจากคำที่สร้างมาก่อนหน้าเท่านั้น สาเหตุที่ให้ผลต่างกันทุกครั้งก็เพราะภายในมีการแจกแจงความน่าจะเป็นสำหรับเลือกคำถัดไปด้วยตัวสร้างเลขสุ่มเทียม หากตั้งค่า temperature เป็น 0 ความสุ่มจะหายไปและมันจะเลือกคำที่มีความน่าจะเป็นสูงสุดเสมอ ซึ่งทำให้ผลลัพธ์น่าเบื่อมาก ไม่ได้หมายความว่ามัน 'รู้' เรื่อง IBM, PS/2, 80286, 80486 แต่อย่างใด มันแค่เรียงลำดับคำเท่านั้น
มีคนเล่าว่าต่อให้ temperature เป็น 0 โมเดลแบบ local ก็ยังทำงานได้ดีพอ และเหตุที่ UI บนคลาวด์บล็อกค่า 0 ไว้ ก็เพื่อไม่ให้ผู้ใช้ทั่วไปเห็นบั๊กที่โมเดลติดลูปซ้ำไม่รู้จบ
แม้จะเห็นด้วยว่าภาษาโมเดลไม่ได้ให้ 'ความรู้' แต่เพียงสร้างคำพูดขึ้นมา ทว่าจากมุมของคนที่ใช้ Google ผู้ใช้ไม่ได้เข้าไปเพื่อสนทนา แต่เข้าไปเพื่อให้ได้ 'ความรู้' จริง ๆ จึงมองว่าการที่ Google พยายามแทนที่การให้ความรู้ที่น่าเชื่อถือด้วยการ 'สร้างคำ' เป็นความผิดพลาดในระดับแก่นแท้ แต่เพราะเป้าหมายคือรายได้จากโฆษณา ในทางปฏิบัติอาจไม่สำคัญนักก็ได้
มีการเหน็บว่าแม้แต่บนเว็บค้นหาของ Google เอง คำเตือนว่า 'คำตอบจาก AI อาจมีข้อผิดพลาด' ก็ยังถูกซ่อนไว้ใต้ปุ่ม 'ดูเพิ่มเติม' อีกทั้งยังเล่าประสบการณ์เมื่อ OpenAI ChatGPT เปิดตัวใหม่ ๆ ว่าเคยอธิบายให้อาจารย์ที่ไม่ได้อยู่สายเทคนิคฟังว่า AI ปัจจุบันไม่ใช่ 'AI จริง' แต่ใกล้เคียงกับกลลวงเชิงคำนวณหรือ parlor trick มากกว่า แต่ถึงอย่างนั้น 'กลลวง' แบบนี้กลับมีประสิทธิภาพน่าทึ่งในการลอกงาน โดยรวมแล้วให้ความรู้สึกว่าไม่ใช่แค่งานส่ง แต่หลายเรื่องถ้าไม่สนคุณภาพหรือเรื่องลิขสิทธิ์ มันเป็นเครื่องมือสำหรับ 'โกง' ที่ดีมาก
มีคนตั้งข้อสงสัยกับมุมมองที่ว่า 'มันแค่ดูเหมือนเขียนโค้ดได้ แต่จริง ๆ เขียนไม่ได้' โดยมองว่าจริง ๆ แล้วมันเขียนโค้ดได้ และสิ่งที่เกิดขึ้นเบื้องหลังก็ไม่มีใครรู้ต่างจากสมองมนุษย์ การถกเถียงเรื่องแก่นแท้อาจไม่ได้สำคัญมาก เพราะสิ่งที่สำคัญคือผลลัพธ์จริง
มองมันในเชิงปฏิบัติว่าเป็นเครื่องมือช่วยความจำ/ค้นหาข้อมูลที่มีอินเทอร์เฟซรับเข้าและส่งออกที่ยืดหยุ่น
Gemini ดูเหมือนจะถูกปรับแต่งมาดีสำหรับคำถามที่คนถามกันบ่อย แต่เมื่อเป็นเจตนาการค้นหาแบบดั้งเดิมกลับมีแนวโน้มให้คำตอบแบบ confabulated ที่เพี้ยนไป มีคนบอกว่าเห็นหลายคนเชื่อ AI Overview ราวกับเป็น oracle นี่แหละคือวิธีที่คนทั่วไปสัมผัส AI ไม่เหมือนกับ 'ข่าว' ที่ความน่าเชื่อถือขึ้นกับวัยหรือประชากรกลุ่มต่าง ๆ แต่ AI กลับถูกเชื่อโดยคนทุกวัยทุก demographic จนรู้สึกว่าโดยธรรมชาติแล้วมนุษย์อาจเป็นสิ่งมีชีวิตที่ชอบคำตอบจากคอมพิวเตอร์ที่มั่นใจโดยไร้หลักฐาน
ประเมินว่าการเปลี่ยนแปลงของประสบการณ์ค้นหาของ Google รุนแรงมาก โดยนึกถึงสมัยก่อนที่ UI excerpt บนสุดของหน้าถูกใช้มานานกว่าสิบปี มันดึงข้อความจากเว็บไซต์ที่น่าเชื่อถือ ช่วยประหยัดการคลิก และเป็นแหล่งข้อมูลที่เชื่อถือได้ เช่น เวลาถามเรื่องการแพทย์ก็มักอ้างจาก Mayo Clinic และผู้ใช้ยังตามไปหาได้ในหน้าต้นทางโดยตรง ทำให้เกิดความเชื่อมั่น แต่เมื่อเวลาผ่านไประบบความเชื่อใจนี้ค่อย ๆ ถูก SEO บั่นทอน และตอนนี้ปัญหาหลักคือมันถูกแทนที่ด้วยระบบที่ต่างไปโดยสิ้นเชิงอย่าง AI Overview ซึ่งต่างชัดเจนจากยุคที่ยังตรวจสอบแหล่งอ้างอิงที่มีผลจริงได้แบบทันที
ไม่ใช่แค่คนที่ไม่ได้ใช้ LLM โดยตรงเท่านั้น แม้แต่ผู้จัดการที่ทำงานกับ LLM อย่างมืออาชีพก็ยังเปลี่ยนคำถามไปเรื่อย ๆ จนกว่าจะได้คำตอบที่ยืนยันสิ่งที่ตัวเองเชื่อ
มีการพูดถึงจิตวิทยาพื้นฐานว่ามนุษย์เดิมทีก็ชอบคำตอบที่มั่นใจโดยไม่มีหลักฐานอยู่แล้ว
มีคนรู้สึกว่าตอนนี้สภาพอินเทอร์เน็ตแบบที่เคยค้นหาเพื่อเรียนรู้อะไรบางอย่างได้นั้นหายไปแล้ว เพราะผลลัพธ์เต็มไปด้วยขยะ SEO spam ที่เชื่อถือไม่ได้ และ AI Overview ก็ดูจะทำให้หนักขึ้นไปอีก กังวลว่ากำลังจะเข้าสู่ยุคที่แม้ค้นหาอย่าง 'เครื่องพิมพ์ทำงานอย่างไร' แล้วได้คำตอบเหลวไหลอย่าง 'ระบบรอกและเชือก' คนก็ยังจะเชื่อกันจริง ๆ พร้อมสะท้อนว่าตนเองเจอคำตอบผิดแบบไร้สาระ และบางครั้งอันตรายเช่นนี้อยู่ตลอด
ข้อความว่า "คำตอบจาก AI อาจมีข้อผิดพลาด" นี่เองคือประเด็นสำคัญที่สุดที่อยากตะโกนบอกผู้ฟังในการถกเรื่อง AI โดยมองว่าในการอภิปรายเรื่องจริยธรรม/ความปลอดภัยของ AI ทุกครั้ง ประเด็นนี้และผลกระทบด้านพลังงาน/สภาพภูมิอากาศควรเป็นศูนย์กลาง เพราะหากกระแส AI ยังดำเนินต่อไป สองเรื่องนี้จะสร้างความเสียหายต่อมนุษยชาติมากที่สุด
มีเสียงวิจารณ์ว่า Google จับแก่นของการค้นหาผิดไปหมดแล้ว ตอนนี้สนใจแต่การสรุปคำตอบให้เร็วและลิงก์สปอนเซอร์ มากกว่าความถูกต้องของคำตอบ
จากคำตอบเร็ว 10 ข้อ มีถึง 6 ข้อที่ผิดแบบละเอียดอ่อน 2 ข้อที่ผิดอย่างชัดเจน และ 1 ข้อที่อันตรายโดยตรงจากประสบการณ์จริง บางคำตอบอาจทำให้คนบาดเจ็บหรือก่อปัญหาทางกฎหมายได้
มองว่ายุทธศาสตร์สมัย Eric Schmidt ของ Google ที่เคยเป็น 'ตอบอะไรสักอย่างยังดีกว่าไม่ตอบ' ได้วิวัฒน์กลายเป็น 'มีคำตอบผิดก็ยังดีกว่าไม่มีคำตอบ' ไปแล้ว
มีความเห็นว่า AI คล้ายคนประเภทที่ตอบได้ทุกเรื่องด้วยความมั่นใจเต็มเปี่ยมโดยไม่มีหลักฐาน จึงแทบไม่มีเหตุผลให้เชื่อถืออย่างจริงจัง
ปัจจัยทางจิตวิทยาคือหัวใจ คนเรามักจับสัญญาณที่ไม่ใช่คำพูดได้เมื่ออีกฝ่ายไม่มั่นใจ แต่ AI ไม่มีสัญญาณแบบนั้น และผู้คนก็มีความเชื่อฝังลึกมานานว่าเครื่องจักรให้คำตอบที่ถูกต้อง ทำให้สัดส่วนคนที่เข้าหามันอย่างวิพากษ์วิจารณ์มีน้อยมาก
ยังไม่มีบริษัท AI รายไหนกล้าตั้งชื่อผลิตภัณฑ์ของตัวเองว่า 'Cliff Clavin' พร้อมเสริมมุกเรื่องความเสี่ยงเรื่องชื่อจริงและความกล้าในหลายมิติ
ต่อข้อสงสัยว่า 'ไม่เข้าใจจริง ๆ ว่าทำไมคนถึงเชื่อ AI แบบจริงจัง' ก็มีคนย้อนว่า ถ้าบริษัทอย่าง Google ซึ่งใช้เวลาหลายสิบปีพยายามจัดหาข้อมูลของโลกทั้งใบและให้คำตอบที่แม่นยำ บอกว่าจะส่งมอบสิ่งนั้นผ่าน AI แล้วคนจะเชื่อ ก็ไม่ใช่เรื่องแปลกไม่ใช่หรือ
มีคนเล่าประสบการณ์ล่าสุดกับ ChatGPT และโค้ด Python โดยขอให้แชตบอตช่วยทำวิธีแก้ 3 แบบเพื่อยกเว้น URL path บางตัวจาก logger class ของ Gunicorn แล้วเปรียบเทียบความเร็วของแต่ละแบบ พร้อมแนบ benchmark code มาด้วย ซึ่งบอตสรุปว่า regex เร็วที่สุด แต่พอลองรันเองกลับพบว่าวิธีแบบ tuple เร็วกว่าเกิน 5 เท่า เมื่อแจ้งกลับไป บอตก็ตอบทันทีว่า 'ขอบคุณที่บอก วิธีแบบ tuple ถูกต้อง' แล้วแก้คำตอบให้ใหม่ แม้จะช่วยประหยัดเวลาในการได้ benchmark code ที่ต้องใช้ แต่ก็เป็นประสบการณ์ที่ทำให้ไม่ค่อยเชื่อผลลัพธ์ของแชตบอตนักในพื้นที่ที่ตัวเองยังไม่มั่นใจคำตอบอยู่แล้ว