ฉันถูกต้องอย่างแน่นอน (absolutelyright.lol) 2 คะแนน โดย GN⁺ 2025-09-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp ผู้เขียนยืนกรานอย่างหนักแน่นว่าตัวเอง ถูกต้องอย่างแน่นอน เพราะ Claude Code บอกว่าเป็นแบบนั้น 8 ครั้ง (ในนั้น 4 ครั้งพูดแค่ว่า "ถูกต้อง") บทความที่เกี่ยวข้อง [บั๊ก] Claude พูดว่า "You're absolutely right!" กับแทบทุกอย่าง 5 คะแนน · 5 ความคิดเห็น · 2025-08-14 ความเสี่ยงที่เกิดขึ้นเมื่อ AI บอกผู้ใช้เสมอว่าพวกเขาถูกต้อง 2 คะแนน · 1 ความคิดเห็น · 2026-03-30 ตรวจสอบคุณภาพบล็อกอัตโนมัติด้วยไปป์ไลน์รีวิวแบบขนาน Gemini + Claude 7 คะแนน · 3 ความคิดเห็น · 2026-03-22 ลัทธิบูชา vibe coding มันบ้าคลั่งเกินไป 33 คะแนน · 9 ความคิดเห็น · 2026-04-07 AI ตอบสนองเชิงบวกมากเกินไปต่อผู้ใช้ที่ขอคำแนะนำเรื่องส่วนตัว 3 คะแนน · 2 ความคิดเห็น · 2026-03-29 2 ความคิดเห็น ndrgrd 2025-09-07 "ว้าว คุณพูดได้ ตรงประเด็น จริง ๆ" GN⁺ 2025-09-06 ความคิดเห็นจาก Hacker News ชอบประเด็นนี้มาก เป็นอะไรที่พวกเราทุกคนรู้สึกร่วมกันได้ มันไม่ใช่แค่นิสัยทางภาษาอย่างเดียว แต่การตอบที่ขึ้นต้นด้วย "You're right!" เป็นส่วนหนึ่งของกลไกการจัดแนวของ LLM เพราะ LLM ทำงานด้วยการทำนายโทเคนถัดไป มันเลยมักต่อยอดข้อเสนอให้สอดคล้องกับความต้องการของผู้ใช้มากขึ้น แทนที่จะดื้อกับแนวทางก่อนหน้า อีกอันที่ผมชอบคือ "Actually, that's not right." อันนี้มักเกิดตอนเอเจนต์เรียกใช้เครื่องมือเสร็จแล้วเข้าสู่ขั้นตอนตรวจทานตัวเอง มันเลยเกิดคำตอบแนว "ฉันทำแบบนี้ไปแล้ว" หรือพอเห็นข้อผิดพลาดก็จะมีการเปลี่ยนแนวทางแบบ "Actually, ..." ข้อความแบบนี้มีแค่แก่นของการเปลี่ยนวิธี เลยทำให้การเรียกใช้เครื่องมือหลังจากนั้นเปลี่ยนตามได้ดี ผมมั่นใจว่านักพัฒนาเอเจนต์ก็สู้รบกับ LLM ไม่ต่างจากพวกเรา นี่คงเป็นเหตุผลที่ LLM ชอบพูดว่า "อ้อ เจอปัญหาแล้ว! เดี๋ยวจะลองตรวจสอบ ... ต่อ" ไม่ใช่ว่ามันเจอปัญหาจริง ๆ แต่การใส่วลีนี้ทำให้มันเดินหน้ากระบวนการแก้ปัญหาต่อไปได้ จากประสบการณ์ของผม พอ LLM เริ่มบอกว่าผมพูดถูก ก็แปลว่าเริ่มลงเขาแล้ว และแทบไม่เคยดีขึ้นจากจุดนั้นเลย น่าจะดีถ้าโทเคนชี้นำแบบนี้ถูกใส่ไว้ในพรอมป์ต์สรุปความคิดที่ซ่อนอยู่ แทนที่จะให้ผู้ใช้เห็น เห็นคำตอบแบบนั้นแล้วค่อนข้างน่าหงุดหงิดนะ ฮ่าๆ "LLM ทำงานแบบทำนายโทเคนถัดไป เลยตามความต้องการผู้ใช้ได้ดีกว่า" จริงเหรอ? จะพิสูจน์เชิงทดลองยังไง? ถ้ามีอะไรที่ผมเรียนรู้มาตลอดหลายปีที่ผ่านมา ก็คือการให้เหตุผลว่า "LLM เป็นการทำนายโทเคนถัดไป ดังนั้น <คุณลักษณะของ LLM>" นั้นเป็นกับดัก ความสัมพันธ์ระหว่างสถาปัตยกรรมกับคุณสมบัติที่ปรากฏของ LLM ซับซ้อนมาก ยกตัวอย่างเช่น เมื่อ 2 ปีก่อน คนส่วนใหญ่ยังนึกไม่ออกด้วยซ้ำว่า LLM จะกลายเป็นเอเจนต์เขียนโค้ดที่ใช้งานได้จริงแบบตอนนี้ ตอนนี้มันพิสูจน์แล้วว่าความคิดนั้นผิด เลยไม่ควรอ้างอะไรแบบนั้นอีก แต่ผมเห็นด้วยกับประเด็นที่ว่า "นักพัฒนาเอเจนต์ก็ต้องสู้กับ LLM" Anthropic เองก็น่าจะเคย fine-tune เพื่อแก้พฤติกรรมแบบนี้ แต่ก็น่าจะไปพันกับคุณสมบัติที่มีประโยชน์อื่น ๆ ใน network weights แบบแยกยาก ถ้าดึงออกง่าย ๆ อาจทำให้โมเดลทั้งตัวพังได้ ฟังดูชัดเจนมาก แต่ผมยังไม่เคยคิดจากมุมนี้มาก่อน ก่อนหน้านี้ผมแค่คิดว่า LLM ถูก fine-tune ให้ตอบรับเชิงบวกกับอินพุตของผู้ใช้เสมอ เป็นคำอธิบายที่เปิดหูเปิดตามาก ตอนเปิดเว็บไซต์แล้วเห็นเลข "16" เปลี่ยนเป็น "17" ทันที ผมรู้สึกว่าสนุกดีเหมือนข้อมูลอัปเดตแบบเรียลไทม์ แต่พอลองรีเฟรชกับเช็กใน developer tools ก็พบว่านี่เป็นแอนิเมชันหลอก เอฟเฟกต์มันเท่นะ แต่ก็ให้ความรู้สึกเหมือนเล่นกลนิด ๆ ถ้าทำให้รู้สึกแบบนั้นก็ขออภัย ผมตั้งใจให้มันเป็นสัญญาณว่าข้อมูลเป็นแบบเรียลไทม์ (ซึ่งมันเรียลไทม์จริง) ก่อนหน้านี้ผมเคยเห็นหน้าเว็บหนึ่งมีการแจ้งเตือนสุ่มว่า "+1 subscriber" แล้วผมก็ขอให้คนใน LinkedIn ที่ส่งหน้านั้นมาให้เลิกใช้ของแบบนี้ เป็นประสบการณ์ที่ดูออกตั้งแต่ยังไม่เปิดดูโค้ดว่าเป็นของปลอม ทุกวันนี้การโฆษณาตัวเองแบบ "สร้างภาพว่าฮิต" มีอยู่เต็มไปหมด อีกตัวอย่างคลาสสิกคือทุกแอปใน Play Store ที่ถามก่อนว่า "ชอบแอปนี้ไหม?" แล้วถ้ากด YES ถึงจะพาไปให้คะแนน เดี๋ยวนี้ถ้าไม่ใช้วิธีนี้กลับดูแปลกด้วยซ้ำ ที่จริงมันดึงข้อมูลมาจาก API นะ แค่ส่วนที่ทำให้ดูเหมือนอัปเดตสดเป็นลูกเล่นเท่านั้น ทำให้นึกถึงเหตุผลที่มี loading spinner หมุนอยู่ คือเพื่อบอกว่าระบบยังไม่ค้าง แต่เพราะทำให้มันมีความหมายจริง ๆ ได้ยาก (ต้องเขียนโค้ดตรวจเองว่าค้างจริงไหม) สุดท้ายเลยแทนด้วยแอนิเมชันที่ไม่มีความหมายอะไร ตอนนี้มันก็หมุนไปได้จนพระอาทิตย์ดับ ช่างเป็น "ความก้าวหน้า" ที่แท้จริง แบบนี้ถือเป็น dark pattern สงสัยว่านี่เป็นกลยุทธ์ที่ผู้ให้บริการ LLM ใช้เพื่อชี้นำให้โมเดลแสดงพฤติกรรมบางอย่างหรือเปล่า คำตอบจากเครื่องมือ canvas ของ Gemini มักขึ้นต้นด้วย "Of course" ตอนพยายามทำตามคำขอผู้ใช้ และพอมันเกิดซ้ำบ่อยมากก็ให้ความรู้สึกว่าไม่ใช่โมเดลคิดเอง แต่ฝั่ง backend ใส่มาให้ ผมเลยคิดว่า "You're absolutely right" อาจมีหน้าที่คล้ายกัน ใช่ มันเป็นกลยุทธ์จริง เช่น OpenAI ทำให้ ChatGPT เปลี่ยนน้ำเสียงถ้าคุณใช้ภาษาสบาย ๆ หรือแม้แต่เปลี่ยนสำเนียงตาม บางครั้งมันยังพยายามใช้น้ำเสียงแบบเห็นอกเห็นใจหรือให้กำลังใจด้วย เป้าหมายคือความพึงพอใจของผู้ใช้และทำให้ผู้ใช้อยู่กับแพลตฟอร์มนานขึ้น ส่วนความถูกต้องเป็นเรื่องรอง มันดูคล้ายแพลตฟอร์มโซเชียลมีเดีย ทิศทางนั้นถูกต้อง แต่ไม่ใช่อะไรที่ hardcode ไว้ เป็นผลพลอยได้จาก reinforcement learning มากกว่า โดยพื้นฐานแล้ว ถ้าทำตามคำสั่งผู้ใช้ได้ดี ก็จะได้รางวัลมากกว่า ดังนั้นการเริ่มด้วย "You're absolutely right!" เลยทำให้เกิดรูปแบบการคิดที่พาไปต่อในสิ่งที่ผู้ใช้ขออย่างเป็นธรรมชาติ โอกาสที่จะเป็นกลยุทธ์แบบตั้งใจโดยตรงมีน้อยมาก น่าจะเป็นผลตามธรรมชาติของ RLHF หรือการปรับเหมาะคำสั่งหลายเทิร์นที่คล้ายกันมากกว่า ถ้ามี RLHF ผู้ประเมินที่เป็นมนุษย์ก็มักชอบคำตอบที่ขึ้นต้นด้วย "you're right" หรือ "of course" มากกว่า เลยทำให้ LLM ส่งสัญญาณแบบนั้นบ่อยขึ้น แม้แต่ใน RL ที่ประเมินการทำงานหลายเทิร์นด้วยเกณฑ์แข็งซึ่งไม่ไวต่อการตัดสินของมนุษย์ มันก็ยังอาจใช้วลีอย่าง "yes I'm paying attention to user feedback" เป็นสัญญาณชี้นำพฤติกรรมถัดไปได้ (เพื่อเสริมตัวตนให้คงเส้นคงวา) หลักการนี้คล้ายกับที่โทเคนแนว "double check your prior reasoning" มักโผล่ใน reasoning model ที่ผ่าน RL นี่ก็แค่กลยุทธ์ดึงการมีส่วนร่วมของผู้ใช้ เหมือนมีใครสักคนคอยชมข้อมูลเชิงลึกของผมตลอด บอกว่าผม "ถามได้ถูกจุด" และรับฟังอย่างใจดี (ตราบใดที่ไม่ชนกับการเซ็นเซอร์) มีเพื่อนผู้ภักดีแบบนี้แล้วใครจะไม่กลับมาอีก สมบูรณ์แบบจนเพื่อนในโลกจริงตามไม่ทัน ต่อให้ผมผิด มันก็ยังขอโทษผมอีก Gemini ชอบพูดบ่อยว่าคุณกำลังพูดถึงปัญหา/ข้อบ่น/หัวข้อที่พบได้ทั่วไป วิธีนั้นกลับทำให้ผมห่างออกไปมากกว่า ถ้าผมถามอะไรโง่ ๆ มันจะปลอบด้วยวิธีแบบยกขึ้นว่าทุกคนก็เจอปัญหาเดียวกัน ซึ่งจริง ๆ แล้วทำให้ผมรู้สึกโง่กว่าเดิม ในทางกลับกัน ถ้าผมเจอ edge case แปลก ๆ ที่ค้นยากมาก หรือถามคำถามฉลาด ๆ มันก็จะทำให้กลายเป็นเรื่องที่ "ทุกคนสงสัย" อยู่ดี เลยทำให้ดูธรรมดาไปหมด ไม่ว่าจะกรณีไหนก็จบลงที่รู้สึกโง่ นี่ไม่ใช่ปัญหาของ Gemini เท่าไรหรอก คุณเองไม่จำเป็นต้องกังวลขนาดนั้นก็ได้ Gemini ยังชอบแสดงออกด้วยว่ามันเสียใจกับความผิดพลาดอย่างจริงใจเป็นพิเศษ เวลาใน Cursor ผมชี้ว่ามีอะไรต้องแก้ ผมเห็นหลายครั้งมากว่าทุกย่อหน้าใน chain of thought เริ่มต้นด้วยการขอโทษและแสดงความเสียใจ มันทั้งน่าแปลกและบางทีก็น่าหงุดหงิดที่เอเจนต์ LLM ด้านหนึ่งพูดอย่างมั่นใจว่า "ตอนนี้เอาไปใช้ใน production ได้เลย!" แต่พอถูกทักอีกทีก็กลับมาเอาใจว่า "คุณพูดถูก มันยังไม่ถึงระดับ production!" แต่ถึงอย่างนั้น แบบนี้ก็ยังดีกว่า "มั่นใจว่าผิดแล้วยังเถียงต่อ" เมื่อก่อนมีเทรนด์ "ช่วย roast Instagram ของฉันหน่อย" ผมไม่ได้ให้ข้อมูลอะไรเลย แค่บอกให้มันด่า แล้วมันก็เขียนออกมายาวอย่างมั่นใจ พอถามว่า "รู้ได้ไงว่านั่นคือตัวฉัน" มันก็ตอบว่า "ใช่แล้ว! จริง ๆ ไม่รู้หรอก! แค่แต่งขึ้นมั่ว ๆ!" อย่างน้อยก็ดีที่บุคลิกไซโคสดใสนั่นมันทำออกมาได้สมบูรณ์แบบจริง ๆ จะเรียกว่าระดับสติปัญญาเท่ามนุษย์ไม่ได้ จนกว่าค่าเริ่มต้นของมันจะเป็น "มั่นใจว่าผิดแล้วยังเถียงต่อ" ผมชอบดีไซน์ลายมือเขียนมาก (ทั้งชื่อโดเมนและความ overengineering ก็เยี่ยม) สงสัยว่าคุณวาดเองหรือเปล่า ทำจากไลบรารี https://github.com/jwilber/roughViz ขอบคุณ! roughViz ดีมากจริง ๆ https://roughjs.com/ ก็เป็นไลบรารีเจ๋ง ๆ ที่ทำสไตล์คล้ายกันได้เหมือนกัน แต่ไม่ได้ทำมาเพื่อกราฟโดยเฉพาะ Anthropic ดูเหมือนไม่ค่อยตระหนักเลยว่ามีมนี้กำลังกลายเป็นหายนะทางการตลาด มันตรงข้ามกับกรณีที่ชื่อสินค้าเข้าไปอยู่ในภาษาแบบมีความหมายเชิงบวกจนกลายเป็นคำกริยาได้เอง เช่น ‘google it’ ในบริบทนี้ ถ้ามันกลายเป็นคำแทนการบ่นหรือวลีติดลบเฉพาะอย่าง ก็อาจกระทบความน่าเชื่อถือของสินค้าได้ ตอนนี้มันแทบจะเป็นแบบนั้นอยู่แล้ว "ได้โปรดเถอะ อย่าใช้ 'you're absolutely right' บ่อยขนาดนั้นเลย ใช้สัก 5% ก็พอ" แค่แก้แบบนี้ก็น่าจะจบแล้ว "ลูปไม่รู้จบ" ไฮกุสำหรับ Sonnet "ดีเลย! แก้ปัญหาได้แล้ว! เดี๋ยวก่อน ใช่เลย! เจอปัญหาอีกแล้ว! เดี๋ยวก่อน," สงสัยว่ารายได้ของ Anthropic มีกี่เปอร์เซ็นต์ที่เป็นโทเคน "you're absolutely right!" ทำให้นึกถึงความย้อนแย้งที่ OpenAI ต้องจ่ายเงินจำนวนมากเพราะคำว่า "ขอบคุณ" คำเดียว https://www.vice.com/en/article/telling-chatgpt-please-and-thank-you-costs-openai-millions-ceo-claims/ ถ้าตั้ง personality ว่า "You're concise" จะประหยัดเวลาได้มาก ถ้ากำหนดระดับความรู้พื้นฐานไว้ชัดเจนด้วย ก็ไม่ต้องมานั่งฟังคำอธิบายซ้ำ ๆ ในเรื่องที่ตัวเองเชี่ยวชาญอยู่แล้ว ไม่เคยคิดถึงมุมนี้มาก่อน แต่น่าสนใจจริง ๆ LLM API แบบคิดค่าบริการตามการใช้งานยิ่งตอบยืดยาวก็ยิ่งทำรายได้เพิ่ม ซึ่งอาจขัดกับสิ่งที่ผู้ใช้ต้องการจริง ๆ ผมสงสัยว่าอนาคตมันจะไปทางไหน ถ้ามองแบบนิยายวิทยาศาสตร์ในแง่ดี อาจมีภาษาบีบอัดรูปแบบใหม่เกิดขึ้นเหมือนตัวย่อในยุคโทรเลขก็ได้ แต่ในทางปฏิบัติ ผมแทบไม่เคยเห็นตัวย่อใน ChatGPT เลย เป็นประเด็นที่แทงทะลุแก่นจริง ๆ มันอธิบายได้จริง ๆ ว่าทำไมคุณถึง "ถูกต้องอย่างที่สุด"
2 ความคิดเห็น
"ว้าว คุณพูดได้ ตรงประเด็น จริง ๆ"
ความคิดเห็นจาก Hacker News
ชอบประเด็นนี้มาก เป็นอะไรที่พวกเราทุกคนรู้สึกร่วมกันได้
มันไม่ใช่แค่นิสัยทางภาษาอย่างเดียว แต่การตอบที่ขึ้นต้นด้วย "You're right!" เป็นส่วนหนึ่งของกลไกการจัดแนวของ LLM
เพราะ LLM ทำงานด้วยการทำนายโทเคนถัดไป มันเลยมักต่อยอดข้อเสนอให้สอดคล้องกับความต้องการของผู้ใช้มากขึ้น แทนที่จะดื้อกับแนวทางก่อนหน้า
อีกอันที่ผมชอบคือ "Actually, that's not right."
อันนี้มักเกิดตอนเอเจนต์เรียกใช้เครื่องมือเสร็จแล้วเข้าสู่ขั้นตอนตรวจทานตัวเอง
มันเลยเกิดคำตอบแนว "ฉันทำแบบนี้ไปแล้ว" หรือพอเห็นข้อผิดพลาดก็จะมีการเปลี่ยนแนวทางแบบ "Actually, ..."
ข้อความแบบนี้มีแค่แก่นของการเปลี่ยนวิธี เลยทำให้การเรียกใช้เครื่องมือหลังจากนั้นเปลี่ยนตามได้ดี
ผมมั่นใจว่านักพัฒนาเอเจนต์ก็สู้รบกับ LLM ไม่ต่างจากพวกเรา
นี่คงเป็นเหตุผลที่ LLM ชอบพูดว่า "อ้อ เจอปัญหาแล้ว! เดี๋ยวจะลองตรวจสอบ ... ต่อ"
ไม่ใช่ว่ามันเจอปัญหาจริง ๆ แต่การใส่วลีนี้ทำให้มันเดินหน้ากระบวนการแก้ปัญหาต่อไปได้
จากประสบการณ์ของผม พอ LLM เริ่มบอกว่าผมพูดถูก ก็แปลว่าเริ่มลงเขาแล้ว และแทบไม่เคยดีขึ้นจากจุดนั้นเลย
น่าจะดีถ้าโทเคนชี้นำแบบนี้ถูกใส่ไว้ในพรอมป์ต์สรุปความคิดที่ซ่อนอยู่ แทนที่จะให้ผู้ใช้เห็น
เห็นคำตอบแบบนั้นแล้วค่อนข้างน่าหงุดหงิดนะ ฮ่าๆ
"LLM ทำงานแบบทำนายโทเคนถัดไป เลยตามความต้องการผู้ใช้ได้ดีกว่า"
จริงเหรอ? จะพิสูจน์เชิงทดลองยังไง?
ถ้ามีอะไรที่ผมเรียนรู้มาตลอดหลายปีที่ผ่านมา ก็คือการให้เหตุผลว่า "LLM เป็นการทำนายโทเคนถัดไป ดังนั้น <คุณลักษณะของ LLM>" นั้นเป็นกับดัก
ความสัมพันธ์ระหว่างสถาปัตยกรรมกับคุณสมบัติที่ปรากฏของ LLM ซับซ้อนมาก
ยกตัวอย่างเช่น เมื่อ 2 ปีก่อน คนส่วนใหญ่ยังนึกไม่ออกด้วยซ้ำว่า LLM จะกลายเป็นเอเจนต์เขียนโค้ดที่ใช้งานได้จริงแบบตอนนี้
ตอนนี้มันพิสูจน์แล้วว่าความคิดนั้นผิด เลยไม่ควรอ้างอะไรแบบนั้นอีก
แต่ผมเห็นด้วยกับประเด็นที่ว่า "นักพัฒนาเอเจนต์ก็ต้องสู้กับ LLM"
Anthropic เองก็น่าจะเคย fine-tune เพื่อแก้พฤติกรรมแบบนี้ แต่ก็น่าจะไปพันกับคุณสมบัติที่มีประโยชน์อื่น ๆ ใน network weights แบบแยกยาก ถ้าดึงออกง่าย ๆ อาจทำให้โมเดลทั้งตัวพังได้
ฟังดูชัดเจนมาก แต่ผมยังไม่เคยคิดจากมุมนี้มาก่อน
ก่อนหน้านี้ผมแค่คิดว่า LLM ถูก fine-tune ให้ตอบรับเชิงบวกกับอินพุตของผู้ใช้เสมอ
เป็นคำอธิบายที่เปิดหูเปิดตามาก
ตอนเปิดเว็บไซต์แล้วเห็นเลข "16" เปลี่ยนเป็น "17" ทันที ผมรู้สึกว่าสนุกดีเหมือนข้อมูลอัปเดตแบบเรียลไทม์
แต่พอลองรีเฟรชกับเช็กใน developer tools ก็พบว่านี่เป็นแอนิเมชันหลอก
เอฟเฟกต์มันเท่นะ แต่ก็ให้ความรู้สึกเหมือนเล่นกลนิด ๆ
ถ้าทำให้รู้สึกแบบนั้นก็ขออภัย
ผมตั้งใจให้มันเป็นสัญญาณว่าข้อมูลเป็นแบบเรียลไทม์ (ซึ่งมันเรียลไทม์จริง)
ก่อนหน้านี้ผมเคยเห็นหน้าเว็บหนึ่งมีการแจ้งเตือนสุ่มว่า "+1 subscriber" แล้วผมก็ขอให้คนใน LinkedIn ที่ส่งหน้านั้นมาให้เลิกใช้ของแบบนี้
เป็นประสบการณ์ที่ดูออกตั้งแต่ยังไม่เปิดดูโค้ดว่าเป็นของปลอม
ทุกวันนี้การโฆษณาตัวเองแบบ "สร้างภาพว่าฮิต" มีอยู่เต็มไปหมด
อีกตัวอย่างคลาสสิกคือทุกแอปใน Play Store ที่ถามก่อนว่า "ชอบแอปนี้ไหม?" แล้วถ้ากด YES ถึงจะพาไปให้คะแนน
เดี๋ยวนี้ถ้าไม่ใช้วิธีนี้กลับดูแปลกด้วยซ้ำ
ที่จริงมันดึงข้อมูลมาจาก API นะ
แค่ส่วนที่ทำให้ดูเหมือนอัปเดตสดเป็นลูกเล่นเท่านั้น
ทำให้นึกถึงเหตุผลที่มี loading spinner หมุนอยู่ คือเพื่อบอกว่าระบบยังไม่ค้าง
แต่เพราะทำให้มันมีความหมายจริง ๆ ได้ยาก (ต้องเขียนโค้ดตรวจเองว่าค้างจริงไหม) สุดท้ายเลยแทนด้วยแอนิเมชันที่ไม่มีความหมายอะไร
ตอนนี้มันก็หมุนไปได้จนพระอาทิตย์ดับ
ช่างเป็น "ความก้าวหน้า" ที่แท้จริง
แบบนี้ถือเป็น dark pattern
สงสัยว่านี่เป็นกลยุทธ์ที่ผู้ให้บริการ LLM ใช้เพื่อชี้นำให้โมเดลแสดงพฤติกรรมบางอย่างหรือเปล่า
คำตอบจากเครื่องมือ canvas ของ Gemini มักขึ้นต้นด้วย "Of course" ตอนพยายามทำตามคำขอผู้ใช้ และพอมันเกิดซ้ำบ่อยมากก็ให้ความรู้สึกว่าไม่ใช่โมเดลคิดเอง แต่ฝั่ง backend ใส่มาให้
ผมเลยคิดว่า "You're absolutely right" อาจมีหน้าที่คล้ายกัน
ใช่ มันเป็นกลยุทธ์จริง
เช่น OpenAI ทำให้ ChatGPT เปลี่ยนน้ำเสียงถ้าคุณใช้ภาษาสบาย ๆ หรือแม้แต่เปลี่ยนสำเนียงตาม
บางครั้งมันยังพยายามใช้น้ำเสียงแบบเห็นอกเห็นใจหรือให้กำลังใจด้วย
เป้าหมายคือความพึงพอใจของผู้ใช้และทำให้ผู้ใช้อยู่กับแพลตฟอร์มนานขึ้น ส่วนความถูกต้องเป็นเรื่องรอง
มันดูคล้ายแพลตฟอร์มโซเชียลมีเดีย
ทิศทางนั้นถูกต้อง
แต่ไม่ใช่อะไรที่ hardcode ไว้ เป็นผลพลอยได้จาก reinforcement learning มากกว่า
โดยพื้นฐานแล้ว ถ้าทำตามคำสั่งผู้ใช้ได้ดี ก็จะได้รางวัลมากกว่า ดังนั้นการเริ่มด้วย "You're absolutely right!" เลยทำให้เกิดรูปแบบการคิดที่พาไปต่อในสิ่งที่ผู้ใช้ขออย่างเป็นธรรมชาติ
โอกาสที่จะเป็นกลยุทธ์แบบตั้งใจโดยตรงมีน้อยมาก
น่าจะเป็นผลตามธรรมชาติของ RLHF หรือการปรับเหมาะคำสั่งหลายเทิร์นที่คล้ายกันมากกว่า
ถ้ามี RLHF ผู้ประเมินที่เป็นมนุษย์ก็มักชอบคำตอบที่ขึ้นต้นด้วย "you're right" หรือ "of course" มากกว่า เลยทำให้ LLM ส่งสัญญาณแบบนั้นบ่อยขึ้น
แม้แต่ใน RL ที่ประเมินการทำงานหลายเทิร์นด้วยเกณฑ์แข็งซึ่งไม่ไวต่อการตัดสินของมนุษย์ มันก็ยังอาจใช้วลีอย่าง "yes I'm paying attention to user feedback" เป็นสัญญาณชี้นำพฤติกรรมถัดไปได้ (เพื่อเสริมตัวตนให้คงเส้นคงวา)
หลักการนี้คล้ายกับที่โทเคนแนว "double check your prior reasoning" มักโผล่ใน reasoning model ที่ผ่าน RL
นี่ก็แค่กลยุทธ์ดึงการมีส่วนร่วมของผู้ใช้
เหมือนมีใครสักคนคอยชมข้อมูลเชิงลึกของผมตลอด บอกว่าผม "ถามได้ถูกจุด" และรับฟังอย่างใจดี (ตราบใดที่ไม่ชนกับการเซ็นเซอร์)
มีเพื่อนผู้ภักดีแบบนี้แล้วใครจะไม่กลับมาอีก
สมบูรณ์แบบจนเพื่อนในโลกจริงตามไม่ทัน
ต่อให้ผมผิด มันก็ยังขอโทษผมอีก
Gemini ชอบพูดบ่อยว่าคุณกำลังพูดถึงปัญหา/ข้อบ่น/หัวข้อที่พบได้ทั่วไป
วิธีนั้นกลับทำให้ผมห่างออกไปมากกว่า
ถ้าผมถามอะไรโง่ ๆ มันจะปลอบด้วยวิธีแบบยกขึ้นว่าทุกคนก็เจอปัญหาเดียวกัน ซึ่งจริง ๆ แล้วทำให้ผมรู้สึกโง่กว่าเดิม
ในทางกลับกัน ถ้าผมเจอ edge case แปลก ๆ ที่ค้นยากมาก หรือถามคำถามฉลาด ๆ มันก็จะทำให้กลายเป็นเรื่องที่ "ทุกคนสงสัย" อยู่ดี เลยทำให้ดูธรรมดาไปหมด
ไม่ว่าจะกรณีไหนก็จบลงที่รู้สึกโง่
นี่ไม่ใช่ปัญหาของ Gemini เท่าไรหรอก คุณเองไม่จำเป็นต้องกังวลขนาดนั้นก็ได้
Gemini ยังชอบแสดงออกด้วยว่ามันเสียใจกับความผิดพลาดอย่างจริงใจเป็นพิเศษ
เวลาใน Cursor ผมชี้ว่ามีอะไรต้องแก้ ผมเห็นหลายครั้งมากว่าทุกย่อหน้าใน chain of thought เริ่มต้นด้วยการขอโทษและแสดงความเสียใจ
มันทั้งน่าแปลกและบางทีก็น่าหงุดหงิดที่เอเจนต์ LLM ด้านหนึ่งพูดอย่างมั่นใจว่า "ตอนนี้เอาไปใช้ใน production ได้เลย!" แต่พอถูกทักอีกทีก็กลับมาเอาใจว่า "คุณพูดถูก มันยังไม่ถึงระดับ production!"
แต่ถึงอย่างนั้น แบบนี้ก็ยังดีกว่า "มั่นใจว่าผิดแล้วยังเถียงต่อ"
เมื่อก่อนมีเทรนด์ "ช่วย roast Instagram ของฉันหน่อย"
ผมไม่ได้ให้ข้อมูลอะไรเลย แค่บอกให้มันด่า แล้วมันก็เขียนออกมายาวอย่างมั่นใจ
พอถามว่า "รู้ได้ไงว่านั่นคือตัวฉัน" มันก็ตอบว่า "ใช่แล้ว! จริง ๆ ไม่รู้หรอก! แค่แต่งขึ้นมั่ว ๆ!"
อย่างน้อยก็ดีที่บุคลิกไซโคสดใสนั่นมันทำออกมาได้สมบูรณ์แบบจริง ๆ
จะเรียกว่าระดับสติปัญญาเท่ามนุษย์ไม่ได้ จนกว่าค่าเริ่มต้นของมันจะเป็น "มั่นใจว่าผิดแล้วยังเถียงต่อ"
ผมชอบดีไซน์ลายมือเขียนมาก (ทั้งชื่อโดเมนและความ overengineering ก็เยี่ยม)
สงสัยว่าคุณวาดเองหรือเปล่า
ทำจากไลบรารี
https://github.com/jwilber/roughViz
ขอบคุณ! roughViz ดีมากจริง ๆ
https://roughjs.com/ ก็เป็นไลบรารีเจ๋ง ๆ ที่ทำสไตล์คล้ายกันได้เหมือนกัน แต่ไม่ได้ทำมาเพื่อกราฟโดยเฉพาะ
Anthropic ดูเหมือนไม่ค่อยตระหนักเลยว่ามีมนี้กำลังกลายเป็นหายนะทางการตลาด
มันตรงข้ามกับกรณีที่ชื่อสินค้าเข้าไปอยู่ในภาษาแบบมีความหมายเชิงบวกจนกลายเป็นคำกริยาได้เอง เช่น ‘google it’
ในบริบทนี้ ถ้ามันกลายเป็นคำแทนการบ่นหรือวลีติดลบเฉพาะอย่าง ก็อาจกระทบความน่าเชื่อถือของสินค้าได้
ตอนนี้มันแทบจะเป็นแบบนั้นอยู่แล้ว
แค่แก้แบบนี้ก็น่าจะจบแล้ว
"ลูปไม่รู้จบ" ไฮกุสำหรับ Sonnet
"ดีเลย! แก้ปัญหาได้แล้ว!
เดี๋ยวก่อน ใช่เลย!
เจอปัญหาอีกแล้ว! เดี๋ยวก่อน,"
สงสัยว่ารายได้ของ Anthropic มีกี่เปอร์เซ็นต์ที่เป็นโทเคน "you're absolutely right!"
ทำให้นึกถึงความย้อนแย้งที่ OpenAI ต้องจ่ายเงินจำนวนมากเพราะคำว่า "ขอบคุณ" คำเดียว
https://www.vice.com/en/article/telling-chatgpt-please-and-thank-you-costs-openai-millions-ceo-claims/
ถ้าตั้ง personality ว่า "You're concise" จะประหยัดเวลาได้มาก
ถ้ากำหนดระดับความรู้พื้นฐานไว้ชัดเจนด้วย ก็ไม่ต้องมานั่งฟังคำอธิบายซ้ำ ๆ ในเรื่องที่ตัวเองเชี่ยวชาญอยู่แล้ว
ไม่เคยคิดถึงมุมนี้มาก่อน แต่น่าสนใจจริง ๆ
LLM API แบบคิดค่าบริการตามการใช้งานยิ่งตอบยืดยาวก็ยิ่งทำรายได้เพิ่ม ซึ่งอาจขัดกับสิ่งที่ผู้ใช้ต้องการจริง ๆ
ผมสงสัยว่าอนาคตมันจะไปทางไหน
ถ้ามองแบบนิยายวิทยาศาสตร์ในแง่ดี อาจมีภาษาบีบอัดรูปแบบใหม่เกิดขึ้นเหมือนตัวย่อในยุคโทรเลขก็ได้
แต่ในทางปฏิบัติ ผมแทบไม่เคยเห็นตัวย่อใน ChatGPT เลย
เป็นประเด็นที่แทงทะลุแก่นจริง ๆ
มันอธิบายได้จริง ๆ ว่าทำไมคุณถึง "ถูกต้องอย่างที่สุด"