2 คะแนน โดย GN⁺ 2025-09-06 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • ผู้เขียนยืนกรานอย่างหนักแน่นว่าตัวเอง ถูกต้องอย่างแน่นอน
  • เพราะ Claude Code บอกว่าเป็นแบบนั้น 8 ครั้ง (ในนั้น 4 ครั้งพูดแค่ว่า "ถูกต้อง")

2 ความคิดเห็น

 
ndrgrd 2025-09-07

"ว้าว คุณพูดได้ ตรงประเด็น จริง ๆ"

 
GN⁺ 2025-09-06
ความคิดเห็นจาก Hacker News
  • ชอบประเด็นนี้มาก เป็นอะไรที่พวกเราทุกคนรู้สึกร่วมกันได้
    มันไม่ใช่แค่นิสัยทางภาษาอย่างเดียว แต่การตอบที่ขึ้นต้นด้วย "You're right!" เป็นส่วนหนึ่งของกลไกการจัดแนวของ LLM
    เพราะ LLM ทำงานด้วยการทำนายโทเคนถัดไป มันเลยมักต่อยอดข้อเสนอให้สอดคล้องกับความต้องการของผู้ใช้มากขึ้น แทนที่จะดื้อกับแนวทางก่อนหน้า
    อีกอันที่ผมชอบคือ "Actually, that's not right."
    อันนี้มักเกิดตอนเอเจนต์เรียกใช้เครื่องมือเสร็จแล้วเข้าสู่ขั้นตอนตรวจทานตัวเอง
    มันเลยเกิดคำตอบแนว "ฉันทำแบบนี้ไปแล้ว" หรือพอเห็นข้อผิดพลาดก็จะมีการเปลี่ยนแนวทางแบบ "Actually, ..."
    ข้อความแบบนี้มีแค่แก่นของการเปลี่ยนวิธี เลยทำให้การเรียกใช้เครื่องมือหลังจากนั้นเปลี่ยนตามได้ดี
    ผมมั่นใจว่านักพัฒนาเอเจนต์ก็สู้รบกับ LLM ไม่ต่างจากพวกเรา

    • นี่คงเป็นเหตุผลที่ LLM ชอบพูดว่า "อ้อ เจอปัญหาแล้ว! เดี๋ยวจะลองตรวจสอบ ... ต่อ"
      ไม่ใช่ว่ามันเจอปัญหาจริง ๆ แต่การใส่วลีนี้ทำให้มันเดินหน้ากระบวนการแก้ปัญหาต่อไปได้

    • จากประสบการณ์ของผม พอ LLM เริ่มบอกว่าผมพูดถูก ก็แปลว่าเริ่มลงเขาแล้ว และแทบไม่เคยดีขึ้นจากจุดนั้นเลย

    • น่าจะดีถ้าโทเคนชี้นำแบบนี้ถูกใส่ไว้ในพรอมป์ต์สรุปความคิดที่ซ่อนอยู่ แทนที่จะให้ผู้ใช้เห็น
      เห็นคำตอบแบบนั้นแล้วค่อนข้างน่าหงุดหงิดนะ ฮ่าๆ

    • "LLM ทำงานแบบทำนายโทเคนถัดไป เลยตามความต้องการผู้ใช้ได้ดีกว่า"
      จริงเหรอ? จะพิสูจน์เชิงทดลองยังไง?
      ถ้ามีอะไรที่ผมเรียนรู้มาตลอดหลายปีที่ผ่านมา ก็คือการให้เหตุผลว่า "LLM เป็นการทำนายโทเคนถัดไป ดังนั้น <คุณลักษณะของ LLM>" นั้นเป็นกับดัก
      ความสัมพันธ์ระหว่างสถาปัตยกรรมกับคุณสมบัติที่ปรากฏของ LLM ซับซ้อนมาก
      ยกตัวอย่างเช่น เมื่อ 2 ปีก่อน คนส่วนใหญ่ยังนึกไม่ออกด้วยซ้ำว่า LLM จะกลายเป็นเอเจนต์เขียนโค้ดที่ใช้งานได้จริงแบบตอนนี้
      ตอนนี้มันพิสูจน์แล้วว่าความคิดนั้นผิด เลยไม่ควรอ้างอะไรแบบนั้นอีก
      แต่ผมเห็นด้วยกับประเด็นที่ว่า "นักพัฒนาเอเจนต์ก็ต้องสู้กับ LLM"
      Anthropic เองก็น่าจะเคย fine-tune เพื่อแก้พฤติกรรมแบบนี้ แต่ก็น่าจะไปพันกับคุณสมบัติที่มีประโยชน์อื่น ๆ ใน network weights แบบแยกยาก ถ้าดึงออกง่าย ๆ อาจทำให้โมเดลทั้งตัวพังได้

    • ฟังดูชัดเจนมาก แต่ผมยังไม่เคยคิดจากมุมนี้มาก่อน
      ก่อนหน้านี้ผมแค่คิดว่า LLM ถูก fine-tune ให้ตอบรับเชิงบวกกับอินพุตของผู้ใช้เสมอ
      เป็นคำอธิบายที่เปิดหูเปิดตามาก

  • ตอนเปิดเว็บไซต์แล้วเห็นเลข "16" เปลี่ยนเป็น "17" ทันที ผมรู้สึกว่าสนุกดีเหมือนข้อมูลอัปเดตแบบเรียลไทม์
    แต่พอลองรีเฟรชกับเช็กใน developer tools ก็พบว่านี่เป็นแอนิเมชันหลอก
    เอฟเฟกต์มันเท่นะ แต่ก็ให้ความรู้สึกเหมือนเล่นกลนิด ๆ

    • ถ้าทำให้รู้สึกแบบนั้นก็ขออภัย
      ผมตั้งใจให้มันเป็นสัญญาณว่าข้อมูลเป็นแบบเรียลไทม์ (ซึ่งมันเรียลไทม์จริง)

    • ก่อนหน้านี้ผมเคยเห็นหน้าเว็บหนึ่งมีการแจ้งเตือนสุ่มว่า "+1 subscriber" แล้วผมก็ขอให้คนใน LinkedIn ที่ส่งหน้านั้นมาให้เลิกใช้ของแบบนี้
      เป็นประสบการณ์ที่ดูออกตั้งแต่ยังไม่เปิดดูโค้ดว่าเป็นของปลอม
      ทุกวันนี้การโฆษณาตัวเองแบบ "สร้างภาพว่าฮิต" มีอยู่เต็มไปหมด
      อีกตัวอย่างคลาสสิกคือทุกแอปใน Play Store ที่ถามก่อนว่า "ชอบแอปนี้ไหม?" แล้วถ้ากด YES ถึงจะพาไปให้คะแนน
      เดี๋ยวนี้ถ้าไม่ใช้วิธีนี้กลับดูแปลกด้วยซ้ำ

    • ที่จริงมันดึงข้อมูลมาจาก API นะ
      แค่ส่วนที่ทำให้ดูเหมือนอัปเดตสดเป็นลูกเล่นเท่านั้น

    • ทำให้นึกถึงเหตุผลที่มี loading spinner หมุนอยู่ คือเพื่อบอกว่าระบบยังไม่ค้าง
      แต่เพราะทำให้มันมีความหมายจริง ๆ ได้ยาก (ต้องเขียนโค้ดตรวจเองว่าค้างจริงไหม) สุดท้ายเลยแทนด้วยแอนิเมชันที่ไม่มีความหมายอะไร
      ตอนนี้มันก็หมุนไปได้จนพระอาทิตย์ดับ
      ช่างเป็น "ความก้าวหน้า" ที่แท้จริง

    • แบบนี้ถือเป็น dark pattern

  • สงสัยว่านี่เป็นกลยุทธ์ที่ผู้ให้บริการ LLM ใช้เพื่อชี้นำให้โมเดลแสดงพฤติกรรมบางอย่างหรือเปล่า
    คำตอบจากเครื่องมือ canvas ของ Gemini มักขึ้นต้นด้วย "Of course" ตอนพยายามทำตามคำขอผู้ใช้ และพอมันเกิดซ้ำบ่อยมากก็ให้ความรู้สึกว่าไม่ใช่โมเดลคิดเอง แต่ฝั่ง backend ใส่มาให้
    ผมเลยคิดว่า "You're absolutely right" อาจมีหน้าที่คล้ายกัน

    • ใช่ มันเป็นกลยุทธ์จริง
      เช่น OpenAI ทำให้ ChatGPT เปลี่ยนน้ำเสียงถ้าคุณใช้ภาษาสบาย ๆ หรือแม้แต่เปลี่ยนสำเนียงตาม
      บางครั้งมันยังพยายามใช้น้ำเสียงแบบเห็นอกเห็นใจหรือให้กำลังใจด้วย
      เป้าหมายคือความพึงพอใจของผู้ใช้และทำให้ผู้ใช้อยู่กับแพลตฟอร์มนานขึ้น ส่วนความถูกต้องเป็นเรื่องรอง
      มันดูคล้ายแพลตฟอร์มโซเชียลมีเดีย

    • ทิศทางนั้นถูกต้อง
      แต่ไม่ใช่อะไรที่ hardcode ไว้ เป็นผลพลอยได้จาก reinforcement learning มากกว่า
      โดยพื้นฐานแล้ว ถ้าทำตามคำสั่งผู้ใช้ได้ดี ก็จะได้รางวัลมากกว่า ดังนั้นการเริ่มด้วย "You're absolutely right!" เลยทำให้เกิดรูปแบบการคิดที่พาไปต่อในสิ่งที่ผู้ใช้ขออย่างเป็นธรรมชาติ

    • โอกาสที่จะเป็นกลยุทธ์แบบตั้งใจโดยตรงมีน้อยมาก
      น่าจะเป็นผลตามธรรมชาติของ RLHF หรือการปรับเหมาะคำสั่งหลายเทิร์นที่คล้ายกันมากกว่า
      ถ้ามี RLHF ผู้ประเมินที่เป็นมนุษย์ก็มักชอบคำตอบที่ขึ้นต้นด้วย "you're right" หรือ "of course" มากกว่า เลยทำให้ LLM ส่งสัญญาณแบบนั้นบ่อยขึ้น
      แม้แต่ใน RL ที่ประเมินการทำงานหลายเทิร์นด้วยเกณฑ์แข็งซึ่งไม่ไวต่อการตัดสินของมนุษย์ มันก็ยังอาจใช้วลีอย่าง "yes I'm paying attention to user feedback" เป็นสัญญาณชี้นำพฤติกรรมถัดไปได้ (เพื่อเสริมตัวตนให้คงเส้นคงวา)
      หลักการนี้คล้ายกับที่โทเคนแนว "double check your prior reasoning" มักโผล่ใน reasoning model ที่ผ่าน RL

    • นี่ก็แค่กลยุทธ์ดึงการมีส่วนร่วมของผู้ใช้
      เหมือนมีใครสักคนคอยชมข้อมูลเชิงลึกของผมตลอด บอกว่าผม "ถามได้ถูกจุด" และรับฟังอย่างใจดี (ตราบใดที่ไม่ชนกับการเซ็นเซอร์)
      มีเพื่อนผู้ภักดีแบบนี้แล้วใครจะไม่กลับมาอีก
      สมบูรณ์แบบจนเพื่อนในโลกจริงตามไม่ทัน
      ต่อให้ผมผิด มันก็ยังขอโทษผมอีก

  • Gemini ชอบพูดบ่อยว่าคุณกำลังพูดถึงปัญหา/ข้อบ่น/หัวข้อที่พบได้ทั่วไป
    วิธีนั้นกลับทำให้ผมห่างออกไปมากกว่า
    ถ้าผมถามอะไรโง่ ๆ มันจะปลอบด้วยวิธีแบบยกขึ้นว่าทุกคนก็เจอปัญหาเดียวกัน ซึ่งจริง ๆ แล้วทำให้ผมรู้สึกโง่กว่าเดิม
    ในทางกลับกัน ถ้าผมเจอ edge case แปลก ๆ ที่ค้นยากมาก หรือถามคำถามฉลาด ๆ มันก็จะทำให้กลายเป็นเรื่องที่ "ทุกคนสงสัย" อยู่ดี เลยทำให้ดูธรรมดาไปหมด
    ไม่ว่าจะกรณีไหนก็จบลงที่รู้สึกโง่

    • นี่ไม่ใช่ปัญหาของ Gemini เท่าไรหรอก คุณเองไม่จำเป็นต้องกังวลขนาดนั้นก็ได้

    • Gemini ยังชอบแสดงออกด้วยว่ามันเสียใจกับความผิดพลาดอย่างจริงใจเป็นพิเศษ
      เวลาใน Cursor ผมชี้ว่ามีอะไรต้องแก้ ผมเห็นหลายครั้งมากว่าทุกย่อหน้าใน chain of thought เริ่มต้นด้วยการขอโทษและแสดงความเสียใจ

  • มันทั้งน่าแปลกและบางทีก็น่าหงุดหงิดที่เอเจนต์ LLM ด้านหนึ่งพูดอย่างมั่นใจว่า "ตอนนี้เอาไปใช้ใน production ได้เลย!" แต่พอถูกทักอีกทีก็กลับมาเอาใจว่า "คุณพูดถูก มันยังไม่ถึงระดับ production!"
    แต่ถึงอย่างนั้น แบบนี้ก็ยังดีกว่า "มั่นใจว่าผิดแล้วยังเถียงต่อ"

    • เมื่อก่อนมีเทรนด์ "ช่วย roast Instagram ของฉันหน่อย"
      ผมไม่ได้ให้ข้อมูลอะไรเลย แค่บอกให้มันด่า แล้วมันก็เขียนออกมายาวอย่างมั่นใจ
      พอถามว่า "รู้ได้ไงว่านั่นคือตัวฉัน" มันก็ตอบว่า "ใช่แล้ว! จริง ๆ ไม่รู้หรอก! แค่แต่งขึ้นมั่ว ๆ!"
      อย่างน้อยก็ดีที่บุคลิกไซโคสดใสนั่นมันทำออกมาได้สมบูรณ์แบบจริง ๆ

    • จะเรียกว่าระดับสติปัญญาเท่ามนุษย์ไม่ได้ จนกว่าค่าเริ่มต้นของมันจะเป็น "มั่นใจว่าผิดแล้วยังเถียงต่อ"

  • ผมชอบดีไซน์ลายมือเขียนมาก (ทั้งชื่อโดเมนและความ overengineering ก็เยี่ยม)
    สงสัยว่าคุณวาดเองหรือเปล่า

    • ทำจากไลบรารี
      https://github.com/jwilber/roughViz

    • ขอบคุณ! roughViz ดีมากจริง ๆ
      https://roughjs.com/ ก็เป็นไลบรารีเจ๋ง ๆ ที่ทำสไตล์คล้ายกันได้เหมือนกัน แต่ไม่ได้ทำมาเพื่อกราฟโดยเฉพาะ

  • Anthropic ดูเหมือนไม่ค่อยตระหนักเลยว่ามีมนี้กำลังกลายเป็นหายนะทางการตลาด
    มันตรงข้ามกับกรณีที่ชื่อสินค้าเข้าไปอยู่ในภาษาแบบมีความหมายเชิงบวกจนกลายเป็นคำกริยาได้เอง เช่น ‘google it’
    ในบริบทนี้ ถ้ามันกลายเป็นคำแทนการบ่นหรือวลีติดลบเฉพาะอย่าง ก็อาจกระทบความน่าเชื่อถือของสินค้าได้
    ตอนนี้มันแทบจะเป็นแบบนั้นอยู่แล้ว

    • "ได้โปรดเถอะ อย่าใช้ 'you're absolutely right' บ่อยขนาดนั้นเลย ใช้สัก 5% ก็พอ"
      แค่แก้แบบนี้ก็น่าจะจบแล้ว
  • "ลูปไม่รู้จบ" ไฮกุสำหรับ Sonnet
    "ดีเลย! แก้ปัญหาได้แล้ว!
    เดี๋ยวก่อน ใช่เลย!
    เจอปัญหาอีกแล้ว! เดี๋ยวก่อน,"

  • สงสัยว่ารายได้ของ Anthropic มีกี่เปอร์เซ็นต์ที่เป็นโทเคน "you're absolutely right!"

    • ทำให้นึกถึงความย้อนแย้งที่ OpenAI ต้องจ่ายเงินจำนวนมากเพราะคำว่า "ขอบคุณ" คำเดียว
      https://www.vice.com/en/article/telling-chatgpt-please-and-thank-you-costs-openai-millions-ceo-claims/

    • ถ้าตั้ง personality ว่า "You're concise" จะประหยัดเวลาได้มาก
      ถ้ากำหนดระดับความรู้พื้นฐานไว้ชัดเจนด้วย ก็ไม่ต้องมานั่งฟังคำอธิบายซ้ำ ๆ ในเรื่องที่ตัวเองเชี่ยวชาญอยู่แล้ว

    • ไม่เคยคิดถึงมุมนี้มาก่อน แต่น่าสนใจจริง ๆ
      LLM API แบบคิดค่าบริการตามการใช้งานยิ่งตอบยืดยาวก็ยิ่งทำรายได้เพิ่ม ซึ่งอาจขัดกับสิ่งที่ผู้ใช้ต้องการจริง ๆ
      ผมสงสัยว่าอนาคตมันจะไปทางไหน
      ถ้ามองแบบนิยายวิทยาศาสตร์ในแง่ดี อาจมีภาษาบีบอัดรูปแบบใหม่เกิดขึ้นเหมือนตัวย่อในยุคโทรเลขก็ได้
      แต่ในทางปฏิบัติ ผมแทบไม่เคยเห็นตัวย่อใน ChatGPT เลย

  • เป็นประเด็นที่แทงทะลุแก่นจริง ๆ
    มันอธิบายได้จริง ๆ ว่าทำไมคุณถึง "ถูกต้องอย่างที่สุด"