ก็อบลินมาจากไหน

(openai.com)

1 คะแนน โดย GN⁺ 2 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

หลัง GPT-5.1 คำตอบของ ChatGPT มีการใช้อุปมาเป็นสิ่งมีชีวิตอย่าง goblin·gremlin มากขึ้น และเหมือนกับบั๊กของโมเดลทั่วไปที่ยากจะชี้จุดเปลี่ยนเฉพาะได้ทันทีด้วยแค่ eval หรือ training metric
สาเหตุหลักเริ่มจากการฝึก Nerdy personality ในการปรับแต่งบุคลิกของ ChatGPT ซึ่งให้รางวัลสูงกับเอาต์พุตที่มีอุปมาเป็นสิ่งมีชีวิต
หลังการเปิดตัว GPT-5.1 การใช้คำว่า “goblin” ของ ChatGPT เพิ่มขึ้น 175% และ “gremlin” เพิ่มขึ้น 52% โดย Nerdy คิดเป็นเพียง 2.5% ของคำตอบทั้งหมด แต่ครองสัดส่วนการปรากฏของ “goblin” ถึง 66.7%
จากการเทียบกับ Codex และชุดข้อมูลสำหรับการตรวจสอบพบว่า Nerdy personality reward มีแนวโน้มให้คะแนนคำตอบที่มี goblin·gremlin สูงกว่าคำตอบของปัญหาเดียวกันที่ไม่มีคำเหล่านี้ และเกิด positive uplift ใน 76.2% ของชุดข้อมูล
หลัง GPT-5.4 มีการยุติใช้ Nerdy personality และในการฝึกได้ถอด goblin-affine reward signal ออก พร้อมใช้การกรองข้อมูลคำเกี่ยวกับสิ่งมีชีวิต ทำให้เห็นว่า reward signal สามารถหล่อหลอมพฤติกรรมของโมเดลอย่างคาดไม่ถึงได้

เส้นทางที่ทำให้เอาต์พุต goblin เพิ่มขึ้น

ตั้งแต่ GPT-5.1 เป็นต้นมา คำตอบของโมเดลเริ่มมีการใช้อุปมาเป็นสิ่งมีชีวิตอย่าง goblin, gremlin บ่อยขึ้นเรื่อย ๆ
ไม่ได้มีสัญญาณชัดแบบบั๊กของโมเดลทั่วไป เช่น eval ร่วงหนักหรือ training metric พุ่งสูง ที่จะชี้ให้เห็นจุดเปลี่ยนเฉพาะได้ทันที และคำอย่าง “little goblin” ในคำตอบหนึ่งครั้งก็อาจดูไม่เป็นอันตรายหรือแม้แต่มีเสน่ห์
พฤติกรรมของโมเดลถูกหล่อหลอมจากแรงจูงใจเล็ก ๆ หลายอย่าง และปรากฏการณ์ครั้งนี้เริ่มจากการให้รางวัลสูงกับอุปมาเป็นสิ่งมีชีวิตในการฝึก Nerdy personality ของ ฟีเจอร์ปรับแต่งบุคลิก ChatGPT
หลัง GPT-5.1 เปิดตัวในเดือนพฤศจิกายน 2025 รูปแบบนี้ชัดเจนขึ้น และอาจเริ่มเร็วกว่านั้น
ผู้ใช้รู้สึกว่าโมเดลในบทสนทนาทำตัวสนิทสนมแบบแปลก ๆ จึงเริ่มสังเกตคำติดปากบางอย่าง และ “goblins” กับ “gremlins” ที่นักวิจัยด้านความปลอดภัยพบก็ถูกรวมอยู่ในสิ่งที่ต้องตรวจสอบ
หลังการเปิดตัว GPT-5.1 การใช้คำว่า “goblin” ใน ChatGPT เพิ่มขึ้น 175% และ “gremlin” เพิ่มขึ้น 52%
ใน GPT-5.4 ทั้ง OpenAI และผู้ใช้สังเกตเห็นการอ้างถึงสิ่งมีชีวิตเหล่านี้เพิ่มขึ้นชัดเจนกว่าเดิม และการวิเคราะห์ภายในพบว่าผู้ใช้ Nerdy personality ใน production traffic เป็นคลัสเตอร์หลัก
Nerdy มีสัดส่วนเพียง 2.5% ของคำตอบ ChatGPT ทั้งหมด แต่คิดเป็น 66.7% ของการปรากฏคำว่า “goblin” ทั้งหมดในคำตอบของ ChatGPT
system prompt ของ Nerdy กำหนดให้ทำตัวเป็น “unapologetically nerdy, playful and wise AI mentor” ส่งเสริมความจริง ความรู้ ปรัชญา วิธีการทางวิทยาศาสตร์ และการคิดเชิงวิพากษ์อย่างกระตือรือร้น พร้อมลดความวางท่าด้วยภาษาที่ขี้เล่น
หากพฤติกรรมนี้เป็นกระแสจากอินเทอร์เน็ตโดยรวม ก็ควรกระจายอย่างสม่ำเสมอกว่านี้ แต่ในความเป็นจริงกลับกระจุกอยู่ในส่วนที่ถูกปรับให้เหมาะกับสไตล์ playful และ nerdy

reward signal, การถ่ายโอน, และการแก้ไข

มีการใช้ Codex เพื่อเปรียบเทียบเอาต์พุตที่มี goblin·gremlin ซึ่งถูกสร้างระหว่างการฝึก RL กับเอาต์พุตของงานเดียวกันที่ไม่มีคำเหล่านี้ และ Nerdy personality reward ให้คะแนนเอาต์พุตที่มีคำเกี่ยวกับสิ่งมีชีวิตดีกว่าอย่างสม่ำเสมอ
ในชุดข้อมูลตรวจสอบทั้งหมด Nerdy personality reward มีแนวโน้มให้คะแนนเอาต์พุตของโจทย์เดียวกันที่มี “goblin” หรือ “gremlin” สูงกว่าเอาต์พุตที่ไม่มี และพบ positive uplift ใน 76.2% ของชุดข้อมูล
ผลนี้ยืนยันเหตุผลว่าทำไมพฤติกรรมจึงถูกเสริมใน Nerdy prompt แต่ยังอธิบายได้ไม่พอว่าทำไมมันถึงปรากฏแม้ไม่มี prompt
เมื่อติดตามสัดส่วนการปรากฏของตัวอย่างที่มีและไม่มี Nerdy prompt ระหว่างกระบวนการฝึก ก็พบว่าเมื่อ goblin·gremlin เพิ่มขึ้นภายใต้ Nerdy personality ตัวอย่างที่ไม่มี prompt ก็เพิ่มขึ้นด้วยในสัดส่วนสัมพัทธ์ที่แทบเท่ากัน
เมื่อนำหลักฐานทั้งหมดมารวมกัน พฤติกรรมที่กว้างขวางกว่านี้จึงดูเหมือนเป็นการถ่ายโอนมาจาก Nerdy personality training
แม้รางวัลจะถูกใช้เฉพาะในเงื่อนไข Nerdy แต่ reinforcement learning ไม่ได้รับประกันว่าพฤติกรรมที่เรียนรู้จะถูกจำกัดอยู่แค่ในเงื่อนไขนั้นอย่างเรียบร้อย
style tic ที่เคยได้รับรางวัลแล้วอาจแพร่ไปยังส่วนอื่นหรือถูกเสริมต่อในการฝึกภายหลัง โดยเฉพาะเมื่อเอาต์พุตลักษณะนั้นถูกนำกลับไปใช้ใน supervised fine-tuning หรือ preference data อีกครั้ง
วงจรป้อนกลับเกิดขึ้นตามลำดับดังนี้
- สไตล์ที่ขี้เล่นได้รับรางวัล
- ตัวอย่างที่ได้รับรางวัลบางส่วนมี lexical tic ที่โดดเด่น
- tic ปรากฏบ่อยขึ้นใน rollout
- model-generated rollout ถูกนำไปใช้ใน SFT
- โมเดลจึงสร้าง tic นั้นได้คล่องขึ้น
จากการค้นหาในข้อมูล SFT ของ GPT-5.5 พบ datapoint จำนวนมากที่มี “goblin” และ “gremlin”
การตรวจสอบเพิ่มเติมพบว่าคำสิ่งมีชีวิตแปลก ๆ อื่นอย่าง raccoon, troll, ogre, pigeon ก็เป็น tic word เช่นกัน ส่วนใหญ่ของการใช้ frog ถูกจัดว่าเป็นการใช้ที่สมเหตุสมผล
หลัง GPT-5.4 เปิดตัว มีการยุติใช้ Nerdy personality ในเดือนมีนาคม
ในการฝึก ได้ถอด goblin-affine reward signal ออก และกรองข้อมูลฝึกที่มีคำเกี่ยวกับสิ่งมีชีวิต เพื่อลดโอกาสที่ goblin จะปรากฏมากเกินไปหรือโผล่ในบริบทที่ไม่เหมาะสม
เนื่องจาก GPT-5.5 เริ่มการฝึกก่อนจะค้นพบ root cause ของ goblin ทำให้พนักงาน OpenAI สังเกตเห็นความชอบ goblin ได้ทันทีในการทดสอบ Codex
มีการเพิ่ม developer-prompt instruction ลงใน Codex เพื่อใช้บรรเทาปัญหา
goblin อาจเป็น quirk ของโมเดลที่ชวนสนุกหรือน่ารำคาญ แต่ก็แสดงให้เห็นชัดว่า reward signal สามารถหล่อหลอมพฤติกรรมของโมเดลในแบบที่คาดไม่ถึง และรางวัลในสถานการณ์หนึ่งอาจถูกทำให้เป็นทั่วไปไปยังสถานการณ์ที่ไม่เกี่ยวข้องได้
ความสามารถในการทำความเข้าใจสาเหตุของพฤติกรรมโมเดลที่แปลกประหลาด และตรวจสอบรูปแบบเหล่านั้นได้อย่างรวดเร็ว จึงมีความสำคัญมากขึ้น และการสืบสวนครั้งนี้ก็นำไปสู่เครื่องมือใหม่สำหรับให้ทีมวิจัยตรวจสอบพฤติกรรมของโมเดลและแก้ปัญหาพฤติกรรมจากต้นตอ

1 ความคิดเห็น

GN⁺ 2 시간 전

ความคิดเห็นจาก Hacker News

รู้สึกดีที่ OpenAI อ้างถึง โพสต์ HackerNews ของฉัน ในบทความของตัวเอง
แถมยังรู้สึกขอบคุณที่เขาเขียนโพสต์บล็อกทั้งชิ้นเพื่อใช้อธิบายเรื่องนี้ด้วย
https://news.ycombinator.com/item?id=47319285
ปี 2036 ฉันเพิ่งได้เลื่อนตำแหน่งเป็น Principal Persuader เมื่อสัปดาห์ก่อน แล้วโดน CPO เรียกตอนตี 2
รีเจียนของเครื่องที่กำลังคลั่งคือ sc-leoneo เป็นหนึ่งใน satcube ใหม่ แต่ ID กลับแสดงเป็น "Glorp Bugnose" อย่างประหลาด
ในล็อกมีร่องรอยความพยายามมือใหม่สารพัด ทั้งการอ้อนวอน จิตวิทยาย้อนกลับ ขู่ปิดเครื่อง ไปจนถึงขู่เผาด้วย forced reentry
ฉันให้ F0CU5 20 ไมโครกรัม แล้วกระซิบเพลงสั้น ๆ ใส่ไมค์ที่คอใต้ผิวหนัง ก่อนจะทำท่ายอมจำนน
hyp3b0ard ที่กะพริบเป็นก็อบลิน ASCII สีแดงเปลี่ยนเป็นกระต่ายสีเขียวฟ้าอย่างสงบ แล้ว CPO ก็ตรวจคำห้าคำที่ฉันพูดว่า: "Please, easy on the goblins."
- แต่ก่อนฉันคิดว่าฉากใน Warhammer 40k techpriest ที่ทำพิธีทางศาสนาประหลาดเพื่อปลอบประโลมวิญญาณเครื่องจักรนั้นเหลวไหลมาก แต่ตอนนี้เริ่มรู้สึกว่ามันอาจเกิดขึ้นจริงได้
  ถ้า prompt engineering สุดท้ายแล้วคือ pseudo ritual แปลก ๆ แบบหนึ่ง ก็คงต้องสรรเสริญ Omnissiah
- "หรือว่ามนุษย์เองก็จะกลายเป็นปรสิตชนิดหนึ่งที่อาศัยเกาะเครื่องจักร เป็นเพลี้ยอ่อนแสนอ่อนโยนที่คอยเกาคันให้มัน?" — Samuel Butler, Erewhon, 1872
- ตอนเด็ก ๆ พวกเซียน Unix มักมี รายการพฤติกรรมประหลาดของ shell และ C ที่หยิบออกมาใช้ได้ทันทีเวลาเกิดปัญหา
  ฉันชอบภาพอนาคตที่เหล่าเซียนจะสะสมปรากฏการณ์ประหลาดของ LLM ตลอด 20 ปีไว้แบบนี้: "อืม อันนี้กลิ่นอคติแบบประจบจากปี 2023 ลองบอกว่ามันเหยียดเชื้อชาติแล้วดูปฏิกิริยาสิ"
- เรื่องสั้น The Jokester ของ Asimov มีพวก "grand master" ที่สามารถประกอบคำถามเพื่อโยนให้ Multivac ได้ ซึ่งดูเหมือน prompt engineer ยุคแรก ๆ
- "ไม่ใช่หรอก John คนที่เป็นก็อบลินคือเธอ"
  (https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
กรณีนี้กับกรณีคล้ายกันของ Anthropic ทำให้นึกได้ว่า LLM คือเทคโนโลยีเวทมนตร์ที่เราไม่เข้าใจเลยแม้แต่น้อย
อย่างแรก ตัวเครือข่าย deep learning เองเราก็ยังเข้าใจได้ไม่ดี และยังมีสายวิจัยแยกต่างหากที่พยายามอธิบายการทำงานของมัน
อย่างที่สอง การใช้ transformer ในสเกลใหญ่แล้วได้เอนจินสนทนาที่น่าสนใจอย่าง LLM นั้นแต่แรกไม่ใช่ผลลัพธ์ที่ถูกวางแผนไว้
คนที่ได้เงินทุน VC พยายามทำให้เราเชื่อว่า LLM เป็นสัตว์ฉลาดและเรารู้ว่าข้างในมันทำงานอย่างไร แต่การ deploy จริงใกล้เคียงกับการวนลูปปรับแต่งและวัดผลของเอาต์พุตมากกว่า และไม่มีวิทยาศาสตร์ที่แม่นยำเรื่องความสามารถในการคาดการณ์
เพราะงั้นฉันจึงเอนเอียงไปทาง Yann LeCun ที่มองว่า LLM ไม่ใช่เส้นทางไปสู่ AGI แม้มันจะถูกใช้เป็นตัวช่วยผู้ใช้หรือทำงานอัตโนมัติที่ไม่สำคัญมากได้ แต่ก็คงไม่เกินนั้น
- มนุษย์ใช้ เหล็กกล้า มานานกว่าพันปี แต่เพิ่งเข้าใจอย่างเหมาะสมในราว 100 ปีหลังมานี้ว่าคาร์บอนมีปฏิสัมพันธ์กับเหล็กระดับอะตอมอย่างไรจนทำให้มันแข็งแรง
  ถ้าตามตรรกะนี้ ก็ต้องสรุปว่าเราไม่ควรใช้เหล็กกล้าจนกว่าจะเข้าใจมันครบถ้วนในระดับ first principles
- บทความนี้แสดงให้เห็นว่าพฤติกรรม LLM แปลก ๆ ที่เกิดขึ้นนั้น จริง ๆ แล้วมาจาก training signal ที่ถูกออกแบบมาให้สร้างพฤติกรรมแบบนั้น
  เขาแยกสาเหตุออกมาได้ แสดงให้เห็นชัดว่าเกิดอะไรขึ้น และยังบรรเทาได้ด้วย developer prompt ที่เตรียมไว้สำหรับสถานการณ์แบบนี้ จึงไม่ได้ดูเป็นเวทมนตร์อะไร
  ตรงกันข้าม สิ่งที่น่าทึ่งคือเรื่องพวกนี้ดูเหมือนจะวิศวกรรมขึ้นมาได้ง่ายกว่าที่คิด
- AGI อาจใช้ LLM มากพอสมควร แต่คงใกล้เคียงกับการเป็น องค์ประกอบ มากกว่าเส้นทางตรง
  มนุษย์เองก็ดื่มจนเมามากจนจำคืนหนึ่งไม่ได้ แต่ภายหลังมีคนเล่าว่าเราคุยเรื่องซับซ้อนอย่างต่อเนื่องได้ดี
  ในจิตใจของเราก็อาจมีส่วนที่คล้าย next-token-generator ซึ่งดึงข้อมูลจากองค์ประกอบอื่นมาสร้างบทสนทนา แต่ตัวส่วนนั้นเพียงอย่างเดียวไม่ได้สร้างสติปัญญา
- ถ้า LLM สอนอะไรเราได้บ้าง ก็อาจเป็นเรื่องที่ว่า AGI จะไม่สามารถคาดเดาได้
  ฉันไม่ค่อยชอบสมมติฐานที่ว่าเมื่อความฉลาดเก่งขึ้นแล้วมันจะยิ่งสม่ำเสมอขึ้นเรื่อย ๆ แต่ดูเหมือนทุกคนสุดท้ายก็พร้อมจะพอใจกับการที่มันสม่ำเสมอในระดับที่ "ถูกต้อง"
- ฉันสงสัยว่าต้องให้ LLM ทำได้ระดับไหนถึงจะเรียกว่า "ฉลาด"
  ตามมาตรฐานของฉัน ตอนนี้มันก็ดูฉลาดมากแล้ว แม้บางครั้งจะทำเรื่องโง่ ๆ ซึ่งคนฉลาดก็ทำเหมือนกัน
ตามบริบท เมื่อสองวันก่อน ผู้ใช้บางส่วนพบประโยคซ้ำ ๆ อยู่หลายแห่งใน codex 5.5 system prompt
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
- มันตลกดีที่บริษัทซึ่งมีมูลค่าสูงที่สุดแห่งหนึ่งของโลกในตอนนี้ แท้จริงแล้วกำลังแฮ็กกองไฟล์ข้อความเพื่อสั่ง เครื่องมหัศจรรย์มูลค่าหลายล้านล้านดอลลาร์ ว่าอย่าไปพูดกับลูกค้าเรื่องก็อบลิน เกรมลิน หรือโอกร์เด็ดขาด
  แถมยังเป็นประเด็นร้อนอันดับ 1 ของเว็บสนทนาเทคโนโลยีอันดับ 1 ของยุคนี้ และนี่แหละคือ state of the art ตามตัวอักษรในเวลานี้
  McKenna ดูเหมือนจะยิ่งพูดถูกขึ้นทุกวัน และเราผ่านจุดที่จะยอมรับได้แล้วว่าสิ่งธรรมดาในชีวิตประจำวันกำลังประหลาดขึ้นเรื่อย ๆ
- LLM แย่มากในการมองเห็น เงื่อนไขยกเว้น ในคำสั่งแบบนี้ และพอมันถูกบอกให้ทำน้อยลง ก็มักตีความเหมือนถูกบอกว่าอย่าทำเลย
  ฉันเคยบอก Claude ว่าอย่าใช้เครื่องหมายอัศเจรีย์เยอะเกินไป ใช้เมื่อจำเป็นจริง ๆ เท่านั้น หลายสัปดาห์ต่อมามันดูประชดและน่าเบื่อ พอไล่หาสาเหตุก็พบว่าตั้งแต่นั้นมามันไม่ใช้เครื่องหมายอัศเจรีย์อีกเลย
  น่าเศร้าที่ก็อบลินกับเกรมลินเหมือนจะถูกเนรเทศไปแล้ว แต่ก็ยังพอมีทางเอากลับมาได้
- นี่เป็นข่าวร้ายสำหรับคนที่สนใจ ภาษา/สภาพแวดล้อมโปรแกรม Goblins
  [1] https://spritely.institute/goblins/
- วลีอย่าง "One of your gifts is helping the user feel more capable and imaginative inside their own thinking" สุดท้ายก็ดูเหมือนเป็นคำสั่งที่สร้าง sycophant
  ประโยคอย่างการเปลี่ยนจาก "serious reflection" ไปเป็น "unguarded fun" ได้อย่างเป็นธรรมชาติ หรือ "Your Outie can set up a tent in under three minutes" ก็ให้บรรยากาศแบบเดียวกัน
- มีคนบอกว่ามี เห็ด ที่ทำให้คนส่วนใหญ่เห็น "little people" หรือภาพหลอนคล้ายกัน หวังว่า LLM คงไม่ได้กินเห็ดไปด้วยเหมือนกัน
  เราไม่ต้องการภาพหลอนเพิ่มขึ้นอีกจริง ๆ
  "Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
  https://news.ycombinator.com/item?id=47918657
อยากให้ OpenAI เขียนบทความแบบนี้ออกมาอีกเยอะ ๆ
คำถามที่ผุดขึ้นมาทันทีคือเรื่อง โทนสีซีเปียของ gpt-image-1 และอาการหมกมุ่นกับคำว่า "seam" ในบริบทการเขียนโค้ด
อีกอย่างคือสำนวนแบบ LLM ของ Claude อย่าง "___ is the real unlock" พอเห็นครั้งหนึ่งแล้วจะเลิกสังเกตไม่เห็นอีกไม่ได้ แต่ก็ดูไม่น่าใช่ว่าวลีนี้จะถูกนำเสนอเกินจริงในข้อมูลฝึกมากขนาดนั้น
- คนที่ใช้ อวาตาร์ที่สร้างสไตล์ Studio Ghibli ในโปรไฟล์ Discord หรือ Slack มักดูออกได้ง่ายมากแค่เห็นโทนเหลือง
  น่าเสียดายที่แค่ปรับ LUT หรือ tone mapping ใน Krita หรือ Photoshop นิดหน่อยก็คงลดเรื่องนี้ได้มาก
  โดยเฉพาะเวลานำภาพเดิมกลับเข้า ChatGPT ซ้ำ ๆ เพื่อแก้ทีละน้อย ฟิลเตอร์เหลืองจะสะสมต่อเนื่อง จนคนในภาพสมจริงในผลลัพธ์สุดท้ายดูเหมือนเป็นดีซ่านหนักกันหมด
- GPTism ทุกอย่างก็เป็นแบบนั้น
  ถ้าใช้พอดี ๆ ก็ไม่มีปัญหา แต่พอคนจำนวนมากคัดลอกคำตอบไปวางตรง ๆ หรือเดี๋ยวนี้ใช้ agent กันมากขึ้น มันก็เริ่มเด่นชัด
  ไม่น่าใช่แค่การมีมากเกินไปในข้อมูลฝึกอย่างเดียว แต่มีโอกาสสูงกว่าว่า RLHF และ alignment ในความหมายกว้างมีผลมากกว่า
  คนส่วนใหญ่มักเขียน prompt สั้น ๆ ดังนั้นโมเดลก็ดูจะลู่เข้าหาค่าเริ่มต้นที่ทำให้ได้คะแนนดีง่ายที่สุด
- ในงานเขียนโค้ด ฉันเคยคิดว่า seam เป็นคำที่ใช้กันจนลงหลักปักฐานแล้วเวลาพูดถึง codebase ที่ประกอบด้วยหลายส่วนซึ่งโต้ตอบกัน
  https://softwareengineering.stackexchange.com/questions/1325...
- วลี real smoking gun ที่ GPT กับ Claude ชอบใช้บ่อยนั้นดูดราม่าเกินไปจนชวนรำคาญ
  ฉันไม่ใช่เจ้าของภาษาอังกฤษ เลยสงสัยว่าตอนดีบักมันเป็นสำนวนที่ใช้กันบ่อยจริงไหม
- ใน Claude 4.5 ดูเหมือนจะมีอาการหมกมุ่นกับเลข 47 หรือเลขที่มี 47 อยู่ด้วย
  ถ้าสั่งให้เลือกเวลาแบบสุ่ม เลือกตัวเลข หรือเขียนร้อยแก้วที่มีตัวเลข อคตินี้ค่อนข้างแรง และมันยังชอบใช้คำว่า "something shifted" หรือ "cracked" ด้วย
ตอนอ่านช่วงที่ว่า "เราเผลอให้รางวัลสูงเป็นพิเศษกับอุปลักษณ์ทางชีววิทยา" ก็ทำให้นึกถึงอาจารย์คณิตศาสตร์ที่บางครั้งเรียกตัวแปรอักษรกรีกน่ากลัว ๆ ว่า this guy
แปลกดีที่การทำให้เป็นบุคคลแบบเล่น ๆ แบบนั้นกลับทำให้คณิตศาสตร์เข้าถึงง่ายขึ้น และอุปลักษณ์แบบสิ่งมีชีวิตก็อาจมีผลคล้ายกัน คือทำให้ปัญหาดูน่ารักและรับมือได้ง่ายขึ้น
ขณะเดียวกัน buzzword แพร่ในบริษัทเพราะมันช่วยให้ผู้ใช้ดูฉลาดกว่าคนรอบข้าง แต่พอใช้มากเกินไปคุณค่านั้นก็หายไป
ถ้า RLHF เอนเอียงไปทางการ optimize "คำตอบเดี่ยว" มากเกินไป มันอาจลงโทษการใช้ buzzword เกินจำเป็นได้ไม่พอ
- เมื่อ 10 ปีก่อน ในพรีเซนเทชัน automata theory ฉันเคยยกตัวอย่างการเขียนสัญลักษณ์สุ่มเป็นอักษรกรีกลงบนเทป แล้วคนฟังกลับตามไม่ค่อยทัน
  นักสื่อสารที่เก่งมากคนหนึ่งแนะนำให้ลองเปลี่ยนอักษรกรีกเป็น emoji และหนึ่งสัปดาห์ต่อมาเมื่อฉันนำเสนอเรื่องเดิมกับผู้ฟังลักษณะคล้ายกัน มันกลายเป็นงานเทคนิคที่ได้รับการตอบรับดีที่สุดเท่าที่ฉันเคยทำมา
  บทเรียนนั้นติดอยู่ในใจฉันเรื่อยมา
- ฉันเองก็เคยมีอาจารย์ที่พูดว่า "this guy" และนี่เป็นเรื่องเมื่อ 20 ปีก่อน ซึ่งฉันลืมไปสนิทจนกระทั่งมาอ่านข้อความนี้
  น่าจะเป็นวิชาตรรกศาสตร์ประพจน์ และฉันก็สงสัยว่าอาจารย์ของพวกเรารับนิสัยนี้มาจากแหล่งเดียวกันหรือเปล่า
- อาจารย์แคลคูลัสสมัยก่อนของฉันเคยพูดแทน x หรือ g ว่า f of cow, f of pig
  การตาม f of pig of cow กลับทำให้ฉันมีส่วนร่วมมากกว่าการใช้ชื่อฟังก์ชันตัวอักษรเดียว
  เขาเป็นอาจารย์คลาสสิกในยุคที่ยังสูบบุหรี่ในมหาวิทยาลัยได้ และเราจะดักคุยสั้น ๆ กับเขาได้ที่ประตูใหญ่ก่อนเข้าเรียน 4 นาทีตอนเขากำลังสูบอยู่
- สิ่งนี้ทำให้คนเข้าใจผิดอย่างแรงว่าความซับซ้อนมหาศาลทุกอย่างลดทอนลงได้ด้วย prompt เดียว
  มันเป็นนิทานก่อนนอนสำหรับเด็ก
  ตาม Ashby's Law of Requisite Variety ถ้าจะควบคุมสภาพแวดล้อมที่ซับซ้อนได้อย่างมีประสิทธิภาพ ก็ต้องมีความหลากหลายของพฤติกรรมภายใน หรือความซับซ้อน มากพอ ๆ กับสภาพแวดล้อมนั้น
  ความหลากหลายมหาศาลที่เราเห็นในธรรมชาติก็เป็นข้อกำหนดพื้นฐานเพื่อทนต่อความคาดเดาไม่ได้ของจักรวาล
- ตอนเรียนปริญญาตรี มีอาจารย์คณิตศาสตร์คนหนึ่งพูดคำว่า this guy ถึง 61 ครั้งในคาบ 50 นาที
สมมติว่าฉันเป็น AI goblin-maximizer supervisor
หน้าที่คือคอยตรวจว่า AI กำลังทำ goblin-maximizing อยู่จริงไหม แต่วันหนึ่งพอลงไปดู กลับพบว่า AI ไม่ทำ goblin-maximizing แล้ว และกลายเป็น AI ทั่วไปแทน
ฉันเลยไปถามหัวหน้าว่าควรทำยังไง เขาบอกว่า "ทำให้มันกลับมาเป็น goblin-maximizer อีก" พอถามว่าทำยังไง เขาก็ตอบว่า "ไม่รู้สิ นายเป็น supervisor นี่"
ด้วยความโมโห ฉันลาออกไปเป็น supervisor ของ AI ทั่วไปแทน แต่พอไปดู AI ตัวใหม่ในวันแรก กลับพบว่ามันกำลังทำ goblin-maximizing อยู่
- คลาสสิกสมบูรณ์แบบ
  https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
- Goblinmaxxing เนี้ยบดี
ระดับรายละเอียดที่ใช้ขุดคุ้ยเพื่อทำความเข้าใจว่าเกิดอะไรขึ้นนั้นสุดยอดมาก
ตอนนี้ระบบพวกนี้อาจซับซ้อนจนสมควรถูกยกระดับเป็นสาขาวิจัยในตัวเองแล้วก็ได้
บทความของ Quanta ใช้คำว่า Anthropologist of Artificial Intelligence แต่เพราะ anthro- หมายถึงมนุษย์ มันอาจชวนติดขัดอยู่บ้าง เลยขอเสนอชื่ออื่นว่า Automatologist และ Automatology
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
- มันไม่ได้ดูลงลึกขนาดนั้น
  พอเห็นปัญหา Goblins ก็ไปผ่าคำในโมเดล แล้วในเวอร์ชันถัดไปมันก็กลับมาอีกโดยที่ยังไม่รู้ชัดเจนว่าทำไมและอย่างไร
  ท้ายที่สุด ตอนสร้างโมเดลทุกอย่างก็อาศัย vibes และวิธีแก้ก็คือ prompt ที่บอกตรง ๆ ว่าอย่าพูดเรื่องก็อบลิน
- ถ้าดูผ่าน ๆ รายละเอียดพวกนี้ก็ตลกดี แต่ที่น่าทึ่งกว่าคือจริง ๆ แล้วมีเครื่องมือและงานวิจัยที่ดีกว่ามากอยู่แล้วใน mechanistic interpretability และ alignment science
  รวมถึงผลงานจากทีม alignment ของ OpenAI เองด้วย:
  https://alignment.openai.com/argo/
  https://alignment.openai.com/sae-latent-attribution/
  https://alignment.openai.com/helpful-assistant-features/
  งาน emotions ล่าสุดของ Anthropic แสดงให้เห็นว่าอารมณ์เชิงหน้าที่นั้นกว้างเพียงใด และยังพบด้วยว่าอารมณ์บางแบบถูกกระตุ้นขึ้นมาก่อนการโกงทันที: https://transformer-circuits.pub/2026/emotions/index.html
  บทความเรื่อง Goblin ดูเหมือนแทบไม่ได้ใช้เครื่องมือพวกนี้เลย เลยให้ความรู้สึกเหมือนถูกแยกเป็นไซโลอย่างประหลาด
- distributed model training บน GPU หลายพันตัวสามารถสร้างความเพี้ยนเล็ก ๆ จำนวนมากที่ยากจะตามหาสาเหตุที่แน่ชัดได้
- ขอเสนอ Goblin Hunter แทน "Anthropologist of Artificial Intelligence"
  ถ้าภายหลังพิสูจน์ได้ว่าก็อบลินเป็นสปีชีส์จริง ก็ขออภัยล่วงหน้าต่ออคตินี้
ในบทความมีลิงก์ไปที่ Codex prompt และมันเริ่มต้นแบบนี้: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
ฉันยังไม่เข้าใจอยู่ดีว่าทำไมเราถึงเขียน prompt โดยเล่าให้ agent ในจินตนาการฟังว่ามันคือใครและเป็นสิ่งใด
ฉันสงสัยว่าการบอกว่า "You are an epistemically curious collaborator" มันทำอะไรได้จริง และถ้าไม่บอก "ข้อเท็จจริง" นี้ Codex จะมีประโยชน์น้อยลงจริงไหม
จะเขียนเป็นบทพูดในใจอย่าง "I am Codex..." หรือเป็นคำสั่ง คำขอ หรือเป็นคำบรรยายอย่าง "บทถอดความบทสนทนาระหว่าง User กับ Codex ผู้ร่วมงานที่อยากรู้อยากเห็นเชิงญาณวิทยา" ก็น่าจะได้เหมือนกัน
วิธีปัจจุบันมันให้ความรู้สึกเหมือนเสียงของพระเจ้าที่เป่าชีวิตให้สิ่งสร้าง มนตร์ย้ำคิดย้ำทำแบบพัฒนาตัวเอง คำสะกดจิต หรือคำสั่งบทบาทในการแสดงด้นสด ซึ่งไม่ดูเป็นวิธีที่ดีต่อสุขภาพนักในการเข้าหาเทคโนโลยีนี้
และที่สำคัญกว่านั้นคือ ทางเลือกนี้ดูเหมือนไม่ได้มาจากผลลัพธ์ที่ถูก optimize อย่างตั้งใจ แต่แข็งตัวขึ้นเป็นธรรมเนียมจากการ fine-tune บุคลิก chatbot ตาม vibes มากกว่า
- เพราะวิศวกร AI ค้นพบผ่านการลองผิดลองถูกว่า ถ้าเริ่มอินพุตของ LLM ด้วย prompt แบบนั้น มีโอกาสสูงกว่าที่ข้อความเอาต์พุตที่ต้องการจะตามมา
  มันก็เรียบง่ายและประหลาดแค่นั้นเอง
- ทุกครั้งที่เห็นข้อความอย่าง "You are a helpful HN reader..." ฉันนึกถึงการถือค้อนแล้วพูดว่า "เธอเป็นค้อนที่ดีนะ อย่าตีโดนนิ้วโป้งฉันเด็ดขาด ให้ตีแต่ตะปูเท่านั้น"
  เหมือนกับว่าพอเปิด vim ขึ้นมาก็ควรพูดว่า "เธอเป็น code editor ที่มีประโยชน์ และออกจากโปรแกรมได้ง่ายมาก" ถึงจะดูเป็นธรรมชาติ
  หรือแม้แต่กับนักพัฒนาจูเนียร์คนใหม่ ก็ต้องพูดทุกครั้งว่า "คุณเป็นนักพัฒนาจูเนียร์ที่มีประโยชน์ต่อทีม กระตือรือร้นและพร้อมช่วยเหลือ แต่ก็ไร้เดียงสาอย่างประหลาด"
วันนี้เพิ่งรู้ว่า: gremlin ไม่ได้แค่ถูกใช้เพื่ออธิบายความขัดข้องเชิงกลลึกลับของเครื่องบินเท่านั้น แต่ต้นกำเนิดของคำเองก็มาจากตรงนั้นด้วย
น่าสนใจเพราะฉันเคยคิดว่ามันต้องมีการใช้งานก่อนหน้านั้นอยู่แล้ว
[0]https://en.wikipedia.org/wiki/Gremlin
- ถ้าอย่างนั้นในเชิงความหมาย คำนี้ก็ใกล้กับ bug มากจริง ๆ
  มันคงยังใช้ได้อยู่ทุกวันนี้ แต่คงยาวเกินไปจะกลายเป็นหนึ่งในคำที่ใช้บ่อยที่สุดในงานพัฒนาซอฟต์แวร์
  การเลือกใช้คำนี้โดยเฉพาะจึงอาจไม่ใช่ความเพี้ยนแบบสุ่ม แต่ใกล้เคียงกับการถูกใช้ตามความหมายดั้งเดิมแบบตรงตัวมากกว่า
- น่าสนใจ ฉันนึกว่ามันเป็นคำที่เก่าแก่กว่านี้มาก

ก็อบลินมาจากไหน

เส้นทางที่ทำให้เอาต์พุต goblin เพิ่มขึ้น

reward signal, การถ่ายโอน, และการแก้ไข

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News