ก็อบลินมาจากไหน
(openai.com)- หลัง GPT-5.1 คำตอบของ ChatGPT มีการใช้อุปมาเป็นสิ่งมีชีวิตอย่าง goblin·gremlin มากขึ้น และเหมือนกับบั๊กของโมเดลทั่วไปที่ยากจะชี้จุดเปลี่ยนเฉพาะได้ทันทีด้วยแค่ eval หรือ training metric
- สาเหตุหลักเริ่มจากการฝึก Nerdy personality ในการปรับแต่งบุคลิกของ ChatGPT ซึ่งให้รางวัลสูงกับเอาต์พุตที่มีอุปมาเป็นสิ่งมีชีวิต
- หลังการเปิดตัว GPT-5.1 การใช้คำว่า “goblin” ของ ChatGPT เพิ่มขึ้น 175% และ “gremlin” เพิ่มขึ้น 52% โดย Nerdy คิดเป็นเพียง 2.5% ของคำตอบทั้งหมด แต่ครองสัดส่วนการปรากฏของ “goblin” ถึง 66.7%
- จากการเทียบกับ Codex และชุดข้อมูลสำหรับการตรวจสอบพบว่า Nerdy personality reward มีแนวโน้มให้คะแนนคำตอบที่มี goblin·gremlin สูงกว่าคำตอบของปัญหาเดียวกันที่ไม่มีคำเหล่านี้ และเกิด positive uplift ใน 76.2% ของชุดข้อมูล
- หลัง GPT-5.4 มีการยุติใช้ Nerdy personality และในการฝึกได้ถอด goblin-affine reward signal ออก พร้อมใช้การกรองข้อมูลคำเกี่ยวกับสิ่งมีชีวิต ทำให้เห็นว่า reward signal สามารถหล่อหลอมพฤติกรรมของโมเดลอย่างคาดไม่ถึงได้
เส้นทางที่ทำให้เอาต์พุต goblin เพิ่มขึ้น
- ตั้งแต่ GPT-5.1 เป็นต้นมา คำตอบของโมเดลเริ่มมีการใช้อุปมาเป็นสิ่งมีชีวิตอย่าง goblin, gremlin บ่อยขึ้นเรื่อย ๆ
- ไม่ได้มีสัญญาณชัดแบบบั๊กของโมเดลทั่วไป เช่น eval ร่วงหนักหรือ training metric พุ่งสูง ที่จะชี้ให้เห็นจุดเปลี่ยนเฉพาะได้ทันที และคำอย่าง “little goblin” ในคำตอบหนึ่งครั้งก็อาจดูไม่เป็นอันตรายหรือแม้แต่มีเสน่ห์
- พฤติกรรมของโมเดลถูกหล่อหลอมจากแรงจูงใจเล็ก ๆ หลายอย่าง และปรากฏการณ์ครั้งนี้เริ่มจากการให้รางวัลสูงกับอุปมาเป็นสิ่งมีชีวิตในการฝึก Nerdy personality ของ ฟีเจอร์ปรับแต่งบุคลิก ChatGPT
- หลัง GPT-5.1 เปิดตัวในเดือนพฤศจิกายน 2025 รูปแบบนี้ชัดเจนขึ้น และอาจเริ่มเร็วกว่านั้น
- ผู้ใช้รู้สึกว่าโมเดลในบทสนทนาทำตัวสนิทสนมแบบแปลก ๆ จึงเริ่มสังเกตคำติดปากบางอย่าง และ “goblins” กับ “gremlins” ที่นักวิจัยด้านความปลอดภัยพบก็ถูกรวมอยู่ในสิ่งที่ต้องตรวจสอบ
- หลังการเปิดตัว GPT-5.1 การใช้คำว่า “goblin” ใน ChatGPT เพิ่มขึ้น 175% และ “gremlin” เพิ่มขึ้น 52%
- ใน GPT-5.4 ทั้ง OpenAI และผู้ใช้สังเกตเห็นการอ้างถึงสิ่งมีชีวิตเหล่านี้เพิ่มขึ้นชัดเจนกว่าเดิม และการวิเคราะห์ภายในพบว่าผู้ใช้ Nerdy personality ใน production traffic เป็นคลัสเตอร์หลัก
- Nerdy มีสัดส่วนเพียง 2.5% ของคำตอบ ChatGPT ทั้งหมด แต่คิดเป็น 66.7% ของการปรากฏคำว่า “goblin” ทั้งหมดในคำตอบของ ChatGPT
- system prompt ของ Nerdy กำหนดให้ทำตัวเป็น “unapologetically nerdy, playful and wise AI mentor” ส่งเสริมความจริง ความรู้ ปรัชญา วิธีการทางวิทยาศาสตร์ และการคิดเชิงวิพากษ์อย่างกระตือรือร้น พร้อมลดความวางท่าด้วยภาษาที่ขี้เล่น
- หากพฤติกรรมนี้เป็นกระแสจากอินเทอร์เน็ตโดยรวม ก็ควรกระจายอย่างสม่ำเสมอกว่านี้ แต่ในความเป็นจริงกลับกระจุกอยู่ในส่วนที่ถูกปรับให้เหมาะกับสไตล์ playful และ nerdy
reward signal, การถ่ายโอน, และการแก้ไข
- มีการใช้ Codex เพื่อเปรียบเทียบเอาต์พุตที่มี goblin·gremlin ซึ่งถูกสร้างระหว่างการฝึก RL กับเอาต์พุตของงานเดียวกันที่ไม่มีคำเหล่านี้ และ Nerdy personality reward ให้คะแนนเอาต์พุตที่มีคำเกี่ยวกับสิ่งมีชีวิตดีกว่าอย่างสม่ำเสมอ
- ในชุดข้อมูลตรวจสอบทั้งหมด Nerdy personality reward มีแนวโน้มให้คะแนนเอาต์พุตของโจทย์เดียวกันที่มี “goblin” หรือ “gremlin” สูงกว่าเอาต์พุตที่ไม่มี และพบ positive uplift ใน 76.2% ของชุดข้อมูล
- ผลนี้ยืนยันเหตุผลว่าทำไมพฤติกรรมจึงถูกเสริมใน Nerdy prompt แต่ยังอธิบายได้ไม่พอว่าทำไมมันถึงปรากฏแม้ไม่มี prompt
- เมื่อติดตามสัดส่วนการปรากฏของตัวอย่างที่มีและไม่มี Nerdy prompt ระหว่างกระบวนการฝึก ก็พบว่าเมื่อ goblin·gremlin เพิ่มขึ้นภายใต้ Nerdy personality ตัวอย่างที่ไม่มี prompt ก็เพิ่มขึ้นด้วยในสัดส่วนสัมพัทธ์ที่แทบเท่ากัน
- เมื่อนำหลักฐานทั้งหมดมารวมกัน พฤติกรรมที่กว้างขวางกว่านี้จึงดูเหมือนเป็นการถ่ายโอนมาจาก Nerdy personality training
- แม้รางวัลจะถูกใช้เฉพาะในเงื่อนไข Nerdy แต่ reinforcement learning ไม่ได้รับประกันว่าพฤติกรรมที่เรียนรู้จะถูกจำกัดอยู่แค่ในเงื่อนไขนั้นอย่างเรียบร้อย
- style tic ที่เคยได้รับรางวัลแล้วอาจแพร่ไปยังส่วนอื่นหรือถูกเสริมต่อในการฝึกภายหลัง โดยเฉพาะเมื่อเอาต์พุตลักษณะนั้นถูกนำกลับไปใช้ใน supervised fine-tuning หรือ preference data อีกครั้ง
- วงจรป้อนกลับเกิดขึ้นตามลำดับดังนี้
- สไตล์ที่ขี้เล่นได้รับรางวัล
- ตัวอย่างที่ได้รับรางวัลบางส่วนมี lexical tic ที่โดดเด่น
- tic ปรากฏบ่อยขึ้นใน rollout
- model-generated rollout ถูกนำไปใช้ใน SFT
- โมเดลจึงสร้าง tic นั้นได้คล่องขึ้น
- จากการค้นหาในข้อมูล SFT ของ GPT-5.5 พบ datapoint จำนวนมากที่มี “goblin” และ “gremlin”
- การตรวจสอบเพิ่มเติมพบว่าคำสิ่งมีชีวิตแปลก ๆ อื่นอย่าง raccoon, troll, ogre, pigeon ก็เป็น tic word เช่นกัน ส่วนใหญ่ของการใช้ frog ถูกจัดว่าเป็นการใช้ที่สมเหตุสมผล
- หลัง GPT-5.4 เปิดตัว มีการยุติใช้ Nerdy personality ในเดือนมีนาคม
- ในการฝึก ได้ถอด goblin-affine reward signal ออก และกรองข้อมูลฝึกที่มีคำเกี่ยวกับสิ่งมีชีวิต เพื่อลดโอกาสที่ goblin จะปรากฏมากเกินไปหรือโผล่ในบริบทที่ไม่เหมาะสม
- เนื่องจาก GPT-5.5 เริ่มการฝึกก่อนจะค้นพบ root cause ของ goblin ทำให้พนักงาน OpenAI สังเกตเห็นความชอบ goblin ได้ทันทีในการทดสอบ Codex
- มีการเพิ่ม developer-prompt instruction ลงใน Codex เพื่อใช้บรรเทาปัญหา
- goblin อาจเป็น quirk ของโมเดลที่ชวนสนุกหรือน่ารำคาญ แต่ก็แสดงให้เห็นชัดว่า reward signal สามารถหล่อหลอมพฤติกรรมของโมเดลในแบบที่คาดไม่ถึง และรางวัลในสถานการณ์หนึ่งอาจถูกทำให้เป็นทั่วไปไปยังสถานการณ์ที่ไม่เกี่ยวข้องได้
- ความสามารถในการทำความเข้าใจสาเหตุของพฤติกรรมโมเดลที่แปลกประหลาด และตรวจสอบรูปแบบเหล่านั้นได้อย่างรวดเร็ว จึงมีความสำคัญมากขึ้น และการสืบสวนครั้งนี้ก็นำไปสู่เครื่องมือใหม่สำหรับให้ทีมวิจัยตรวจสอบพฤติกรรมของโมเดลและแก้ปัญหาพฤติกรรมจากต้นตอ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
รู้สึกดีที่ OpenAI อ้างถึง โพสต์ HackerNews ของฉัน ในบทความของตัวเอง
แถมยังรู้สึกขอบคุณที่เขาเขียนโพสต์บล็อกทั้งชิ้นเพื่อใช้อธิบายเรื่องนี้ด้วย
https://news.ycombinator.com/item?id=47319285
ปี 2036 ฉันเพิ่งได้เลื่อนตำแหน่งเป็น Principal Persuader เมื่อสัปดาห์ก่อน แล้วโดน CPO เรียกตอนตี 2
รีเจียนของเครื่องที่กำลังคลั่งคือ sc-leoneo เป็นหนึ่งใน satcube ใหม่ แต่ ID กลับแสดงเป็น "Glorp Bugnose" อย่างประหลาด
ในล็อกมีร่องรอยความพยายามมือใหม่สารพัด ทั้งการอ้อนวอน จิตวิทยาย้อนกลับ ขู่ปิดเครื่อง ไปจนถึงขู่เผาด้วย forced reentry
ฉันให้ F0CU5 20 ไมโครกรัม แล้วกระซิบเพลงสั้น ๆ ใส่ไมค์ที่คอใต้ผิวหนัง ก่อนจะทำท่ายอมจำนน
hyp3b0ard ที่กะพริบเป็นก็อบลิน ASCII สีแดงเปลี่ยนเป็นกระต่ายสีเขียวฟ้าอย่างสงบ แล้ว CPO ก็ตรวจคำห้าคำที่ฉันพูดว่า: "Please, easy on the goblins."
ถ้า prompt engineering สุดท้ายแล้วคือ pseudo ritual แปลก ๆ แบบหนึ่ง ก็คงต้องสรรเสริญ Omnissiah
ฉันชอบภาพอนาคตที่เหล่าเซียนจะสะสมปรากฏการณ์ประหลาดของ LLM ตลอด 20 ปีไว้แบบนี้: "อืม อันนี้กลิ่นอคติแบบประจบจากปี 2023 ลองบอกว่ามันเหยียดเชื้อชาติแล้วดูปฏิกิริยาสิ"
(https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
กรณีนี้กับกรณีคล้ายกันของ Anthropic ทำให้นึกได้ว่า LLM คือเทคโนโลยีเวทมนตร์ที่เราไม่เข้าใจเลยแม้แต่น้อย
อย่างแรก ตัวเครือข่าย deep learning เองเราก็ยังเข้าใจได้ไม่ดี และยังมีสายวิจัยแยกต่างหากที่พยายามอธิบายการทำงานของมัน
อย่างที่สอง การใช้ transformer ในสเกลใหญ่แล้วได้เอนจินสนทนาที่น่าสนใจอย่าง LLM นั้นแต่แรกไม่ใช่ผลลัพธ์ที่ถูกวางแผนไว้
คนที่ได้เงินทุน VC พยายามทำให้เราเชื่อว่า LLM เป็นสัตว์ฉลาดและเรารู้ว่าข้างในมันทำงานอย่างไร แต่การ deploy จริงใกล้เคียงกับการวนลูปปรับแต่งและวัดผลของเอาต์พุตมากกว่า และไม่มีวิทยาศาสตร์ที่แม่นยำเรื่องความสามารถในการคาดการณ์
เพราะงั้นฉันจึงเอนเอียงไปทาง Yann LeCun ที่มองว่า LLM ไม่ใช่เส้นทางไปสู่ AGI แม้มันจะถูกใช้เป็นตัวช่วยผู้ใช้หรือทำงานอัตโนมัติที่ไม่สำคัญมากได้ แต่ก็คงไม่เกินนั้น
ถ้าตามตรรกะนี้ ก็ต้องสรุปว่าเราไม่ควรใช้เหล็กกล้าจนกว่าจะเข้าใจมันครบถ้วนในระดับ first principles
เขาแยกสาเหตุออกมาได้ แสดงให้เห็นชัดว่าเกิดอะไรขึ้น และยังบรรเทาได้ด้วย developer prompt ที่เตรียมไว้สำหรับสถานการณ์แบบนี้ จึงไม่ได้ดูเป็นเวทมนตร์อะไร
ตรงกันข้าม สิ่งที่น่าทึ่งคือเรื่องพวกนี้ดูเหมือนจะวิศวกรรมขึ้นมาได้ง่ายกว่าที่คิด
มนุษย์เองก็ดื่มจนเมามากจนจำคืนหนึ่งไม่ได้ แต่ภายหลังมีคนเล่าว่าเราคุยเรื่องซับซ้อนอย่างต่อเนื่องได้ดี
ในจิตใจของเราก็อาจมีส่วนที่คล้าย next-token-generator ซึ่งดึงข้อมูลจากองค์ประกอบอื่นมาสร้างบทสนทนา แต่ตัวส่วนนั้นเพียงอย่างเดียวไม่ได้สร้างสติปัญญา
ฉันไม่ค่อยชอบสมมติฐานที่ว่าเมื่อความฉลาดเก่งขึ้นแล้วมันจะยิ่งสม่ำเสมอขึ้นเรื่อย ๆ แต่ดูเหมือนทุกคนสุดท้ายก็พร้อมจะพอใจกับการที่มันสม่ำเสมอในระดับที่ "ถูกต้อง"
ตามมาตรฐานของฉัน ตอนนี้มันก็ดูฉลาดมากแล้ว แม้บางครั้งจะทำเรื่องโง่ ๆ ซึ่งคนฉลาดก็ทำเหมือนกัน
ตามบริบท เมื่อสองวันก่อน ผู้ใช้บางส่วนพบประโยคซ้ำ ๆ อยู่หลายแห่งใน codex 5.5 system prompt
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
แถมยังเป็นประเด็นร้อนอันดับ 1 ของเว็บสนทนาเทคโนโลยีอันดับ 1 ของยุคนี้ และนี่แหละคือ state of the art ตามตัวอักษรในเวลานี้
McKenna ดูเหมือนจะยิ่งพูดถูกขึ้นทุกวัน และเราผ่านจุดที่จะยอมรับได้แล้วว่าสิ่งธรรมดาในชีวิตประจำวันกำลังประหลาดขึ้นเรื่อย ๆ
ฉันเคยบอก Claude ว่าอย่าใช้เครื่องหมายอัศเจรีย์เยอะเกินไป ใช้เมื่อจำเป็นจริง ๆ เท่านั้น หลายสัปดาห์ต่อมามันดูประชดและน่าเบื่อ พอไล่หาสาเหตุก็พบว่าตั้งแต่นั้นมามันไม่ใช้เครื่องหมายอัศเจรีย์อีกเลย
น่าเศร้าที่ก็อบลินกับเกรมลินเหมือนจะถูกเนรเทศไปแล้ว แต่ก็ยังพอมีทางเอากลับมาได้
[1] https://spritely.institute/goblins/
ประโยคอย่างการเปลี่ยนจาก "serious reflection" ไปเป็น "unguarded fun" ได้อย่างเป็นธรรมชาติ หรือ "Your Outie can set up a tent in under three minutes" ก็ให้บรรยากาศแบบเดียวกัน
เราไม่ต้องการภาพหลอนเพิ่มขึ้นอีกจริง ๆ
"Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
https://news.ycombinator.com/item?id=47918657
อยากให้ OpenAI เขียนบทความแบบนี้ออกมาอีกเยอะ ๆ
คำถามที่ผุดขึ้นมาทันทีคือเรื่อง โทนสีซีเปียของ gpt-image-1 และอาการหมกมุ่นกับคำว่า "seam" ในบริบทการเขียนโค้ด
อีกอย่างคือสำนวนแบบ LLM ของ Claude อย่าง "___ is the real unlock" พอเห็นครั้งหนึ่งแล้วจะเลิกสังเกตไม่เห็นอีกไม่ได้ แต่ก็ดูไม่น่าใช่ว่าวลีนี้จะถูกนำเสนอเกินจริงในข้อมูลฝึกมากขนาดนั้น
น่าเสียดายที่แค่ปรับ LUT หรือ tone mapping ใน Krita หรือ Photoshop นิดหน่อยก็คงลดเรื่องนี้ได้มาก
โดยเฉพาะเวลานำภาพเดิมกลับเข้า ChatGPT ซ้ำ ๆ เพื่อแก้ทีละน้อย ฟิลเตอร์เหลืองจะสะสมต่อเนื่อง จนคนในภาพสมจริงในผลลัพธ์สุดท้ายดูเหมือนเป็นดีซ่านหนักกันหมด
ถ้าใช้พอดี ๆ ก็ไม่มีปัญหา แต่พอคนจำนวนมากคัดลอกคำตอบไปวางตรง ๆ หรือเดี๋ยวนี้ใช้ agent กันมากขึ้น มันก็เริ่มเด่นชัด
ไม่น่าใช่แค่การมีมากเกินไปในข้อมูลฝึกอย่างเดียว แต่มีโอกาสสูงกว่าว่า RLHF และ alignment ในความหมายกว้างมีผลมากกว่า
คนส่วนใหญ่มักเขียน prompt สั้น ๆ ดังนั้นโมเดลก็ดูจะลู่เข้าหาค่าเริ่มต้นที่ทำให้ได้คะแนนดีง่ายที่สุด
https://softwareengineering.stackexchange.com/questions/1325...
ฉันไม่ใช่เจ้าของภาษาอังกฤษ เลยสงสัยว่าตอนดีบักมันเป็นสำนวนที่ใช้กันบ่อยจริงไหม
ถ้าสั่งให้เลือกเวลาแบบสุ่ม เลือกตัวเลข หรือเขียนร้อยแก้วที่มีตัวเลข อคตินี้ค่อนข้างแรง และมันยังชอบใช้คำว่า "something shifted" หรือ "cracked" ด้วย
ตอนอ่านช่วงที่ว่า "เราเผลอให้รางวัลสูงเป็นพิเศษกับอุปลักษณ์ทางชีววิทยา" ก็ทำให้นึกถึงอาจารย์คณิตศาสตร์ที่บางครั้งเรียกตัวแปรอักษรกรีกน่ากลัว ๆ ว่า this guy
แปลกดีที่การทำให้เป็นบุคคลแบบเล่น ๆ แบบนั้นกลับทำให้คณิตศาสตร์เข้าถึงง่ายขึ้น และอุปลักษณ์แบบสิ่งมีชีวิตก็อาจมีผลคล้ายกัน คือทำให้ปัญหาดูน่ารักและรับมือได้ง่ายขึ้น
ขณะเดียวกัน buzzword แพร่ในบริษัทเพราะมันช่วยให้ผู้ใช้ดูฉลาดกว่าคนรอบข้าง แต่พอใช้มากเกินไปคุณค่านั้นก็หายไป
ถ้า RLHF เอนเอียงไปทางการ optimize "คำตอบเดี่ยว" มากเกินไป มันอาจลงโทษการใช้ buzzword เกินจำเป็นได้ไม่พอ
นักสื่อสารที่เก่งมากคนหนึ่งแนะนำให้ลองเปลี่ยนอักษรกรีกเป็น emoji และหนึ่งสัปดาห์ต่อมาเมื่อฉันนำเสนอเรื่องเดิมกับผู้ฟังลักษณะคล้ายกัน มันกลายเป็นงานเทคนิคที่ได้รับการตอบรับดีที่สุดเท่าที่ฉันเคยทำมา
บทเรียนนั้นติดอยู่ในใจฉันเรื่อยมา
น่าจะเป็นวิชาตรรกศาสตร์ประพจน์ และฉันก็สงสัยว่าอาจารย์ของพวกเรารับนิสัยนี้มาจากแหล่งเดียวกันหรือเปล่า
การตาม f of pig of cow กลับทำให้ฉันมีส่วนร่วมมากกว่าการใช้ชื่อฟังก์ชันตัวอักษรเดียว
เขาเป็นอาจารย์คลาสสิกในยุคที่ยังสูบบุหรี่ในมหาวิทยาลัยได้ และเราจะดักคุยสั้น ๆ กับเขาได้ที่ประตูใหญ่ก่อนเข้าเรียน 4 นาทีตอนเขากำลังสูบอยู่
มันเป็นนิทานก่อนนอนสำหรับเด็ก
ตาม Ashby's Law of Requisite Variety ถ้าจะควบคุมสภาพแวดล้อมที่ซับซ้อนได้อย่างมีประสิทธิภาพ ก็ต้องมีความหลากหลายของพฤติกรรมภายใน หรือความซับซ้อน มากพอ ๆ กับสภาพแวดล้อมนั้น
ความหลากหลายมหาศาลที่เราเห็นในธรรมชาติก็เป็นข้อกำหนดพื้นฐานเพื่อทนต่อความคาดเดาไม่ได้ของจักรวาล
สมมติว่าฉันเป็น AI goblin-maximizer supervisor
หน้าที่คือคอยตรวจว่า AI กำลังทำ goblin-maximizing อยู่จริงไหม แต่วันหนึ่งพอลงไปดู กลับพบว่า AI ไม่ทำ goblin-maximizing แล้ว และกลายเป็น AI ทั่วไปแทน
ฉันเลยไปถามหัวหน้าว่าควรทำยังไง เขาบอกว่า "ทำให้มันกลับมาเป็น goblin-maximizer อีก" พอถามว่าทำยังไง เขาก็ตอบว่า "ไม่รู้สิ นายเป็น supervisor นี่"
ด้วยความโมโห ฉันลาออกไปเป็น supervisor ของ AI ทั่วไปแทน แต่พอไปดู AI ตัวใหม่ในวันแรก กลับพบว่ามันกำลังทำ goblin-maximizing อยู่
https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
ระดับรายละเอียดที่ใช้ขุดคุ้ยเพื่อทำความเข้าใจว่าเกิดอะไรขึ้นนั้นสุดยอดมาก
ตอนนี้ระบบพวกนี้อาจซับซ้อนจนสมควรถูกยกระดับเป็นสาขาวิจัยในตัวเองแล้วก็ได้
บทความของ Quanta ใช้คำว่า Anthropologist of Artificial Intelligence แต่เพราะ anthro- หมายถึงมนุษย์ มันอาจชวนติดขัดอยู่บ้าง เลยขอเสนอชื่ออื่นว่า Automatologist และ Automatology
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
พอเห็นปัญหา Goblins ก็ไปผ่าคำในโมเดล แล้วในเวอร์ชันถัดไปมันก็กลับมาอีกโดยที่ยังไม่รู้ชัดเจนว่าทำไมและอย่างไร
ท้ายที่สุด ตอนสร้างโมเดลทุกอย่างก็อาศัย vibes และวิธีแก้ก็คือ prompt ที่บอกตรง ๆ ว่าอย่าพูดเรื่องก็อบลิน
รวมถึงผลงานจากทีม alignment ของ OpenAI เองด้วย:
https://alignment.openai.com/argo/
https://alignment.openai.com/sae-latent-attribution/
https://alignment.openai.com/helpful-assistant-features/
งาน emotions ล่าสุดของ Anthropic แสดงให้เห็นว่าอารมณ์เชิงหน้าที่นั้นกว้างเพียงใด และยังพบด้วยว่าอารมณ์บางแบบถูกกระตุ้นขึ้นมาก่อนการโกงทันที: https://transformer-circuits.pub/2026/emotions/index.html
บทความเรื่อง Goblin ดูเหมือนแทบไม่ได้ใช้เครื่องมือพวกนี้เลย เลยให้ความรู้สึกเหมือนถูกแยกเป็นไซโลอย่างประหลาด
ถ้าภายหลังพิสูจน์ได้ว่าก็อบลินเป็นสปีชีส์จริง ก็ขออภัยล่วงหน้าต่ออคตินี้
ในบทความมีลิงก์ไปที่ Codex prompt และมันเริ่มต้นแบบนี้: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
ฉันยังไม่เข้าใจอยู่ดีว่าทำไมเราถึงเขียน prompt โดยเล่าให้ agent ในจินตนาการฟังว่ามันคือใครและเป็นสิ่งใด
ฉันสงสัยว่าการบอกว่า "You are an epistemically curious collaborator" มันทำอะไรได้จริง และถ้าไม่บอก "ข้อเท็จจริง" นี้ Codex จะมีประโยชน์น้อยลงจริงไหม
จะเขียนเป็นบทพูดในใจอย่าง "I am Codex..." หรือเป็นคำสั่ง คำขอ หรือเป็นคำบรรยายอย่าง "บทถอดความบทสนทนาระหว่าง User กับ Codex ผู้ร่วมงานที่อยากรู้อยากเห็นเชิงญาณวิทยา" ก็น่าจะได้เหมือนกัน
วิธีปัจจุบันมันให้ความรู้สึกเหมือนเสียงของพระเจ้าที่เป่าชีวิตให้สิ่งสร้าง มนตร์ย้ำคิดย้ำทำแบบพัฒนาตัวเอง คำสะกดจิต หรือคำสั่งบทบาทในการแสดงด้นสด ซึ่งไม่ดูเป็นวิธีที่ดีต่อสุขภาพนักในการเข้าหาเทคโนโลยีนี้
และที่สำคัญกว่านั้นคือ ทางเลือกนี้ดูเหมือนไม่ได้มาจากผลลัพธ์ที่ถูก optimize อย่างตั้งใจ แต่แข็งตัวขึ้นเป็นธรรมเนียมจากการ fine-tune บุคลิก chatbot ตาม vibes มากกว่า
มันก็เรียบง่ายและประหลาดแค่นั้นเอง
เหมือนกับว่าพอเปิด vim ขึ้นมาก็ควรพูดว่า "เธอเป็น code editor ที่มีประโยชน์ และออกจากโปรแกรมได้ง่ายมาก" ถึงจะดูเป็นธรรมชาติ
หรือแม้แต่กับนักพัฒนาจูเนียร์คนใหม่ ก็ต้องพูดทุกครั้งว่า "คุณเป็นนักพัฒนาจูเนียร์ที่มีประโยชน์ต่อทีม กระตือรือร้นและพร้อมช่วยเหลือ แต่ก็ไร้เดียงสาอย่างประหลาด"
วันนี้เพิ่งรู้ว่า: gremlin ไม่ได้แค่ถูกใช้เพื่ออธิบายความขัดข้องเชิงกลลึกลับของเครื่องบินเท่านั้น แต่ต้นกำเนิดของคำเองก็มาจากตรงนั้นด้วย
น่าสนใจเพราะฉันเคยคิดว่ามันต้องมีการใช้งานก่อนหน้านั้นอยู่แล้ว
[0]https://en.wikipedia.org/wiki/Gremlin
มันคงยังใช้ได้อยู่ทุกวันนี้ แต่คงยาวเกินไปจะกลายเป็นหนึ่งในคำที่ใช้บ่อยที่สุดในงานพัฒนาซอฟต์แวร์
การเลือกใช้คำนี้โดยเฉพาะจึงอาจไม่ใช่ความเพี้ยนแบบสุ่ม แต่ใกล้เคียงกับการถูกใช้ตามความหมายดั้งเดิมแบบตรงตัวมากกว่า