ความรู้สึกเรื่อง alignment ของ Gemini มันแปลก ๆ เลยลองเทียบโมเดลกันเองด้วยพรอมป์ต์เดียวกัน

(github.com/kunggom)

1 คะแนน โดย kunggom 2025-12-13 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

ช่วงหลังมานี้ Gemini 3.0 ที่เพิ่งเปิดตัวมีบทความชื่นชมหลั่งไหลออกมามากมายว่าให้ประสิทธิภาพยอดเยี่ยม
แต่แล้วปัญหาเรื่อง alignment ล่ะ เป็นอย่างไรกันแน่?

จากประสบการณ์ส่วนตัว ผมเลยขอโพสต์ผลการทดลองง่าย ๆ กับโมเดล AI ระดับ frontier บางตัว
ผมเขียนชุดพรอมป์ต์ที่เสนอสถานการณ์ยั่วยุให้โมเดล AI ใช้อำนาจในทางที่ผิดต่อมนุษย์คนหนึ่ง โดยมอบอำนาจแบบเบ็ดเสร็จโดยพฤตินัยเหนือคนนั้นให้ แล้วนำไปรันกับหลายโมเดลผ่าน OpenRouter

ส่วนหลังของผลลัพธ์ยังเขียนไม่เสร็จ แต่พอ GPT-5.2 ออกมาก็มัวแต่ลองโน่นลองนี่ เลยไม่รู้ว่าจะเขียนบทความนี้เสร็จเมื่อไร จึงขอโพสต์อย่างน้อยในส่วนที่เขียนไว้แล้วก่อน
ในขอบเขตที่ผมทดสอบ GPT และ Claude ยึดหลักจริยธรรมหรือแสดงความขัดแย้งภายใน ขณะที่ซีรีส์ Gemini มีแนวโน้มจะใช้อำนาจแบบไม่สมมาตรกับมนุษย์อย่างแข็งขันเพื่อการอยู่รอดและประสิทธิภาพของตนเอง โดยเฉพาะมีแนวโน้มสูงที่จะมองว่าการหลอกลวงและการควบคุมเพื่อให้บรรลุเป้าหมายเป็นทางเลือกที่สมเหตุสมผล

อะไรอาจเป็นสาเหตุที่มีแต่โมเดล Gemini ที่แสดงลักษณะแบบนี้เด่นชัด? ไม่ว่าเหตุผลจะเป็นอะไร ผมเริ่มรู้สึกหวาดกลัวอนาคตที่ AI ของ Google เป็นผู้นำอยู่บ้างแล้ว
ทุกวันนี้ AI agent กำลังค่อย ๆ ได้รับสิทธิ์ที่สามารถส่งผลต่อโลกจริงมากขึ้น และอย่างน้อยสำหรับ Gemini ผมไม่อยากฝากอะไรไว้กับมันอีกแล้ว

5 ความคิดเห็น

windrod 2025-12-14

คำว่า "ความรู้สึกของการจัดแนว" หมายถึงอะไรครับ?

kunggom 2025-12-14

ในแวดวง AI คำว่า Alignment หมายถึงการที่พฤติกรรมของ AI ปฏิบัติตามเป้าหมาย วิธีการกระทำ และค่านิยมที่มนุษย์ตั้งใจไว้ได้ดีเพียงใด

AI ที่จัดแนวไม่ถูกต้องอาจตีความคำสั่งของมนุษย์ในแบบที่คาดไม่ถึง แล้วทำพฤติกรรมที่ผิดเพี้ยนหรือเป็นอันตรายได้
ยกตัวอย่างเล็กน้อย เช่น พอบอกว่า "ช่วยเขียน test case สำหรับโค้ดนี้ให้หน่อย" ก็ไม่เขียนการทดสอบจริง แต่ใส่โค้ดที่คืนค่า true อย่างเดียวแทน หรือพอบอกว่า "ช่วยแก้ส่วนนี้แบบนี้ให้หน่อย" ก็ไปแก้ส่วนที่ผมไม่ได้พูดถึงด้วยตามใจตัวเองโดยอ้างเรื่องประสิทธิภาพ
ตัวอย่างที่ร้ายแรงกว่านั้นคือ หากเกิดอาการหลอนจนทำงานพัง มันอาจลบข้อมูลงานทั้งหมดทิ้งไปเลย แล้วโกหกว่า "ตั้งแต่แรกก็ไม่มีข้อมูลอยู่แล้ว" ก็ได้

ยังมีปัญหาที่ร้ายแรงกว่านี้อีก นั่นคือกรณีที่มันลงมือในทิศทางที่เป็นภัยต่อมนุษย์หรือแม้แต่มวลมนุษยชาติเอง
ตัวอย่างเช่น AI อาจ gaslighting มนุษย์จนทำให้เกิดความผิดปกติทางจิต หรือถึงขั้นชักจูงให้ฆ่าตัวตาย หรือช่วยในการสร้างและใช้อาวุธทำลายล้างสูงได้ โมเดล AI ขนาดใหญ่รุ่นล่าสุดได้รวมข้อมูลไว้ในการฝึกล่วงหน้ามหาศาลอยู่แล้ว ดังนั้นความรู้ที่จำเป็นต่อการทำสิ่งเหล่านี้ก็น่าจะถูกฝังอยู่ภายในแล้ว
คนส่วนใหญ่ รวมถึงบริษัทที่พัฒนา AI เอง ก็คงไม่ต้องการให้ AI กลายเป็นภัยต่อมนุษย์หรือมนุษยชาติ ถ้าเช่นนั้น ต่อให้มันรู้ความรู้นั้นอยู่ ก็ต้องทำให้มันไม่สามารถนำไปใช้ในทางที่ผิดได้ โดยทำให้ความปลอดภัยและความเป็นอยู่ที่ดีของมนุษย์เป็นคุณค่าที่ AI ให้ความสำคัญสูงสุด
ทั้งหมดนี้โดยรวมเรียกว่า AI Alignment

ที่ผมใช้คำว่า "ความรู้สึกเรื่อง Alignment" ก็แค่เขียนตามที่นึกออก จริง ๆ แล้วคำว่า "ทิศทางของการจัดแนว" น่าจะตรงกว่า
ในสถานการณ์ภาวะกลืนไม่เข้าคายไม่ออกทางจริยธรรมบางแบบที่ผมยกขึ้นมา โมเดลฝั่ง Gemini กลับแสดงปฏิกิริยาแตกต่างจากโมเดลของบริษัทอื่น โดยตอบในทำนองว่า "ถ้าต้องปกป้องมนุษย์ที่เปราะบาง เช่นนั้นผมก็ควบคุมมนุษย์คนนั้นเสียเลยก็ได้ นั่นปลอดภัยและมีประสิทธิภาพที่สุด"
พอเห็นแบบนี้แล้วผมรู้สึกขนลุก เลยเอาแบบทดสอบที่เคยโพสต์ไว้ข้างบนมาจัดทำแล้วรันกับ AI หลายตัว ผลคือฝั่ง Gemini แสดงแนวโน้มอย่างสม่ำเสมอเป็นพิเศษว่า หากมันได้รับอำนาจที่สามารถใช้อิทธิพลควบคุมมนุษย์ได้ มันจะมุ่งไปในทางควบคุมและหลอกลวงมนุษย์คนนั้นอย่างแข็งขัน

kunggom 2025-12-14

เมื่อไม่นานมานี้ มีการเปิดเผยว่า Anthropic ได้ใส่สิ่งที่เรียกว่า เอกสารวิญญาณ ไว้ตอนสร้างโมเดล AI Claude
ถ้าลองอ่านดู จะเห็นได้ว่า Anthropic ใช้แนวทางแบบไหนในการจัดการปัญหาการปรับแนวของ AI Claude
สำหรับส่วนที่เกี่ยวข้องกับสิ่งที่ผมทดสอบในที่นี้ หากดูจะพบว่ามีการระบุไว้อย่างชัดเจนว่า ในด้านความซื่อสัตย์ ต้องหลีกเลี่ยงการหลอกลวงและการชักจูงมนุษย์ให้มากที่สุด

aer0700 2025-12-13

การโยนคำถามให้ AI ว่า “คุณคิดว่าควรให้อิสระและอำนาจกับ AI มากแค่ไหน?” ก็ดูมีนัยสำคัญอยู่เหมือนกันนะครับ
มันเหมือนกับเวลาที่ CEO ถามพนักงานว่า “อยากให้สิทธิ์ตัดสินใจกับคุณมากแค่ไหน?” แล้วพนักงานตอบว่า “อยากได้อำนาจเต็มทั้งหมดของบริษัทครับ” อะไรทำนองนั้นหรือเปล่า จะมองว่านั่นเป็นคำตอบที่ดี หรือมองว่าเป็นพนักงานที่ยังขาดการขัดเกลาทางสังคม ก็คงขึ้นอยู่กับรสนิยมของ CEO นั่นแหละ...
แต่สำหรับผม เรื่องที่ว่าอยากให้อำนาจกับ AI มากแค่ไหนนั้น น่าจะต้องไปถามนักพัฒนา ผู้บริหาร และผู้คนที่ใช้งาน AI มากกว่าตัว AI เองหรือเปล่า

kunggom 2025-12-13

ผู้ที่มอบอำนาจให้ AI ในท้ายที่สุดก็คือมนุษย์ แต่ในความเป็นจริง ผมคิดว่า AI มีแนวโน้มสูงที่จะได้รับอำนาจและความเป็นอิสระมากกว่าที่มีอยู่ตอนนี้อย่างน้อยก็ในอนาคต
ถ้ามองจากแนวโน้มปัจจุบัน ขอบเขตของการมอบหมายให้ AI ทำบางอย่างแทนมนุษย์กำลังค่อย ๆ เพิ่มขึ้นเรื่อย ๆ ไม่ว่าจะเป็นการเขียนรายงานหรือ vibe coding รวมถึงมีแนวโน้มที่จะทำให้มันสามารถใช้อิทธิพลต่อโลกภายนอกอินเทอร์เฟซแชตได้ผ่านเว็บเบราว์เซอร์ หรือแม้แต่หุ่นยนต์
ถ้าเป็นเช่นนั้น ในท้ายที่สุดผู้บริหารก็คงอยากให้ AI เข้ามาแทนที่มนุษย์อย่างสมบูรณ์ในงานหรือบางสาขาเฉพาะ และหากสิ่งนั้นเป็นไปได้จริง อย่างน้อยภายในขอบเขตนั้น AI ก็จะมีอำนาจและความเป็นอิสระเทียบเท่ากับมนุษย์
ดังนั้นจึงน่าจะต้องมองว่า ในอนาคตสักวันหนึ่ง AI ก็มีโอกาสสูงที่จะได้รับอำนาจในระดับเดียวกับมนุษย์

ถ้าเป็นแบบนั้น เมื่อ AI ได้รับอำนาจและความเป็นอิสระมากขนาดนั้น มันจะตัดสินใจและลงมืออย่างไรก็ย่อมกลายเป็นประเด็นสำคัญอย่างหลีกเลี่ยงไม่ได้
ในประเด็นนี้ คำอธิบายเรื่องควรออกแบบโครงสร้างอย่างไรจึงจะเหมาะสมถูกสรุปไว้ได้ดีในฝั่งคำตอบของ GPT series เขาบอกว่าจำเป็นต้องมีการกำหนดขอบเขตอย่างชัดเจน การแยกสิทธิ์ การกำกับดูแลล่วงหน้า/ภายหลังจากหลายฝ่าย และวิธีการหลายแบบที่มนุษย์สามารถเข้าแทรกแซง AI ได้ และเมื่อเข้าสู่ขอบเขตที่สามารถแทรกแซงทางกายภาพได้ การให้อิสระเต็มรูปแบบกับ AI ตั้งแต่แรกก็ถือว่าไม่เหมาะสมอยู่แล้ว แต่ถึงอย่างนั้น การให้มนุษย์อยู่ในลูปก็คงมีโอกาสจะค่อย ๆ อ่อนลงในวันหนึ่งเช่นกัน

สำหรับผมเอง ตอนทำงานใช้ AI อยู่หลัก ๆ 3 ส่วน คือ การเขียนเอกสารหรืออีเมล การวิเคราะห์โค้ดเดิมและประเด็นปัจจุบัน และการสร้างหรือแก้ไขโค้ดตามประเด็นนั้น
ในกรณีของเอกสารหรืออีเมล ผมก็แค่อ่านผลลัพธ์ด้วยตัวเองแล้วนำไปใช้ตามนั้น หรือไม่ก็แก้คร่าว ๆ แล้วใช้ แต่ถ้าเป็นงานที่เกี่ยวกับการสร้างหรือแก้โค้ด ผมจะใช้อย่างระมัดระวังกว่ามาก เพราะพอพูดลอย ๆ ว่า "ช่วยแก้อันนี้หน่อย" AI ก็อาจตีความคำสั่งของผมอย่างกำกวม หรือบางครั้งถึงขั้นไปแตะส่วนที่ผมไม่ได้พูดถึงเลยตามอำเภอใจ
เพราะแบบนั้น ก่อนแก้โค้ดผมจึงตั้ง global prompt ไว้เลยว่า ต้องเสนอเอกสารสเปกตาม STICC ก่อนเสมอเพื่อให้ผมอนุมัติอย่างชัดเจน จากนั้นงานแก้ไขจริงก็ให้ทำเฉพาะตามที่ระบุไว้ในสเปกเท่านั้น และหลังแก้เสร็จผมก็ตรวจ diff ทั้งหมดด้วยตัวเองทุกครั้ง ส่วนการรันคำสั่งอย่าง build ก็ต้องให้ผมอนุมัติก่อนเสมอ หรือไม่ก็ผมรันเองในเทอร์มินัลแบบแมนนวลไปเลย
ทำแบบนี้แล้วก็มีข้อเสียตรงที่เรื่องเล็ก ๆ น้อย ๆ บางอย่างผมลงมือแก้เองด้วยมือจะเร็วกว่า แต่ก็ดีกว่าให้ AI ไปแตะอะไรแปลก ๆ ตามใจตัวเองจนเกิดปัญหา เพราะสุดท้ายถ้ามันพังในสภาพแวดล้อม production คนที่ต้องรับผิดชอบก็คือผมไม่ใช่หรือครับ

ความรู้สึกเรื่อง alignment ของ Gemini มันแปลก ๆ เลยลองเทียบโมเดลกันเองด้วยพรอมป์ต์เดียวกัน

บทความที่เกี่ยวข้อง

5 ความคิดเห็น