การแสดงอารมณ์เปลี่ยนประสิทธิภาพของ AI ได้ไหม? — ผลลัพธ์จริงของการวางกรอบอารมณ์ในพรอมป์ต์

(arxiv.org)

4 คะแนน โดย darjeeling 25 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

> "ถ้าถามด้วยความโกรธ AI จะตอบได้ดีกว่าไหม?" ผลการทดลองของทีมนักวิจัยจาก Harvard กับ 6 เบนช์มาร์กพบว่า การแสดงอารมณ์แทบไม่ส่งผลต่อประสิทธิภาพของ LLM เลย อย่างไรก็ตาม ข้อค้นพบสำคัญคือ หากเลือกอารมณ์ให้เหมาะกับแต่ละคำถามแบบปรับตามสถานการณ์ ก็สามารถเพิ่มประสิทธิภาพได้อย่างสม่ำเสมอ

ภาพรวมของงานวิจัย

แหล่งที่มา: arXiv:2604.02236v1 (2 เมษายน 2026)
ผู้เขียน: Minda Zhao, Yutong Yang และคณะ (งานวิจัยร่วมระหว่าง Harvard และ Bryn Mawr College)
คำถามหลัก: หากใส่การแสดงอารมณ์ลงในพรอมป์ต์ ประสิทธิภาพของ LLM จะเปลี่ยนไปหรือไม่?

สรุปข้อค้นพบหลัก

โทนอารมณ์มีอยู่ทั่วไปในการสื่อสารของมนุษย์ แต่ผลที่มีต่อพฤติกรรมของ LLM ยังไม่ชัดเจน งานวิจัยนี้เผยให้เห็น 3 ประเด็นต่อไปนี้

① คำนำหน้าอารมณ์แบบคงที่ให้ผลน้อยมาก
ในคู่ผสมระหว่างงานและโมเดลส่วนใหญ่ การวางกรอบด้วยอารมณ์ไม่ได้ทำให้ประสิทธิภาพดีขึ้นหรือแย่ลงอย่างมีนัยสำคัญเมื่อเทียบกับค่าพื้นฐานแบบเป็นกลาง กล่าวคือ การพรอมป์ต์ด้วยอารมณ์แบบคงที่ไม่ใช่วิธีปรับปรุงประสิทธิภาพแบบครอบจักรวาล

② แม้เพิ่มความเข้มข้นของอารมณ์ก็ยังเหมือนเดิม
แม้จะเพิ่มระดับเป็นอย่างเช่น "โกรธมาก" หรือ "กลัวอย่างยิ่ง" ความแม่นยำก็เปลี่ยนเพียงเล็กน้อยในแต่ละระดับความเข้ม และถ้อยคำที่รุนแรงขึ้นก็ไม่ได้ทำให้ประสิทธิภาพลดลงอย่างสม่ำเสมอ

③ การเลือกอารมณ์แบบปรับตัวได้ (EmotionRL) ใช้งานได้ผล
การใช้อารมณ์ตายตัวเพียงแบบเดียวหยาบเกินไปจนไม่น่าเชื่อถือ แต่หากใช้นโยบายที่กำหนดตามอินพุต ก็สามารถสร้างการเพิ่มขึ้นของประสิทธิภาพที่สม่ำเสมอกว่าได้

การออกแบบการทดลอง

อารมณ์ที่ใช้ในการทดลอง 6 ประเภท

อิงจากทฤษฎีอารมณ์พื้นฐานของ Plutchik โดยใช้อารมณ์ 6 แบบ ได้แก่ ความสุข ความเศร้า ความกลัว ความโกรธ ความรังเกียจ และความประหลาดใจ

เบนช์มาร์กที่ใช้ประเมิน 6 ชุด

เบนช์มาร์ก	ความสามารถที่วัด
GSM8K	การให้เหตุผลทางคณิตศาสตร์
BIG-Bench Hard	การให้เหตุผลทั่วไป
MedQA	ความรู้เฉพาะทางการแพทย์
BoolQ	การอ่านทำความเข้าใจ
OpenBookQA	การให้เหตุผลเชิงสามัญสำนึก
SocialIQA	การให้เหตุผลทางสังคม

โมเดลที่ใช้

มีการประเมินโอเพนซอร์สโมเดล 3 รุ่น ได้แก่ Qwen3-14B, Llama 3.3-70B และ DeepSeek-V3.2 ในสภาพแวดล้อม zero-shot reasoning โดยไม่มีการ fine-tuning

ผลลัพธ์โดยละเอียด

ความไวต่ออารมณ์แตกต่างกันไปตามงาน

GSM8K และ MedQA-US ให้ผลใกล้เคียงกับค่าพื้นฐานมากในแทบทุกอารมณ์ สะท้อนว่าคำนำหน้าอารมณ์สั้น ๆ มีผลจำกัดต่อการให้เหตุผลที่มีข้อจำกัดเข้มงวดและการทำนายแบบปรนัยเฉพาะโดเมน

ความเบี่ยงเบนที่เด่นชัดที่สุดจากเสถียรภาพโดยรวมพบใน SocialIQA โดยมีความแปรปรวนข้ามโมเดลและอารมณ์ที่เห็นได้ชัด และทิศทางของผลลัพธ์ก็ไม่สอดคล้องกัน สิ่งนี้ชี้ว่า บริบททางอารมณ์มีปฏิสัมพันธ์แรงที่สุดกับงานที่ต้องใช้การให้เหตุผลด้านความสัมพันธ์ระหว่างบุคคล

อารมณ์ที่มนุษย์เขียน vs. อารมณ์ที่ LLM สร้าง

เมื่อเปรียบเทียบคำนำหน้าที่มนุษย์เขียนกับคำนำหน้าที่ LLM สร้างขึ้น พบว่าทั้งสองแหล่งให้ความแม่นยำที่แทบไม่ต่างกันในทุกเงื่อนไข และไม่มีฝ่ายใดได้เปรียบอย่างสม่ำเสมอ

EmotionRL: เฟรมเวิร์กเลือกอารมณ์แบบปรับตัวได้

สำหรับคำถามอินพุตแต่ละข้อ เอเจนต์จะเลือกหนึ่งอารมณ์จากชุด {ความโกรธ ความรังเกียจ ความกลัว ความสุข ความเศร้า ความประหลาดใจ} แล้วนำถ้อยคำแสดงอารมณ์นั้นไปเติมไว้หน้าพรอมป์ต์ต้นฉบับก่อนส่งให้ LLM ที่ถูกตรึงพารามิเตอร์ไว้

โครงสร้างหลักมี 2 ขั้นตอน

การฝึกแบบออฟไลน์: สำหรับแต่ละคำถาม จะทดลองอารมณ์ทั้ง 6 แบบเพื่อสร้างเวกเตอร์รางวัล และฝึก lightweight MLP policy network
การอนุมานแบบออนไลน์: เมื่อมีอินพุตใหม่เข้ามา นโยบายที่ฝึกไว้จะเลือกอารมณ์ จากนั้นเรียกใช้ LLM เพียงครั้งเดียว

ผลเฉลี่ยที่อ่อนของพรอมป์ต์อารมณ์แบบคงที่ไม่ได้หมายความว่าไม่มีสัญญาณที่เป็นประโยชน์ในการวางกรอบด้วยอารมณ์เลย EmotionRL สามารถทำผลงานได้เทียบเท่าหรือดีกว่าค่าพื้นฐานอารมณ์แบบคงที่โดยเฉลี่ยอย่างต่อเนื่องใน 5 งาน

บทสรุปและนัยสำคัญ

การทดลองนี้สนับสนุนมุมมองที่ระมัดระวังมากกว่ากรณีเชิงบวกแบบกระจัดกระจายบางส่วนที่เคยมีต่อ emotional prompting ในเบนช์มาร์กมาตรฐานที่วัดด้วยความแม่นยำ คำนำหน้าอารมณ์แบบคงที่โดยทั่วไปอ่อนเกินไปและมีความไม่เป็นเนื้อเดียวกันเกินกว่าจะเป็นเครื่องมือแทรกแซงประสิทธิภาพที่เชื่อถือได้

ทีมนักวิจัยเสนอให้ตีความ emotional prompting ใหม่ ไม่ใช่ในฐานะ "เทมเพลตใช้ได้กับทุกกรณี" แต่เป็น "ปัญหาการทำ adaptive routing"

ข้อจำกัด

งานวิจัยนี้มุ่งเน้นที่คำนำหน้าสั้น ๆ การพรอมป์ต์แบบ single-turn และเบนช์มาร์กที่เน้นความแม่นยำ ในการประเมินอย่างการโต้ตอบหลายรอบ การสร้างข้อความแบบเปิด หรือบทสนทนาที่ไวต่อความปลอดภัย ซึ่งการปรับจูน สไตล์ และความเห็นอกเห็นใจมีความสำคัญพอ ๆ กับความแม่นยำ อาจเกิดผลที่มากกว่าหรือแตกต่างกันในเชิงคุณภาพ

ต้นฉบับ: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1

1 ความคิดเห็น

huiya 24 일 전

เอ๊ะ ที่ผ่านมาที่ฉันโมโหใส่มาตลอดนี่คือไร้ประโยชน์หมดเลยเหรอ...?? ทั้งที่พอด่าทีไรมันก็ทำออกมาได้เริ่ดทุกทีนะ