การแสดงอารมณ์เปลี่ยนประสิทธิภาพของ AI ได้ไหม? — ผลลัพธ์จริงของการวางกรอบอารมณ์ในพรอมป์ต์
(arxiv.org)> "ถ้าถามด้วยความโกรธ AI จะตอบได้ดีกว่าไหม?" ผลการทดลองของทีมนักวิจัยจาก Harvard กับ 6 เบนช์มาร์กพบว่า การแสดงอารมณ์แทบไม่ส่งผลต่อประสิทธิภาพของ LLM เลย อย่างไรก็ตาม ข้อค้นพบสำคัญคือ หากเลือกอารมณ์ให้เหมาะกับแต่ละคำถามแบบปรับตามสถานการณ์ ก็สามารถเพิ่มประสิทธิภาพได้อย่างสม่ำเสมอ
ภาพรวมของงานวิจัย
- แหล่งที่มา: arXiv:2604.02236v1 (2 เมษายน 2026)
- ผู้เขียน: Minda Zhao, Yutong Yang และคณะ (งานวิจัยร่วมระหว่าง Harvard และ Bryn Mawr College)
- คำถามหลัก: หากใส่การแสดงอารมณ์ลงในพรอมป์ต์ ประสิทธิภาพของ LLM จะเปลี่ยนไปหรือไม่?
สรุปข้อค้นพบหลัก
โทนอารมณ์มีอยู่ทั่วไปในการสื่อสารของมนุษย์ แต่ผลที่มีต่อพฤติกรรมของ LLM ยังไม่ชัดเจน งานวิจัยนี้เผยให้เห็น 3 ประเด็นต่อไปนี้
① คำนำหน้าอารมณ์แบบคงที่ให้ผลน้อยมาก
ในคู่ผสมระหว่างงานและโมเดลส่วนใหญ่ การวางกรอบด้วยอารมณ์ไม่ได้ทำให้ประสิทธิภาพดีขึ้นหรือแย่ลงอย่างมีนัยสำคัญเมื่อเทียบกับค่าพื้นฐานแบบเป็นกลาง กล่าวคือ การพรอมป์ต์ด้วยอารมณ์แบบคงที่ไม่ใช่วิธีปรับปรุงประสิทธิภาพแบบครอบจักรวาล
② แม้เพิ่มความเข้มข้นของอารมณ์ก็ยังเหมือนเดิม
แม้จะเพิ่มระดับเป็นอย่างเช่น "โกรธมาก" หรือ "กลัวอย่างยิ่ง" ความแม่นยำก็เปลี่ยนเพียงเล็กน้อยในแต่ละระดับความเข้ม และถ้อยคำที่รุนแรงขึ้นก็ไม่ได้ทำให้ประสิทธิภาพลดลงอย่างสม่ำเสมอ
③ การเลือกอารมณ์แบบปรับตัวได้ (EmotionRL) ใช้งานได้ผล
การใช้อารมณ์ตายตัวเพียงแบบเดียวหยาบเกินไปจนไม่น่าเชื่อถือ แต่หากใช้นโยบายที่กำหนดตามอินพุต ก็สามารถสร้างการเพิ่มขึ้นของประสิทธิภาพที่สม่ำเสมอกว่าได้
การออกแบบการทดลอง
อารมณ์ที่ใช้ในการทดลอง 6 ประเภท
อิงจากทฤษฎีอารมณ์พื้นฐานของ Plutchik โดยใช้อารมณ์ 6 แบบ ได้แก่ ความสุข ความเศร้า ความกลัว ความโกรธ ความรังเกียจ และความประหลาดใจ
เบนช์มาร์กที่ใช้ประเมิน 6 ชุด
| เบนช์มาร์ก | ความสามารถที่วัด |
|---|---|
| GSM8K | การให้เหตุผลทางคณิตศาสตร์ |
| BIG-Bench Hard | การให้เหตุผลทั่วไป |
| MedQA | ความรู้เฉพาะทางการแพทย์ |
| BoolQ | การอ่านทำความเข้าใจ |
| OpenBookQA | การให้เหตุผลเชิงสามัญสำนึก |
| SocialIQA | การให้เหตุผลทางสังคม |
โมเดลที่ใช้
มีการประเมินโอเพนซอร์สโมเดล 3 รุ่น ได้แก่ Qwen3-14B, Llama 3.3-70B และ DeepSeek-V3.2 ในสภาพแวดล้อม zero-shot reasoning โดยไม่มีการ fine-tuning
ผลลัพธ์โดยละเอียด
ความไวต่ออารมณ์แตกต่างกันไปตามงาน
GSM8K และ MedQA-US ให้ผลใกล้เคียงกับค่าพื้นฐานมากในแทบทุกอารมณ์ สะท้อนว่าคำนำหน้าอารมณ์สั้น ๆ มีผลจำกัดต่อการให้เหตุผลที่มีข้อจำกัดเข้มงวดและการทำนายแบบปรนัยเฉพาะโดเมน
ความเบี่ยงเบนที่เด่นชัดที่สุดจากเสถียรภาพโดยรวมพบใน SocialIQA โดยมีความแปรปรวนข้ามโมเดลและอารมณ์ที่เห็นได้ชัด และทิศทางของผลลัพธ์ก็ไม่สอดคล้องกัน สิ่งนี้ชี้ว่า บริบททางอารมณ์มีปฏิสัมพันธ์แรงที่สุดกับงานที่ต้องใช้การให้เหตุผลด้านความสัมพันธ์ระหว่างบุคคล
อารมณ์ที่มนุษย์เขียน vs. อารมณ์ที่ LLM สร้าง
เมื่อเปรียบเทียบคำนำหน้าที่มนุษย์เขียนกับคำนำหน้าที่ LLM สร้างขึ้น พบว่าทั้งสองแหล่งให้ความแม่นยำที่แทบไม่ต่างกันในทุกเงื่อนไข และไม่มีฝ่ายใดได้เปรียบอย่างสม่ำเสมอ
EmotionRL: เฟรมเวิร์กเลือกอารมณ์แบบปรับตัวได้
สำหรับคำถามอินพุตแต่ละข้อ เอเจนต์จะเลือกหนึ่งอารมณ์จากชุด {ความโกรธ ความรังเกียจ ความกลัว ความสุข ความเศร้า ความประหลาดใจ} แล้วนำถ้อยคำแสดงอารมณ์นั้นไปเติมไว้หน้าพรอมป์ต์ต้นฉบับก่อนส่งให้ LLM ที่ถูกตรึงพารามิเตอร์ไว้
โครงสร้างหลักมี 2 ขั้นตอน
- การฝึกแบบออฟไลน์: สำหรับแต่ละคำถาม จะทดลองอารมณ์ทั้ง 6 แบบเพื่อสร้างเวกเตอร์รางวัล และฝึก lightweight MLP policy network
- การอนุมานแบบออนไลน์: เมื่อมีอินพุตใหม่เข้ามา นโยบายที่ฝึกไว้จะเลือกอารมณ์ จากนั้นเรียกใช้ LLM เพียงครั้งเดียว
ผลเฉลี่ยที่อ่อนของพรอมป์ต์อารมณ์แบบคงที่ไม่ได้หมายความว่าไม่มีสัญญาณที่เป็นประโยชน์ในการวางกรอบด้วยอารมณ์เลย EmotionRL สามารถทำผลงานได้เทียบเท่าหรือดีกว่าค่าพื้นฐานอารมณ์แบบคงที่โดยเฉลี่ยอย่างต่อเนื่องใน 5 งาน
บทสรุปและนัยสำคัญ
การทดลองนี้สนับสนุนมุมมองที่ระมัดระวังมากกว่ากรณีเชิงบวกแบบกระจัดกระจายบางส่วนที่เคยมีต่อ emotional prompting ในเบนช์มาร์กมาตรฐานที่วัดด้วยความแม่นยำ คำนำหน้าอารมณ์แบบคงที่โดยทั่วไปอ่อนเกินไปและมีความไม่เป็นเนื้อเดียวกันเกินกว่าจะเป็นเครื่องมือแทรกแซงประสิทธิภาพที่เชื่อถือได้
ทีมนักวิจัยเสนอให้ตีความ emotional prompting ใหม่ ไม่ใช่ในฐานะ "เทมเพลตใช้ได้กับทุกกรณี" แต่เป็น "ปัญหาการทำ adaptive routing"
ข้อจำกัด
งานวิจัยนี้มุ่งเน้นที่คำนำหน้าสั้น ๆ การพรอมป์ต์แบบ single-turn และเบนช์มาร์กที่เน้นความแม่นยำ ในการประเมินอย่างการโต้ตอบหลายรอบ การสร้างข้อความแบบเปิด หรือบทสนทนาที่ไวต่อความปลอดภัย ซึ่งการปรับจูน สไตล์ และความเห็นอกเห็นใจมีความสำคัญพอ ๆ กับความแม่นยำ อาจเกิดผลที่มากกว่าหรือแตกต่างกันในเชิงคุณภาพ
ต้นฉบับ: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1
1 ความคิดเห็น
เอ๊ะ ที่ผ่านมาที่ฉันโมโหใส่มาตลอดนี่คือไร้ประโยชน์หมดเลยเหรอ...?? ทั้งที่พอด่าทีไรมันก็ทำออกมาได้เริ่ดทุกทีนะ