Markov Chain คืออะไร
- ตอนที่ LLMs (โมเดลภาษาขนาดใหญ่) ปรากฏขึ้นครั้งแรก ผู้คนอธิบายมันว่าเป็น Markov Chain ที่ฉลาดมาก
- ทุกวันนี้ผู้คนคุ้นเคยกับ LLMs มากกว่า Markov Chain
- อาจพูดได้ว่า Markov Chain คือ LLM ขนาดเล็กมาก เรียบง่ายมาก และไร้เดียงสามาก
- Markov Chain ทำนายคำถัดไปจากบริบทปัจจุบัน แต่ไม่ได้คำนึงถึงความหมาย มิติข้อมูล หรือคณิตศาสตร์เวกเตอร์ซับซ้อนอื่น ๆ
- Markov Chain เป็นโมเดลเชิงสถิติแบบดั้งเดิม
- ฟีเจอร์ "แนะนำคำถัดไป" บนคีย์บอร์ดมือถือโดยทั่วไปมักใช้ Markov Chain
- Markov Chain มีต้นทุนการรันต่ำและอัปเดตให้เข้ากับสไตล์การพิมพ์ของผู้ใช้ได้ง่าย
- แม้จะอธิบายกลไกการทำงานของ LLMs และ Markov Chain ได้อย่างลึกซึ้งกว่านี้ แต่ในที่นี้เพียงแค่รู้ว่า Markov Chain ทำงานได้ด้อยกว่า LLMs ก็พอ
ความตลกคืออะไร
- อารมณ์ขันเกี่ยวข้องกับความประหลาดใจที่ไม่จริงจัง
- มุกที่ดีที่สุดมักมี "snap" ที่ทั้งสนุกและสำคัญ
- "snap" หมายถึงแรงกระแทกที่เกิดจากความประหลาดใจ
- ยิ่งมีความประหลาดใจน้อย ก็ยิ่งตลกน้อยลง
- นี่คือเหตุผลว่าทำไมเมื่อได้ยินมุกเดิมบ่อย ๆ มันถึงตลกน้อยลง
- มุกตลกแบบ "สุ่ม" ไม่น่าขำ เพราะความคาดเดาไม่ได้ของมันกลับคาดเดาได้
- การเขียนมุกคือการทำลายรูปแบบที่มีอยู่
- สามารถเพิ่มพลังของ snap ได้ด้วย "การทำให้ฉากนั้นเป็นจริง"
- หากใช้ภาษาที่แปลกใหม่หรือพรรณนาได้ชัดเจนขึ้น ฉากก็จะดูสมจริงมากขึ้น
- มุกตลกมีได้หลากหลาย และอารมณ์ขันเป็นเรื่องอัตวิสัย
ความคาดเดาได้ของ LLMs
- การคาดเดาประโยคให้สำเร็จต้องอาศัยบริบทจำนวนมาก
- LLMs มีบริบทจำนวนมาก
- LLMs ใช้การคำนวณทางคณิตศาสตร์จำนวนมากเพื่อหาว่าโทเคนถัดไปใดมีความเป็นไปได้มากที่สุด
- LLM ที่ "ดีกว่า" จะยิ่งคาดเดาได้มากกว่า
- LLMs ไม่เหมาะกับงานเขียนเชิงสร้างสรรค์
- LLMs สร้างผลลัพธ์แบบเฉลี่ย ๆ
- หากจะสร้างมุกตลก LLM ต้องทำให้เกิดความประหลาดใจ
- LLM ที่ดีทำสิ่งนี้ได้ไม่ดีนัก
- LLMs ไม่เหมาะกับการแสดงออกทางศิลปะ
- LLMs อาจพลาดแนวคิดที่น่าสนใจ
- กรอบแนวคิดนี้อาจนำไปสู่การสร้างโมเดลภาษาแบบใหม่ได้
ทำไมเรื่องนี้จึงน่าสนใจ
- สิ่งนี้ชี้ไปยังบางอย่างที่ลึกกว่านั้น
- นี่ไม่ใช่ข้อถกเถียงเรื่องจิตวิญญาณปะทะเครื่องจักร
- แต่มันแสดงให้เห็นข้อบกพร่องที่มีอยู่ในตัวโมเดล
- ข้อความของ ChatGPT ดูเหมือนเรียงความระดับมัธยมปลาย
- มันคือการทำซ้ำผลลัพธ์แบบเฉลี่ย
- มันคือการตัดบุคลิกออกไปแล้วเสริมด้วยความเคร่งครัดเชิงวิชาการ
- มันเป็นน้ำเสียงที่จืดชืดและเป็นองค์กร
- เราสามารถแยกแยะรีวิว Amazon ปลอมได้อย่างง่ายดาย
- อีกไม่นานโมเดลตรวจจับ LLM คงต้องตรวจสอบบุคลิกด้วย
สรุปโดย GN⁺
- บทความนี้อธิบายความแตกต่างระหว่าง Markov Chain กับ LLMs และสำรวจธรรมชาติของอารมณ์ขัน
- Markov Chain เป็นโมเดลเชิงสถิติแบบเรียบง่าย และมีความสามารถในการทำนายน้อยกว่า LLMs
- อารมณ์ขันตั้งอยู่บนความประหลาดใจที่ไม่จริงจัง และการเขียนมุกคือการทำลายรูปแบบ
- LLMs มีความคาดเดาได้สูง จึงไม่เหมาะกับงานเขียนเชิงสร้างสรรค์
- บทความนี้แสดงข้อจำกัดของ LLMs และชี้ให้เห็นความเป็นไปได้ของโมเดลภาษาแบบใหม่
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
เมื่อหลายปีก่อนตอนทำ side project ก็ได้ข้อสรุปเดียวกัน
ขอให้ Claude 3.5 Sonnet เขียนมุกสั้น 10 ข้อในหัวข้อว่า Markov chain ตลกกว่า LLM
ไม่ได้หมายความว่า Markov chain ดีกว่า
ตอนเรียนมหาวิทยาลัย เพื่อน ๆ เคยใช้ตัวสร้าง Markov chain กับคอลัมน์ "รายงานตำรวจ" ของหนังสือพิมพ์มหาวิทยาลัย
รู้สึกไม่สบายใจกับการใช้พระคัมภีร์ในการทดลองแบบนี้
ในฐานะหลักฐานเชิงประจักษ์ /r/subreddit simulator เป็นงานล้อเลียน Reddit แบบอิง Markov
เคยโพสต์ "XYZ ปลอมที่ AI เขียน" ลง Reddit หลายครั้ง
ราว 10 ปีก่อนตอนยังเรียนอยู่ เคยทำบอต Twitter แบบ Markov
วิวัฒนาการของบล็อก AI weirdness สนับสนุนแนวคิดนี้
มีบอตอยู่สองตัวในเซิร์ฟเวอร์ Discord ส่วนตัว