โปรเจกต์โอเพนซอร์สที่ท้าทายการทำคะแนนระดับ 1 ในข้อสอบภาษาเกาหลี CSAT ด้วย prompt engineering
(github.com/NomaDamas)- ยกระดับคะแนนข้อสอบภาษาเกาหลี CSAT ของ GPT-4 จากเดิมระดับ 3 (86 คะแนน, ท็อป 22%) ไปเป็นระดับ 2 (94 คะแนน, ท็อป 5%) ด้วย prompt engineering ที่อิง CoT
- ใช้พรอมป์ต์ที่ปรับแต่งเฉพาะสำหรับโจทย์ไวยากรณ์บางประเภท จนทำได้สูงสุดถึงระดับ 1 (96 คะแนน, ท็อป 4%)
- เปิดเผยข้อความเต็มของพรอมป์ต์ ซอร์สโค้ด และชุดข้อมูลข้อสอบภาษาเกาหลี CSAT ที่ใช้ไว้เป็นโอเพนซอร์สบน GitHub
- เป็นกรณีตัวอย่างที่แสดงให้เห็นว่า แม้โดยทั่วไปจะมีการบอกว่า LLM ยังมีข้อจำกัดด้านความสามารถภาษาเกาหลี แต่ GPT-4 ได้ไปถึงระดับความสามารถทางภาษาที่อยู่ในขั้นแนวหน้าสุดแล้ว
สวัสดีครับ ผมได้ลองใช้ CoT prompt ด้วยตัวเองเพื่อทำให้ GPT-4 แก้ข้อสอบภาษาเกาหลี CSAT ได้ดีมาก
ตอนนี้ผมยังหาพรอมป์ต์ที่ทำได้เกินท็อป 5% หรือไปถึง 100 คะแนนไม่พบ และเพราะปัญหาค่าใช้จ่าย API จึงได้ทดสอบเพียงข้อสอบปี 23 เท่านั้น เลยอยากขอความช่วยเหลือจากหลาย ๆ ท่าน จึงนำมาเปิดเป็นโอเพนซอร์สแบบนี้ หวังว่าหลายคนจะนำซอร์สโค้ดที่เปิดเผยไว้ไปทดลองพรอมป์ต์ใหม่ ๆ ได้อย่างอิสระ และช่วยกันค้นหาเทคนิคพรอมป์ต์ที่พัฒนาไปได้ไกลยิ่งขึ้น!
7 ความคิดเห็น
เป็นโปรเจ็กต์ที่น่าสนใจนะ~
ถ้าไม่มองว่านี่เป็นโจทย์เลือกจาก 5 ตัวเลือก แต่เปลี่ยนแนวทางเป็นปัญหาแบบ classification ที่มองแต่ละตัวเลือกเป็น True / False แยกกัน จะเป็นอย่างไรครับ?
ถ้าใช้ CoT ให้ตัดสินแต่ละตัวเลือกอย่างอิสระว่าเป็นจริงหรือเท็จ แล้วดูเหตุผลประกอบการคิดทั้ง 5 ชุดก่อนค่อยตัดสินใจสุดท้าย โดยจัด Agent ในลักษณะนี้ ก็อาจได้ผลลัพธ์คุณภาพสูงขึ้นแม้จะใช้โมเดลที่ระดับต่ำกว่าก็ได้ครับ
วิธีที่คุณจัดไว้ตอนนี้เริ่มประเมินจากตัวเลือกข้อ 1 ก่อน ดังนั้นตอนประเมินตัวเลือกถัดไปก็จะมีอคติที่เกิดจากตัวเลือกก่อนหน้าเข้ามาเพิ่ม หนึ่งในเหตุผลที่ GPT-4 น่าทึ่งคือเมื่อโมเดลมีขนาดใหญ่พอ อคติลักษณะนี้จะส่งผลได้น้อยลง แต่เหมือนผมเคยเห็นในงานวิจัยว่าพอข้อความให้อ่านยาวขึ้น ประสิทธิภาพในส่วนนี้ก็ลดลงเหมือนกันนะครับ
(แม้จะเป็นแค่บทความบน arXiv ที่ยังไม่ผ่านการรีวิว... แต่เนื้อหาก็ดูสมเหตุสมผลพอสมควรครับ)
แน่นอนว่าค่า API จะเพิ่มเป็น 6 เท่า แต่ส่วนตัวผมคิดว่าถ้าทำ prompting ดีพอ ระดับข้อสอบภาษาเกาหลี CSAT น่าจะใช้ GPT-3.5 ก็เอาอยู่ครับ.
อย่างที่คุณบอกไว้ ถ้าประเมินทั้งห้าข้อแยกจากกันอย่างอิสระ ก็จะเกิดกรณีที่มีคำตอบถูกมากกว่าหนึ่งข้อ หรือไม่ก็ไม่มีข้อที่ถูกเลยได้เหมือนกันครับ แบบนั้นก็ต้องใส่พรอมป์เพิ่มเติมเพื่อให้กลับไปดูคำตอบที่ถูกแต่ละข้อกับคำอธิบายแล้วค่อยตัดสินอีกทีครับ
หรืออีกวิธีก็คือ อาจลองรันพรอมป์หลายครั้งกับตัวเลือกทั้งห้าข้อทีละข้อ แล้วใช้ตัวเลือกที่ถูกเลือกเป็นคำตอบบ่อยที่สุดเป็นคำตอบสุดท้ายได้ แต่ก็อย่างที่คุณว่าไว้ ค่าใช้จ่าย API คงพอกพูนขึ้นเรื่อย ๆ ราวกับก้อนหิมะกลิ้งแน่เลยครับ ;; แค่พรอมป์ปัจจุบันอย่างเดียว ตอนสอบซูนึงหนึ่งครั้งก็เสียไป 4~5 ดอลลาร์แล้วครับ T_T
ยินดีต้อนรับสู่โลกของงานวิศวกรรมที่ต้องคิดเรื่องการลดต้นทุนด้วยนะ 555
ชื่อนี่คือ Slayer ของสถาบันประเมินผลเลยนะ 555555
ว้าว น่าสนใจมากครับ
ทำให้รู้สึกได้เลยว่าหลังจาก Step by step แล้ว prompt engineering ก็ก้าวหน้าอย่างมากจริงๆ
(แล้วโอเพนซอร์ส LLM ที่มีความสามารถด้านภาษาเกาหลีระดับ GPT-4 จะออกมาได้ไหมนะ....)
LLM โอเพนซอร์สภาษาเกาหลียังห่างไกลแม้แต่จาก GPT-3.5 อยู่มากเลย T_T หวังจริง ๆ ว่าเมื่อไร LLM โอเพนซอร์สจะไปถึงระดับ GPT-4 ได้