29 คะแนน โดย vkehfdl1 2023-08-08 | 7 ความคิดเห็น | แชร์ทาง WhatsApp
  • ยกระดับคะแนนข้อสอบภาษาเกาหลี CSAT ของ GPT-4 จากเดิมระดับ 3 (86 คะแนน, ท็อป 22%) ไปเป็นระดับ 2 (94 คะแนน, ท็อป 5%) ด้วย prompt engineering ที่อิง CoT
  • ใช้พรอมป์ต์ที่ปรับแต่งเฉพาะสำหรับโจทย์ไวยากรณ์บางประเภท จนทำได้สูงสุดถึงระดับ 1 (96 คะแนน, ท็อป 4%)
  • เปิดเผยข้อความเต็มของพรอมป์ต์ ซอร์สโค้ด และชุดข้อมูลข้อสอบภาษาเกาหลี CSAT ที่ใช้ไว้เป็นโอเพนซอร์สบน GitHub
  • เป็นกรณีตัวอย่างที่แสดงให้เห็นว่า แม้โดยทั่วไปจะมีการบอกว่า LLM ยังมีข้อจำกัดด้านความสามารถภาษาเกาหลี แต่ GPT-4 ได้ไปถึงระดับความสามารถทางภาษาที่อยู่ในขั้นแนวหน้าสุดแล้ว

สวัสดีครับ ผมได้ลองใช้ CoT prompt ด้วยตัวเองเพื่อทำให้ GPT-4 แก้ข้อสอบภาษาเกาหลี CSAT ได้ดีมาก

ตอนนี้ผมยังหาพรอมป์ต์ที่ทำได้เกินท็อป 5% หรือไปถึง 100 คะแนนไม่พบ และเพราะปัญหาค่าใช้จ่าย API จึงได้ทดสอบเพียงข้อสอบปี 23 เท่านั้น เลยอยากขอความช่วยเหลือจากหลาย ๆ ท่าน จึงนำมาเปิดเป็นโอเพนซอร์สแบบนี้ หวังว่าหลายคนจะนำซอร์สโค้ดที่เปิดเผยไว้ไปทดลองพรอมป์ต์ใหม่ ๆ ได้อย่างอิสระ และช่วยกันค้นหาเทคนิคพรอมป์ต์ที่พัฒนาไปได้ไกลยิ่งขึ้น!

7 ความคิดเห็น

 
wedding 2023-08-09

เป็นโปรเจ็กต์ที่น่าสนใจนะ~

 
kuber 2023-08-08

ถ้าไม่มองว่านี่เป็นโจทย์เลือกจาก 5 ตัวเลือก แต่เปลี่ยนแนวทางเป็นปัญหาแบบ classification ที่มองแต่ละตัวเลือกเป็น True / False แยกกัน จะเป็นอย่างไรครับ?

ถ้าใช้ CoT ให้ตัดสินแต่ละตัวเลือกอย่างอิสระว่าเป็นจริงหรือเท็จ แล้วดูเหตุผลประกอบการคิดทั้ง 5 ชุดก่อนค่อยตัดสินใจสุดท้าย โดยจัด Agent ในลักษณะนี้ ก็อาจได้ผลลัพธ์คุณภาพสูงขึ้นแม้จะใช้โมเดลที่ระดับต่ำกว่าก็ได้ครับ

วิธีที่คุณจัดไว้ตอนนี้เริ่มประเมินจากตัวเลือกข้อ 1 ก่อน ดังนั้นตอนประเมินตัวเลือกถัดไปก็จะมีอคติที่เกิดจากตัวเลือกก่อนหน้าเข้ามาเพิ่ม หนึ่งในเหตุผลที่ GPT-4 น่าทึ่งคือเมื่อโมเดลมีขนาดใหญ่พอ อคติลักษณะนี้จะส่งผลได้น้อยลง แต่เหมือนผมเคยเห็นในงานวิจัยว่าพอข้อความให้อ่านยาวขึ้น ประสิทธิภาพในส่วนนี้ก็ลดลงเหมือนกันนะครับ
(แม้จะเป็นแค่บทความบน arXiv ที่ยังไม่ผ่านการรีวิว... แต่เนื้อหาก็ดูสมเหตุสมผลพอสมควรครับ)

แน่นอนว่าค่า API จะเพิ่มเป็น 6 เท่า แต่ส่วนตัวผมคิดว่าถ้าทำ prompting ดีพอ ระดับข้อสอบภาษาเกาหลี CSAT น่าจะใช้ GPT-3.5 ก็เอาอยู่ครับ.

 
vkehfdl1 2023-08-09

อย่างที่คุณบอกไว้ ถ้าประเมินทั้งห้าข้อแยกจากกันอย่างอิสระ ก็จะเกิดกรณีที่มีคำตอบถูกมากกว่าหนึ่งข้อ หรือไม่ก็ไม่มีข้อที่ถูกเลยได้เหมือนกันครับ แบบนั้นก็ต้องใส่พรอมป์เพิ่มเติมเพื่อให้กลับไปดูคำตอบที่ถูกแต่ละข้อกับคำอธิบายแล้วค่อยตัดสินอีกทีครับ
หรืออีกวิธีก็คือ อาจลองรันพรอมป์หลายครั้งกับตัวเลือกทั้งห้าข้อทีละข้อ แล้วใช้ตัวเลือกที่ถูกเลือกเป็นคำตอบบ่อยที่สุดเป็นคำตอบสุดท้ายได้ แต่ก็อย่างที่คุณว่าไว้ ค่าใช้จ่าย API คงพอกพูนขึ้นเรื่อย ๆ ราวกับก้อนหิมะกลิ้งแน่เลยครับ ;; แค่พรอมป์ปัจจุบันอย่างเดียว ตอนสอบซูนึงหนึ่งครั้งก็เสียไป 4~5 ดอลลาร์แล้วครับ T_T

 
kuber 2023-08-09

ยินดีต้อนรับสู่โลกของงานวิศวกรรมที่ต้องคิดเรื่องการลดต้นทุนด้วยนะ 555

 
dohyun682 2023-08-08

ชื่อนี่คือ Slayer ของสถาบันประเมินผลเลยนะ 555555

 
kuroneko 2023-08-08

ว้าว น่าสนใจมากครับ

ทำให้รู้สึกได้เลยว่าหลังจาก Step by step แล้ว prompt engineering ก็ก้าวหน้าอย่างมากจริงๆ
(แล้วโอเพนซอร์ส LLM ที่มีความสามารถด้านภาษาเกาหลีระดับ GPT-4 จะออกมาได้ไหมนะ....)

 
vkehfdl1 2023-08-09

LLM โอเพนซอร์สภาษาเกาหลียังห่างไกลแม้แต่จาก GPT-3.5 อยู่มากเลย T_T หวังจริง ๆ ว่าเมื่อไร LLM โอเพนซอร์สจะไปถึงระดับ GPT-4 ได้