4 คะแนน โดย GN⁺ 2024-04-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การใช้พรอมป์ต์ที่กระชับให้ผลลัพธ์ดีกว่าในการใช้ GPT

  • GPT มักสับสนมากขึ้นหากใส่รายละเอียดในพรอมป์ต์มากเกินไปเกี่ยวกับสิ่งที่มันรู้อยู่แล้วตามสามัญสำนึก
  • ตัวอย่างเช่น ในงานจัดหมวดหมู่รัฐ (state) ที่ถูกกล่าวถึงในข้อความ การขอเพียงชื่อรัฐให้ผลแม่นยำกว่าการให้รายชื่อทั้ง 50 รัฐ

แค่ chat API ของ OpenAI ก็เพียงพอสำหรับการสร้างฟังก์ชันที่หลากหลายและทรงพลัง

  • สามารถทำฟังก์ชันที่ต้องการ เช่น การดึง JSON ได้อย่างเรียบง่ายโดยใช้แค่ chat API โดยไม่ต้องมีเครื่องมือเสริมอย่าง Langchain
  • เวลาอัปเกรดโมเดล GPT ก็แค่แก้สตริงในโค้ดเบสเพียงจุดเดียว
  • เพียงเพิ่มลอจิกง่ายๆ สำหรับจัดการข้อผิดพลาดของ OpenAI API และข้อจำกัดความยาวอินพุต

การจัดการกรณีที่ GPT หาอะไรไม่เจอนั้นทำได้ยาก

  • ในพรอมป์ต์อย่าง "ถ้าไม่พบอะไรให้คืนค่าเป็นค่าว่าง" GPT มักสร้างข้อมูลขึ้นมาเองหรือแสดงความไม่มั่นใจ
  • วิธีแก้คืออย่าส่งพรอมป์ต์ไปให้ GPT เมื่ออินพุตว่าง

GPT สามารถสร้างเอาต์พุตได้ยาวจำกัด

  • ข้อจำกัดอินพุตของ GPT-4 คือ 128k โทเค็น แต่ข้อจำกัดเอาต์พุตมีเพียง 4k โทเค็น
  • เมื่อขอรายการของอ็อบเจ็กต์ JSON นั้น GPT มักสร้างรายการเกิน 10 รายการได้ไม่เสถียรนัก

ฐานข้อมูลเวกเตอร์และ RAG/embedding ไม่ได้ช่วยมากนักสำหรับงานทั่วไป

  • RAG ทำงานได้ไม่ดีสำหรับการใช้งานนอกเหนือจากการค้นหา
  • ด้วยเหตุผลอย่างความยากในการตัดสินความเกี่ยวข้อง ปัญหาการแยกข้อมูล และความพึงพอใจของผู้ใช้ที่ลดลง ทำให้การใช้งานจริงไม่ค่อยคุ้มค่า
  • สำหรับการค้นหาทั่วไป การค้นหาแบบ facet ด้วย GPT หรือการสร้างคิวรีที่ซับซ้อนเหมาะสมกว่า

GPT แทบไม่ได้สร้างภาพหลอน (hallucination) ขึ้นมาเอง

  • ในงานดึงข้อมูลจากข้อความที่กำหนด GPT ให้ผลลัพธ์ที่เชื่อถือได้มาก
  • แต่หากในข้อความไม่มีข้อมูล มันอาจสร้างสิ่งที่ไม่มีอยู่ขึ้นมาได้
  • ดังนั้นการให้บริบทที่เพียงพอและการจัดการคำตอบของ GPT อย่างเหมาะสมจึงสำคัญ

ความเห็นของ GN⁺

  • ดูเหมือนว่าจะไปถึง AGI ได้ยากหากอาศัยเพียงโมเดลทรานส์ฟอร์เมอร์ ข้อมูลเว็บ และโครงสร้างพื้นฐานขนาดใหญ่
  • GPT-4 มีประโยชน์อย่างชัดเจน แต่หากต้องการก้าวไปไกลกว่านั้น ก็น่าจะต้องมีนวัตกรรมที่ตัวสถาปัตยกรรมโมเดลเอง
  • ทางเลือกนอก OpenAI ดูเหมือนยังตาม GPT ไม่ทัน และท้ายที่สุดก็คงต้องจับตาการอัปเกรดเวอร์ชันของ GPT ต่อไป
  • คาดว่าประสิทธิภาพของ GPT-5 เมื่อเทียบกับ GPT-4 จะไม่ถึงระดับพลิกเกม ดูเหมือนประโยชน์ต่อค่าใช้จ่ายจะเริ่มชนเพดานแล้ว
  • ดังนั้นในช่วงนี้ การใช้ GPT-4 ให้คุ้ม พร้อมโฟกัสที่การออกแบบพรอมป์ต์และการประยุกต์ใช้อย่างเหมาะสม น่าจะเป็นทางเลือกที่สมจริงกว่า

1 ความคิดเห็น

 
GN⁺ 2024-04-14
ความคิดเห็นบน Hacker News
  • มีทีมหนึ่งประมวลผลโทเคนมากกว่า 5 พันล้านโทเคนต่อเดือน และได้แบ่งปันประสบการณ์ของผู้จัดการวิศวกรรมที่ดูแลงานนี้
    • abstraction จำนวนมากอย่าง Langchain ยังเร็วเกินไป และเนื่องจากพรอมป์ต์ก็เป็นเพียงการเรียก API การเขียนให้เป็นโค้ดทั่วไปจึงง่ายกว่าการปฏิบัติกับมันเหมือนเป็นสิ่งพิเศษ
    • การสรุปผลมีความเสถียร แต่การให้เหตุผลยังยาก โดยเฉพาะการทำให้ LLM เข้าใจบริบทและพูดออกมาเมื่อมันไม่มั่นใจ
    • มันเป็น game changer แต่ไม่ใช่วันสิ้นโลก แม้จะส่งผลกระทบมากต่อบางอาชีพ แต่ก็ไม่ถึงขั้นพลิกโลกแบบอินเทอร์เน็ต และจะทำหน้าที่ขยายพลังมากกว่า
  • มีการแบ่งปันประสบการณ์การใช้โมเดล OpenAI ในแอปเขียนงานส่วนตัว
    • พยายามสร้างฟีเจอร์ค้นหาอัจฉริยะ เช่น ค้นหาบันทึกร่างในช่วง 2 ปีล่าสุดที่พูดถึง Haskell แต่การขอให้ ChatGPT ส่งคืนข้อมูล JSON แบบมีโครงสร้างนั้นได้ผลเพียงบางส่วน
    • ทางเลือกที่ได้ผลดีกว่าคือใส่ข้อมูลลงฐานข้อมูล SQLite ส่ง schema ให้ ChatGPT แล้วขอให้เขียน query เพื่อดึงผลลัพธ์ที่ต้องการ
  • การใช้พรอมป์ต์ที่ดีกว่าจะทำให้ใช้โมเดลที่ถูกกว่าได้
    • ให้ทางออกแบบนุ่มนวลแก่ LLM (หากไม่มี sufficient information ก็สามารถตั้งสมมติฐานได้ แต่ต้องระบุให้ชัดเจนพร้อมให้เหตุผลและฐานเชิงตรรกะ) แล้วให้มันประเมินคำตอบของตัวเอง
  • มีคนสงสัยว่าทำไมจึงไม่จำเป็นต้องใช้ JSON mode
  • มีการทดสอบพรอมป์ต์ให้ส่งคืนข้อความต้นฉบับแบบไม่แก้ไขหากกฎใช้กับข้อความนั้นไม่ได้ แต่ ChatGPT กลับคืนสตริงลิเทอรัลว่า "The original text without any changes"
  • GPT น่าทึ่งมาก แต่ไม่เห็นด้วยอย่างยิ่งกับการตีความว่ายิ่งกำกวม คุณภาพและการทำให้ใช้งานทั่วไปได้ยิ่งดีขึ้น
    • ภาษาธรรมชาติคือผลลัพธ์ที่ GPT มีแนวโน้มจะสร้างมากที่สุด และนักพัฒนาก็เพียงแค่พึ่งพาสิ่งที่ GPT ทำได้ดีมากขึ้น
    • แม้งานง่าย ๆ ก็ทำให้ GPT ล้มเหลวได้ และการบอกว่า GPT "เข้าใจ" การแมปปิงนั้นโดยตัวมันเองก็สื่อถึงการจับคู่รูปแบบระดับสูง
  • แม้ GPT-4 จะเป็นโมเดลเมื่อ 1 ปีก่อน แต่ก็ยังทำงานได้เหนือกว่า LLM อื่นอย่างชัดเจน และตามรูปแบบการใช้งานที่พบ มันหลอนน้อยกว่าและดื้อยืนยันมากกว่าเมื่อมันรู้ว่าตัวเองถูก
  • เวลาดึงชื่อบริษัท มีปัญหาสมมติฐานศูนย์ตรงที่ถ้าในข้อความไม่มีบริษัท โมเดลก็จะเสนอชื่อบริษัทขึ้นมาเอง
    • จึงต้องใช้แนวทาง 2 ขั้นตอน โดยถามก่อนว่า "ข้อความนี้กล่าวถึงบริษัทหรือไม่?" แล้วถ้าใช่จึงถามต่อว่า "โปรดระบุรายชื่อบริษัทที่อยู่ในข้อความนี้"
  • การที่ GPT คืนค่ารายการมากกว่า 10 รายการได้ไม่เสถียรเป็นเพียงปัญหาเรื่องพรอมป์ต์เท่านั้น และหากใช้ JSON key ก็สามารถคืนค่าได้ถึง 200 รายการตามลำดับที่ถูกต้อง
  • เคล็ดลับสำหรับแก้ปัญหา 'null':
    • แทนที่จะบอกว่า "อย่าส่งคืนอะไรเลย" ให้บอกว่า "ส่งคืนค่าเริ่มต้นของ XYZ" แล้วค่อยทำ text search หาค่าเริ่มต้นนั้น (XYZ) เช่นเดียวกับการค้นหาชื่อรัฐ
    • การใช้ system prompt สามารถทำให้ LLM รับบทเป็น X ได้
  • มีการแนะนำ micro-package สำหรับการตัดทอนตามโทเคน