32 คะแนน โดย ninebow 2023-11-24 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความนี้แปลโดยได้รับอนุญาตจาก Tal Peretz นักพัฒนาผลิตภัณฑ์ AI ของ Zapier

  • สามารถอ่านต้นฉบับได้ที่นี่ และสาระสำคัญมีดังนี้


  • Prompt Engineering - ขั้นเริ่มต้น

  • บทบาทของการประเมิน: ดาวเหนือ (หลักนำทาง)

    • การเข้าถึงการประเมิน AI อย่างเป็นระบบ / Systematic Approach to AI Evaluations
    • การใช้ชุดข้อมูลเพื่อการทดสอบเชิงลึก / Dataset Utilization for In-depth Testing
    • ปรับปรุงการประเมินด้วยการประเมินของ AI / Refining Evaluations with AI Assessments
    • ตัวชี้วัดสำหรับการประเมิน / Metrics to evaluate
    • การประเมินโดยมนุษย์เป็นมาตรฐานสูงสุด / Human Evaluation as the Gold Standard
  • RAG: ข้อมูลเชิงลึกตามบริบทเมื่อจำเป็น

    • เทคนิคที่น่าลองทดลอง / Techniques to Experiment With
  • Fine-tuning: ศิลปะแห่งความเชี่ยวชาญเฉพาะทาง

    • ข้อมูลฝึกไม่เพียงพอ: ปัญหาสมดุลระหว่างปริมาณกับคุณภาพ / Insufficient Training Data: The Quantity-Quality Equilibrium
    • ชุดข้อมูลฝึกไม่สมดุล: ภาวะกลืนไม่เข้าคายไม่ออกของอคติ / Unbalanced Training Sets: The Bias Dilemma
    • การนำข้อมูลสาธารณะกลับมาใช้ใหม่: จำเป็นต้องมีสัญญาณใหม่ / Reusing Public Data: The New Signal Imperative
    • Prompt Engineering ที่ไม่ดีพอ: บัญญัติแห่งความชัดเจน / Poor Prompt Engineering: The Clarity Commandment
    • ไม่ประเมินแบบค่อยเป็นค่อยไป: ความผิดพลาดที่เกิดซ้ำอย่างต่อเนื่อง / Not Evaluating Incrementally: The Continuous Oversight
  • เมื่อทุกอย่างล้วนจำเป็น

  • สรุปส่งท้าย

3 ความคิดเห็น

 
cosine20 2023-11-27

ขอบคุณที่แชร์ครับ

 
apkas 2023-11-24

ดูเหมือนว่าจะมีเนื้อหาเกือบเหมือนกับ A Survey of Techniques for Maximizing LLM Performance ที่ OpenAI เผยแพร่เลยนะ?

 
ninebow 2023-11-25

ก่อนหน้านี้ฉันยังไม่ได้ดูวิดีโอ OpenAI DevDay และเพิ่งรู้ตอนนี้เองว่ามีเซสชันที่คุณพูดถึงอยู่ด้วย :)
ขอบคุณที่บอกนะครับ!

(+ เผื่อคนอื่น ๆ ผมขอแชร์ลิงก์ YouTube ที่ผมหาเจอไว้ให้ครับ!)
https://www.youtube.com/watch?v=ahnGLM-RC1Y