1 ความคิดเห็น

 
GN⁺ 2024-04-02
ความคิดเห็นจาก Hacker News
    • มีคำถามเกี่ยวกับโมเดล GPT: ฉันคิดว่าโมเดลจะเลือกคำที่มีความเป็นไปได้สูงที่สุด แต่ถ้ามันเลือกหนึ่งในคำที่ "น่าจะเป็นไปได้" รายการการทำนายคำถัดไปก็จะมีความเป็นไปได้น้อยลงมากหรือไม่? ถ้าการประมวลความเป็นไปได้ของ "สองคำร่วมกัน" สามารถคำนวณได้ ก็น่าจะมีประโยชน์มากกว่า และสิ่งนี้ก็น่าจะใช้ได้กับ 3, 4, n คำด้วย สงสัยว่ามีวิธีแบบนี้อยู่หรือไม่
    • แก้ไขหลังดูวิดีโอและอ่านคอมเมนต์: ใช้ beam search และ temperature เพื่อควบคุมปัญหานี้
    • นึกไม่ออกเลยว่าจะมีใครเหมาะกับการสอน attention mechanism ให้คนหมู่มากได้ดีกว่านี้ เหมือนฝันเป็นจริง
    • เป็นยาถอนพิษที่ยอดเยี่ยมอย่างน่าประหลาดใจสำหรับคอนเทนต์วันเมษาหน้าโง่ของเดือนเมษายน อยากฉีดสิ่งนี้เข้าตัวเองโดยตรง
    • ในช่องของ Andrej Karpathy มีวิดีโอที่น่าสนใจอยู่หลายอันซึ่งอธิบายเกี่ยวกับโครงข่ายประสาทเทียมและการทำงานภายในของมันสำหรับคนที่พอเขียนโปรแกรมได้ ถ้าชอบอันนี้ก็แนะนำ
    • โทเค็นถัดไปถูกเลือกโดยการสุ่มตัวอย่าง logits จากคอลัมน์สุดท้ายหลังจาก unembedding แต่แบบนั้นมันไม่ใช่แค่การเลือกโทเค็นสุดท้ายซ้ำอีกครั้งหรือ? หรือว่าที่ขั้นตอนไหนสักแห่งเมทริกซ์ถูกขยายขนาดเป็น N+1?
    • รอวิดีโอถัดไปไม่ไหวแล้ว ดูเหมือนในที่สุดฉันจะซึมซับและเข้าใจได้จริง ๆ ว่าสิ่งเหล่านี้ทำงานอย่างไร
    • 3B1B เป็นหนึ่งในผู้สอนด้าน STEM ที่ดีที่สุดบน YouTube