5 คะแนน โดย GN⁺ 2023-10-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บทความที่อธิบายแนวคิดของเทคโนโลยีที่เรียกว่า 'เอมเบดดิง' ซึ่งแปลงคอนเทนต์ให้เป็นอาร์เรย์ของตัวเลขทศนิยมแบบลอยตัว เพื่อนำไปใช้กับแอปพลิเคชันได้หลากหลาย
  • ผู้เขียน Simon Willison ได้บรรยายเรื่องเอมเบดดิงที่งาน PyBay 2023 และบทความนี้คือเวอร์ชันที่ปรับปรุงจากการบรรยายนั้น
  • เอมเบดดิงถูกใช้ในวงการโมเดลภาษาขนาดใหญ่ที่รองรับเทคโนโลยีอย่าง ChatGPT, Bard and Claude
  • ผู้เขียนอธิบายวิธีใช้โมเดล OpenAI text-embedding-ada-002 เพื่อสร้างฟีเจอร์ "เนื้อหาที่เกี่ยวข้อง" สำหรับบล็อกของตน
  • บทความยังกล่าวถึงวิธีใช้เอมเบดดิงกับโค้ดผ่านเครื่องมือชื่อ Symbex ซึ่งสามารถคำนวณเอมเบดดิงสำหรับทุกฟังก์ชันในโค้ดเบส และสร้างเสิร์ชเอนจินสำหรับค้นหาโค้ดได้
  • ผู้เขียนแนะนำเครื่องมือชื่อ LLM (Large Language Models) ที่สามารถใช้ทำงานกับเอมเบดดิงและสร้างเสิร์ชเอนจินแบบค้นหาเชิงความหมายได้
  • บทความยังกล่าวถึงวิธีใช้เอมเบดดิงกับภาพโดยใช้โมเดลชื่อ CLIP ซึ่งสามารถฝังข้อความและภาพลงในเวกเตอร์สเปซเดียวกันได้
  • ผู้เขียนอธิบายวิธีทำการจัดหมวดหมู่ด้วยเอมเบดดิง โดยคำนวณตำแหน่งเฉลี่ยของกลุ่มเอมเบดดิง แล้วเปรียบเทียบคอนเทนต์ใหม่กับตำแหน่งนั้นเพื่อกำหนดหมวดหมู่
  • บทความปิดท้ายด้วยการพูดถึง Retrieval-Augmented Generation (RAG) ซึ่งเป็นเทคนิคการใช้เอมเบดดิงเพื่อตอบคำถามจากเอกสารส่วนตัวหรือเอกสารภายในบริษัท
  • บทความมีช่วง Q&A ที่ผู้เขียนตอบคำถามเกี่ยวกับ LangChain, ฟังก์ชันวัดระยะทางนอกเหนือจาก cosine similarity, การประมวลผลข้อมูลจำนวนมาก และการพัฒนาโมเดลเอมเบดดิงในอนาคต

1 ความคิดเห็น

 
GN⁺ 2023-10-25
ความคิดเห็นจาก Hacker News
  • หลังจากผู้เขียนเผยแพร่บทความแล้ว ก็ได้พบแหล่งข้อมูลเพิ่มเติมเพื่อทำความเข้าใจ embeddings ให้ลึกซึ้งยิ่งขึ้น
  • embeddings ได้กลายเป็นวิธีมาตรฐานสำหรับการจดจำสถานที่ในอัลกอริทึม computer vision และ visual SLAM
  • ตัวอย่างที่มีชื่อเสียงของ word embeddings คือ King - Man + Women = Queen แต่เมื่อนำไปฉายลงใน 2 มิติ กลับไม่ได้สร้างความประทับใจทางภาพมากนัก
  • Autoencoding ทำงานได้ดีแม้จะเรียบง่าย และมีความสนใจในโมเดล document embedding ที่ดีซึ่งสามารถรันบนฮาร์ดแวร์ส่วนตัวได้
  • embeddings สามารถเพิ่มเข้าไปในฟังก์ชันค้นหาแบบเต็มข้อความเดิมของแอปจดบันทึกได้อย่างง่ายดายน่าประหลาดใจ และมีพลังมากกว่าที่คาดไว้
  • mental model ของ embeddings ในภาษาถูกอธิบายว่าเป็นการมีจุดจำนวนมากอยู่ในหลายตำแหน่งภายในปริภูมิที่มีมิติสูงมากอย่างยิ่ง
  • เมื่อนำไปสร้างในโดเมนเฉพาะ โมเดล embedding เชิงพาณิชย์มีข้อจำกัด และมีความคาดหวังต่อเครื่องมือและเอกสารอ้างอิงที่ดีกว่าสำหรับการ fine-tune โมเดล embedding
  • บทความนี้มีประโยชน์และน่าสนใจแม้สำหรับคนที่แทบไม่มีพื้นฐานด้าน machine learning
  • มีข้อสงสัยว่าทำไมผู้เขียนจึงใช้วิธีเฉพาะในการคำนวณ dot product แทนการใช้การดำเนินการแบบ vectorized ของ numpy
  • มีความสับสนเกี่ยวกับโค้ด clustering ที่ใช้ในบทความ โดยเฉพาะวิธีแปลงแต่ละแถวในฐานข้อมูลให้เป็นอาร์เรย์ของ numpy และใช้โมเดล MiniBatchKMeans เพื่อสร้าง labels