1 ความคิดเห็น

 
GN⁺ 2024-02-21
ความคิดเห็นจาก Hacker News
  • สรุปความคิดเห็นที่ 1:

      • การสาธิตเทคโนโลยีนี้น่าประทับใจมาก และดีที่เป็นเดโมโอเพนจริงจังที่ใครๆ ก็สามารถลองได้โดยไม่ต้องลงทะเบียนบัญชี
      • การเห็นการสร้างโทเค็นด้วยความเร็วที่สูงกว่าที่เคยเห็นมากอย่างชัดเจนทำให้รู้สึกเหมือนนอกโลก
      • เขาชี้ว่าแปลกใจมากที่ยังไม่มีบริษัทขนาดใหญ่เช่น Microsoft, Apple และ Google เข้ามาซื้อกิจการ
  • สรุปความคิดเห็นที่ 2:

      • ประเด็นหลักของ LPU ของ Groq คือไม่มี HBM เลย และมีเพียง SRAM ความเร็วสูงเพียงเล็กน้อยจำนวน 230 MiB เท่านั้น
      • เพื่อให้บริการโมเดลเดียวต้องใช้ LPU 256 ตัว (ประมาณขนาดของแร็คเซิร์ฟเวอร์ 4 ตัว)
      • ถ้ามีลูกค้ามากในโมเดลเดียวก็มีประโยชน์ แต่ถ้าต้องรองรับหลายโมเดลและการปรับแต่งละเอียด (fine-tuning) หลายรุ่น การใช้งานจะทำได้ยากขึ้น
  • สรุปความคิดเห็นที่ 3:

      • การสาธิตนี้น่าประทับใจ แต่ควรตั้งข้อสงสัยหากไม่มีบันทึก benchmark เป็นหลักฐาน
      • มีวิธีทำให้โมเดลเร็วขึ้นโดยแลกกับคุณภาพ เช่น การควอนไทซ์โมเดล (quantization)
      • อยากเห็นความก้าวหน้าใน LLM tokens/วินาที เหมือนการพัฒนาคำสั่งต่อวินาที (CPU instructions/s) ที่เคยพัฒนาขึ้นเมื่อหลายสิบปีก่อน
  • สรุปความคิดเห็นที่ 4:

      • เขาเป็นผู้ที่ทำงานที่ Groq และพร้อมตอบคำถามเสมอหากใครมีข้อสงสัย
      • เขาบอกว่าชุด pipeline การคอมไพล์บางส่วนของ Groq ถูกพัฒนาด้วย Haskell
  • สรุปความคิดเห็นที่ 5:

      • การสาธิตนี้น่าประทับใจ แต่เนื่องจากข้อกำหนดด้านฮาร์ดแวร์และต้นทุนสูง จึงดูเหมือนว่าเข้าถึงได้เฉพาะผู้เล่นรายใหญ่
      • มีคำถามว่าต้นทุนจะตกลงมาในจุดไหนจึงจะพอสำหรับกลุ่มผู้ใช้ทั่วไปหรือคนที่ใช้เล่นๆ
      • เดโมของ CNN Vapi ก็น่าประทับใจเช่นกัน แต่เขายังกล่าวว่าสามารถมีการสนทนาที่เป็นธรรมชาติได้โดยใช้บริการอื่นๆ ที่มีออสติโอ latency ต่ำกว่า
      • เขาแชร์ความเห็นเกี่ยวกับเกณฑ์อัตราโทเค็นต่อวินาทีขั้นต่ำเพื่อให้มีการโต้ตอบแบบเรียลไทม์ และคิดว่าความเร็วที่เกินกว่าจุดนั้นอาจมีประโยชน์ต่อการสื่อสารระหว่าง AI ได้
  • สรุปความคิดเห็นที่ 6:

      • เขาถามว่าทำไมเทคโนโลยีนี้ถึงน่าประทับใจ และทำไมจึงไม่เพิ่มพลังการคำนวณเพื่อให้ตอบสนองเร็วขึ้นได้
      • โดยอ้างอิงกราฟของ NVIDIA ว่า H100 รันโมเดล 70B ได้เกิน 500 โทเค็น/วินาที
  • สรุปความคิดเห็นที่ 7:

      • เขาเตือนว่าถ้าเข้าถึงฟอนต์บางตัวไม่ได้ หน้าจะใช้การไม่ได้และต้องพยายามส่งคำขอซ้ำ
      • ผู้ใช้พบปัญหานี้เพราะบราว์เซอร์มักบล็อกตัวติดตามประเภทนี้โดยค่าเริ่มต้น
  • สรุปความคิดเห็นที่ 8:

      • เขาถามว่าเทคโนโลยีนี้เกี่ยวข้องกับโมเดล Grok ของ x.ai หรือไม่
      • เมื่อได้ลองใช้จริงแล้ว บอกว่าประทับใจกับความเร็วอย่างมาก
  • สรุปความคิดเห็นที่ 9:

      • เขาชื่นชมทั้ง Groq และ Mixtral
      • เขาได้ลองเดโมที่ใช้พรอมต์เฉพาะเพื่อสร้างไฟล์ GitLab CI YAML
  • สรุปความคิดเห็นที่ 10:

      • ประสิทธิภาพ API ของ Groq ก็อยู่ในระดับใกล้เคียงกันนี้เช่นกัน
      • เขาแชร์ผล benchmark ตามเวลาแสดงว่าสามารถรักษาความเร็วได้ต่อเนื่องที่มากกว่า 400 โทเค็น/วินาที