Google Bard ไต่อันดับขึ้นเป็นอันดับ 2 บนลีดเดอร์บอร์ดประสิทธิภาพ LLM รองจาก GPT-4 Turbo โดยตรง
(twitter.com/JeffDean)- Google Bard (Gemini Pro) แซง GPT-4-0314/0613 เป็นต้น และกระโดดขึ้นมาอยู่อันดับ 2 (1215) ถัดจาก GPT-4 Turbo (Arena ELO 1249) โดยตรง
- นอกจากนี้ Hallucination Rate บนลีดเดอร์บอร์ด HHEM ก็ลดลงจาก 12% เหลือ 4.9% (GPT-4/4 Turbo อยู่ที่ 3.0%, GPT 3.5 Turbo อยู่ที่ 3.5%)
- น่าตื่นเต้นมากที่จะได้เห็นว่า Bard + Gemini Ultra จะเปิดตัวออกมาอย่างไร
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ข้อจำกัดด้านประสิทธิภาพของ Google Bard: ผู้ใช้คนหนึ่งสงสัยมานานว่าประสิทธิภาพของ Google Bard ถูกจำกัดเพราะต้นทุน Google ให้บริการ Bard ฟรี และคงไม่อยากรันโมเดลขนาดใหญ่มหาศาลให้ผู้ใช้ทุกคนฟรีไปตลอด อาจมีนวัตกรรมด้านต้นทุนการอนุมานเกิดขึ้น หรืออาจตัดสินใจยอมแบกรับต้นทุนชั่วคราวเพราะเบื่อกับคำวิจารณ์ว่าไล่ตามคู่แข่งไม่ทัน ผู้ใช้คิดว่า Google ควรเริ่มบริการแบบสมัครสมาชิกเพื่อให้เห็นได้อย่างเปิดเผยว่ากำลังรันโมเดลที่ดีที่สุดอยู่
ความผิดหวังช่วงแรกของ Bard และการพัฒนา: ตอนเปิดตัว Bard น่าผิดหวัง แต่ก็ดีที่เห็นว่ามันกำลังดีขึ้น จากประสบการณ์ส่วนตัว ผู้ใช้ใช้ Claude 2 มากกว่า GPT 4/Turbo และชอบสไตล์การตอบกับคำตอบต่อคำถามของมันมากกว่า นอกจากนี้ยังน่าสังเกตว่า Kagi ประเมิน Claude 1 ว่าเทียบเท่า GPT 4 (ไม่ใช่ Turbo) และประเมินคุณภาพของ Claude 2 ว่าอยู่ระดับเดียวกับ 4 Turbo
จำนวนโหวตของโมเดล Bard: โมเดล Bard มีจำนวนโหวตค่อนข้างน้อย จะรอดูจนกว่าจำนวนโหวตจะใกล้เคียงกับโมเดลอื่น ๆ
ข้อจำกัดของ Bard ที่น้อยกว่า: Bard มีข้อจำกัดน้อยกว่า GPT-4 มาก และเพียงแค่นี้ก็ทำให้รู้สึกว่ามันดีกว่า GPT-4 มากแล้ว
ความมีประโยชน์ของ Bard ในบรรดา LLM ฟรี: คิดว่าในบรรดา LLM ฟรีทั้งหมด Bard มีประโยชน์ที่สุด ChatGPT 3.5 เทียบไม่ได้เลยและดูเฉื่อย
ความสงสัยเกี่ยวกับวิธีทำเบนช์มาร์ก: สงสัยว่าเบนช์มาร์กทำกันอย่างไร และคาดว่าน่าจะปรับปรุงให้สะท้อนความคาดหวังหรือการใช้งานจริงของผู้ใช้ได้ดีกว่านี้
ความไม่สอดคล้องกับประสบการณ์ส่วนตัว: จากประสบการณ์ส่วนตัว ทุกครั้งที่ต้องการคำตอบก็กลับไปหา GPT อยู่ดี โดยส่วนใหญ่แล้วชอบ ChatGPT 3.5 มากกว่า Google Bard และรู้สึกว่า GPT 4 ดีกว่า Bard อย่างชัดเจน
เปรียบเทียบ Bard กับ ChatGPT: โดยส่วนตัวคิดว่า Bard ดีกว่า ChatGPT มาก อยากใช้ Mistral แบบไม่ถูกเซ็นเซอร์
ความตอบสนองของ Bard และการเพิ่มการเซ็นเซอร์: ก่อนหน้านี้มันตอบสนองต่อคำขอและไม่ค่อยปฏิเสธ ดูเหมือนว่าจะมีการเพิ่มชั้นการเซ็นเซอร์เข้าไป รู้สึกคิดถึง Bard แบบเดิม