Google Bard ไต่อันดับขึ้นเป็นอันดับ 2 บนลีดเดอร์บอร์ดประสิทธิภาพ LLM รองจาก GPT-4 Turbo โดยตรง

xguru · 2024-01-28T09:41:59+09:00

Google Bard (Gemini Pro) แซง GPT-4-0314/0613 เป็นต้น และกระโดดขึ้นมาอยู่อันดับ 2 (1215) ถัดจาก GPT-4 Turbo (Arena ELO 1249) โดยตรง นอกจากนี้ Hallucination Rate บนลีดเดอร์บอร์ด HHEM ก็ลดลงจาก 12% เหลือ 4.9% (GPT-4/4 Turbo อยู่ที่ 3.0%, GPT 3.5 Turbo อยู่ที่ 3.5%) น่าตื่นเต้นมากที่จะได้เห็นว่า Bard + Gemini Ultra จะเปิดตัวออกมาอย่างไร

(twitter.com/JeffDean)

7 คะแนน โดย xguru 2024-01-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Google Bard (Gemini Pro) แซง GPT-4-0314/0613 เป็นต้น และกระโดดขึ้นมาอยู่อันดับ 2 (1215) ถัดจาก GPT-4 Turbo (Arena ELO 1249) โดยตรง
นอกจากนี้ Hallucination Rate บนลีดเดอร์บอร์ด HHEM ก็ลดลงจาก 12% เหลือ 4.9% (GPT-4/4 Turbo อยู่ที่ 3.0%, GPT 3.5 Turbo อยู่ที่ 3.5%)
น่าตื่นเต้นมากที่จะได้เห็นว่า Bard + Gemini Ultra จะเปิดตัวออกมาอย่างไร

1 ความคิดเห็น

xguru 2024-01-28

ความคิดเห็นจาก Hacker News

ข้อจำกัดด้านประสิทธิภาพของ Google Bard: ผู้ใช้คนหนึ่งสงสัยมานานว่าประสิทธิภาพของ Google Bard ถูกจำกัดเพราะต้นทุน Google ให้บริการ Bard ฟรี และคงไม่อยากรันโมเดลขนาดใหญ่มหาศาลให้ผู้ใช้ทุกคนฟรีไปตลอด อาจมีนวัตกรรมด้านต้นทุนการอนุมานเกิดขึ้น หรืออาจตัดสินใจยอมแบกรับต้นทุนชั่วคราวเพราะเบื่อกับคำวิจารณ์ว่าไล่ตามคู่แข่งไม่ทัน ผู้ใช้คิดว่า Google ควรเริ่มบริการแบบสมัครสมาชิกเพื่อให้เห็นได้อย่างเปิดเผยว่ากำลังรันโมเดลที่ดีที่สุดอยู่

ตามทวีตของ Jeff Dean มีการเปิดตัวโมเดลใหม่ชื่อ "Gemini Pro-scale model" และขึ้นมาอยู่อันดับ 2 บนลีดเดอร์บอร์ด lmsys ที่เป็นอิสระ ยังไม่ชัดเจนว่า "Pro-scale" หมายถึงอะไร และผู้ใช้ทุกคนได้ใช้งานโมเดลนี้อยู่แล้วหรือไม่
ความผิดหวังช่วงแรกของ Bard และการพัฒนา: ตอนเปิดตัว Bard น่าผิดหวัง แต่ก็ดีที่เห็นว่ามันกำลังดีขึ้น จากประสบการณ์ส่วนตัว ผู้ใช้ใช้ Claude 2 มากกว่า GPT 4/Turbo และชอบสไตล์การตอบกับคำตอบต่อคำถามของมันมากกว่า นอกจากนี้ยังน่าสังเกตว่า Kagi ประเมิน Claude 1 ว่าเทียบเท่า GPT 4 (ไม่ใช่ Turbo) และประเมินคุณภาพของ Claude 2 ว่าอยู่ระดับเดียวกับ 4 Turbo
จำนวนโหวตของโมเดล Bard: โมเดล Bard มีจำนวนโหวตค่อนข้างน้อย จะรอดูจนกว่าจำนวนโหวตจะใกล้เคียงกับโมเดลอื่น ๆ
ข้อจำกัดของ Bard ที่น้อยกว่า: Bard มีข้อจำกัดน้อยกว่า GPT-4 มาก และเพียงแค่นี้ก็ทำให้รู้สึกว่ามันดีกว่า GPT-4 มากแล้ว
ความมีประโยชน์ของ Bard ในบรรดา LLM ฟรี: คิดว่าในบรรดา LLM ฟรีทั้งหมด Bard มีประโยชน์ที่สุด ChatGPT 3.5 เทียบไม่ได้เลยและดูเฉื่อย
ความสงสัยเกี่ยวกับวิธีทำเบนช์มาร์ก: สงสัยว่าเบนช์มาร์กทำกันอย่างไร และคาดว่าน่าจะปรับปรุงให้สะท้อนความคาดหวังหรือการใช้งานจริงของผู้ใช้ได้ดีกว่านี้

หลังจากเห็นทวีตของ Jeff Dean ก็ลองใช้ Bard ดู แล้วก็ยังน่าผิดหวังเมื่อเทียบกับ GPT-4 มันออกนอกประเด็นจากคำถาม แต่ก็ไม่รู้ตัวว่ากำลังออกนอกประเด็น
ตอนขอให้สร้างกราฟ มันตอบว่า "นี่คือกราฟ" ถึงสามครั้งแต่ไม่มีกราฟจริง สุดท้ายก็ยอมรับว่าไม่มีฟีเจอร์นั้น
ความไม่สอดคล้องกับประสบการณ์ส่วนตัว: จากประสบการณ์ส่วนตัว ทุกครั้งที่ต้องการคำตอบก็กลับไปหา GPT อยู่ดี โดยส่วนใหญ่แล้วชอบ ChatGPT 3.5 มากกว่า Google Bard และรู้สึกว่า GPT 4 ดีกว่า Bard อย่างชัดเจน
เปรียบเทียบ Bard กับ ChatGPT: โดยส่วนตัวคิดว่า Bard ดีกว่า ChatGPT มาก อยากใช้ Mistral แบบไม่ถูกเซ็นเซอร์
ความตอบสนองของ Bard และการเพิ่มการเซ็นเซอร์: ก่อนหน้านี้มันตอบสนองต่อคำขอและไม่ค่อยปฏิเสธ ดูเหมือนว่าจะมีการเพิ่มชั้นการเซ็นเซอร์เข้าไป รู้สึกคิดถึง Bard แบบเดิม

Google Bard ไต่อันดับขึ้นเป็นอันดับ 2 บนลีดเดอร์บอร์ดประสิทธิภาพ LLM รองจาก GPT-4 Turbo โดยตรง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News