6 คะแนน โดย GN⁺ 2024-06-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Claude 3.5 Sonnet เป็นโมเดลที่ยอดเยี่ยมที่สุดในสาย AI แบบสนทนา ณ เวลานี้
  • Claude 3.5 Sonnet ใช้งานได้ฟรีบน Claude.ai และแอป Claude บน iOS หากต้องการโควตาการใช้งานที่สูงขึ้นก็สามารถสมัครสมาชิกได้
  • มีการสรุปเนื้อหาโดยพยายามคงโครงสร้างเอกสารเดิมไว้มากที่สุด และจัดระเบียบอย่างเรียบร้อยด้วย Markdown
  • มีความเร็วมากกว่า Claude Opus 2 เท่า และมีค่าใช้จ่ายต่ำกว่า
  • เพิ่มฟีเจอร์ Artifacts ใหม่ ทำให้สามารถดูและแก้ไขโค้ด เอกสาร การออกแบบเว็บไซต์ และอื่น ๆ แบบเรียลไทม์ในหน้าต่างแยกได้
  • OpenAI, Google DeepMind และ Anthropic ต่างกำลังพัฒนาโมเดลขนาดใหญ่ประสิทธิภาพสูง แต่ตอนนี้แนวโน้มคือมุ่งเน้นโมเดลที่เร็วกว่า ถูกกว่า และยังคงให้ประสิทธิภาพยอดเยี่ยม

ผลลัพธ์เบนช์มาร์กและการประเมิน

  • ทำผลงานได้เหนือกว่าโมเดลเดิมในหลายเบนช์มาร์ก โดยเฉพาะ GPQA ที่ครองอันดับ 1 แบบทิ้งห่าง
  • ในการประเมินการเขียนโค้ดแบบใช้งานได้จริงด้วย Artifacts สามารถแก้ปัญหาได้ 64% เหนือกว่าโมเดลก่อนหน้า (38%) อย่างมาก
  • ในการประเมินโดยผู้เชี่ยวชาญจากหลากหลายสาขา เช่น กฎหมาย การเงิน และปรัชญา ก็ทำอัตราชนะได้สูงที่ 82% ~ 73%
  • ความสามารถด้านการรับรู้ภาพก็ดีขึ้นเช่นกัน และถูกออกแบบให้จำกัดฟีเจอร์จดจำใบหน้าผ่านพรอมป์ต์เพิ่มเติม

ฟีเจอร์ Artifacts ใหม่

  • ฟีเจอร์ Artifacts ช่วยให้สร้างและแก้ไขโค้ด เอกสาร และงานออกแบบเว็บแบบเรียลไทม์ได้ในหน้าต่างข้างแชต
  • ถูกมองว่าเป็นก้าวแรกของการพัฒนาจาก AI แบบสนทนาไปสู่สภาพแวดล้อมการทำงานร่วมกัน
  • คาดว่าในอนาคตจะรองรับการทำงานเป็นทีม และพัฒนาไปเป็นเครื่องมือจัดการความรู้ระดับองค์กร

การทบทวนด้านความปลอดภัยและจริยธรรม

  • Claude 3.5 Sonnet ยังคงอยู่ในระดับ ASL-2 จึงยังไม่มีความสามารถที่น่ากังวล
  • สถาบันความปลอดภัย AI แห่งสหราชอาณาจักร (UK AISI) ได้ทำการประเมินด้านความปลอดภัยก่อนเปิดตัว
  • ในด้านอัตราการปฏิเสธคำขอ ก็แสดงให้เห็นถึงการปรับปรุงเมื่อเทียบกับโมเดลก่อนหน้า
  • ยังคงยึดหลักการไม่ใช้ข้อมูลผู้ใช้ไปฝึกโมเดล
  • มีท่าทีระมัดระวังต่อการพัฒนาเทคโนโลยีระดับ frontier แต่ยังไม่มีคำมั่นสัญญาที่ชัดเจน

ผลกระทบต่อวิศวกรรมซอฟต์แวร์

  • Claude 3.5 Sonnet ช่วยยกระดับงานเขียนโค้ดของวิศวกรได้อย่างมาก ทั้งแก้ปัญหาที่ติดขัดให้อัตโนมัติและช่วยจัดทำเอกสารให้ด้วย
  • อัตราการผ่านการทดสอบ pull request ดีขึ้นอย่างมากจาก Opus 38% เป็น Sonnet 64%
  • ภายใน Anthropic เอง ทั้งผู้ที่ไม่ได้จบสายนี้และวิศวกรที่มีประสบการณ์ต่างก็ใช้ Claude เพื่อประหยัดเวลาได้อย่างมาก
  • คาดว่าจะช่วยลดเวลาการทำงานของวิศวกรลงอย่างมาก และทำให้ทุกคนเขียนโค้ดได้ง่ายขึ้น
  • แนวโน้มการเพิ่มผลิตภาพงานวิศวกรรมด้วยเทคโนโลยี AI จะยิ่งเร่งตัวขึ้น

ข้อจำกัดของโมเดล

  • ยังพลาดในปริศนาหรือเกมชื่อดังบางอย่างอยู่ แต่ก็สามารถแก้ได้เมื่อให้ข้อมูลบริบทเพิ่มเติม
  • อาจยังเปราะบางต่อการหลอกลวงหรือการโจมตีที่ซับซ้อน
  • ดูเหมือนจะมุ่งเน้นการยกระดับความสามารถในการให้เหตุผลโดยรวม มากกว่าการยึดติดกับปัญหาเฉพาะด้าน
  • ยังเป็นเพียงระดับการใช้ประโยชน์จากความรู้ที่มนุษย์สร้างขึ้น และยังคงมีข้อจำกัดพื้นฐานอยู่

ปฏิกิริยาจากผู้ใช้

  • แสดงประสิทธิภาพที่น่าทึ่งในสาขาเฉพาะทาง เช่น ฟิสิกส์ เคมี และวิศวกรรมเครื่องกล
  • มีกรณีใช้งาน Artifacts ออกมามากมาย เช่น การสร้างภาพ SVG การพัฒนาเว็บแอป และการจำลอง 3D
  • ในอีกด้านหนึ่ง ก็ยังมีความเห็นว่ายังไม่อาจก้าวข้ามความคิดสร้างสรรค์ของมนุษย์ได้

ความเห็นของ GN⁺

  • การมาของ Claude 3.5 Sonnet ถือเป็นจุดเปลี่ยนสำคัญที่ทำให้เทคโนโลยี AI แบบสนทนาก้าวหน้าไปมาก
  • ทั้งด้านความเร็วและต้นทุนได้รับการปรับปรุงอย่างมาก จึงมีแนวโน้มจะถูกนำไปใช้ได้กว้างขวางในหลายสาขา โดยเฉพาะการยกระดับผลิตภาพในงานวิศวกรรมซอฟต์แวร์
  • ฟีเจอร์ Artifacts แสดงให้เห็นศักยภาพในการพัฒนาจากการสนทนาอย่างเดียว ไปสู่เครื่องมือทำงานร่วมกันที่ใช้กับงานจริงได้ ในระยะยาวอาจพัฒนาไปเป็นระบบจัดการความรู้ขององค์กรได้ด้วย
  • ความพยายามของ Anthropic ในด้านความปลอดภัยและจริยธรรมนั้นน่าชื่นชม อย่างไรก็ตามยังไม่สมบูรณ์แบบและยังต้องมีการวิจัยกับการกำกับติดตามอย่างต่อเนื่อง
  • เมื่อการแข่งขันกับโมเดลขนาดใหญ่รายอื่นอย่าง GPT-4 เร่งตัวขึ้น ก็มีแนวโน้มว่าความก้าวหน้าของเทคโนโลยี AI จะยิ่งเร็วขึ้น และในระยะยาวก็ไม่อาจตัดความเป็นไปได้ของการพัฒนา AGI ระดับมนุษย์ทิ้งไปได้
  • โดยรวมแล้ว Claude 3.5 Sonnet นับว่าเหมาะสมกับการได้รับการประเมินว่าเป็น AI แบบสนทนาที่ดีที่สุดในเวลานี้ และจะมีส่วนสำคัญต่อการพลิกโฉมผลิตภาพของทั้งบุคคลและองค์กร แต่ก็เป็นช่วงเวลาที่ต้องเตรียมรับมือผลกระทบทางสังคมด้วย

1 ความคิดเห็น

 
GN⁺ 2024-06-28
ความเห็นจาก Hacker News
  • ฟีเจอร์โปรเจกต์: ฟีเจอร์โปรเจกต์ของ Anthropic มีประโยชน์ และดีที่สามารถทำหลายโปรเจกต์พร้อมกันได้ แต่หน้าต่างคอนเท็กซ์ของแต่ละโปรเจกต์อาจรู้สึกว่าเล็กไป หวังว่าจะได้เห็นหน้าต่างคอนเท็กซ์ที่ใหญ่ขึ้นในอนาคต

  • Claude 3.5 Sonnet: ความสามารถด้านการเขียนโค้ดของ Claude 3.5 Sonnet น่าประทับใจมาก ช่วยให้โปรแกรมเมอร์มืออาชีพทำงานได้เร็วขึ้น อย่างไรก็ตาม หากต้องการโค้ดคุณภาพสูง ก็ยังจำเป็นต้องมีคำสั่งที่ละเอียดและการประเมินผลลัพธ์

  • การทดลองเขียนโค้ด: ได้ทำการทดลองเขียนโค้ดร่วมกับ API ของ Anthropic และมากกว่า 95% ของโปรเจกต์ถูกเขียนโดย Claude ผลลัพธ์ที่ได้มีคุณภาพสูง

  • ความสม่ำเสมอของ Sonnet 3.5: Sonnet 3.5 มีความสม่ำเสมอที่ยอดเยี่ยม และให้คำตอบที่เสถียรกว่าโมเดลก่อนหน้า นี่ถือเป็นพัฒนาการครั้งใหญ่

  • การประเมินความสามารถด้านการเขียนโค้ด: ความสามารถด้านการเขียนโค้ดของ GPT-4 ยังไม่น่าพอใจ ความเร็วในการตอบลดลง จึงกำลังมองหาตัวเลือกอื่น

  • การเปรียบเทียบ AI: Claude ฟังดูเหมือนมนุษย์และเก่งในการตอบคำถามเกี่ยวกับข้อมูล ส่วน GPT-4 เด่นกว่าด้านการให้เหตุผลเชิงตรรกะ ราคาและความเร็วในการสร้างผลลัพธ์ใกล้เคียงกัน

  • กราฟเบนช์มาร์ก: ไม่เห็นด้วยกับคำกล่าวอ้างว่ากราฟเบนช์มาร์กกำลังเร่งตัวขึ้น จำเป็นต้องมีกราฟที่ละเอียดกว่านี้

  • การระงับบัญชี: บัญชีบน Anthropic Sonnet ถูกระงับหลังการตรวจสอบอัตโนมัติ ทำให้เอนเอียงไปชอบการสมัครใช้งาน OpenAI มากกว่า

  • เทคโนโลยีล้ำสมัย: สภาพแวดล้อมการพัฒนา AI ที่แข่งขันกันอย่างเข้มข้นในตอนนี้น่าสนใจมาก การได้สัมผัสยุคแบบนี้ด้วยตัวเองเป็นเรื่องที่สนุก

  • ฟีเจอร์สรุปของ AI: การที่ AI ช่วยสรุปตัวเลือกด้านดีไซน์ที่หลากหลายและเทคโนโลยีสแต็กใหม่ ๆ มีประโยชน์มาก และต้นทุนของการสนทนาพร้อมตัวอย่างโค้ดก็ไม่แพง

  • การยกระดับมาตรฐานของโมเดล ML: หากใช้ชุดข้อมูลเดียวกัน ก็จะได้โมเดลที่มีประสิทธิภาพใกล้เคียงกัน ข้อมูลอาจเป็นปัจจัยที่สร้างความแตกต่างของประสิทธิภาพโมเดลได้ เทคโนโลยี ML ยังคงมีพื้นฐานร่วมกันอยู่