- Claude 3.5 Sonnet เป็นโมเดลที่ยอดเยี่ยมที่สุดในสาย AI แบบสนทนา ณ เวลานี้
- Claude 3.5 Sonnet ใช้งานได้ฟรีบน Claude.ai และแอป Claude บน iOS หากต้องการโควตาการใช้งานที่สูงขึ้นก็สามารถสมัครสมาชิกได้
- มีการสรุปเนื้อหาโดยพยายามคงโครงสร้างเอกสารเดิมไว้มากที่สุด และจัดระเบียบอย่างเรียบร้อยด้วย Markdown
- มีความเร็วมากกว่า Claude Opus 2 เท่า และมีค่าใช้จ่ายต่ำกว่า
- เพิ่มฟีเจอร์ Artifacts ใหม่ ทำให้สามารถดูและแก้ไขโค้ด เอกสาร การออกแบบเว็บไซต์ และอื่น ๆ แบบเรียลไทม์ในหน้าต่างแยกได้
- OpenAI, Google DeepMind และ Anthropic ต่างกำลังพัฒนาโมเดลขนาดใหญ่ประสิทธิภาพสูง แต่ตอนนี้แนวโน้มคือมุ่งเน้นโมเดลที่เร็วกว่า ถูกกว่า และยังคงให้ประสิทธิภาพยอดเยี่ยม
ผลลัพธ์เบนช์มาร์กและการประเมิน
- ทำผลงานได้เหนือกว่าโมเดลเดิมในหลายเบนช์มาร์ก โดยเฉพาะ GPQA ที่ครองอันดับ 1 แบบทิ้งห่าง
- ในการประเมินการเขียนโค้ดแบบใช้งานได้จริงด้วย Artifacts สามารถแก้ปัญหาได้ 64% เหนือกว่าโมเดลก่อนหน้า (38%) อย่างมาก
- ในการประเมินโดยผู้เชี่ยวชาญจากหลากหลายสาขา เช่น กฎหมาย การเงิน และปรัชญา ก็ทำอัตราชนะได้สูงที่ 82% ~ 73%
- ความสามารถด้านการรับรู้ภาพก็ดีขึ้นเช่นกัน และถูกออกแบบให้จำกัดฟีเจอร์จดจำใบหน้าผ่านพรอมป์ต์เพิ่มเติม
ฟีเจอร์ Artifacts ใหม่
- ฟีเจอร์ Artifacts ช่วยให้สร้างและแก้ไขโค้ด เอกสาร และงานออกแบบเว็บแบบเรียลไทม์ได้ในหน้าต่างข้างแชต
- ถูกมองว่าเป็นก้าวแรกของการพัฒนาจาก AI แบบสนทนาไปสู่สภาพแวดล้อมการทำงานร่วมกัน
- คาดว่าในอนาคตจะรองรับการทำงานเป็นทีม และพัฒนาไปเป็นเครื่องมือจัดการความรู้ระดับองค์กร
การทบทวนด้านความปลอดภัยและจริยธรรม
- Claude 3.5 Sonnet ยังคงอยู่ในระดับ ASL-2 จึงยังไม่มีความสามารถที่น่ากังวล
- สถาบันความปลอดภัย AI แห่งสหราชอาณาจักร (UK AISI) ได้ทำการประเมินด้านความปลอดภัยก่อนเปิดตัว
- ในด้านอัตราการปฏิเสธคำขอ ก็แสดงให้เห็นถึงการปรับปรุงเมื่อเทียบกับโมเดลก่อนหน้า
- ยังคงยึดหลักการไม่ใช้ข้อมูลผู้ใช้ไปฝึกโมเดล
- มีท่าทีระมัดระวังต่อการพัฒนาเทคโนโลยีระดับ frontier แต่ยังไม่มีคำมั่นสัญญาที่ชัดเจน
ผลกระทบต่อวิศวกรรมซอฟต์แวร์
- Claude 3.5 Sonnet ช่วยยกระดับงานเขียนโค้ดของวิศวกรได้อย่างมาก ทั้งแก้ปัญหาที่ติดขัดให้อัตโนมัติและช่วยจัดทำเอกสารให้ด้วย
- อัตราการผ่านการทดสอบ pull request ดีขึ้นอย่างมากจาก Opus 38% เป็น Sonnet 64%
- ภายใน Anthropic เอง ทั้งผู้ที่ไม่ได้จบสายนี้และวิศวกรที่มีประสบการณ์ต่างก็ใช้ Claude เพื่อประหยัดเวลาได้อย่างมาก
- คาดว่าจะช่วยลดเวลาการทำงานของวิศวกรลงอย่างมาก และทำให้ทุกคนเขียนโค้ดได้ง่ายขึ้น
- แนวโน้มการเพิ่มผลิตภาพงานวิศวกรรมด้วยเทคโนโลยี AI จะยิ่งเร่งตัวขึ้น
ข้อจำกัดของโมเดล
- ยังพลาดในปริศนาหรือเกมชื่อดังบางอย่างอยู่ แต่ก็สามารถแก้ได้เมื่อให้ข้อมูลบริบทเพิ่มเติม
- อาจยังเปราะบางต่อการหลอกลวงหรือการโจมตีที่ซับซ้อน
- ดูเหมือนจะมุ่งเน้นการยกระดับความสามารถในการให้เหตุผลโดยรวม มากกว่าการยึดติดกับปัญหาเฉพาะด้าน
- ยังเป็นเพียงระดับการใช้ประโยชน์จากความรู้ที่มนุษย์สร้างขึ้น และยังคงมีข้อจำกัดพื้นฐานอยู่
ปฏิกิริยาจากผู้ใช้
- แสดงประสิทธิภาพที่น่าทึ่งในสาขาเฉพาะทาง เช่น ฟิสิกส์ เคมี และวิศวกรรมเครื่องกล
- มีกรณีใช้งาน Artifacts ออกมามากมาย เช่น การสร้างภาพ SVG การพัฒนาเว็บแอป และการจำลอง 3D
- ในอีกด้านหนึ่ง ก็ยังมีความเห็นว่ายังไม่อาจก้าวข้ามความคิดสร้างสรรค์ของมนุษย์ได้
ความเห็นของ GN⁺
- การมาของ Claude 3.5 Sonnet ถือเป็นจุดเปลี่ยนสำคัญที่ทำให้เทคโนโลยี AI แบบสนทนาก้าวหน้าไปมาก
- ทั้งด้านความเร็วและต้นทุนได้รับการปรับปรุงอย่างมาก จึงมีแนวโน้มจะถูกนำไปใช้ได้กว้างขวางในหลายสาขา โดยเฉพาะการยกระดับผลิตภาพในงานวิศวกรรมซอฟต์แวร์
- ฟีเจอร์ Artifacts แสดงให้เห็นศักยภาพในการพัฒนาจากการสนทนาอย่างเดียว ไปสู่เครื่องมือทำงานร่วมกันที่ใช้กับงานจริงได้ ในระยะยาวอาจพัฒนาไปเป็นระบบจัดการความรู้ขององค์กรได้ด้วย
- ความพยายามของ Anthropic ในด้านความปลอดภัยและจริยธรรมนั้นน่าชื่นชม อย่างไรก็ตามยังไม่สมบูรณ์แบบและยังต้องมีการวิจัยกับการกำกับติดตามอย่างต่อเนื่อง
- เมื่อการแข่งขันกับโมเดลขนาดใหญ่รายอื่นอย่าง GPT-4 เร่งตัวขึ้น ก็มีแนวโน้มว่าความก้าวหน้าของเทคโนโลยี AI จะยิ่งเร็วขึ้น และในระยะยาวก็ไม่อาจตัดความเป็นไปได้ของการพัฒนา AGI ระดับมนุษย์ทิ้งไปได้
- โดยรวมแล้ว Claude 3.5 Sonnet นับว่าเหมาะสมกับการได้รับการประเมินว่าเป็น AI แบบสนทนาที่ดีที่สุดในเวลานี้ และจะมีส่วนสำคัญต่อการพลิกโฉมผลิตภาพของทั้งบุคคลและองค์กร แต่ก็เป็นช่วงเวลาที่ต้องเตรียมรับมือผลกระทบทางสังคมด้วย
1 ความคิดเห็น
ความเห็นจาก Hacker News
ฟีเจอร์โปรเจกต์: ฟีเจอร์โปรเจกต์ของ Anthropic มีประโยชน์ และดีที่สามารถทำหลายโปรเจกต์พร้อมกันได้ แต่หน้าต่างคอนเท็กซ์ของแต่ละโปรเจกต์อาจรู้สึกว่าเล็กไป หวังว่าจะได้เห็นหน้าต่างคอนเท็กซ์ที่ใหญ่ขึ้นในอนาคต
Claude 3.5 Sonnet: ความสามารถด้านการเขียนโค้ดของ Claude 3.5 Sonnet น่าประทับใจมาก ช่วยให้โปรแกรมเมอร์มืออาชีพทำงานได้เร็วขึ้น อย่างไรก็ตาม หากต้องการโค้ดคุณภาพสูง ก็ยังจำเป็นต้องมีคำสั่งที่ละเอียดและการประเมินผลลัพธ์
การทดลองเขียนโค้ด: ได้ทำการทดลองเขียนโค้ดร่วมกับ API ของ Anthropic และมากกว่า 95% ของโปรเจกต์ถูกเขียนโดย Claude ผลลัพธ์ที่ได้มีคุณภาพสูง
ความสม่ำเสมอของ Sonnet 3.5: Sonnet 3.5 มีความสม่ำเสมอที่ยอดเยี่ยม และให้คำตอบที่เสถียรกว่าโมเดลก่อนหน้า นี่ถือเป็นพัฒนาการครั้งใหญ่
การประเมินความสามารถด้านการเขียนโค้ด: ความสามารถด้านการเขียนโค้ดของ GPT-4 ยังไม่น่าพอใจ ความเร็วในการตอบลดลง จึงกำลังมองหาตัวเลือกอื่น
การเปรียบเทียบ AI: Claude ฟังดูเหมือนมนุษย์และเก่งในการตอบคำถามเกี่ยวกับข้อมูล ส่วน GPT-4 เด่นกว่าด้านการให้เหตุผลเชิงตรรกะ ราคาและความเร็วในการสร้างผลลัพธ์ใกล้เคียงกัน
กราฟเบนช์มาร์ก: ไม่เห็นด้วยกับคำกล่าวอ้างว่ากราฟเบนช์มาร์กกำลังเร่งตัวขึ้น จำเป็นต้องมีกราฟที่ละเอียดกว่านี้
การระงับบัญชี: บัญชีบน Anthropic Sonnet ถูกระงับหลังการตรวจสอบอัตโนมัติ ทำให้เอนเอียงไปชอบการสมัครใช้งาน OpenAI มากกว่า
เทคโนโลยีล้ำสมัย: สภาพแวดล้อมการพัฒนา AI ที่แข่งขันกันอย่างเข้มข้นในตอนนี้น่าสนใจมาก การได้สัมผัสยุคแบบนี้ด้วยตัวเองเป็นเรื่องที่สนุก
ฟีเจอร์สรุปของ AI: การที่ AI ช่วยสรุปตัวเลือกด้านดีไซน์ที่หลากหลายและเทคโนโลยีสแต็กใหม่ ๆ มีประโยชน์มาก และต้นทุนของการสนทนาพร้อมตัวอย่างโค้ดก็ไม่แพง
การยกระดับมาตรฐานของโมเดล ML: หากใช้ชุดข้อมูลเดียวกัน ก็จะได้โมเดลที่มีประสิทธิภาพใกล้เคียงกัน ข้อมูลอาจเป็นปัจจัยที่สร้างความแตกต่างของประสิทธิภาพโมเดลได้ เทคโนโลยี ML ยังคงมีพื้นฐานร่วมกันอยู่