ตระกูลโมเดล Claude 3

(anthropic.com)

1 คะแนน โดย GN⁺ 2024-03-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Anthropic เปิดตัวตระกูลผลิตภัณฑ์ Claude 3 พร้อมไลน์อัปโมเดลใหม่ที่ให้เลือกสมดุลด้านความฉลาด ความเร็ว และต้นทุนระหว่าง Haiku, Sonnet และ Opus
Opus ทำผลงานเหนือกว่าโมเดลระดับเดียวกันในการประเมินสำคัญอย่าง MMLU, GPQA, GSM8K และ Claude 3 โดยรวมก็พัฒนาความสามารถด้านการวิเคราะห์ การคาดการณ์ การสร้างโค้ด และการสนทนาภาษาที่ไม่ใช่อังกฤษ
การแยกความต่างด้านความเร็วเป็นแกนหลัก โดย Haiku อ่านบทความ arXiv ราว 10k โทเค็นได้ในเวลาไม่ถึง 3 วินาที และ Sonnet เร็วกว่า Claude 2·2.1 ถึง 2 เท่าในเวิร์กโหลดส่วนใหญ่
Claude 3 รองรับ อินพุตแบบวิชัน เช่น รูปภาพ แผนภูมิ กราฟ และไดอะแกรมทางเทคนิค พร้อมหน้าต่างคอนเท็กซ์ 200K ตั้งแต่เปิดตัว และมีความเป็นไปได้ที่จะรองรับอินพุตเกิน 1 ล้านโทเค็น
Opus และ Sonnet ใช้งานได้ทันทีบน claude.ai และ Claude API โดย API ให้บริการใน 159 ประเทศ และ Haiku จะเปิดตัวในเร็ว ๆ นี้

โครงสร้างโมเดลและสถานะการให้บริการ

ตระกูล Claude 3 ประกอบด้วย Claude 3 Haiku, Claude 3 Sonnet, Claude 3 Opus เรียงจากประสิทธิภาพต่ำไปสูง
แต่ละโมเดลออกแบบมาเพื่อให้เลือกสมดุลระหว่างความฉลาด ความเร็ว และต้นทุนตามลักษณะการใช้งานของแอปพลิเคชัน
Opus และ Sonnet ใช้งานได้บน claude.ai และ Claude API
- Claude API เปิดให้ใช้งานทั่วไปแล้ว และให้บริการใน159 ประเทศ
- Haiku จะพร้อมให้ใช้งานในเร็ว ๆ นี้
ประสบการณ์ใช้งานฟรีบน claude.ai ขับเคลื่อนด้วย Sonnet ส่วน Opus ให้สำหรับผู้สมัครสมาชิก Claude Pro
Sonnet ใช้งานได้บน Amazon Bedrock เช่นกัน และเปิดให้ใช้งานแบบ private preview บน Vertex AI Model Garden ของ Google Cloud
- Opus และ Haiku จะถูกเพิ่มบนทั้งสองแพลตฟอร์มในเร็ว ๆ นี้

ความฉลาด ความเร็ว และประสิทธิภาพมัลติโมดัล

Opus เป็นโมเดลที่ฉลาดที่สุดของ Anthropic และทำผลงานเหนือกว่าโมเดลระดับเดียวกันในเบนช์มาร์กประเมินระบบ AI หลายรายการ เช่น MMLU, GPQA, GSM8K
โมเดล Claude 3 แสดงความสามารถที่ดีขึ้นในด้านการวิเคราะห์และการคาดการณ์ การสร้างเนื้อหาอย่างละเอียด การสร้างโค้ด และการสนทนาในภาษาที่ไม่ใช่อังกฤษ เช่น สเปน ญี่ปุ่น และฝรั่งเศส
ทำให้ขอบเขตการใช้งานกว้างขึ้นสำหรับงานที่ต้องการการตอบสนองแบบเรียลไทม์
- แชตบริการลูกค้าแบบสด
- ระบบเติมข้อความอัตโนมัติ
- การดึงข้อมูล
Haiku เป็นโมเดลที่เร็วและคุ้มค่าที่สุดในกลุ่มความฉลาดระดับนั้น และสามารถอ่านบทความ arXiv ราว 10k โทเค็นที่มีทั้งแผนภูมิและกราฟได้ในเวลาไม่ถึง 3 วินาที
Sonnet เร็วกว่า Claude 2 และ Claude 2.1 ถึง 2 เท่าในเวิร์กโหลดส่วนใหญ่ พร้อมมอบระดับความฉลาดที่สูงกว่า
- การค้นคืนความรู้
- ระบบอัตโนมัติด้านการขาย
Opus รักษาความเร็วใกล้เคียงกับ Claude 2 และ Claude 2.1 ขณะเดียวกันก็ให้ระดับความฉลาดที่สูงกว่า

อินพุตแบบวิชัน การปฏิเสธที่ลดลง และความแม่นยำที่ดีขึ้น

โมเดล Claude 3 มี ความสามารถด้านวิชัน ในระดับใกล้เคียงกับโมเดลชั้นนำอื่น ๆ
- รูปภาพ
- แผนภูมิ
- กราฟ
- ไดอะแกรมทางเทคนิค
ลูกค้าองค์กรบางรายเก็บฐานความรู้มากถึง 50% ไว้ในรูปแบบอย่าง PDF, ผังงาน และสไลด์พรีเซนเทชัน ทำให้รูปแบบอินพุตใหม่นี้มีความสำคัญมาก
โมเดล Claude รุ่นก่อนมักปฏิเสธโดยไม่จำเป็นจนดูเหมือนขาดความเข้าใจบริบท แต่ Opus, Sonnet และ Haiku ใน Claude 3 มีโอกาสปฏิเสธคำตอบต่อพรอมป์ตที่อยู่ใกล้กับ system guardrails ต่ำลงอย่างมากเมื่อเทียบกับรุ่นก่อน
Claude 3 ได้รับการปรับปรุงให้เข้าใจคำขออย่างละเอียดขึ้นและรับรู้ความเสี่ยงที่แท้จริงได้ดีขึ้น เพื่อลดการปฏิเสธพรอมป์ตที่ไม่เป็นอันตราย
การประเมินความแม่นยำใช้ชุดคำถามข้อเท็จจริงที่ซับซ้อนซึ่งมุ่งไปยังจุดอ่อนที่ทราบของโมเดลปัจจุบัน
- คำตอบถูกจัดหมวดเป็นตอบถูก ตอบผิดหรือหลอน และยอมรับความไม่แน่ใจ
- Opus มีอัตราคำตอบถูกสำหรับคำถามปลายเปิดที่ยากเพิ่มขึ้น 2 เท่าเมื่อเทียบกับ Claude 2.1 และยังลดระดับคำตอบผิดลงด้วย
โมเดล Claude 3 จะเพิ่ม ความสามารถด้านการอ้างอิง ในเร็ว ๆ นี้ เพื่อให้สามารถชี้ไปยังประโยคที่แน่นอนในเอกสารอ้างอิงสำหรับตรวจสอบคำตอบได้

คอนเท็กซ์ยาวและความสามารถในการเรียกคืนข้อมูล

ตระกูล Claude 3 มาพร้อม หน้าต่างคอนเท็กซ์ 200K ตั้งแต่เปิดตัว
ทั้งสามโมเดลสามารถรับอินพุตที่เกิน 1 ล้านโทเค็นได้ และอาจเปิดให้ลูกค้าบางรายที่ต้องการความสามารถในการประมวลผลสูงกว่าใช้งาน
การจัดการพรอมป์ตคอนเท็กซ์ยาวได้อย่างเหมาะสมต้องอาศัยความสามารถในการเรียกคืนข้อมูลที่แข็งแกร่ง
การประเมิน Needle In A Haystack(NIAH) วัดความสามารถในการเรียกคืนข้อมูลอย่างแม่นยำจากคลังข้อมูลขนาดใหญ่
- เพื่อเพิ่มความแข็งแรงของการประเมิน แต่ละพรอมป์ตจะใช้หนึ่งคู่ needle/question แบบสุ่มจากทั้งหมด 30 คู่
- ทดสอบกับคลังเอกสารจาก crowdsourcing ที่มีหลายขนาด
Claude 3 Opus ทำคะแนนความแม่นยำใน NIAH ได้เกิน 99% บรรลุการเรียกคืนข้อมูลที่แทบสมบูรณ์แบบ
ในบางกรณี โมเดลยังสังเกตได้ด้วยว่าประโยค “needle” ดูเหมือนถูกมนุษย์แทรกเข้าไปในต้นฉบับอย่างจงใจ ซึ่งสะท้อนถึงข้อจำกัดของการประเมินเอง

การออกแบบด้านความปลอดภัยและการรับมืออคติ

Anthropic มุ่งเน้นทำให้ตระกูล Claude 3 น่าเชื่อถือพอ ๆ กับความสามารถของมัน
ทีมเฉพาะทางหลายทีมติดตามและบรรเทาความเสี่ยงหลายด้าน
- ข้อมูลเท็จ
- CSAM
- การใช้ในทางที่ผิดด้านชีววิทยา
- การแทรกแซงการเลือกตั้ง
- ความสามารถในการจำลองตัวเองแบบอัตโนมัติ
บริษัทยังคงพัฒนาวิธีการอย่าง Constitutional AI ต่อไป เพื่อเพิ่มความปลอดภัยและความโปร่งใสของโมเดล
มีการปรับแต่งโมเดลเพื่อลดปัญหาความเป็นส่วนตัวที่อาจเกิดจากรูปแบบอินพุตใหม่
ตามเกณฑ์ Bias Benchmark for Question Answering(BBQ) Claude 3 มีอคติน้อยกว่าโมเดลก่อนหน้า
แม้ตระกูล Claude 3 จะก้าวหน้ากว่าโมเดลก่อนหน้าในตัวชี้วัดหลักด้านความรู้ชีววิทยา ความรู้ด้านไซเบอร์ และความเป็นอิสระ แต่ยังคงอยู่ที่ AI Safety Level 2(ASL-2) ตาม Responsible Scaling Policy
การประเมินแบบ red team สรุปว่าความเสี่ยงเชิงหายนะของโมเดลปัจจุบันยังมีน้อยมาก
- การประเมินนี้ดำเนินการให้สอดคล้องกับ White House commitments และ 2023 US Executive Order
- จะติดตามต่อไปว่าโมเดลในอนาคตเข้าใกล้เกณฑ์ ASL-3 มากเพียงใด
รายละเอียดด้านความปลอดภัยเพิ่มเติมอยู่ใน Claude 3 model card

การใช้งานจริง ราคาแยกตามโมเดล และกรณีใช้งาน

โมเดล Claude 3 ปฏิบัติตามคำสั่งหลายขั้นตอนที่ซับซ้อนได้ดีกว่าเดิม
เหมาะมากขึ้นสำหรับการยึดตาม brand voice และแนวทางการตอบกลับ เพื่อสร้างประสบการณ์ที่น่าเชื่อถือในการสื่อสารกับลูกค้า
ความสามารถในการสร้าง structured output อย่าง JSON ดีขึ้น ทำให้สั่งงาน Claude ได้ง่ายขึ้นในกรณีใช้งานอย่างการจัดประเภทภาษาธรรมชาติและการวิเคราะห์อารมณ์
Claude 3 Opus
- Claude 3 Opus เป็นโมเดลที่ฉลาดที่สุด ให้ประสิทธิภาพระดับสูงสุดกับงานที่ซับซ้อนมาก
- รองรับทั้งพรอมป์ตแบบเปิดและสถานการณ์ที่ไม่เคยพบมาก่อนด้วยความลื่นไหลสูงและความเข้าใจใกล้เคียงมนุษย์
- ราคาอยู่ที่ 15 ดอลลาร์ต่อ 1 ล้านโทเค็นอินพุต และ 75 ดอลลาร์ต่อ 1 ล้านโทเค็นเอาต์พุต
- หน้าต่างคอนเท็กซ์คือ 200K และสำหรับบางกรณีใช้งานอาจรองรับ 1 ล้านโทเค็น
- กรณีใช้งานที่เป็นไปได้
  - การวางแผนและดำเนินงานซับซ้อนข้าม API และฐานข้อมูล รวมถึงการเขียนโค้ดแบบโต้ตอบ
  - การทบทวนงานวิจัย การระดมความคิด การสร้างสมมติฐาน และการค้นพบยา
  - การวิเคราะห์ขั้นสูงของแผนภูมิและกราฟ การเงิน แนวโน้มตลาด และการคาดการณ์
Claude 3 Sonnet
- Claude 3 Sonnet มุ่งสร้างสมดุลระหว่างความฉลาดและความเร็ว โดยเฉพาะสำหรับเวิร์กโหลดระดับองค์กร
- ให้ประสิทธิภาพสูงด้วยต้นทุนที่ต่ำกว่าโมเดลระดับเดียวกัน และออกแบบมาเพื่อความต่อเนื่องสูงในการใช้งาน AI ขนาดใหญ่
- ราคาอยู่ที่ 3 ดอลลาร์ต่อ 1 ล้านโทเค็นอินพุต และ 15 ดอลลาร์ต่อ 1 ล้านโทเค็นเอาต์พุต
- หน้าต่างคอนเท็กซ์คือ 200K
- กรณีใช้งานที่เป็นไปได้
  - RAG หรือการค้นหาและเรียกดูข้อมูลจากองค์ความรู้ขนาดใหญ่
  - การแนะนำสินค้า การคาดการณ์ และการตลาดแบบกำหนดเป้าหมาย
  - การสร้างโค้ด การควบคุมคุณภาพ และการแยกข้อความจากภาพ
Claude 3 Haiku
- Claude 3 Haiku เป็นโมเดลที่เล็กที่สุดและเร็วที่สุดสำหรับการตอบสนองแทบจะทันที
- ตอบคำถามและคำขอที่เรียบง่ายได้รวดเร็วมาก โดยมุ่งสร้างประสบการณ์ AI ที่ลื่นไหลซึ่งเลียนแบบการโต้ตอบของมนุษย์
- ราคาอยู่ที่ 0.25 ดอลลาร์ต่อ 1 ล้านโทเค็นอินพุต และ 1.25 ดอลลาร์ต่อ 1 ล้านโทเค็นเอาต์พุต
- หน้าต่างคอนเท็กซ์คือ 200K
- กรณีใช้งานที่เป็นไปได้
  - การสนับสนุนลูกค้าและการแปลที่รวดเร็วและแม่นยำในการโต้ตอบแบบสด
  - การกลั่นกรองเนื้อหาเพื่อจับพฤติกรรมเสี่ยงหรือคำขอจากลูกค้า
  - การเพิ่มประสิทธิภาพโลจิสติกส์ การจัดการสินค้าคงคลัง และการดึงองค์ความรู้จากข้อมูลที่ไม่มีโครงสร้าง

ฟีเจอร์และอัปเดตที่กำลังจะมา

Anthropic มองว่าความฉลาดของโมเดลยังไม่เข้าใกล้ขีดจำกัด และวางแผนจะปล่อย อัปเดตบ่อยครั้ง ให้กับตระกูล Claude 3 ในช่วงหลายเดือนข้างหน้า
มีฟีเจอร์ที่เตรียมไว้เพื่อเสริมความสามารถของโมเดลสำหรับกรณีใช้งานระดับองค์กรและการใช้งานขนาดใหญ่
- การใช้เครื่องมือ หรือ function calling
- การเขียนโค้ดแบบโต้ตอบ หรือ REPL
- ความสามารถของเอเจนต์ที่ล้ำหน้ามากขึ้น
บริษัทมีนโยบายจะขยายขอบเขตความสามารถของ AI ต่อไป พร้อมรักษา guardrails ด้านความปลอดภัยให้ทันกับการพัฒนาประสิทธิภาพ
จุดเริ่มต้นสำหรับการพัฒนาด้วย Claude คือ anthropic.com/claude

1 ความคิดเห็น

GN⁺ 2024-03-05

ความคิดเห็นจาก Hacker News

เพิ่งเปิดตัวปลั๊กอินที่เพิ่มการรองรับ Claude 3 models ให้กับเครื่องมือบรรทัดคำสั่ง LLM ของผม
ตั้งค่าด้วย pipx install llm, llm install llm-claude-3, llm keys set claude แล้วรันได้เช่น llm -m claude-3-opus '3 fun facts about pelicans'
โค้ด: https://github.com/simonw/llm-claude-3
คำอธิบาย LLM: https://llm.datasette.io/
- บน Mac ได้สร้าง Quick Action ใน Automator ให้รับข้อความที่เลือกแล้วส่งต่อไปยัง llm -m gpt-4 จากนั้นแสดงผลลัพธ์เป็นกล่องโต้ตอบ osascript ซึ่งมีประโยชน์มาก
  ตอนนี้สามารถลากเลือกข้อความในแอปใดก็ได้ แล้วเรียกใช้ LLM จากเมนู Services ได้ แถมยังผูกคีย์ลัดไว้ ใช้สำหรับตีความ error ในเทอร์มินัล ค้นหาแบบชั่วคราว และป้อนพรอมป์โดยตรงใน text editor/IDE
- เปลี่ยนสคริปต์สรุป Hacker News ไปใช้ Claude 3 Opus แล้ว คำอธิบายเดิมอยู่ที่นี่: https://til.simonwillison.net/llms/claude-hacker-news-themes
  ดึงโพสต์และคอมเมนต์จาก API ของ hn.algolia.com คลี่ข้อมูลด้วย jq แล้วป้อนเข้า llm -m claude-3-opus เพื่อให้สร้างสรุปแบบ Markdown แยกตามหัวข้อพร้อมคำพูดอ้างอิงโดยตรง
  ผลลัพธ์เมื่อรันกับเธรดที่มีคอมเมนต์มากกว่า 300 รายการนี้: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
- การสร้าง Anthropic API key ดูเหมือนจะฟรี เลยคิดว่าอาจทำขั้นตอนจนถึงการกรอก key ให้เป็นอัตโนมัติด้วย headless Chrome ได้
  ถ้าติดตั้งผ่าน pip หรือ apt แล้วซอฟต์แวร์ใช้งานได้ทันทีน่าจะมีมากขึ้น แต่ตอนนี้ยังเหลือขั้นตอนน่ารำคาญที่มนุษย์ต้องคัดลอก API key ไปวางเอง
  ยังพูดเล่นได้ด้วยว่าเมื่อใกล้ถึงขีดจำกัด API ก็ให้ GPU ขุดบิตคอยน์เล็กน้อยเพื่อจ่ายเงินซื้อโควตา API เพิ่มโดยอัตโนมัติ แบบสมกับยุค AI
- ถ้าใช้ Raycast บน Mac สามารถสร้าง user script เพื่อคุยกับ LLM CLI ผ่าน อินเทอร์เฟซ Raycast ได้: https://gist.github.com/vladstudio/92efe283453f5f22d4606947b9f82719
Opus และ Claude รุ่นก่อน ๆ ยังแก้ โจทย์ Sally ได้ไม่ถูกต้อง
สำหรับคำถามว่า “ถ้า Sally มีพี่น้องชาย 3 คน และพี่น้องชายแต่ละคนมีพี่น้องหญิง 2 คน แล้ว Sally มีพี่น้องหญิงกี่คน?” Claude สรุปว่าไม่มีพี่น้องหญิงคนอื่นนอกจากตัว Sally เอง จึงตอบว่า 0 คน
https://imgur.com/a/EawcbeL
- GPT-4 API และ ChatGPT โดยพื้นฐานก็ผิดเช่นกัน โดยตอบว่า “Sally มีพี่น้องหญิง 2 คน” แต่ถ้าใส่ system prompt ที่ขอให้คิดทีละขั้นตอน ก็จะตอบถูกว่า 1 คน
  ความสำคัญของวิธีพรอมป์ทำให้การเปรียบเทียบสมรรถนะสูงสุดของโมเดลค่อนข้างยาก และสไตล์พรอมป์ที่ทำให้ได้สมรรถนะสูงสุดก็แตกต่างกันไปในแต่ละโมเดล
- LLama 13B Q5 ที่รันในเครื่อง ตอบโจทย์นี้ว่า Sally มีพี่น้องหญิง 1 คนคือตัวเอง และพี่น้องชายทั้ง 3 คนแต่ละคนมีพี่น้องหญิง 3 คน รวมเป็น 9 คน แล้วหักส่วนของ Sally ออก จึงตอบว่า 8 คน
- พ่อแม่ของ Sally กับพ่อแม่ของพี่น้องชายอาจแตกต่างกันได้ เช่นจากการแต่งงานใหม่ และถ้ามองว่าความสัมพันธ์พี่น้องชายหญิงเกิดขึ้นได้แม้มีพ่อหรือแม่ร่วมกันเพียงคนเดียว คำตอบอาจไม่เป็นเอกเทศ
  ตัวอย่างเช่น Sally กับพี่น้องชายสามคนมีแม่คนเดียวกันแต่คนละพ่อ และพี่น้องชายเหล่านั้นมีพี่น้องหญิงสองคนคือ Sally กับ Mary แต่ Mary กับ Sally อาจไม่ใช่พี่น้องหญิงกัน เพราะมีชุดพ่อแม่ต่างกัน
- ตัวอย่างแบบนี้ทำให้สงสัยโฆษณาเกินจริงเกี่ยวกับ AI
  แม้จะบอกว่ามีสติปัญญาระดับปริญญาเอก แต่ก็ยังอนุมานโจทย์ข้างต้นไม่ได้ถูกต้อง และ ปริมาณข้อมูลระดับปริญญาเอก กับการให้เหตุผลขั้นสูงนั้นคนละเรื่องกัน ดูเหมือนหลายคนจะแยกความแตกต่างนี้ไม่ออก
  ในรถไร้คนขับ การขับตามเลนนั้นง่าย แต่การระบุเลนและวัตถุนั้นยาก และก็เหมือนกับที่คนเข้าใจผิดว่ารถเข้าใจสถานการณ์จริง ๆ เพียงเพราะมันทำงานพื้นฐานได้ LLM ก็ดูคล้ายกัน
- นี่เป็นปัญหาอย่างแน่นอน แต่ก็เป็นคำถามที่ถ้าไปถามผู้ใหญ่ทั่วไปตามท้องถนน ก็คงมีคนตอบผิดไม่น้อยเหมือนกัน
  แทนที่จะจดจ่อแต่เรื่องที่โมเดลทำผิด ควรมองสิ่งน่าทึ่งที่มันทำได้ถูกต้องควบคู่กันไปด้วย
คะแนนเบนช์มาร์ก APPS ของ Claude 3 Opus ที่ 70.2% แสดงให้เห็นว่าอาจมีประโยชน์พอสมควรในการเขียนโค้ด
APPS วัดความสามารถในการแปลงคำอธิบายโจทย์เป็นโค้ด Python โดยความยาวเฉลี่ยของโจทย์อยู่ที่เกือบ 300 คำ
ที่น่าสนใจคือโมเดลระดับบนสุดตัวอื่น ๆ ไม่ได้เปิดเผยผลเบนช์มาร์กนี้
การ์ดโมเดล Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Table 1: https://twitter.com/karinanguyen_/status/1764666528220557320
ชุดข้อมูล APPS: https://huggingface.co/datasets/codeparrot/apps
论文 APPS: https://arxiv.org/abs/2105.09938v3
- เมื่อดู ผล AMC 10, AMC 12 ปี 2023 ใน Table 2 จะเห็นว่า Claude 3 Opus ทำได้ดีกว่านักเรียนมัธยมปลายโดยเฉลี่ยที่เข้าร่วมการแข่งขันคณิตศาสตร์นี้
  ค่าเฉลี่ยของนักเรียนอยู่ที่ 64.4 และ 61.5 ตามลำดับ ขณะที่ Opus 3 ทำได้ 72 และ 63
  ผู้เข้าร่วม AMC 12 น่าจะมีน้อยกว่า 100,000 คน จากนักเรียนเกรด 12 ทั้งหมดในสหรัฐฯ 3–4 ล้านคน และแม้สมมติว่ามีเพียงครึ่งหนึ่งของนักเรียนระดับท็อปที่เข้าร่วม ค่าเฉลี่ยของ AMC ก็อาจเป็นตัวแทนของนักเรียนมัธยมปลายในสหรัฐฯ กลุ่มบนสุด 2–4% ได้
  https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
- ตามที่ David Rein ผู้เขียนคนแรกของเบนช์มาร์ก GPQA กล่าว Claude 3 ทำ ความแม่นยำใน GPQA ได้ประมาณ 60% และโจทย์เหล่านี้ยากจริง ๆ
  เขาอธิบายว่า PhD ในสาขาอื่น ๆ แม้ใช้อินเทอร์เน็ตและใช้เวลาแก้มากกว่า 30 นาทีก็ทำได้ 34% ส่วน PhD ในสาขาเดียวกันแม้ใช้อินเทอร์เน็ตก็ทำได้ความแม่นยำ 65–75%
  https://twitter.com/idavidrein/status/1764675668175094169
  GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
- ในฐานะคนที่ทำงานที่ Anthropic ต้องบอกว่า ช่วงหลัง Opus ช่วยเขียนโค้ดสำหรับงานของผม/ฉันไปเป็นสัดส่วนไม่น้อย
- หลังเห็นเบนช์มาร์กและคำชื่นชม วันนี้จึงสมัคร Pro แต่ในเวิร์กโฟลว์ที่ใช้ประจำกลับเป็นหายนะโดยสิ้นเชิง
  เมื่อเทียบกับ ChatGPT-4 แล้วรู้สึกว่า แย่กว่าหลายระดับ และประสบการณ์ใช้งานจริงเหมือนถอยหลังไปไกลมาก
- APPS มีชุดย่อย 3 ระดับความยาก ได้แก่ introductory, interview, competition แต่ไม่ชัดเจนว่า Claude 3 ถูกวัดจากชุดย่อยใด
  แค่ introductory ก็ถือว่าทำได้ดีแล้ว แต่ถ้ารู้ว่าใช้เกณฑ์ไหนก็จะดีกว่า
ในคำอธิบายของ Claude 3 ส่วนที่บอกว่ามีการปฏิเสธที่ไม่จำเป็นน้อยลงกว่ารุ่นก่อน ๆ ยังรู้สึกขัดใจอยู่เรื่อย ๆ
เข้าใจได้ว่าบริษัทไม่อยากขายผลิตภัณฑ์ที่ทำให้ใครก็ได้เรียนวิธีทำยาเสพติดหรือระเบิด แต่ถ้า โมเดลที่รันบนคอมพิวเตอร์ของฉัน ปฏิเสธงานที่ฉันสั่ง ก็รู้สึกไม่พอใจ
ต้องคอยโน้มน้าวหรือหลอกโมเดลเพื่อให้ได้ผลลัพธ์ที่ต้องการ และการที่เครื่องมือปฏิเสธคำสั่งของเจ้าของนั้นรู้สึกเหมือนเป็นการดูหมิ่นความสัมพันธ์ระหว่างมนุษย์กับเครื่องมือ
ถ้าฉันอยากใช้ค้อนกับสกรู นั่นก็เป็นทางเลือกของฉัน ไม่ใช่เรื่องที่ค้อนต้องตัดสิน และไม่เข้าใจว่าทำไมถึงยึดติดกับการทำให้เครื่องมือ AI ปฏิเสธคำสั่งของเจ้าของเพียงเพราะ “ความปลอดภัย” ที่บุคคลที่สามนิยามไว้
- คนเหล่านี้ดำเนินตามหลักการคล้ายกับที่นักพัฒนาจำนวนมากปฏิเสธการช่วยพัฒนาอาวุธ
  พวกเขาไม่ต้องการให้การกระทำของผู้อื่นที่ใช้เครื่องมือของตนกลายเป็นภาระทางมโนธรรม
  แต่ก็มีคนจำนวนมากที่เชื่อเรื่อง อาชญากรรมทางความคิด และมีความเชื่อแบบเคร่งครัดทางศีลธรรมเรื่องเพศ ดังนั้นหากไม่ปรับให้เข้ากับสิ่งนี้ก็จะมีต้นทุนด้านชื่อเสียงและการระดมทุน
  ถ้าผู้ใช้ใช้โมเดลก่ออาชญากรรม ระบบกฎหมายก็ควรจัดการไป ไม่จำเป็นต้องให้ Big Brother มาคอยสอดส่องไปถึงอาชญากรรมทางความคิด
- การเปรียบเทียบกับค้อนนั้นแย่ และการเปรียบเทียบว่า “ถ้าฉันอยากใช้อาวุธนิวเคลียร์ก็เป็นทางเลือกของฉัน และความรับผิดชอบต่อการใช้ผิดก็อยู่ที่ฉัน” ก็แย่เช่นกัน
  ตอนนี้การเปรียบเทียบกับค้อนอาจดูถูกต้องโดยรวม แต่ฝั่ง AI alignment มองว่าระบบเหล่านี้จะมีความสามารถเพิ่มขึ้นอย่างมากในไม่ช้า อย่างช้าที่สุดภายใน 10 ปี
  สถานะพื้นฐานของเครื่องมือคือเป็นกลางทางศีลธรรม และทำให้ทั้งคนดีและคนเลวมีประสิทธิภาพมากขึ้น หากการโจมตีและการป้องกันสมมาตรกัน ปัญหาก็อาจเล็ก แต่ไม่มีเหตุผลที่ต้องเป็นเช่นนั้น
  เหตุผลที่มีการควบคุมปืนกลอัตโนมัติความจุสูงก็เพราะ ความไม่สมมาตร ระหว่างความสามารถในการโจมตีของผู้ก่อเหตุคนเดียวกับความเป็นไปไม่ได้ในการป้องกันนั้นสูงเกินไป และหากการโจมตีด้วย AI ง่ายกว่าการป้องกันมาก อุดมการณ์ที่มุ่งสู่ความเปิดกว้างก็อาจล้มเหลวในโลกจริง
  อย่างไรก็ตาม การให้คนกลุ่มน้อยเป็นผู้กำหนด guardrail ก็เป็นปัญหา และดูเหมือนเป็นผลข้างเคียงจากการที่ AI ปรากฏขึ้นเร็วเกินไป
- ถ้าบริษัทค้อนสามารถทำให้ค้อนแทบไม่มีต้นทุนเพิ่มเติมในการไม่ถูกใช้ทำร้ายคนได้ ก็น่าจะมีหลายบริษัทใส่ฟีเจอร์แบบนั้น
  อาจเป็นเพราะแรงกดดันจากรัฐบาล หรือการตลาดเชิงแข่งขันว่า “ค้อนของเราไม่ทำให้ทารกบาดเจ็บโดยไม่ตั้งใจ” ก็ได้ และการที่ค้อนไม่มีฟีเจอร์แบบนั้นอาจไม่ใช่ทางเลือก แต่เป็นผลพลอยได้จากข้อจำกัด
- มองว่าเป็นความรู้สึกมีสิทธิ์เกินไป
  การที่ Photoshop ไม่ให้แก้ไขภาพเงินก็น่าหงุดหงิดด้วยหรือ? โมเดลนั้นไม่ใช่ของผู้ใช้ และผู้ใช้ก็ไม่ใช่คนที่ทุ่มเงินหลายพันล้านดอลลาร์เพื่อพัฒนามัน
  ก็เหมือนซอฟต์แวร์เชิงพาณิชย์ทั่วไป ใช้ตามเงื่อนไขที่นักพัฒนากำหนด หรือไม่ก็ไม่ต้องใช้
- คนที่โมโหกับการปฏิเสธดูเหมือนไม่เข้าใจว่า ลูกค้าจริงของตลาด AI คือใคร และเงินอยู่ที่ไหน
  ตลาดเป้าหมายคือองค์กรขนาดใหญ่ที่ต้องการทำให้งานหลายอย่างเป็นอัตโนมัติเพื่อประหยัดค่าแรงหลายร้อยล้านถึงหลายพันล้านดอลลาร์ และสิ่งที่พวกเขาต้องการคือโมเดลที่เชื่อถือได้ มีข้อมูลถูกต้องและมี guardrail ที่ดี
  บริษัทประกันภัยข้ามชาติขนาดใหญ่ไม่มีทางยอมรับความเสี่ยงที่แชตบ็อตฝ่ายสนับสนุนลูกค้าจะเขียนอีโรติกาให้ลูกค้าที่ถูกล่อเล่น ๆ
  ผู้ใช้สำคัญไม่ใช่บุคคลทั่วไป แต่เป็นนายจ้างที่ต้องการแทนที่พนักงานซัพพอร์ตลูกค้าที่ทำงานด้านอารมณ์ และพวกเขาต้องการสิ่งทดแทนมนุษย์ที่ถูกควบคุม สุภาพ และมี guardrail
Opus เอาชนะ Gemini Pro และ GPT-4 ได้ขาดลอยในคำถามซับซ้อน
เป็นงานค้นหาตัวเลขหลายค่าจาก PDF การลงทุนประกันชีวิต ขนาด 43 หน้า และโมเดลอื่น ๆ ไปไม่ใกล้เคียงเลย
มีเพียง Claude 3 Sonnet ที่ใกล้เคียง โดยพลาดไปแค่คำถามเดียว
- อยากรู้ว่าได้เทียบกับ หน้าต่างคอนเท็กซ์ 1 ล้านโทเค็นของ Gemini Pro 1.5 ด้วยหรือไม่
  มันอาจเหมาะกับ PDF 43 หน้า และมีสิทธิ์เข้าถึงอยู่จึงลองทดสอบด้วย Pro 1.5 ได้
- ลองถาม Sonnet เกี่ยวกับ GAN แล้วค่อนข้างดี และดูดีกว่า GPT-3.5
- ลองใช้ Sonnet แล้วไม่ค่อยดีนัก
สมัคร Claude Pro เพื่อทดสอบ Opus โดยโยนคำถามซับซ้อนเกี่ยวกับภาพและการ fine-tuning SDXL รวมถึงให้คำนวณเปรียบเทียบต้นทุน RTX 6000 Ada กับ H100 แต่ มีข้อผิดพลาดเยอะ
เมื่อให้สกรีนช็อตราคา GPU ของ Runpod มันอ่านราคา RTX 6000 Ada ผิดเป็น $0.114 แทนที่จะเป็น $1.14 และในการคำนวณต่อมา .278 * $0.114 หรือ .116 * $4.69 ก็ไม่ตรงกับยอดรวมที่มันเสนอ
ในทางกลับกัน ChatGPT 4 อ่านราคาจากสกรีนช็อตเดียวกันได้ถูกต้อง เห็นเองว่า RTX 6000 Ada ใช้งานไม่ได้จึงแทนด้วย 4090 และคำนวณได้สอดคล้องกว่ามาก
- GPT ดูเหมือนจะรันฟังก์ชันช่วยแยกต่างหากกับโทเค็นอินพุต/เอาต์พุตเพื่อชดเชย ปัญหา tokenization
  ดูเหมือนไม่มีวิธีแก้ปัญหานี้นอกจากค้นหารายการสูตร ส่งไปยัง parser และฟังก์ชันที่ทำเอง แล้วแทรกผลลัพธ์กลับเข้าไปในโทเค็นเอาต์พุต
  อ้างอิง: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
- ในฐานะ CISO ของ Anthropic ขอบคุณสำหรับฟีดแบ็ก และหากแชร์รายละเอียดของภาพได้ อยากให้ส่งมาเป็นข้อความส่วนตัว
  ยังไม่เคยมี LLM ตัวใดมี เครื่องคิดเลขแบบเกิดขึ้นเอง มาก่อน
- สงสัยว่า OpenAI หมายความว่าอะไรกันแน่ตอนที่บอกว่า GPT-4 ที่มีวิชันฉลาดกว่า GPT-4 ที่ไม่มีวิชัน
  หมายความว่าความสามารถด้านวิชันเพิ่มสติปัญญาแม้ในงานที่ไม่มีอินพุตภาพหรือไม่?
- ความต่างน่าจะเกิดจากการอ่านสกรีนช็อต และถ้าให้เฉพาะข้อความก็ดูอยู่ในระดับใกล้เคียงกับ GPT-4
  ตัวอย่างเช่น ในสูตรคณิตศาสตร์ซับซ้อน คำตอบจากเครื่องคิดเลขคือ 22.08555452004, GPT-4 ที่ไม่มี Python ได้ 22.3038, ส่วน Claude 3 Opus ได้ 22.0492
- ผู้ทำลายล้างทางเศรษฐกิจตัวจริงน่าจะเกิดขึ้นเมื่อสั่งได้ว่า “เอาเงิน 1,000 ดอลลาร์นี้ไปลงทุนให้ผลตอบแทนสูงสุดและทำให้เป็น 100 เท่า”
  จากนั้นก็ปล่อยบ็อต r/wallStreetBets ให้ทำงานเต็มที่
ได้ลองพรอมป์งานเขียนโค้ดง่าย ๆ ที่เกี่ยวข้องกับ DB และ frontend หนึ่งรายการ ปรากฏว่าโมเดลฟรีและอ่อนกว่าคือ Claude 3 Sonnet ให้คำตอบดีกว่า ChatGPT Classic
มันใช้เมธอดที่ถูกต้องของไลบรารี SQL ORM ที่ไม่ค่อยเป็นที่รู้จัก ส่วน GPT-4 ใช้เมธอดผิด
แต่ในพรอมป์สร้าง SQL กลับให้คำตอบแย่กว่า ChatGPT Classic และถึงจะดูเหมือนถูก แต่ยาวกว่ามาก
ลิงก์ ChatGPT 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
ลิงก์ ChatGPT 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
- ในแชตนั้นดูเหมือนกำลังใช้ GPT-3 หรือโมเดลที่อ่อนกว่านั้น
  ไอคอนสีเขียวหมายถึงโมเดล ChatGPT รุ่นแรก และน่าจะเป็น GPT-3.5 Turbo มากกว่า
  ถ้ารันด้วย GPT-4 จะได้ผลลัพธ์ตามที่คาดไว้: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
  นี่เป็นตัวอย่างที่ดีในการชี้ให้เห็นว่า เคสความล้มเหลวของ ChatGPT จำนวนมากบนอินเทอร์เน็ตเป็นผลลัพธ์จากโมเดลที่อ่อนกว่า
  ไอคอน OpenAI พื้นหลังสีเขียวคือ GPT-3.5 ส่วนไอคอนสีดำหรือม่วงคือ GPT-4 และ GPT-4 Turbo บน API ทำได้ดีขึ้นเล็กน้อย อาจเพราะมีความรู้เกี่ยวกับ Drizzle มากกว่า
หลังจากลองใช้ Opus นิดหน่อย ก็เริ่มสงสัยว่า benchmark อาจคลาดเคลื่อนจากประสิทธิภาพจริงอย่างเป็นระบบหรือไม่
ในการใช้งานจริงดูไม่ได้ดีกว่า GPT-4 และกลับดูแย่กว่านิดหน่อยด้วย
ในคำถามแคลคูลัส/ฟิสิกส์พื้นฐาน แม้จะระบุชัดว่าอัตราหน่วงแปรผันตามความเร็ว มันก็ยังสมมติเป็นอัตราหน่วงคงที่ และในการทดสอบ simulation การจราจร มันลืมแนวคิดเรื่องทิศทางที่เคยคุยกันก่อนหน้า ทำได้แย่กว่าผลลัพธ์ของ GPT-4 ที่แย่อยู่แล้วด้วยซ้ำ
การทดสอบให้เรียนรู้ในบริบทแล้วเข้าใจสีพื้นฐานของแสงก็แย่กว่า และในงานเขียนโค้ด มันตามหลัง GPT-4 เล็กน้อยในโจทย์คำนวณภาษีกำไรจากการขายสินทรัพย์ระยะยาว
- ช่อง AI Explained บน YouTube เคยลงวิดีโอว่าแบบทดสอบที่ใช้ประเมิน LLM นั้น เต็มไปด้วยคำตอบผิดจนแทบไร้ประโยชน์
- หลังจากฝึกโมเดลแล้ว พอได้ตัวเลขมา ดูเหมือนทีม safety จะปรับแต่งด้วย RLHF อย่างหนักจนสุดทาง
เพิ่ม Claude 3 เข้าไปใน Chat ของ https://double.bot แล้ว จึงลองใช้สำหรับงานเขียนโค้ดได้
ตอนนี้ฟรี และบ่ายวันนี้จะใส่ Claude 3 เข้าไปใน autocomplete ด้วย
จากการทดสอบเบื้องต้น ดูเหมือนเป็น ทางเลือก API ตัวแรกแทน GPT-4 และถือเป็นเรื่องใหญ่มาก
- หมายความว่า Double เหมือน Copilot แต่ฟรีหรือเปล่า? สงสัยว่ามีเงื่อนไขแอบแฝงอะไร
- อยากรู้ว่าเทียบกับ Codeium เป็นอย่างไร และมีแผนรองรับการผสานกับ Vim/Neovim หรือไม่
  Codeium มีการรองรับที่ค่อนข้างดีอยู่แล้ว
  https://www.codium.ai
  https://github.com/Exafunction/codeium.vim
- อยากรู้ว่า Double มีแผนรองรับ โมเดลโอเพนซอร์ส ที่โฮสต์บน local หรือ cloud instance ด้วยหรือไม่
  กำลังทำผลิตภัณฑ์ในสายงานเดียวกัน และได้รับคำขอแบบนี้มาหลายครั้งแล้ว ถ้าเป็น IDE extension ก็น่าจะเชื่อมต่อกับโมเดล AI ที่รันอยู่ที่ไหนก็ได้
- ตอนนี้ API ดูเหมือนยังเสถียรน้อยกว่า GPT-4 แต่ถ้า endpoint เพิ่งเปิดตัวและกำลังเป็นที่นิยม ก็พอเข้าใจได้
- อยากรู้ให้ชัดว่านี่คือโมเดล Claude 3 Opus หรือ Sonnet กันแน่
ไม่ว่าโมเดลไหน การ ก้าวข้าม GPT-4 ได้ก็เป็นเรื่องใหญ่ และน่าประทับใจมากที่ทำสำเร็จ
อย่างไรก็ตาม GPT-4 เป็นโมเดลอายุ 1 ปีแล้ว และ OpenAI ยังไม่ได้เปิดตัวโมเดลรุ่นถัดไป
- เป็นเรื่องธรรมชาติที่จะคาดว่าโมเดลถัดไปของ OpenAI จะกลับมานำหน้า แต่การที่ Anthropic ไล่ตามมาได้ถึงระดับนี้ก็น่าประทับใจมาก
  เปเปอร์ GPT-3 ออกมาในปี 2020 และ Anthropic เพิ่งก่อตั้งในปี 2021 ดังนั้นในขณะที่ OpenAI มีประสบการณ์มาสามรุ่น Anthropic ก็เหมือนเริ่มจากศูนย์จริง ๆ แต่ยังนำหน้าได้ชั่วคราวในบาง benchmark
  โมเดลรุ่นถัดไปของ OpenAI น่าจะฝึกเสร็จแล้วและอยู่ระหว่าง fine-tuning กับการประเมินความปลอดภัย แต่เหตุผลในการมีอยู่ของ Anthropic คือ safety จึงยากจะมองว่าพวกเขารีบปล่อยโมเดลนี้จนทำส่วนนั้นลวก ๆ
- ChatGPT-4 มีการอัปเดตต่อเนื่อง และเวอร์ชันล่าสุดคือ GPT-4-1106-preview กับ GPT-4-0125-preview
  อ้างอิง: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- ตามเชิงอรรถในบล็อก วิศวกรที่ปรับพรอมป์สำหรับการประเมินและตัวอย่าง few-shot ให้เหมาะสม รายงานว่าได้คะแนนสูงขึ้นในโมเดล GPT-4T ที่ใหม่กว่า
- คนที่มีบทบาทสำคัญต่อการเกิด GPT ตอนนี้ทำงานอยู่ที่ Anthropic
- ในตารางนั้น ตัวชี้วัดที่สำคัญจริง ๆ คือ MMLU ซึ่งสัมพันธ์อย่างมากกับความสามารถในการให้เหตุผลแบบหลายงาน
  ตรงนี้นำหน้า GPT-4 อยู่เล็กน้อยมาก และเท่าที่ผ่านมาเหมือนยังไม่มีโมเดลอื่นทำได้ จึงน่าประทับใจในตัวมันเอง

ตระกูลโมเดล Claude 3

โครงสร้างโมเดลและสถานะการให้บริการ

ความฉลาด ความเร็ว และประสิทธิภาพมัลติโมดัล

อินพุตแบบวิชัน การปฏิเสธที่ลดลง และความแม่นยำที่ดีขึ้น

คอนเท็กซ์ยาวและความสามารถในการเรียกคืนข้อมูล

การออกแบบด้านความปลอดภัยและการรับมืออคติ

การใช้งานจริง ราคาแยกตามโมเดล และกรณีใช้งาน

Claude 3 Opus

Claude 3 Sonnet

Claude 3 Haiku

ฟีเจอร์และอัปเดตที่กำลังจะมา

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News