ตระกูลโมเดล Claude 3
(anthropic.com)- Anthropic เปิดตัวตระกูลผลิตภัณฑ์ Claude 3 พร้อมไลน์อัปโมเดลใหม่ที่ให้เลือกสมดุลด้านความฉลาด ความเร็ว และต้นทุนระหว่าง Haiku, Sonnet และ Opus
- Opus ทำผลงานเหนือกว่าโมเดลระดับเดียวกันในการประเมินสำคัญอย่าง MMLU, GPQA, GSM8K และ Claude 3 โดยรวมก็พัฒนาความสามารถด้านการวิเคราะห์ การคาดการณ์ การสร้างโค้ด และการสนทนาภาษาที่ไม่ใช่อังกฤษ
- การแยกความต่างด้านความเร็วเป็นแกนหลัก โดย Haiku อ่านบทความ arXiv ราว 10k โทเค็นได้ในเวลาไม่ถึง 3 วินาที และ Sonnet เร็วกว่า Claude 2·2.1 ถึง 2 เท่าในเวิร์กโหลดส่วนใหญ่
- Claude 3 รองรับ อินพุตแบบวิชัน เช่น รูปภาพ แผนภูมิ กราฟ และไดอะแกรมทางเทคนิค พร้อมหน้าต่างคอนเท็กซ์ 200K ตั้งแต่เปิดตัว และมีความเป็นไปได้ที่จะรองรับอินพุตเกิน 1 ล้านโทเค็น
- Opus และ Sonnet ใช้งานได้ทันทีบน claude.ai และ Claude API โดย API ให้บริการใน 159 ประเทศ และ Haiku จะเปิดตัวในเร็ว ๆ นี้
โครงสร้างโมเดลและสถานะการให้บริการ
- ตระกูล Claude 3 ประกอบด้วย Claude 3 Haiku, Claude 3 Sonnet, Claude 3 Opus เรียงจากประสิทธิภาพต่ำไปสูง
- แต่ละโมเดลออกแบบมาเพื่อให้เลือกสมดุลระหว่างความฉลาด ความเร็ว และต้นทุนตามลักษณะการใช้งานของแอปพลิเคชัน
- Opus และ Sonnet ใช้งานได้บน claude.ai และ Claude API
- Claude API เปิดให้ใช้งานทั่วไปแล้ว และให้บริการใน159 ประเทศ
- Haiku จะพร้อมให้ใช้งานในเร็ว ๆ นี้
- ประสบการณ์ใช้งานฟรีบน claude.ai ขับเคลื่อนด้วย Sonnet ส่วน Opus ให้สำหรับผู้สมัครสมาชิก Claude Pro
- Sonnet ใช้งานได้บน Amazon Bedrock เช่นกัน และเปิดให้ใช้งานแบบ private preview บน Vertex AI Model Garden ของ Google Cloud
- Opus และ Haiku จะถูกเพิ่มบนทั้งสองแพลตฟอร์มในเร็ว ๆ นี้
ความฉลาด ความเร็ว และประสิทธิภาพมัลติโมดัล
- Opus เป็นโมเดลที่ฉลาดที่สุดของ Anthropic และทำผลงานเหนือกว่าโมเดลระดับเดียวกันในเบนช์มาร์กประเมินระบบ AI หลายรายการ เช่น MMLU, GPQA, GSM8K
- โมเดล Claude 3 แสดงความสามารถที่ดีขึ้นในด้านการวิเคราะห์และการคาดการณ์ การสร้างเนื้อหาอย่างละเอียด การสร้างโค้ด และการสนทนาในภาษาที่ไม่ใช่อังกฤษ เช่น สเปน ญี่ปุ่น และฝรั่งเศส
- ทำให้ขอบเขตการใช้งานกว้างขึ้นสำหรับงานที่ต้องการการตอบสนองแบบเรียลไทม์
- แชตบริการลูกค้าแบบสด
- ระบบเติมข้อความอัตโนมัติ
- การดึงข้อมูล
- Haiku เป็นโมเดลที่เร็วและคุ้มค่าที่สุดในกลุ่มความฉลาดระดับนั้น และสามารถอ่านบทความ arXiv ราว 10k โทเค็นที่มีทั้งแผนภูมิและกราฟได้ในเวลาไม่ถึง 3 วินาที
- Sonnet เร็วกว่า Claude 2 และ Claude 2.1 ถึง 2 เท่าในเวิร์กโหลดส่วนใหญ่ พร้อมมอบระดับความฉลาดที่สูงกว่า
- การค้นคืนความรู้
- ระบบอัตโนมัติด้านการขาย
- Opus รักษาความเร็วใกล้เคียงกับ Claude 2 และ Claude 2.1 ขณะเดียวกันก็ให้ระดับความฉลาดที่สูงกว่า
อินพุตแบบวิชัน การปฏิเสธที่ลดลง และความแม่นยำที่ดีขึ้น
- โมเดล Claude 3 มี ความสามารถด้านวิชัน ในระดับใกล้เคียงกับโมเดลชั้นนำอื่น ๆ
- รูปภาพ
- แผนภูมิ
- กราฟ
- ไดอะแกรมทางเทคนิค
- ลูกค้าองค์กรบางรายเก็บฐานความรู้มากถึง 50% ไว้ในรูปแบบอย่าง PDF, ผังงาน และสไลด์พรีเซนเทชัน ทำให้รูปแบบอินพุตใหม่นี้มีความสำคัญมาก
- โมเดล Claude รุ่นก่อนมักปฏิเสธโดยไม่จำเป็นจนดูเหมือนขาดความเข้าใจบริบท แต่ Opus, Sonnet และ Haiku ใน Claude 3 มีโอกาสปฏิเสธคำตอบต่อพรอมป์ตที่อยู่ใกล้กับ system guardrails ต่ำลงอย่างมากเมื่อเทียบกับรุ่นก่อน
- Claude 3 ได้รับการปรับปรุงให้เข้าใจคำขออย่างละเอียดขึ้นและรับรู้ความเสี่ยงที่แท้จริงได้ดีขึ้น เพื่อลดการปฏิเสธพรอมป์ตที่ไม่เป็นอันตราย
- การประเมินความแม่นยำใช้ชุดคำถามข้อเท็จจริงที่ซับซ้อนซึ่งมุ่งไปยังจุดอ่อนที่ทราบของโมเดลปัจจุบัน
- คำตอบถูกจัดหมวดเป็นตอบถูก ตอบผิดหรือหลอน และยอมรับความไม่แน่ใจ
- Opus มีอัตราคำตอบถูกสำหรับคำถามปลายเปิดที่ยากเพิ่มขึ้น 2 เท่าเมื่อเทียบกับ Claude 2.1 และยังลดระดับคำตอบผิดลงด้วย
- โมเดล Claude 3 จะเพิ่ม ความสามารถด้านการอ้างอิง ในเร็ว ๆ นี้ เพื่อให้สามารถชี้ไปยังประโยคที่แน่นอนในเอกสารอ้างอิงสำหรับตรวจสอบคำตอบได้
คอนเท็กซ์ยาวและความสามารถในการเรียกคืนข้อมูล
- ตระกูล Claude 3 มาพร้อม หน้าต่างคอนเท็กซ์ 200K ตั้งแต่เปิดตัว
- ทั้งสามโมเดลสามารถรับอินพุตที่เกิน 1 ล้านโทเค็นได้ และอาจเปิดให้ลูกค้าบางรายที่ต้องการความสามารถในการประมวลผลสูงกว่าใช้งาน
- การจัดการพรอมป์ตคอนเท็กซ์ยาวได้อย่างเหมาะสมต้องอาศัยความสามารถในการเรียกคืนข้อมูลที่แข็งแกร่ง
- การประเมิน Needle In A Haystack(NIAH) วัดความสามารถในการเรียกคืนข้อมูลอย่างแม่นยำจากคลังข้อมูลขนาดใหญ่
- เพื่อเพิ่มความแข็งแรงของการประเมิน แต่ละพรอมป์ตจะใช้หนึ่งคู่ needle/question แบบสุ่มจากทั้งหมด 30 คู่
- ทดสอบกับคลังเอกสารจาก crowdsourcing ที่มีหลายขนาด
- Claude 3 Opus ทำคะแนนความแม่นยำใน NIAH ได้เกิน 99% บรรลุการเรียกคืนข้อมูลที่แทบสมบูรณ์แบบ
- ในบางกรณี โมเดลยังสังเกตได้ด้วยว่าประโยค “needle” ดูเหมือนถูกมนุษย์แทรกเข้าไปในต้นฉบับอย่างจงใจ ซึ่งสะท้อนถึงข้อจำกัดของการประเมินเอง
การออกแบบด้านความปลอดภัยและการรับมืออคติ
- Anthropic มุ่งเน้นทำให้ตระกูล Claude 3 น่าเชื่อถือพอ ๆ กับความสามารถของมัน
- ทีมเฉพาะทางหลายทีมติดตามและบรรเทาความเสี่ยงหลายด้าน
- ข้อมูลเท็จ
- CSAM
- การใช้ในทางที่ผิดด้านชีววิทยา
- การแทรกแซงการเลือกตั้ง
- ความสามารถในการจำลองตัวเองแบบอัตโนมัติ
- บริษัทยังคงพัฒนาวิธีการอย่าง Constitutional AI ต่อไป เพื่อเพิ่มความปลอดภัยและความโปร่งใสของโมเดล
- มีการปรับแต่งโมเดลเพื่อลดปัญหาความเป็นส่วนตัวที่อาจเกิดจากรูปแบบอินพุตใหม่
- ตามเกณฑ์ Bias Benchmark for Question Answering(BBQ) Claude 3 มีอคติน้อยกว่าโมเดลก่อนหน้า
- แม้ตระกูล Claude 3 จะก้าวหน้ากว่าโมเดลก่อนหน้าในตัวชี้วัดหลักด้านความรู้ชีววิทยา ความรู้ด้านไซเบอร์ และความเป็นอิสระ แต่ยังคงอยู่ที่ AI Safety Level 2(ASL-2) ตาม Responsible Scaling Policy
- การประเมินแบบ red team สรุปว่าความเสี่ยงเชิงหายนะของโมเดลปัจจุบันยังมีน้อยมาก
- การประเมินนี้ดำเนินการให้สอดคล้องกับ White House commitments และ 2023 US Executive Order
- จะติดตามต่อไปว่าโมเดลในอนาคตเข้าใกล้เกณฑ์ ASL-3 มากเพียงใด
- รายละเอียดด้านความปลอดภัยเพิ่มเติมอยู่ใน Claude 3 model card
การใช้งานจริง ราคาแยกตามโมเดล และกรณีใช้งาน
- โมเดล Claude 3 ปฏิบัติตามคำสั่งหลายขั้นตอนที่ซับซ้อนได้ดีกว่าเดิม
- เหมาะมากขึ้นสำหรับการยึดตาม brand voice และแนวทางการตอบกลับ เพื่อสร้างประสบการณ์ที่น่าเชื่อถือในการสื่อสารกับลูกค้า
- ความสามารถในการสร้าง structured output อย่าง JSON ดีขึ้น ทำให้สั่งงาน Claude ได้ง่ายขึ้นในกรณีใช้งานอย่างการจัดประเภทภาษาธรรมชาติและการวิเคราะห์อารมณ์
-
Claude 3 Opus
- Claude 3 Opus เป็นโมเดลที่ฉลาดที่สุด ให้ประสิทธิภาพระดับสูงสุดกับงานที่ซับซ้อนมาก
- รองรับทั้งพรอมป์ตแบบเปิดและสถานการณ์ที่ไม่เคยพบมาก่อนด้วยความลื่นไหลสูงและความเข้าใจใกล้เคียงมนุษย์
- ราคาอยู่ที่ 15 ดอลลาร์ต่อ 1 ล้านโทเค็นอินพุต และ 75 ดอลลาร์ต่อ 1 ล้านโทเค็นเอาต์พุต
- หน้าต่างคอนเท็กซ์คือ 200K และสำหรับบางกรณีใช้งานอาจรองรับ 1 ล้านโทเค็น
- กรณีใช้งานที่เป็นไปได้
- การวางแผนและดำเนินงานซับซ้อนข้าม API และฐานข้อมูล รวมถึงการเขียนโค้ดแบบโต้ตอบ
- การทบทวนงานวิจัย การระดมความคิด การสร้างสมมติฐาน และการค้นพบยา
- การวิเคราะห์ขั้นสูงของแผนภูมิและกราฟ การเงิน แนวโน้มตลาด และการคาดการณ์
-
Claude 3 Sonnet
- Claude 3 Sonnet มุ่งสร้างสมดุลระหว่างความฉลาดและความเร็ว โดยเฉพาะสำหรับเวิร์กโหลดระดับองค์กร
- ให้ประสิทธิภาพสูงด้วยต้นทุนที่ต่ำกว่าโมเดลระดับเดียวกัน และออกแบบมาเพื่อความต่อเนื่องสูงในการใช้งาน AI ขนาดใหญ่
- ราคาอยู่ที่ 3 ดอลลาร์ต่อ 1 ล้านโทเค็นอินพุต และ 15 ดอลลาร์ต่อ 1 ล้านโทเค็นเอาต์พุต
- หน้าต่างคอนเท็กซ์คือ 200K
- กรณีใช้งานที่เป็นไปได้
- RAG หรือการค้นหาและเรียกดูข้อมูลจากองค์ความรู้ขนาดใหญ่
- การแนะนำสินค้า การคาดการณ์ และการตลาดแบบกำหนดเป้าหมาย
- การสร้างโค้ด การควบคุมคุณภาพ และการแยกข้อความจากภาพ
-
Claude 3 Haiku
- Claude 3 Haiku เป็นโมเดลที่เล็กที่สุดและเร็วที่สุดสำหรับการตอบสนองแทบจะทันที
- ตอบคำถามและคำขอที่เรียบง่ายได้รวดเร็วมาก โดยมุ่งสร้างประสบการณ์ AI ที่ลื่นไหลซึ่งเลียนแบบการโต้ตอบของมนุษย์
- ราคาอยู่ที่ 0.25 ดอลลาร์ต่อ 1 ล้านโทเค็นอินพุต และ 1.25 ดอลลาร์ต่อ 1 ล้านโทเค็นเอาต์พุต
- หน้าต่างคอนเท็กซ์คือ 200K
- กรณีใช้งานที่เป็นไปได้
- การสนับสนุนลูกค้าและการแปลที่รวดเร็วและแม่นยำในการโต้ตอบแบบสด
- การกลั่นกรองเนื้อหาเพื่อจับพฤติกรรมเสี่ยงหรือคำขอจากลูกค้า
- การเพิ่มประสิทธิภาพโลจิสติกส์ การจัดการสินค้าคงคลัง และการดึงองค์ความรู้จากข้อมูลที่ไม่มีโครงสร้าง
ฟีเจอร์และอัปเดตที่กำลังจะมา
- Anthropic มองว่าความฉลาดของโมเดลยังไม่เข้าใกล้ขีดจำกัด และวางแผนจะปล่อย อัปเดตบ่อยครั้ง ให้กับตระกูล Claude 3 ในช่วงหลายเดือนข้างหน้า
- มีฟีเจอร์ที่เตรียมไว้เพื่อเสริมความสามารถของโมเดลสำหรับกรณีใช้งานระดับองค์กรและการใช้งานขนาดใหญ่
- การใช้เครื่องมือ หรือ function calling
- การเขียนโค้ดแบบโต้ตอบ หรือ REPL
- ความสามารถของเอเจนต์ที่ล้ำหน้ามากขึ้น
- บริษัทมีนโยบายจะขยายขอบเขตความสามารถของ AI ต่อไป พร้อมรักษา guardrails ด้านความปลอดภัยให้ทันกับการพัฒนาประสิทธิภาพ
- จุดเริ่มต้นสำหรับการพัฒนาด้วย Claude คือ anthropic.com/claude
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
เพิ่งเปิดตัวปลั๊กอินที่เพิ่มการรองรับ Claude 3 models ให้กับเครื่องมือบรรทัดคำสั่ง LLM ของผม
ตั้งค่าด้วย
pipx install llm,llm install llm-claude-3,llm keys set claudeแล้วรันได้เช่นllm -m claude-3-opus '3 fun facts about pelicans'โค้ด: https://github.com/simonw/llm-claude-3
คำอธิบาย LLM: https://llm.datasette.io/
llm -m gpt-4จากนั้นแสดงผลลัพธ์เป็นกล่องโต้ตอบosascriptซึ่งมีประโยชน์มากตอนนี้สามารถลากเลือกข้อความในแอปใดก็ได้ แล้วเรียกใช้
LLMจากเมนู Services ได้ แถมยังผูกคีย์ลัดไว้ ใช้สำหรับตีความ error ในเทอร์มินัล ค้นหาแบบชั่วคราว และป้อนพรอมป์โดยตรงใน text editor/IDEดึงโพสต์และคอมเมนต์จาก API ของ
hn.algolia.comคลี่ข้อมูลด้วยjqแล้วป้อนเข้าllm -m claude-3-opusเพื่อให้สร้างสรุปแบบ Markdown แยกตามหัวข้อพร้อมคำพูดอ้างอิงโดยตรงผลลัพธ์เมื่อรันกับเธรดที่มีคอมเมนต์มากกว่า 300 รายการนี้: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
ถ้าติดตั้งผ่าน
pipหรือaptแล้วซอฟต์แวร์ใช้งานได้ทันทีน่าจะมีมากขึ้น แต่ตอนนี้ยังเหลือขั้นตอนน่ารำคาญที่มนุษย์ต้องคัดลอก API key ไปวางเองยังพูดเล่นได้ด้วยว่าเมื่อใกล้ถึงขีดจำกัด API ก็ให้ GPU ขุดบิตคอยน์เล็กน้อยเพื่อจ่ายเงินซื้อโควตา API เพิ่มโดยอัตโนมัติ แบบสมกับยุค AI
Opus และ Claude รุ่นก่อน ๆ ยังแก้ โจทย์ Sally ได้ไม่ถูกต้อง
สำหรับคำถามว่า “ถ้า Sally มีพี่น้องชาย 3 คน และพี่น้องชายแต่ละคนมีพี่น้องหญิง 2 คน แล้ว Sally มีพี่น้องหญิงกี่คน?” Claude สรุปว่าไม่มีพี่น้องหญิงคนอื่นนอกจากตัว Sally เอง จึงตอบว่า 0 คน
https://imgur.com/a/EawcbeL
ความสำคัญของวิธีพรอมป์ทำให้การเปรียบเทียบสมรรถนะสูงสุดของโมเดลค่อนข้างยาก และสไตล์พรอมป์ที่ทำให้ได้สมรรถนะสูงสุดก็แตกต่างกันไปในแต่ละโมเดล
ตัวอย่างเช่น Sally กับพี่น้องชายสามคนมีแม่คนเดียวกันแต่คนละพ่อ และพี่น้องชายเหล่านั้นมีพี่น้องหญิงสองคนคือ Sally กับ Mary แต่ Mary กับ Sally อาจไม่ใช่พี่น้องหญิงกัน เพราะมีชุดพ่อแม่ต่างกัน
แม้จะบอกว่ามีสติปัญญาระดับปริญญาเอก แต่ก็ยังอนุมานโจทย์ข้างต้นไม่ได้ถูกต้อง และ ปริมาณข้อมูลระดับปริญญาเอก กับการให้เหตุผลขั้นสูงนั้นคนละเรื่องกัน ดูเหมือนหลายคนจะแยกความแตกต่างนี้ไม่ออก
ในรถไร้คนขับ การขับตามเลนนั้นง่าย แต่การระบุเลนและวัตถุนั้นยาก และก็เหมือนกับที่คนเข้าใจผิดว่ารถเข้าใจสถานการณ์จริง ๆ เพียงเพราะมันทำงานพื้นฐานได้ LLM ก็ดูคล้ายกัน
แทนที่จะจดจ่อแต่เรื่องที่โมเดลทำผิด ควรมองสิ่งน่าทึ่งที่มันทำได้ถูกต้องควบคู่กันไปด้วย
คะแนนเบนช์มาร์ก APPS ของ Claude 3 Opus ที่ 70.2% แสดงให้เห็นว่าอาจมีประโยชน์พอสมควรในการเขียนโค้ด
APPS วัดความสามารถในการแปลงคำอธิบายโจทย์เป็นโค้ด Python โดยความยาวเฉลี่ยของโจทย์อยู่ที่เกือบ 300 คำ
ที่น่าสนใจคือโมเดลระดับบนสุดตัวอื่น ๆ ไม่ได้เปิดเผยผลเบนช์มาร์กนี้
การ์ดโมเดล Claude 3: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
Table 1: https://twitter.com/karinanguyen_/status/1764666528220557320
ชุดข้อมูล APPS: https://huggingface.co/datasets/codeparrot/apps
论文 APPS: https://arxiv.org/abs/2105.09938v3
ค่าเฉลี่ยของนักเรียนอยู่ที่ 64.4 และ 61.5 ตามลำดับ ขณะที่ Opus 3 ทำได้ 72 และ 63
ผู้เข้าร่วม AMC 12 น่าจะมีน้อยกว่า 100,000 คน จากนักเรียนเกรด 12 ทั้งหมดในสหรัฐฯ 3–4 ล้านคน และแม้สมมติว่ามีเพียงครึ่งหนึ่งของนักเรียนระดับท็อปที่เข้าร่วม ค่าเฉลี่ยของ AMC ก็อาจเป็นตัวแทนของนักเรียนมัธยมปลายในสหรัฐฯ กลุ่มบนสุด 2–4% ได้
https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
เขาอธิบายว่า PhD ในสาขาอื่น ๆ แม้ใช้อินเทอร์เน็ตและใช้เวลาแก้มากกว่า 30 นาทีก็ทำได้ 34% ส่วน PhD ในสาขาเดียวกันแม้ใช้อินเทอร์เน็ตก็ทำได้ความแม่นยำ 65–75%
https://twitter.com/idavidrein/status/1764675668175094169
GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
เมื่อเทียบกับ ChatGPT-4 แล้วรู้สึกว่า แย่กว่าหลายระดับ และประสบการณ์ใช้งานจริงเหมือนถอยหลังไปไกลมาก
แค่ introductory ก็ถือว่าทำได้ดีแล้ว แต่ถ้ารู้ว่าใช้เกณฑ์ไหนก็จะดีกว่า
ในคำอธิบายของ Claude 3 ส่วนที่บอกว่ามีการปฏิเสธที่ไม่จำเป็นน้อยลงกว่ารุ่นก่อน ๆ ยังรู้สึกขัดใจอยู่เรื่อย ๆ
เข้าใจได้ว่าบริษัทไม่อยากขายผลิตภัณฑ์ที่ทำให้ใครก็ได้เรียนวิธีทำยาเสพติดหรือระเบิด แต่ถ้า โมเดลที่รันบนคอมพิวเตอร์ของฉัน ปฏิเสธงานที่ฉันสั่ง ก็รู้สึกไม่พอใจ
ต้องคอยโน้มน้าวหรือหลอกโมเดลเพื่อให้ได้ผลลัพธ์ที่ต้องการ และการที่เครื่องมือปฏิเสธคำสั่งของเจ้าของนั้นรู้สึกเหมือนเป็นการดูหมิ่นความสัมพันธ์ระหว่างมนุษย์กับเครื่องมือ
ถ้าฉันอยากใช้ค้อนกับสกรู นั่นก็เป็นทางเลือกของฉัน ไม่ใช่เรื่องที่ค้อนต้องตัดสิน และไม่เข้าใจว่าทำไมถึงยึดติดกับการทำให้เครื่องมือ AI ปฏิเสธคำสั่งของเจ้าของเพียงเพราะ “ความปลอดภัย” ที่บุคคลที่สามนิยามไว้
พวกเขาไม่ต้องการให้การกระทำของผู้อื่นที่ใช้เครื่องมือของตนกลายเป็นภาระทางมโนธรรม
แต่ก็มีคนจำนวนมากที่เชื่อเรื่อง อาชญากรรมทางความคิด และมีความเชื่อแบบเคร่งครัดทางศีลธรรมเรื่องเพศ ดังนั้นหากไม่ปรับให้เข้ากับสิ่งนี้ก็จะมีต้นทุนด้านชื่อเสียงและการระดมทุน
ถ้าผู้ใช้ใช้โมเดลก่ออาชญากรรม ระบบกฎหมายก็ควรจัดการไป ไม่จำเป็นต้องให้ Big Brother มาคอยสอดส่องไปถึงอาชญากรรมทางความคิด
ตอนนี้การเปรียบเทียบกับค้อนอาจดูถูกต้องโดยรวม แต่ฝั่ง AI alignment มองว่าระบบเหล่านี้จะมีความสามารถเพิ่มขึ้นอย่างมากในไม่ช้า อย่างช้าที่สุดภายใน 10 ปี
สถานะพื้นฐานของเครื่องมือคือเป็นกลางทางศีลธรรม และทำให้ทั้งคนดีและคนเลวมีประสิทธิภาพมากขึ้น หากการโจมตีและการป้องกันสมมาตรกัน ปัญหาก็อาจเล็ก แต่ไม่มีเหตุผลที่ต้องเป็นเช่นนั้น
เหตุผลที่มีการควบคุมปืนกลอัตโนมัติความจุสูงก็เพราะ ความไม่สมมาตร ระหว่างความสามารถในการโจมตีของผู้ก่อเหตุคนเดียวกับความเป็นไปไม่ได้ในการป้องกันนั้นสูงเกินไป และหากการโจมตีด้วย AI ง่ายกว่าการป้องกันมาก อุดมการณ์ที่มุ่งสู่ความเปิดกว้างก็อาจล้มเหลวในโลกจริง
อย่างไรก็ตาม การให้คนกลุ่มน้อยเป็นผู้กำหนด guardrail ก็เป็นปัญหา และดูเหมือนเป็นผลข้างเคียงจากการที่ AI ปรากฏขึ้นเร็วเกินไป
อาจเป็นเพราะแรงกดดันจากรัฐบาล หรือการตลาดเชิงแข่งขันว่า “ค้อนของเราไม่ทำให้ทารกบาดเจ็บโดยไม่ตั้งใจ” ก็ได้ และการที่ค้อนไม่มีฟีเจอร์แบบนั้นอาจไม่ใช่ทางเลือก แต่เป็นผลพลอยได้จากข้อจำกัด
การที่ Photoshop ไม่ให้แก้ไขภาพเงินก็น่าหงุดหงิดด้วยหรือ? โมเดลนั้นไม่ใช่ของผู้ใช้ และผู้ใช้ก็ไม่ใช่คนที่ทุ่มเงินหลายพันล้านดอลลาร์เพื่อพัฒนามัน
ก็เหมือนซอฟต์แวร์เชิงพาณิชย์ทั่วไป ใช้ตามเงื่อนไขที่นักพัฒนากำหนด หรือไม่ก็ไม่ต้องใช้
ตลาดเป้าหมายคือองค์กรขนาดใหญ่ที่ต้องการทำให้งานหลายอย่างเป็นอัตโนมัติเพื่อประหยัดค่าแรงหลายร้อยล้านถึงหลายพันล้านดอลลาร์ และสิ่งที่พวกเขาต้องการคือโมเดลที่เชื่อถือได้ มีข้อมูลถูกต้องและมี guardrail ที่ดี
บริษัทประกันภัยข้ามชาติขนาดใหญ่ไม่มีทางยอมรับความเสี่ยงที่แชตบ็อตฝ่ายสนับสนุนลูกค้าจะเขียนอีโรติกาให้ลูกค้าที่ถูกล่อเล่น ๆ
ผู้ใช้สำคัญไม่ใช่บุคคลทั่วไป แต่เป็นนายจ้างที่ต้องการแทนที่พนักงานซัพพอร์ตลูกค้าที่ทำงานด้านอารมณ์ และพวกเขาต้องการสิ่งทดแทนมนุษย์ที่ถูกควบคุม สุภาพ และมี guardrail
Opus เอาชนะ Gemini Pro และ GPT-4 ได้ขาดลอยในคำถามซับซ้อน
เป็นงานค้นหาตัวเลขหลายค่าจาก PDF การลงทุนประกันชีวิต ขนาด 43 หน้า และโมเดลอื่น ๆ ไปไม่ใกล้เคียงเลย
มีเพียง Claude 3 Sonnet ที่ใกล้เคียง โดยพลาดไปแค่คำถามเดียว
มันอาจเหมาะกับ PDF 43 หน้า และมีสิทธิ์เข้าถึงอยู่จึงลองทดสอบด้วย Pro 1.5 ได้
สมัคร Claude Pro เพื่อทดสอบ Opus โดยโยนคำถามซับซ้อนเกี่ยวกับภาพและการ fine-tuning SDXL รวมถึงให้คำนวณเปรียบเทียบต้นทุน RTX 6000 Ada กับ H100 แต่ มีข้อผิดพลาดเยอะ
เมื่อให้สกรีนช็อตราคา GPU ของ Runpod มันอ่านราคา RTX 6000 Ada ผิดเป็น $0.114 แทนที่จะเป็น $1.14 และในการคำนวณต่อมา
.278 * $0.114หรือ.116 * $4.69ก็ไม่ตรงกับยอดรวมที่มันเสนอในทางกลับกัน ChatGPT 4 อ่านราคาจากสกรีนช็อตเดียวกันได้ถูกต้อง เห็นเองว่า RTX 6000 Ada ใช้งานไม่ได้จึงแทนด้วย 4090 และคำนวณได้สอดคล้องกว่ามาก
ดูเหมือนไม่มีวิธีแก้ปัญหานี้นอกจากค้นหารายการสูตร ส่งไปยัง parser และฟังก์ชันที่ทำเอง แล้วแทรกผลลัพธ์กลับเข้าไปในโทเค็นเอาต์พุต
อ้างอิง: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
ยังไม่เคยมี LLM ตัวใดมี เครื่องคิดเลขแบบเกิดขึ้นเอง มาก่อน
หมายความว่าความสามารถด้านวิชันเพิ่มสติปัญญาแม้ในงานที่ไม่มีอินพุตภาพหรือไม่?
ตัวอย่างเช่น ในสูตรคณิตศาสตร์ซับซ้อน คำตอบจากเครื่องคิดเลขคือ 22.08555452004, GPT-4 ที่ไม่มี Python ได้ 22.3038, ส่วน Claude 3 Opus ได้ 22.0492
จากนั้นก็ปล่อยบ็อต r/wallStreetBets ให้ทำงานเต็มที่
ได้ลองพรอมป์งานเขียนโค้ดง่าย ๆ ที่เกี่ยวข้องกับ DB และ frontend หนึ่งรายการ ปรากฏว่าโมเดลฟรีและอ่อนกว่าคือ Claude 3 Sonnet ให้คำตอบดีกว่า ChatGPT Classic
มันใช้เมธอดที่ถูกต้องของไลบรารี SQL ORM ที่ไม่ค่อยเป็นที่รู้จัก ส่วน GPT-4 ใช้เมธอดผิด
แต่ในพรอมป์สร้าง SQL กลับให้คำตอบแย่กว่า ChatGPT Classic และถึงจะดูเหมือนถูก แต่ยาวกว่ามาก
ลิงก์ ChatGPT 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
ลิงก์ ChatGPT 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba
ไอคอนสีเขียวหมายถึงโมเดล ChatGPT รุ่นแรก และน่าจะเป็น GPT-3.5 Turbo มากกว่า
ถ้ารันด้วย GPT-4 จะได้ผลลัพธ์ตามที่คาดไว้: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
นี่เป็นตัวอย่างที่ดีในการชี้ให้เห็นว่า เคสความล้มเหลวของ ChatGPT จำนวนมากบนอินเทอร์เน็ตเป็นผลลัพธ์จากโมเดลที่อ่อนกว่า
ไอคอน OpenAI พื้นหลังสีเขียวคือ GPT-3.5 ส่วนไอคอนสีดำหรือม่วงคือ GPT-4 และ GPT-4 Turbo บน API ทำได้ดีขึ้นเล็กน้อย อาจเพราะมีความรู้เกี่ยวกับ Drizzle มากกว่า
หลังจากลองใช้ Opus นิดหน่อย ก็เริ่มสงสัยว่า benchmark อาจคลาดเคลื่อนจากประสิทธิภาพจริงอย่างเป็นระบบหรือไม่
ในการใช้งานจริงดูไม่ได้ดีกว่า GPT-4 และกลับดูแย่กว่านิดหน่อยด้วย
ในคำถามแคลคูลัส/ฟิสิกส์พื้นฐาน แม้จะระบุชัดว่าอัตราหน่วงแปรผันตามความเร็ว มันก็ยังสมมติเป็นอัตราหน่วงคงที่ และในการทดสอบ simulation การจราจร มันลืมแนวคิดเรื่องทิศทางที่เคยคุยกันก่อนหน้า ทำได้แย่กว่าผลลัพธ์ของ GPT-4 ที่แย่อยู่แล้วด้วยซ้ำ
การทดสอบให้เรียนรู้ในบริบทแล้วเข้าใจสีพื้นฐานของแสงก็แย่กว่า และในงานเขียนโค้ด มันตามหลัง GPT-4 เล็กน้อยในโจทย์คำนวณภาษีกำไรจากการขายสินทรัพย์ระยะยาว
เพิ่ม Claude 3 เข้าไปใน Chat ของ https://double.bot แล้ว จึงลองใช้สำหรับงานเขียนโค้ดได้
ตอนนี้ฟรี และบ่ายวันนี้จะใส่ Claude 3 เข้าไปใน autocomplete ด้วย
จากการทดสอบเบื้องต้น ดูเหมือนเป็น ทางเลือก API ตัวแรกแทน GPT-4 และถือเป็นเรื่องใหญ่มาก
Codeium มีการรองรับที่ค่อนข้างดีอยู่แล้ว
https://www.codium.ai
https://github.com/Exafunction/codeium.vim
กำลังทำผลิตภัณฑ์ในสายงานเดียวกัน และได้รับคำขอแบบนี้มาหลายครั้งแล้ว ถ้าเป็น IDE extension ก็น่าจะเชื่อมต่อกับโมเดล AI ที่รันอยู่ที่ไหนก็ได้
ไม่ว่าโมเดลไหน การ ก้าวข้าม GPT-4 ได้ก็เป็นเรื่องใหญ่ และน่าประทับใจมากที่ทำสำเร็จ
อย่างไรก็ตาม GPT-4 เป็นโมเดลอายุ 1 ปีแล้ว และ OpenAI ยังไม่ได้เปิดตัวโมเดลรุ่นถัดไป
เปเปอร์ GPT-3 ออกมาในปี 2020 และ Anthropic เพิ่งก่อตั้งในปี 2021 ดังนั้นในขณะที่ OpenAI มีประสบการณ์มาสามรุ่น Anthropic ก็เหมือนเริ่มจากศูนย์จริง ๆ แต่ยังนำหน้าได้ชั่วคราวในบาง benchmark
โมเดลรุ่นถัดไปของ OpenAI น่าจะฝึกเสร็จแล้วและอยู่ระหว่าง fine-tuning กับการประเมินความปลอดภัย แต่เหตุผลในการมีอยู่ของ Anthropic คือ safety จึงยากจะมองว่าพวกเขารีบปล่อยโมเดลนี้จนทำส่วนนั้นลวก ๆ
GPT-4-1106-previewกับGPT-4-0125-previewอ้างอิง: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
ตรงนี้นำหน้า GPT-4 อยู่เล็กน้อยมาก และเท่าที่ผ่านมาเหมือนยังไม่มีโมเดลอื่นทำได้ จึงน่าประทับใจในตัวมันเอง