เปิดตัว Claude 3.7 Sonnet และ Claude Code

(anthropic.com)

1 คะแนน โดย GN⁺ 2025-02-25 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Anthropic เปิดตัว Claude 3.7 Sonnet ในฐานะโมเดลที่มีความฉลาดสูงสุดของบริษัท และเป็น โมเดลการให้เหตุผลแบบไฮบริด รุ่นแรกของตลาด ที่รองรับทั้งการตอบกลับทันทีและการคิดเป็นลำดับขั้นที่ผู้ใช้มองเห็นได้ในโมเดลเดียว
โมเดลใหม่นี้สามารถเลือกใช้โหมดมาตรฐานและ extended thinking mode ได้ และใน API สามารถควบคุมงบประมาณการคิดเป็นหน่วย N โทเค็นได้จนถึงขีดจำกัดเอาต์พุตที่ 128K โทเค็น
มีการปรับปรุงอย่างมากในด้านการเขียนโค้ดและการพัฒนาเว็บฟรอนต์เอนด์ โดยการทดสอบกับลูกค้าระยะแรกยืนยันจุดเด่นด้านการจัดการโค้ดเบสที่ซับซ้อน การอัปเดตแบบฟูลสแต็ก เวิร์กโฟลว์เอเจนต์ การสร้างเว็บแอป และการสร้างโค้ดที่พร้อมใช้งานจริงในโปรดักชัน
Claude Code ที่เปิดตัวพร้อมกันเป็นเครื่องมือเขียนโค้ดแบบเอเจนต์บนบรรทัดคำสั่ง ซึ่งให้ใช้งานในรูปแบบ research preview แบบจำกัด และสามารถมอบหมายงานสำรวจโค้ด แก้ไข ทดสอบ งานบน GitHub และการใช้เครื่องมือบรรทัดคำสั่งได้
Claude 3.7 Sonnet เปิดให้ใช้ใน Free, Pro, Team, Enterprise และแพลตฟอร์มนักพัฒนาหลักต่าง ๆ โดยโหมดการคิดแบบขยายใช้ได้ทุกที่ยกเว้น Claude ระดับฟรี และราคายังคงเดิมที่ $3 ต่อ 1 ล้านโทเค็นอินพุต และ $15 ต่อ 1 ล้านโทเค็นเอาต์พุต

การให้เหตุผลแบบไฮบริดของ Claude 3.7 Sonnet

Claude 3.7 Sonnet เป็นโมเดลที่มีความฉลาดสูงสุดของ Anthropic ซึ่งสามารถสร้างได้ทั้ง การตอบกลับทันที และการคิดแบบเป็นลำดับขั้นที่ขยายออกไป
กระบวนการคิดแบบขยายจะแสดงให้ผู้ใช้เห็น และผู้ใช้ API สามารถควบคุมได้อย่างละเอียดว่าโมเดลจะใช้เวลาคิดนานแค่ไหน
Anthropic เลือกแนวทางที่มองการให้เหตุผลเป็น ความสามารถที่รวมอยู่ใน frontier model ไม่ใช่โมเดลแยกต่างหาก
- ในโหมดมาตรฐาน จะทำงานคล้ายเวอร์ชันอัปเกรดของ Claude 3.5 Sonnet
- ใน extended thinking mode โมเดลจะทำการไตร่ตรองกับตัวเองก่อนตอบ เพื่อเพิ่มประสิทธิภาพในหลายงาน เช่น คณิตศาสตร์ ฟิสิกส์ การทำตามคำสั่ง และการเขียนโค้ด
- วิธีพรอมป์ตสำหรับทั้งสองโหมดโดยรวมทำงานคล้ายกัน
ใน API สามารถกำหนดงบประมาณการคิดเป็น N โทเค็นได้ โดย N ตั้งค่าได้สูงสุดถึงขีดจำกัดเอาต์พุตที่ 128K โทเค็น
- การควบคุมนี้ใช้เพื่อแลกความเร็วและต้นทุนกับคุณภาพของคำตอบ

ประสิทธิภาพด้านโค้ดที่เน้นงานจริง

Claude 3.7 Sonnet แสดงการปรับปรุงอย่างชัดเจนโดยเฉพาะด้านการเขียนโค้ดและ การพัฒนาเว็บฟรอนต์เอนด์
Anthropic ระบุว่าได้ลดสัดส่วนการปรับให้เหมาะกับโจทย์แข่งขันด้านคณิตศาสตร์และวิทยาการคอมพิวเตอร์ลงบางส่วน และหันมาโฟกัสงานที่องค์กรใช้ LLM จริงมากขึ้น
ใน การทดสอบระยะแรก ลูกค้าหลายรายได้ประเมินประสิทธิภาพด้านโค้ด
- Cursor ประเมินว่า Claude กลับมาอยู่ในระดับแนวหน้าอีกครั้งสำหรับงานเขียนโค้ดจริง ตั้งแต่การจัดการโค้ดเบสที่ซับซ้อนไปจนถึงการใช้เครื่องมือขั้นสูง
- Cognition ประเมินว่าดีกว่าโมเดลอื่นอย่างมากในการวางแผนการเปลี่ยนแปลงโค้ดและจัดการการอัปเดตแบบฟูลสแต็ก
- Vercel เน้นย้ำถึงความแม่นยำสูงในเวิร์กโฟลว์เอเจนต์ที่ซับซ้อน
- Replit ระบุว่าสามารถใช้ Claude สร้างเว็บแอปและแดชบอร์ดที่ซับซ้อนอย่างประณีตได้ตั้งแต่ต้น ในสถานการณ์ที่โมเดลอื่นไปต่อไม่ได้
- จากการประเมินของ Canva พบว่า Claude สร้างโค้ดที่พร้อมใช้งานจริงในโปรดักชันได้อย่างสม่ำเสมอ พร้อมเซนส์ด้านดีไซน์ที่ดีกว่า และลดข้อผิดพลาดลงอย่างมาก

Claude Code แบบ research preview จำกัด

Claude Code เป็น เครื่องมือเขียนโค้ดแบบเอเจนต์ ตัวแรกของ Anthropic และเปิดให้ใช้งานในรูปแบบ research preview แบบจำกัด
นักพัฒนาสามารถมอบหมายงานวิศวกรรมจำนวนมากให้ Claude ผ่านเทอร์มินัลได้
Claude Code ทำงานต่อไปนี้ได้ โดยยังคงให้ผู้พัฒนาอยู่ในกระบวนการตลอด
- ค้นหาและอ่านโค้ด
- แก้ไขไฟล์
- เขียนและรันการทดสอบ
- commit และ push โค้ดไปยัง GitHub
- ใช้เครื่องมือบรรทัดคำสั่ง
ภายใน Anthropic เอง เครื่องมือนี้ถูกใช้อย่างมีประโยชน์เป็นพิเศษกับการพัฒนาแบบทดสอบนำ การดีบักปัญหาซับซ้อน และการรีแฟกเตอร์ขนาดใหญ่
ในการทดสอบระยะแรก Claude Code สามารถทำงานที่ปกติต้องใช้เวลาด้วยมือ มากกว่า 45 นาที ให้เสร็จได้ในครั้งเดียว ช่วยลดเวลาในการพัฒนาและโอเวอร์เฮด
ในอีกไม่กี่สัปดาห์ข้างหน้า มีแผนปรับปรุงความเสถียรของการเรียกใช้เครื่องมือ รองรับคำสั่งที่รันยาวนาน ปรับปรุงการเรนเดอร์ภายในแอป และขยายความเข้าใจของ Claude ต่อความสามารถของตัวเอง
ผ่าน การเข้าร่วมพรีวิว ผู้ใช้สามารถเข้าถึงเครื่องมือที่ Anthropic ใช้สร้างและปรับปรุง Claude ได้ และฟีดแบ็กจะถูกนำไปสะท้อนในทิศทางของ Claude Code ต่อไป

การเชื่อมต่อ Claude.ai กับโค้ดเบสบน GitHub

ประสบการณ์ด้านการเขียนโค้ดใน Claude.ai ก็ได้รับการปรับปรุงเช่นกัน และมี การเชื่อมต่อ GitHub ให้ใช้งานในทุกแพลนของ Claude
นักพัฒนาสามารถเชื่อมต่อรีโพซิทอรีโค้ดเข้ากับ Claude ได้โดยตรง
Claude 3.7 Sonnet เป็นโมเดลเขียนโค้ดที่ดีที่สุดของ Anthropic ในปัจจุบัน และสามารถนำไปใช้เพื่อทำความเข้าใจโปรเจกต์ส่วนตัว งานในองค์กร และโอเพนซอร์สได้ลึกขึ้น เพื่อนำไปสู่การแก้บั๊ก พัฒนาฟีเจอร์ และเขียนเอกสาร

ขอบเขตการให้บริการและราคา

Claude 3.7 Sonnet เปิดให้ใช้ในทุกแพลนของ Claude
- Free
- Pro
- Team
- Enterprise
Claude 3.7 Sonnet มีให้ใช้งานบน Claude Developer Platform, Amazon Bedrock, Google Cloud Vertex AI ด้วย
extended thinking mode ใช้งานได้ในทุกสภาพแวดล้อมที่ให้บริการ ยกเว้น Claude ระดับฟรี
ทั้งโหมดมาตรฐานและโหมดการคิดแบบขยายมีราคาเท่าเดิมกับโมเดลก่อนหน้า
- อินพุต 1 ล้านโทเค็น $3
- เอาต์พุต 1 ล้านโทเค็น $15
- ราคาเอาต์พุตรวมโทเค็นการคิดไว้แล้ว

การประเมินความปลอดภัยและ system card

Claude 3.7 Sonnet ผ่านการทดสอบและประเมินอย่างกว้างขวางร่วมกับผู้เชี่ยวชาญภายนอก โดยมีเป้าหมายเพื่อยืนยันว่าเป็นไปตามมาตรฐานด้านความมั่นคงปลอดภัย ความปลอดภัย และความน่าเชื่อถือ
มีการแยกแยะระหว่างคำขอที่เป็นอันตรายกับคำขอปกติได้ละเอียดขึ้น ทำให้ การปฏิเสธที่ไม่จำเป็นลดลง 45% เมื่อเทียบกับโมเดลก่อนหน้า {p:45}
system card มีผลลัพธ์ด้านความปลอดภัยใหม่ในหลายหมวดหมู่ รวมถึงรายละเอียดการประเมิน Responsible Scaling Policy
system card ยังกล่าวถึงความเสี่ยงใหม่จากการใช้งานคอมพิวเตอร์ โดยเฉพาะ การโจมตีแบบ prompt injection
- Anthropic อธิบายถึงวิธีประเมินช่องโหว่นี้ และวิธีฝึก Claude ให้ต้านทานและบรรเทาปัญหาได้
ยังครอบคลุมถึงข้อได้เปรียบด้านความปลอดภัยที่เป็นไปได้ของโมเดลการให้เหตุผลด้วย
- ความเป็นไปได้ในการทำความเข้าใจว่าโมเดลตัดสินใจอย่างไร
- การให้เหตุผลของโมเดลเชื่อถือได้และมีเสถียรภาพจริงหรือไม่

รายละเอียด scaffolding สำหรับการประเมินและ SWE-bench

คะแนน TAU-bench ได้มาจากการเพิ่มข้อความเสริมในพรอมป์ตของ Airline Agent Policy เพื่อสั่งให้ใช้ planning tool ได้ดีขึ้น
- แยกจาก thinking mode ปกติ โดยกระตุ้นให้โมเดลเขียนความคิดระหว่างการแก้ปัญหา
- เนื่องจากมีขั้นตอนการคิดเพิ่ม จึงเพิ่มจำนวนขั้นสูงสุดจาก 30 เป็น 100
- วิถีส่วนใหญ่จบลงภายในไม่ถึง 30 ขั้น และมีเพียงวิถีเดียวที่เกิน 50 ขั้น
- คะแนน TAU-bench ของ Claude 3.5 Sonnet เป็นค่าที่รันใหม่บนชุดข้อมูลที่อัปเดตแล้ว หลังจากมีการปรับปรุงชุดข้อมูล
ใน SWE-bench Verified มีหลายแนวทางในการแก้งานแบบเอเจนต์ โดย Agentless ใช้การค้นหาไฟล์ การหาตำแหน่งแพตช์ และ best-of-40 rejection sampling ที่อิงกับการทดสอบถดถอย
การประเมินพื้นฐานของ Claude 3.7 Sonnet และ Claude 3.5 Sonnet ใช้ minimal scaffolding ที่เรียบง่ายกว่า
- โมเดลตัดสินใจเองในเซสชันเดียวว่าจะรันคำสั่งใดและแก้ไขไฟล์ใด
- ใช้เครื่องมือ bash, เครื่องมือแก้ไขไฟล์แบบแทนที่สตริง และ planning tool ที่กล่าวถึงใน TAU-bench
เนื่องจากข้อจำกัดของโครงสร้างพื้นฐานภายใน จึงสามารถแก้งานได้จริงเพียง 489 งาน จาก SWE-bench Verified ทั้งหมด 500 งาน และอีก 11 งานที่เหลือถูกนับเป็นล้มเหลวเพื่อความเป็นธรรมกับลีดเดอร์บอร์ดอย่างเป็นทางการ
ในผลลัพธ์แบบ high compute มีการใช้การลองแบบขนาน การทิ้งแพตช์ที่ทำให้ regression test ที่มองเห็นได้พัง และการเลือกผลลัพธ์สุดท้ายด้วย score model
- วิธีนี้ทำคะแนนได้ 70.3% บนชุดย่อยของงานยืนยัน 489 งานที่รันบนโครงสร้างพื้นฐานภายใน
- บนชุดย่อย 489 งานเดียวกัน Claude 3.7 Sonnet ทำได้ 63.7% โดยไม่ใช้ scaffolding

2 ความคิดเห็น

GN⁺ 2025-02-25

ความคิดเห็นจาก Hacker News

Claude 3.7 Sonnet ทำคะแนนได้ 60.4% โดยไม่ใช้ thinking บนตารางอันดับหลายภาษาของ aider
อยู่ร่วมอันดับ 3 กับ o3-mini-high และแย่งคะแนนสูงสุดแบบไม่ใช้การให้เหตุผลที่ Sonnet 3.5 เคยครองอยู่มาได้
ใน aider 0.75.0 มีการเพิ่มการรองรับ 3.7 Sonnet แล้ว และบอกว่าการรองรับ thinking กับผล benchmark จะตามมาเร็ว ๆ นี้
https://aider.chat/docs/leaderboards/
https://aider.chat/HISTORY.html#aider-v0750
- ถ้าเป็น โจทย์เขียนโค้ด 225 ข้อ ของ Exercism ก็สงสัยว่ามีความพยายามลดการรั่วไหลของข้อมูลใน test set หรือไม่
  ดูเหมือนว่าโจทย์เหล่านี้อยู่บนอินเทอร์เน็ตมาตั้งแต่ก่อนปี 2023 จึงมีโอกาสสูงที่จะเข้าไปอยู่ในข้อมูลฝึกของโมเดลยุคใหม่
- ถ้าใช้ thinking token ได้สูงสุดถึง 32k, Sonnet 3.7 ทำสถิติสูงสุดที่ 64.9%
  65% Sonnet 3.7, 32k thinking / 64% R1+Sonnet 3.5 / 62% o1 high / 60% Sonnet 3.7, ไม่มี thinking / 60% o3-mini high / 57% R1 / 52% Sonnet 3.5
- น่าสนใจที่คะแนน รูปแบบ diff ที่ถูกต้อง ซึ่งเคยอยู่ที่ 99.6% ใน Claude 3.5 ลดลงมาเหลือ 93.3% ใน Claude 3.7
  จากที่ลองใช้ claude-code พบว่ามีหลายครั้งอย่างต่อเนื่องที่ต้องลองหลายรอบกว่าจะได้ diff ที่ถูกต้อง หวังว่าจะดีขึ้นเมื่อเสถียรมากขึ้น
- ผมติดตามโปรเจกต์ aider มาประมาณ 1 ปี เพื่อพยายามทำความเข้าใจว่าจะสร้างเอเจนต์ด้าน software engineering อย่างไร
  สัปดาห์ที่แล้วที่งาน AI Engineering Summit ในนิวยอร์ก ผมได้พบกับ staff AI engineer ระดับอาวุโสมากคนหนึ่ง ซึ่งกำลังทำสิ่งที่ค่อนข้างไม่น่าเชื่อด้วย aider และผมประทับใจมาก
  เรื่องนี้อาจไม่เหมาะจะโพสต์ในฟอรัมสาธารณะ เลยสงสัยว่าถ้าได้รับอนุญาตแล้ว จะมีวิธีแชร์เรื่องราวโปรเจกต์ aider จากการใช้งานจริงแบบนี้โดยตรงหรือไม่
ผมคือ Boris จากทีม Claude Code และพร้อมกับ @eschluntz, @catherinewu, @wolffiex, @bdr จะพยายามตอบคำถามเกี่ยวกับผลิตภัณฑ์ให้ได้มากที่สุดในช่วงประมาณหนึ่งชั่วโมงข้างหน้า
- มีอย่างหนึ่งที่อยากให้แก้มาก ๆ คือเมื่อป้อนพรอมป์เข้าไป โมเดลสร้างคำตอบไปแล้ว 90% หรือ 100% แต่ระบบกลับแสดง error ว่าไม่สามารถสร้างคำตอบได้เพราะ เกินความจุ แล้วลบแม้กระทั่งคำตอบที่ออกมาแล้วทิ้งไป
  อยากให้ยังเข้าถึงคำตอบที่สร้างไปแล้วได้ แม้จะไม่สมบูรณ์ก็ตาม
- สิ่งที่ไม่พอใจที่สุดคือ ใน UI แค่ถามคำถามที่ค่อนข้างหนักไม่กี่ครั้งก็ชน ข้อจำกัดการใช้งาน อยู่เรื่อย ๆ
  ใช้ Console API ได้ก็จริง แต่ถ้าทำแบบนั้นก็จะเสียฟีเจอร์อย่าง Projects ไป
  เลยสงสัยว่ามีโอกาสจะเพิ่มข้อจำกัดเหล่านี้ในเร็ว ๆ นี้หรือไม่
- Claude เป็น LLM หลักที่ผมใช้กับทุกอย่าง และแม้จะฟังดูซ้ำซาก แต่จริง ๆ แล้วมันช่วยขยายขอบเขตสิ่งที่ผมสามารถเรียนรู้อย่างสมเหตุสมผลได้หลายเท่า
  ช่วงนี้ผมกำลังอ่านงานปรัชญาเก่า ๆ โดยไม่มีพื้นความรู้ที่เกี่ยวข้องมาก่อน ถ้าไม่มี Claude ช่วยอธิบายประโยคยาก ๆ ให้ง่ายขึ้น ช่วยถกไอเดีย ให้บริบททางประวัติศาสตร์ อธิบายว่าทำไมถึงเขียนในรูปแบบนั้น และช่วยเปรียบเทียบกับแนวคิดใหม่ ๆ ผมคงยอมแพ้ไปหลายรอบแล้ว
  ในงานก็ใช้พัฒนาซอฟต์แวร์วันละหลายครั้ง และ โหมดกระชับ รู้สึกสดใหม่มากเมื่อเทียบกับ LLM อื่น ๆ
  มันช่วยหา bug ใน codebase ที่ไม่คุ้นเคย อธิบาย tech stack และเขียนสคริปต์ bash ให้ ประหยัดเวลาได้หลายสิบชั่วโมงและลดความเครียดได้มาก
  อย่างไรก็ตาม ความเสถียรของบริการยังด้อยกว่าที่อื่นเล็กน้อย จนบางครั้งต้องสลับไปใช้โมเดลอื่น เลยสงสัยว่ามีแผนจะปรับปรุงส่วนนี้หรือไม่
- ผมกำลังรีแฟกเตอร์โค้ดคอมโพเนนต์ React แบบ class-based เก่า ๆ ที่ไม่ได้แตะมา 6 ปี ซึ่งรกมาก และหลังใช้ Aider อยู่หลายวันก็ไปต่อไม่ได้
  กำลังจะไปคุ้ยซอร์สโค้ด Aider บน GitHub เพื่อดึงพรอมป์ออกมา แล้วทำสคริปต์ผู้ช่วยเล็ก ๆ เองพอดี จังหวะการออกรีลีสครั้งนี้จึงลงตัวมาก
  พอลองติดตั้ง Claude Code ก็เห็นว่ามันจัดการงานนี้ได้อย่างรวดเร็ว และชอบอินเทอร์เฟซกับการใส่บุคลิกอย่าง “Ruminating”, “Schlepping” ด้วย
  โดยรวมทำออกมาได้ยอดเยี่ยม
- เพิ่งเริ่มลองใช้เครื่องมือ command line นี้ และความประทับใจแรกหลังใช้ไป 5 นาทีคือ อยากให้ claude-code มี การแสดงค่าใช้จ่ายต่อคำถามและค่าใช้จ่ายรวมของเซสชัน แบบที่ชอบใน aider
  ผมใช้ aider กับ Claude 3.5 เป็นประจำ และการติดตามค่าใช้จ่ายได้อย่างเป็นธรรมชาตินั้นมีประโยชน์
  อีกอย่าง ถ้ามันเขียนด้วยภาษาที่คอมไพล์ได้อย่าง Go หรือ Rust ก็คงดี แต่เข้าใจว่าค่าใช้จ่ายในการเขียนใหม่อาจสูง
  ลองใช้ไปประมาณ 10 นาที ดูเหมือนจะมีปัญหาหนักกับการ patch โค้ด Go พื้นฐาน มันเพิ่มบรรทัดที่ indent ผิด แล้วพยายามแก้ให้เป็น indent ที่ถูกต้องสามครั้ง แต่ทุกครั้งเจอ "String to replace not found in file"
  Aider ที่ใช้ Claude 3.5 จัดการเรื่องนี้ได้ดีมาก จึงน่าจะลองดูพรอมป์และรูปแบบ patch เป็นแนวทาง
เกณฑ์มาตรฐาน Kagi LLM ได้อัปเดตให้สะท้อน โหมดทั่วไปและโหมด thinking ของ Sonnet 3.7 แล้ว
https://help.kagi.com/kagi/ai/llm-benchmark.html
ในบรรดา LLM ทั่วไปที่ลองทดสอบ ดูเหมือนอยู่ระดับอันดับ 2 รองจาก Gemini 2.0 Pro และนำหน้า gpt-4o
โหมด thinking น่าประทับใจน้อยกว่า และเมื่ออิงจากงบประมาณ thinking 8192 โทเค็น ก็อยู่ระดับประมาณ o1-mini กับ o3-mini
โดยรวมแล้วเป็นอัปเดตที่ดี ได้โมเดลคุณภาพสูงขึ้นและเร็วขึ้นในราคาเท่าเดิม และหวังว่าจะเปิดใช้ใน Kagi Assistant ได้ภายใน 24 ชั่วโมง
- ขอบคุณทีม Kagi ที่ทำให้ใช้ LLM ใหม่ใน Assistant ได้เร็วขนาดนี้
  สำหรับผมแล้ว คุณค่าของ Kagi Assistant ชัดเจนจนไม่ต้องคิดมากเลย
- ตอนนี้น่าทึ่งที่ Gemini 2.0 ขึ้นเป็นอันดับ 1
  จำได้ว่าโมเดลของ Google เคยทำผลงานได้ไม่ดีนักในเกณฑ์มาตรฐานของ Kagi
- สงสัยว่าเลือก งบประมาณ thinking 8192 โทเค็น มาอย่างไร
  ผมเห็น DeepSeek R1 ใช้มากกว่านั้นมากอยู่บ่อย ๆ
- เห็นใน Kagi Assistant แล้ว และยังไม่ถึง 24 ชั่วโมงด้วย ดีเลย
- จุดที่ไม่เข้าใจคือ Claude 3.5 Haiku ซึ่งไม่ใช่โมเดล thinking อยู่ในส่วน non-thinking แต่กลับแสดงว่ามีงบประมาณ thinking 8192
เอาอันนี้มาวิเคราะห์โปรไฟล์ HN แล้วค่อนข้างฮาดี :)
https://hn-wrapped.kadoa.com/
กำลังใช้มันทดสอบ อารมณ์ขัน ของโมเดลใหม่
- โดนเต็ม ๆ ว่าแทนที่จะสร้าง “ตัวตรวจจับ Carnatic raga” กลับพูดถึงมันมากกว่า และด้วยความเร็วแบบนี้ LLM คงแต่งรากาได้ก่อนที่ตัวตรวจจับจะระบุรากาได้เสียอีก
  ยังบอกด้วยว่าซื้อโปรเซสเซอร์ 7950X มาแต่ไม่รู้จะเอาไปทำอะไร เหมือนเวอร์ชันวงการคอมพิวต์ของการขับเฟอร์รารีไปซื้อของชำสัปดาห์ละครั้ง
  บอกว่าลาพักงานยาวเพราะกังวลเรื่องสมดุลชีวิตกับงาน แต่ใช้ช่วงนั้นไปคอมเมนต์เรื่องอาชีพคนอื่นบน HN
  ถ้ามีใครตามหา ผมคงอยู่ในห้องกำลังร้องไห้
- “เงินเดือนนายต่ำจนแม้แต่โค้ดเลกาซียังสงสาร”
  “นายเป็นคนเดียวใน HN ที่คิดว่า 800 ดอลลาร์ต่อเดือนคือเงินเดือน ไม่ใช่บิล cloud computing”
  เจ็บ
- โดนยับเลย: “เวลาที่นายใช้ไปกับการอธิบายว่าการจัดการข้อผิดพลาดของ Go แย่ ยังมากกว่าเวลาที่นักพัฒนา Go ใช้จัดการข้อผิดพลาดจริง ๆ”
  “ความสัมพันธ์ของนายกับภาษาโปรแกรมเหมือนรายการเดตติ้งโชว์ เห็นข้อเสียในทุกคน แต่ลงหลักปักฐานกับใครไม่ได้”
  “ถ้าการจัดการข้อผิดพลาดเป็นศาสนา นายคงเป็นมิชชันนารีที่ศรัทธาแรงกล้าที่สุด และกำลังเปลี่ยนศาสนา exception แบบ unchecked ทีละตัว”
- “สำหรับคนที่เคยทำงานที่ Reddit นายใช้เวลากับ HN มากเกินไปนะ เหมือนลาออกจาก Facebook แล้วใช้เวลาทั้งวันบน Twitter เพื่อบ่นเรื่องโซเชียลมีเดีย”
  แม่นจนเจ็บ
- “นายเขียนนิยายในเธรดคอมเมนต์ HN พลางบ่นเรื่องความวอกแวกดิจิทัล เหมือนยืนรอคิวไดรฟ์ทรูแล้ววิจารณ์ฟาสต์ฟู้ด”
  “นายจะเขียนเอสเซย์ชวนคิดเรื่อง ‘digital minimalism’ จนขึ้นหน้าแรก HN แล้วแบบย้อนแย้งคือสุดท้ายจะใช้เวลาตอบคอมเมนต์นั้นมากกว่าเวลาที่ใช้บน HN ตลอดทั้งปี”
  มันกำลังมองผมอยู่ ไม่เอานะ
ปฏิสัมพันธ์ครั้งแรกกับ Claude 3.7 Sonnet ก็น่าประทับใจทีเดียว
ผมขอให้มันช่วยหาปัญหาใน codebase ที่ทำให้ฟังก์ชัน Cloudflare Pages ส่งกลับ 500 ข้อผิดพลาดแปลก ๆ และ response ว่างใน production ซึ่งเป็นปัญหาที่หามาทั้งวันศุกร์ก็ไม่เจอ
สคริปต์ตายก่อนจะพิมพ์อะไรออกมาเลย จึงเพิ่ม logging หรือหาวิธีให้เห็นสถานะไม่ได้ น่าหงุดหงิดมาก
o1, o3, Claude 3.5 ไม่ช่วยอะไรเลย แต่ Claude 3.7 หลัง thinking 39 วินาที ก็เจอปัญหาที่ถูกต้องในคำตอบแรก และในพรอมป์ต์ที่สองยังเขียนฟังก์ชันที่ทำงานได้เพื่อเลี่ยงปัญหานั้นให้ด้วย
เพราะเชื่อมต่อ GitHub repository เข้ากับบทสนทนาไว้ เลยดูเหมือนจะแชร์การสนทนาไม่ได้ จึงคัดลอกเป็น gist ไว้: https://gist.github.com/Uninen/46df44f4307d324682dabb7aa6e10...
- คำตอบหนึ่งแสดงให้เห็นว่าโดยพื้นฐานแล้ว Claude ยังไม่รู้เรื่อง การคิดจริง ๆ
  มันเสนอให้ย้ายการ sanitize HTML ไปไว้ฝั่ง frontend แต่นั่นเลี่ยงได้ง่ายมากจาก frontend จนทำให้ใส่อะไรก็ได้ลง DB ตามตัวอักษร ดังนั้นถึงต้องวางไว้ในฟังก์ชัน CF
  เป็นเรื่องที่แม้แต่นักพัฒนาจูเนียร์ก็ควรเข้าใจ
ผมทำให้สิ่งนี้ทำงานในเครื่องมือ LLM ของผมได้แล้ว และปลั๊กอินเวอร์ชันใหม่คือ llm-anthropic 0.14
ระหว่างนั้นผมได้รู้อะไรหลายอย่างเกี่ยวกับโมเดลนี้ และมีบันทึกรายละเอียดอยู่ที่นี่: https://simonwillison.net/2025/Feb/25/llm-anthropic-014/
หนึ่งในฟีเจอร์ใหม่ที่น่าสนใจที่สุดคือขีดจำกัดเอาต์พุตเพิ่มจาก 8,000 โทเค็นของ Claude 3.5 Sonnet เดิมเป็น 120,000 โทเค็น
โมเดลนี้ดูเหมือนจะใช้ขีดจำกัดเอาต์พุตนั้นได้อย่างมีประสิทธิภาพ และผลลัพธ์ที่ยาวที่สุดจนถึงตอนนี้ใช้เวลา 27 นาทีจึงเสร็จ: https://gist.github.com/simonw/854474b050b630144beebf06ec4a2...
- ไม่ได้ตั้งใจจะดิสเครดิต Sonnet 3.7 แต่ดูเหมือนไม่ถูกต้องที่จะบอกว่าสูงกว่าโมเดลอื่นใดในวงการนี้มาก
  o1 และ o3-mini ก็ไปได้ถึง 100,000 output tokens เช่นกัน
  https://platform.openai.com/docs/models#o1
- สงสัยว่า Simon เคยเขียนไว้ที่ไหนไหมว่าเขา แอคทีฟ ได้ขนาดนั้นได้อย่างไร ทั้งเครื่องมือเขียนโปรแกรม บล็อก และงานประจำ
  อยากรู้ว่าเขาหาเวลาและพลังงานมาจากไหน
- สงสัยว่าค่าใช้จ่ายเท่าไร
การที่ Anthropic โฟกัสกับโค้ดมากขึ้น นั้นสมเหตุสมผล
เมื่อเทียบกับโมเดลอื่น ๆ โค้ดเคยเป็นจุดแข็งของพวกเขา
พอนึกถึงความยากลำบากของ Devin ก็อยากรู้ว่าผลิตภัณฑ์คู่แข่ง Devin ของพวกเขาจะออกมาเป็นอย่างไร
- มันเป็นโมเดลที่ขับเคลื่อนการใช้งาน Cursor/Windsurf อยู่ไม่น้อย และยังผลักดัน MCP ด้วย ถ้าจับ ประสบการณ์ผู้ใช้ ได้ดี ก็น่าจะไปได้สวย
- ชัดเจนว่าเป็นจุดแข็ง แต่บางครั้งก็อยากให้แชตไม่พยายามเขียนโค้ดมากเกินไป
  เวลาต้องการแค่คำตอบเชิงแนวคิดหรือระดับสูง ก็มักจะโยนโค้ดมาให้บ่อย ๆ จนตอนนี้พูดเป็นนิสัยไปแล้วว่าอย่าเขียนโค้ด
- คิดเหมือนกัน และมี ปัญหาที่ยากจริง ๆ 3 ข้อ ที่จนถึงตอนนี้ Claude หรือโมเดลอื่นใดยังแก้ไม่ได้ เลยตั้งตารอจะลองวันนี้
- ในบล็อกโพสต์ที่อ้างถึง Cognition หรือก็คือบริษัทที่ทำ Devin นี่แอบตลกอยู่
ข่าวดีคือประโยคที่ว่า “ระหว่างพัฒนาโมเดล reasoning เราลดการปรับแต่งให้เหมาะกับโจทย์แข่งขันคณิตศาสตร์·วิทยาการคอมพิวเตอร์ลงบ้าง และย้ายจุดโฟกัสไปที่ งานในโลกจริง ซึ่งสะท้อนวิธีที่องค์กรต่าง ๆ ใช้ LLM จริง ๆ ได้ดีกว่า”
OpenAI ดูเหมือนจะมุ่งไปที่ “โมเดลที่ฉลาดที่สุด” แต่ในความเป็นจริง LLM ส่วนใหญ่ถูกใช้เป็นผู้ช่วยเรียนรู้ ตัวแปลงข้อมูล และตัวเขียนโค้ด
จุดสมดุลระหว่าง “ความฉลาด” กับ “ความสามารถในการทำงานให้เสร็จ” ดูเหมือนจะเป็น sweet spot และน่าจะเป็นเหตุผลหนึ่งที่เครื่องมือนักพัฒนาปัจจุบัน (Cursor, Windsurf ฯลฯ) ชอบ Claude 3.5 Sonnet มากกว่า 4o
- พวกเราทุกคนใช้ Claude ในงานจริงทุกวัน และการแก้ pain point ของตัวเองน่าสนใจกว่า benchmark เชิงนามธรรม
  การทำงานให้เสร็จต้องใช้ความรู้บนโต๊ะทำงานจำนวนมากก็จริง แต่ก็ต้องมี เซนส์หน้างาน มากด้วยว่าเมื่อไรควรตอบเร็ว และเมื่อไรควรถอยกลับไปทบทวน
- บางครั้งก็รู้สึกว่าอาจกำลัง overfit กับ benchmark เกินไป DeepSeek ให้ความรู้สึกแบบนั้นเป็นพิเศษ
  ไม่ว่าลำดับจริงจะอยู่ตรงไหน แชตที่ทำให้รู้สึกว่าคำตอบดีกว่าในเชิงอัตวิสัยและทำให้กลับไปใช้อยู่เรื่อย ๆ คือ Claude
- Claude 3.5 ใช้งานได้ยอดเยี่ยมใน Windsurf แต่มีค่าเครดิต
  ตอนนี้ DeepSeek V3 มีให้ใช้ใน Windsurf โดยไม่เสียเครดิตแล้ว ซึ่งสำหรับบริษัทถือเป็นการเปลี่ยนแปลงครั้งใหญ่
  ไม่ว่าจะเลือกทางไหน การมีตัวเลือกหลากหลายขึ้นก็เป็นเรื่องดี
  ขอแนะนำให้ลองฟีเจอร์ Cascade ของ Windsurf สำหรับการเขียนและสำรวจโค้ดแบบ agentic ช่วยประหยัดเวลาได้มากในการทำความเข้าใจ codebase ใหม่และไล่ตาม data flow
การแข่งขัน AI เดินหน้าเร็วมากจริง ๆ
ในฐานะนักพัฒนา/วิศวกรซอฟต์แวร์ กังวลเรื่อง แนวโน้มงาน อยู่ และคงต้องรอดูเมื่อเวลาผ่านไป
ถ้าค่าตัวสูง ๆ ของวิศวกรซอฟต์แวร์หายไป ฟองสบู่ที่อยู่อาศัยฝั่งตะวันตกจะเป็นอย่างไรก็น่าสงสัย
บางทีคลื่นแรงงานความรู้ระลอกถัดไปอาจเข้ามาแทนที่ก็ได้
- ตลาดงานพัฒนาซอฟต์แวร์กำลังสั่นคลอนอย่างมากก็จริง แต่ก็มีสิ่งที่ทำได้เพื่อให้อยู่ในจุดที่ได้เปรียบ
  คือเรียนรู้ทั้งสแตกให้มากขึ้น โดยเฉพาะ แบ็กเอนด์และ DevOps ยอมรับการเพิ่มผลิตภาพเพื่อปล่อยผลิตภัณฑ์และโปรเจกต์ส่วนตัวให้มากขึ้น ใช้เวลาในการผลิตอย่างคัดสรรมาก ๆ และมีระบบจัดการความรู้ส่วนตัวกับผู้ช่วย agent ที่ยอดเยี่ยม
- จริง ๆ แล้วเหมือนความเร็วจะช้าลง
  ปีที่แล้วค่อนข้างดุเดือดจนถึงช่วงก่อนและหลัง Llama 3 แต่ช่วงหลังนี้พัฒนาขึ้นค่อนข้างน้อย
  โมเดล reasoning ก็แค่ดีกว่าสิ่งที่เคยทำได้อยู่แล้วด้วย agent ที่วางแผนอย่างชัดเจนขึ้นมาเล็กน้อย และใกล้เคียงกับการแพ็กเกจให้เหมาะกับวัตถุประสงค์พร้อมจูนเล็กน้อยมากกว่า
  DeepSeek ปรับปรุงด้านประสิทธิภาพได้มาก แต่การเปลี่ยนแปลงที่ผู้ใช้มองเห็นไม่ได้ใหญ่มากนัก
  ดังนั้นมองว่าการแข่งขัน AI ช่วงหลังเริ่มเข้าสู่ ภาวะที่ราบสูง อยู่บ้าง
- ผลกระทบอาจกว้างกว่า Silicon Valley หรือฝั่งตะวันตกมาก และในทางกลับกัน Silicon Valley อาจเป็นหนึ่งในไม่กี่พื้นที่ที่ยังพอมีความหวังเพราะการพัฒนา AI
  โมเดลเหล่านี้มีโอกาสสั่นคลอนการจ้างงานในอุตสาหกรรมทั่วโลก
  น่าขันที่อาชีพที่จะเปลี่ยนไปจริง ๆ อาจมีเพียงวิศวกรซอฟต์แวร์ กับบางสาขาอย่างการเขียนและกราฟิกดีไซน์
  การที่แล็บ AI เล็งวิศวกรซอฟต์แวร์เป็นพิเศษเห็นได้ชัดจากประกาศ “Claude 3.7 and Code” และแทบไม่พูดถึงด้านอื่น
  สำหรับคนที่ไม่ได้อยู่ Silicon Valley และไม่เคยได้ค่าตอบแทนสูง วิศวกรรมซอฟต์แวร์มักเป็นงานธรรมดาที่เครียดและต้องเรียนรู้อย่างต่อเนื่อง
  ดังนั้นโอกาสที่จะมีรายได้เหลือใช้สูงพอไปลงทุน·ออมก็คงต่ำกว่า ความเจ็บปวดและความกังวลจากระบบอัตโนมัติจึงยิ่งมากขึ้น
  ใครจะคิดว่างานแรกที่ AI จะทำให้อัตโนมัติไม่ใช่แรงงานหรือรถไร้คนขับ แต่เป็น ซอฟต์แวร์เอง
  อุตสาหกรรมอื่นดูเหมือนยากกว่าเพราะเจอทางตัน หรือมีอุปสรรคอย่างกฎระเบียบและความรู้แบบปิด
  วิศวกรซอฟต์แวร์จึงกลายเป็นตัวอย่างให้กับอุตสาหกรรมอื่น ๆ ว่าอย่านำ AI เข้ามา หรือกักมันไว้ภายในให้นานที่สุดเท่าที่จะทำได้ กล่าวคือจงคงความเป็น closed source ไว้
  มองย้อนกลับไปแล้วช่างย้อนแย้ง
- ระยะสั้นถึงระยะกลางไม่ได้กังวลมากนัก
  รู้สึกว่ายังมี edge case และบริบทละเอียดอ่อน มากเกินไปที่ระบบ AI จะพลาด
  เช่น ระบบไม่ได้ทำงานตามเอกสารเสมอไป AI จะแยกแยะบั๊กของบริการกับบั๊กในโค้ดของตัวเองได้อย่างไร? จะรู้ได้อย่างไรว่ามีบั๊กตั้งแต่แรก? จะแยกแยะรายงานบั๊กกับความพยายามบุกรุกของแฮ็กเกอร์ได้อย่างไร?
  โลกซับซ้อน และถ้าไม่มีปัญญาประดิษฐ์แท้จริง ก็ยังต้องมีคนคอยนำทาง AI ในสถานการณ์ยุ่งยากเหล่านี้
  คำแนะนำคือควรคุ้นเคยกับการใช้ AI และเครื่องมือ AI ใหม่ ๆ และเข้าใจว่ามันเข้ากับ workflow ทั่วไปอย่างไร
  ผมคิดว่าวิศวกรซอฟต์แวร์ที่ดีจะไม่หายไป
- ถ้าโมเดลดีขึ้นแต่ยังไม่ไปถึง singularity เต็มรูปแบบ งานน่าจะเพิ่มขึ้นเสียด้วยซ้ำ
  เช่น ถ้าต้นทุนการทำซอฟต์แวร์ลดลง 5 เท่า ตอนนี้อุปทานถูกจำกัดมากอยู่แล้ว อุปสงค์ก็น่าจะเพิ่มเกิน 5 เท่า
  มีหลายบริษัทที่อยากได้ซอฟต์แวร์ที่ดีกว่านี้ แต่ต้นทุนสูงเกินไป
  แบบนั้นจะเกิดงานมากขึ้น
  เพียงแต่การพิมพ์จะลดลง และจะมี การจัดการผลิตภัณฑ์·ปฏิสัมพันธ์กับมนุษย์·การทดสอบ edge case มากขึ้น
  น่าจะมีงานเชิงเทคนิคสูงในการดีบักเวลาที่โมเดลล้มเหลวเกิดขึ้นไม่น้อยด้วย
  ดังนั้นจึงแนะนำให้เรียนรู้ทักษะที่ช่วยสร้างซอฟต์แวร์ซึ่งมีประโยชน์ต่อผู้คนและธุรกิจ ตั้งแต่การวิจัยผู้ใช้ไปจนถึงการจัดการผลิตภัณฑ์ โดยยังต้องมีวิศวกรรมควบคู่ไปด้วย
Claude 3.7 ทำ วิทยานิพนธ์ปริญญาตรีของผมครึ่งหนึ่ง ซ้ำได้ในเวลาไม่ถึง 30 วินาที :|
https://claude.ai/share/ed8a0e55-633f-4056-ba70-772ab5f5a08b
รูปผลลัพธ์อยู่ที่นี่: https://i.imgur.com/0c65Xfk.png
Gemini Flash 2 ล้มเหลวอย่างน่าเวทนา: https://g.co/gemini/share/10437164edd0
- หัวข้อส่วนใหญ่ที่มักเรียนกันในระดับปริญญาตรีเป็นเนื้อหาที่มีการจัดทำเอกสารไว้ดีและเข้าใจกันดีอยู่แล้ว จึงมีความเป็นไปได้สูงที่จะอยู่ในข้อมูลฝึกของ AI
  ตั้งแต่ระดับบัณฑิตศึกษาเป็นต้นไป ขอบเขตของแหล่งข้อมูลจะค่อนข้างหายากและเฉพาะทางมากขึ้น แต่โดยรวมก็ยังไม่ถึงขั้นเป็นนวัตกรรมใหม่
  ในระดับปริญญาเอก เป้าหมายคือการต่อยอดความรู้เดิมในสาขานั้น และมีหลายหัวข้อที่เพิ่งถูกสำรวจเป็นครั้งแรก ดังนั้นผมมองว่าความครอบคลุมแทบจะไม่มีในเกือบทั้งหมด
- ต่อไปก็ถึงคิวปริญญาโทกับปริญญาเอกแล้ว!
- สงสัยว่าเนื้อหานี้หรืออะไรที่คล้ายกันเคยหาได้จากแหล่งข้อมูลแบบ open access หรือในห้องสมุดบางแห่งหรือเปล่า

riskatcher 2025-02-25

แต่ถ้าจะเอาไปเทียบกับ flash 2 ส่วนต่างราคาก็มากเกินไปหน่อย.. อยู่ระดับกึ่งกลางพอดีระหว่าง o1pro กับ o3-mini