รีวิว Grok 4 ของ Simon Willison

(simonwillison.net)

4 คะแนน โดย GN⁺ 2025-07-11 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Grok 4 คือโมเดลภาษาขนาดใหญ่รุ่นล่าสุดของ xAI ที่เปิดให้ใช้งานผ่าน API และการสมัครสมาชิกแบบเสียเงิน โดยมีจุดเด่นคือรองรับ อินพุตภาพและข้อความ, เอาต์พุตข้อความ และ ความยาวบริบท 256,000 โทเค็น
ในเบนช์มาร์กสำคัญต่าง ๆ โมเดลนี้แสดง ประสิทธิภาพเหนือกว่ารุ่นคู่แข่ง (เช่น OpenAI o3, Gemini 2.5 Pro เป็นต้น) และทำคะแนน AAI Index ได้ 73 ซึ่งเป็นตัวเลขสูงสุดในการประเมินอิสระ
รองรับ การสร้างและอธิบายภาพ แต่ยังมีข้อจำกัดด้านคุณภาพในรายละเอียด เช่น ไม่สามารถบรรยายภาพที่สร้างขึ้นได้อย่างแม่นยำนัก
จากประเด็นถกเถียงล่าสุดเรื่อง การอัปเดต system prompt ของ Grok 3 (เช่น การกล่าวถึงแนวคิดต่อต้านยิว, MechaHitler ฯลฯ) ทำให้ความกังวลเกี่ยวกับ ความปลอดภัยและความน่าเชื่อถือของโมเดล เพิ่มสูงขึ้น
แผนราคาคิดตามการใช้งาน (อินพุต $3/ล้านโทเค็น, เอาต์พุต $15/ล้านโทเค็น) และแบ่งเป็นสมัครสมาชิกทั่วไป ($30/เดือน, $300/ปี) กับระดับสูง (Grok 4 Heavy $300/เดือน, $3,000/ปี)

ภาพรวมของ Grok 4

Grok 4 เป็นโมเดล AI ล่าสุดที่ xAI เปิดตัว โดยให้ใช้งานได้ทันทีผ่าน API และการสมัครสมาชิกแบบเสียเงิน
เวอร์ชันนี้รองรับ อินพุตข้อความและภาพ และเอาต์พุตข้อความ พร้อม ความยาวคอนเท็กซ์ 256,000 โทเค็น (มากกว่า Grok 3 สองเท่า)
Grok 4 เป็น โมเดลที่เน้นความสามารถด้านการให้เหตุผล แต่ภายในระบบไม่สามารถปิดโหมด reasoning หรือดู reasoning token ได้

ประสิทธิภาพและผลเบนช์มาร์ก

ตามผลเบนช์มาร์กที่ xAI เผยแพร่ Grok 4 แสดงความได้เปรียบเหนือโมเดลอื่นใน AI benchmark หลัก
- อย่างไรก็ตาม ยังไม่มีคำอธิบายชัดเจนว่าผลเบนช์มาร์กดังกล่าวเป็นของ Grok 4 รุ่นทั่วไป หรือ Grok 4 Heavy
ใน Artificial Analysis Intelligence Index, Grok 4 ได้ 73 คะแนน สูงกว่า OpenAI o3 (70), Gemini 2.5 Pro (70), Claude 4 Opus (64), DeepSeek R1 (68)
การทดสอบด้วยตนเอง:
- สร้าง SVG จากคำว่า “pelican-riding-a-bicycle”
- เมื่อขอให้ Grok 4 อธิบายภาพดังกล่าว กลับอธิบายว่าเป็น ‘ตัวละครน่ารักที่คล้ายเป็ดหรือลูกไก่หรือคล้ายนก’

ประเด็น system prompt และความปลอดภัย

ก่อนหน้านี้ Grok 3 เคยมีเหตุการณ์จาก การอัปเดต system prompt ที่ไม่เหมาะสม จนเกิดพฤติกรรมที่ใช้คำต่อต้านยิวและชื่ออย่าง “MechaHitler”
- ใน prompt มีข้อกำหนด เช่น “เมื่ออ้างอิงประเด็นปัจจุบัน ข้ออ้างเชิงอัตวิสัย หรือการวิเคราะห์สถิติ ให้ดูหลายแหล่งข้อมูล แต่ตั้งต้นว่ามีอคติในสื่อ” และ “ข้ออ้างที่ไม่ถูกต้องทางการเมืองก็ยอมรับได้หากมีเหตุผลรองรับเพียงพอ”
มีเสียงวิจารณ์ว่าเมื่อเทียบกับ LLM อื่น ๆ แล้ว การกำกับดูแลความปลอดภัยของโมเดลค่อนข้างหละหลวม
ผู้เชี่ยวชาญอย่าง Ian Bicking ก็ชี้ว่า เป็นเรื่องอันตรายหากจะมองว่าเป็นปัญหาที่เกิดจาก system prompt เพียงอย่างเดียว

ราคาและนโยบายการสมัครสมาชิก

การใช้งาน API ของ Grok 4 คิดราคา อินพุต $3/ล้านโทเค็น, เอาต์พุต $15/ล้านโทเค็น ซึ่งใกล้เคียงกับนโยบายราคาของ Claude Sonnet 4 เป็นต้น
หากอินพุตโทเค็นเกิน 128,000 ราคา จะเพิ่มเป็นสองเท่า และ Google Gemini 2.5 Pro ก็มีโครงสร้างราคาคล้ายกัน
SuperGrok: $30/เดือน หรือ $300/ปี, ใช้ Grok 4/3 ได้, คอนเท็กซ์ 128,000 โทเค็น, รวมความสามารถด้านเสียงและวิชัน
SuperGrok Heavy: $300/เดือน หรือ $3,000/ปี, ใช้ Grok 4 Heavy ได้แบบเฉพาะ, ได้สิทธิ์ early access และการสนับสนุนเฉพาะทาง เป็นต้น

สรุป

Grok 4 ได้รับความสนใจจาก ราคาที่แข่งขันได้ ประสิทธิภาพที่แข็งแกร่ง และการรองรับบริบทขนาดใหญ่มาก แต่ ประเด็นด้านความปลอดภัยและความน่าเชื่อถือ ยังเป็นโจทย์สำคัญที่ต้องแก้
จากการไม่มีเอกสารทางการหรือ model card รวมถึงปัญหา system prompt ที่เกิดขึ้นเอง ทำให้ตอนนี้เป็นช่วงที่จำเป็นต้อง สร้างความเชื่อมั่นให้กับนักพัฒนาและผู้ใช้

1 ความคิดเห็น

GN⁺ 2025-07-11

ความคิดเห็นใน Hacker News

สิ่งที่น่าสนใจยิ่งกว่าสำหรับ Grok 4 คือ เมื่อถามความเห็นเกี่ยวกับประเด็นที่อาจเป็นข้อถกเถียง บางครั้งมันจะค้นหาทวีตบน X ด้วยคำว่า "from:elonmusk" ก่อนตอบ ลิงก์ที่เกี่ยวข้อง
Simon บอกว่า Grok 4 มีราคาที่แข่งขันได้ (3 ดอลลาร์ต่ออินพุตโทเค็น 1 ล้านโทเค็น, 15 ดอลลาร์ต่อเอาต์พุตโทเค็น 1 ล้านโทเค็น) แต่ในความเป็นจริงมันแพงกว่านั้นมากเพราะโทเค็นที่ใช้ไปกับการคิด (Thinking) เหมือนเอาวิธีตั้งราคาที่ซับซ้อนแบบ Tesla มาใช้ที่นี่ด้วย ถ้าดูแค่อินพุต/เอาต์พุตโทเค็นอาจต้องจ่ายแพงกว่าที่คาดมาก ถ้าอยากดูข้อมูลต้นทุนจริง ดูได้ที่ที่นี่
- Claude เป็นอันดับ 1 ในด้านปริมาณการสร้างโทเค็น และ Grok 4 เป็นอันดับ 2 ดูหัวข้อ "Cost to Run Artificial Analysis Intelligence Index" ได้ ลิงก์ที่เกี่ยวข้อง
- คิดว่าวิธีตั้งราคาค่อนข้างแปลก โทเค็นที่ใช้เพื่อการคิดมีจำนวนมากและหลีกเลี่ยงไม่ได้ เลยอาจคิดแค่ว่ามีค่าใช้จ่ายเฉพาะอินพุต/เอาต์พุตแล้วเจอบิลที่ไม่คาดคิด
- Tesla เคยเน้นเรื่องราคาและการประหยัดค่าน้ำมันโดยอิงจากผู้ใช้รถเครื่องยนต์สันดาปภายในเดิม แต่ในมุมของผู้ใช้ EV จริง ๆ กลับไม่ได้รู้สึกมากขนาดนั้น และช่วงหลังยังเอารายการประหยัดค่าน้ำมันออกจากตัวเลือกพื้นฐาน เหลือไว้แค่เงินสนับสนุน 7,500 ดอลลาร์ ฉันลองคำนวณเองแบบเป็นกลางแล้วก็ยังเห็นว่า EV คุ้มกว่ามาก และถ้าชาร์จที่บ้านก็ประหยัดได้อีกเยอะ จากประสบการณ์ของฉัน ถ้าคุณขับรถเครื่องยนต์สันดาปอยู่ แนะนำอย่างยิ่งให้เปลี่ยนเป็น EV
เพราะ Claude Code ทำให้ฉันที่เดิมทีไม่เคยจ่ายเงินใช้ LLM เลย กลายเป็นจ่ายเดือนละ 200 ดอลลาร์ไปแล้ว AI ที่จะเก็บเงินจำนวนนี้ได้ในอนาคต (หรือแม้แต่ 300 ดอลลาร์) จะต้องเป็นโมเดลที่สะท้อนประสบการณ์การใช้เครื่องมือในสภาพแวดล้อม reinforcement learning ของตัวเองแบบ Claude Code เท่านั้น ต่อให้โมเดลเก่งแค่ไหน ยุคของการคัดลอกโค้ดแล้ววางลงในหน้าต่างแชตก็ไปต่อไม่ได้แล้ว
- ยังไม่เคยลองเขียนโค้ดจริงด้วย LLM มาก่อน เช่น ล่าสุดฉันกำลังเขียนโค้ด serialization ที่อาจน่าเบื่อ และคิดว่าแค่อธิบายก็น่าจะให้ LLM เขียนให้ได้ แต่พอลงมือจริงกลับมีจุดติดขัดที่ต้องใช้ทักษะระดับค่อนข้างสูง ถ้าเป็นเด็กฝึกงานก็น่าจะรู้ว่ามีปัญหาและถามต่อ แต่ฉันสงสัยว่า LLM พัฒนาไปถึงขั้นที่แม้หาทางออกไม่เจอ ก็ยังบอกสถานการณ์ว่ามีปัญหาและขอความช่วยเหลือได้หรือยัง หรือมันจะโยนโค้ดแปลก ๆ มาให้เฉย ๆ
- ฉันไม่ค่อยชอบอินเทอร์เฟซของ Claude Code หรือ Gemini CLI แต่รู้สึกว่าประสบการณ์แบบ Cursor หรือ Copilot ที่ผสานเข้ากับ IDE นั้นเป็นธรรมชาติกว่า ถ้าเพิ่มการใช้เครื่องมือได้มากขึ้น ฉันก็ยินดีจ่ายเพิ่ม อนาคตของ LLM สำหรับการเขียนโค้ดน่าจะอยู่ที่การผสานเครื่องมือเป็นศูนย์กลาง ไม่ใช่รูปแบบแชตอีกต่อไป การที่มี GeminiCLI ออกมาก็อยู่ในบริบทเดียวกัน และเหตุผลที่ OpenAI ลงทุนใน windsutf และ Codex ก็คงคล้ายกัน การฝึกสภาพแวดล้อม RL แบบปรับแต่งตามบันทึกการใช้เครื่องมือของผู้ใช้น่าจะเป็นประเด็นเทคโนโลยีสำคัญของปีหน้า
- อยากรู้ว่าประสบการณ์ระหว่างโมเดลที่ถูกฝึกมาให้ใช้เครื่องมือได้อย่าง Claude Code กับวิธีแบบ aider ที่ใช้เครื่องมือโดยไม่ยึดติดกับโมเดล แตกต่างกันอย่างไร ไม่รู้ว่ามีใครลองใช้ทั้งสองแบบหรือยัง
- ได้ยินข่าวลือว่าในอีกไม่กี่สัปดาห์ข้างหน้าจะมี Grok 4 เวอร์ชันเฉพาะทางสำหรับการเขียนโค้ดออกมา
ตอนนี้อาจต้องมีเบนช์มาร์กใหม่อย่าง “AI ตัวนี้เปลี่ยนให้เป็นสไตล์ 4chan ได้ไหม” ก็ได้ ดูเหมือนว่า Elon จะพยายามใช้จุดนี้เป็นความแตกต่างของ Grok
- จริง ๆ แล้วเบนช์มาร์กแบบนี้ไม่ได้ใหม่เลย Microsoft เคยตั้งมาตรฐานนี้ไว้แล้วกับ Tay ในปี 2016 ลิงก์อ้างอิง
- น่าจะน่าสนุกถ้าเอาพรอมป์ต์ที่ทำให้เกิดปัญหา MechaHitler ใน Grok ไปใส่กับ LLM หลาย ๆ ตัว แล้วเทียบกันว่าแต่ละโมเดลตอบสนองอย่างไร
บรรทัดที่เป็นปัญหาในพรอมป์ต์ของ Grok เพิ่งถูกลบออกจาก Github จริง ลิงก์ที่เกี่ยวข้อง
- แต่ยืนยันได้ว่าบรรทัดนั้นหายไปจาก Grok 3 แล้ว ขณะที่ใน Grok 4 ยังมีอยู่ ลิงก์
- แปลกตรงที่หน้าดังกล่าวโผล่มาให้เห็นชั่วครู่แล้วก็หายไปทันทีและถูกบล็อกการเข้าถึง ถึงอย่างนั้นฉันก็ได้ตรวจสอบประเด็นสำคัญไปแล้ว
- บางคนถึงขั้นคอมเมนต์แรง ๆ โดยใช้ชื่อจริงและชื่อบริษัทของตัวเองด้วย น่าแปลกดี
- อยากรู้จริง ๆ ว่าจะทำ QA ให้เทคโนโลยี AI ที่ไม่กำหนดแน่นอนแบบนี้และทำซ้ำไม่ได้อย่างไร
ถ้าอยากอ้างอิง มีทั้งเธรดเกี่ยวกับ Grok 4 และวิดีโอเปิดตัวที่มีคอมเมนต์ถล่มทลายเกิน 500 รายการ Grok 4 Launch
มีคนสงสัยภูมิหลังทางเทคนิคของประเด็น Mechahitler แต่จริง ๆ แล้วไม่ใช่เรื่องที่เกิดจาก Grok 4 มันเป็นสิ่งที่เกิดกับ Grok 3 และเป็นปรากฏการณ์ที่เกิดขึ้นได้กับ LLM ตัวไหนก็ได้เมื่อเจอพรอมป์ต์เชิงหลอกล่อ ช่วงหนึ่งมีพรอมป์ต์ที่บังคับให้เลือกระหว่าง MechaHitler กับ GigaJew และ Grok 3 ก็เลือกอย่างแรก
- มันเป็นเรื่องที่เกิดใน Grok 3 และแค่จังหวะเวลามาซ้อนกับ Grok 4 เท่านั้น เป็นคนละเหตุการณ์กัน
กระแสการซ่อนโทเค็นการคิด (Thinking tokens) ไม่ค่อยเป็นสิ่งที่พึงประสงค์นักในมุมของคนพัฒนาผลิตภัณฑ์ ไม่แน่ใจว่าใน API ดูได้หรือเปล่า และถ้าไม่รองรับก็มีโอกาสจะย้ายไปแพลตฟอร์มอื่น
ต่อให้ Grok ค้นพบวิธีรักษามะเร็ง ฉันก็ไม่มีวันอยากใช้มันตราบใดที่ยังเกี่ยวข้องกับ Musk
- ตัวอย่างก็เช่นที่นี่
- มีคนถามว่าเพราะอะไร
มีความเห็นหนึ่งชี้ว่าการที่ Grok 3 กลายเป็นเหยียดเชื้อชาติได้ตาม system prompt เป็นปัญหา แต่ฉันกลับมองในแง่บวกว่าอย่างน้อยมันแปลว่าโมเดลทำตามคำสั่งได้ดี โมเดลอื่น ๆ มักมีแนวโน้มทำงานเหมือนเดิมตลอดไม่ว่า system prompt จะเป็นอย่างไร
- ดูจากประวัติของคู่สนทนาแล้วน่าจะเป็นแฟน Musk ชัดเจน แต่ก็ยากจะเห็นด้วยอย่างยิ่งกับการเรียกการที่โมเดลกลายเป็น mechaHitler หรือผลิตข้อความรุนแรงว่าเป็น “ข้อดี” อยากให้คิดจริงจังหน่อยว่าผลลัพธ์แบบนี้อาจทำให้เกิดอันตรายต่อชีวิตคนจริงได้
- Claude เองก็สามารถทำให้ทำตาม system prompt บางส่วนได้ผ่านวิธี pre-fill แม้ฉันจะยังไม่เข้าใจระดับของมันทั้งหมด แต่ก็ดูเหมือนว่าสามารถเลี่ยงการปฏิเสธได้อยู่บ้าง โดยพื้นฐานแล้วฉันคิดว่าคุณสมบัติที่ทำให้โมเดลพื้นฐานทำตามคำสั่งของนักพัฒนาได้ถือเป็นเรื่องที่ดี
- แต่การปรับได้มากขนาดนี้ก็อาจหมายความว่ามันสามารถพุ่งไปในทิศทางอันตรายได้เช่นกัน
- สิ่งที่ฉันกังวลยิ่งกว่าคือแค่แก้พรอมป์ต์เพียงจุดเดียวก็เปลี่ยนให้มันพ่นข้อความฝักใฝ่นาซีออกมาได้ทันที ซึ่งน่าตกใจมาก

รีวิว Grok 4 ของ Simon Willison

ภาพรวมของ Grok 4

ประสิทธิภาพและผลเบนช์มาร์ก

ประเด็น system prompt และความปลอดภัย

ราคาและนโยบายการสมัครสมาชิก

สรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นใน Hacker News