พูดถึง DS4 สักหน่อย

(antirez.com)

1 คะแนน โดย GN⁺ 5 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

DwarfStar 4 แพร่กระจายอย่างรวดเร็วกว่าที่คาดไว้ และสะท้อนให้เห็นถึงความต้องการต่อ ประสบการณ์ AI แบบโลคัล ที่มีโมเดลเดียวเป็นศูนย์กลาง
การแพร่กระจายอย่างรวดเร็วนี้เกิดจาก DeepSeek v4 Flash และการทำควอนไทซ์แบบอสมมาตร 2/8 บิต ทำให้สามารถรันได้ด้วย RAM 96GB หรือ 128GB
DS4 ไม่ใช่โปรเจกต์ที่ผูกติดกับโมเดลใดโมเดลหนึ่ง แต่ต้องการวางโมเดล open-weight รุ่นใหม่ที่ทำงานได้เร็วบนอุปกรณ์แบบ GPU in a box ไว้เป็นแกนหลัก
สำหรับการอนุมานแบบโลคัล แนวทางที่เรียกใช้โมเดลเฉพาะทางอย่าง ds4-coding, ds4-legal, ds4-medical ตามประเภทคำถาม ดูมีความหมายอย่างมาก
จุดโฟกัสต่อจากนี้คือ quality benchmark, เอเจนต์เขียนโค้ด, CI บนฮาร์ดแวร์ที่บ้าน, การพอร์ตให้กว้างขึ้น และการอนุมานแบบกระจายทั้งอนุกรมและขนาน

การแพร่กระจายอย่างรวดเร็วของ DS4 และเบื้องหลัง

DwarfStar 4 ได้รับความนิยมเร็วกว่าที่คาด และแสดงให้เห็นถึงความต้องการต่อประสบการณ์ AI แบบโลคัลที่เน้น การรวมศูนย์ด้วยโมเดลเดียว
การแพร่กระจายอย่างรวดเร็วนี้เป็นผลจากการมาถึงของโมเดลกึ่ง frontier อย่าง DeepSeek v4 Flash, ประสิทธิภาพและความเร็วที่มากพอจะเปลี่ยนภูมิทัศน์ของการอนุมานแบบโลคัล, รวมถึงการผสานกับการทำควอนไทซ์แบบอสมมาตร 2/8 บิตที่ทรงพลัง
การผสมผสานนี้ทำให้สามารถรันโมเดลได้ด้วย RAM 96GB หรือ 128GB เท่านั้น
ประสบการณ์จาก ขบวนการ Local AI ที่สั่งสมมาตลอดหลายปีที่ผ่านมา มีอิทธิพลต่อความเร็วในการพัฒนา DS4 และหากไม่มีความช่วยเหลือจาก GPT 5.5 ก็คงยากที่จะสร้างเสร็จภายใน 1 สัปดาห์
สัปดาห์แรกทั้งสนุกแต่ก็เหนื่อยล้า ทำงานเฉลี่ยวันละ 14 ชั่วโมง และมีความเข้มข้นใกล้เคียงกับช่วงไม่กี่เดือนแรกของ Redis

ทิศทางในอนาคต

DS4 ไม่ใช่โปรเจกต์ที่เริ่มและจบลงที่ DeepSeek v4 Flash และเมื่อเวลาผ่านไป โมเดลแกนกลางอาจเปลี่ยนไปได้
เป้าหมายคือวางโมเดล open-weight รุ่นใหม่ที่ทำงานได้เร็วจริงบนอุปกรณ์แบบ “GPU in a box” เช่น Mac ประสิทธิภาพสูงหรือ DGX Spark ให้เป็นหัวใจของ DS4
ตัวเลือกถัดไปคือ DeepSeek v4 Flash ที่จะปล่อยออกมาเป็น checkpoint ใหม่ รวมถึงเวอร์ชันสำหรับงานโค้ดดิ้งหรือโมเดลเฉพาะทางด้านกฎหมายและการแพทย์ก็เป็นไปได้เช่นกัน
สำหรับการอนุมานแบบโลคัล แนวทางที่เรียกใช้โมเดลอย่าง ds4-coding, ds4-legal, ds4-medical ตามลักษณะคำถาม ดูเป็นแนวทางที่มีความหมาย
นี่อาจถือเป็นครั้งแรกที่งานจริงจังซึ่งเคยต้องถาม Claude หรือ GPT ถูกย้ายมามอบหมายให้โมเดลแบบโลคัล
ด้วย vector steering จึงเป็นไปได้ที่จะใช้งาน LLM ได้อย่างอิสระมากขึ้น และ DS4 มอบประสบการณ์ที่ใกล้กับโมเดล frontier แบบออนไลน์มากกว่าการใช้โมเดลโลคัลขนาดเล็ก
หลังจากช่วงสองสามวันแรกที่ค่อนข้างวุ่นวาย โปรเจกต์จะมุ่งเน้นไปที่ quality benchmark, เอเจนต์เขียนโค้ด, การทดสอบ CI บนฮาร์ดแวร์ที่บ้าน, การพอร์ตเพิ่มเติม และการอนุมานแบบกระจาย
การอนุมานแบบกระจายรวมถึงทั้งแบบ serial และ parallel และยังคงเป็นงานสำคัญสำหรับอนาคต
AI มีความสำคัญเกินกว่าจะปล่อยให้เป็นเพียงบริการที่มีผู้ให้บริการส่งมอบเท่านั้น

1 ความคิดเห็น

GN⁺ 5 시간 전

ความคิดเห็นจาก Hacker News

DwarfStar4 คือรันไทม์อนุมาน LLM ขนาดเล็กที่สามารถรัน DeepSeek 4 ได้ และจากโพสต์บล็อกดูเหมือนว่าตอนนี้ต้องใช้ VRAM 96GB
อธิบายไว้สำหรับคนที่ยังขาดบริบท :-)
- นั่นไม่ใช่โมเดลเต็ม แต่เป็น เวอร์ชัน Flash และการควอนไทซ์ก็อยู่ราวระดับ Q2~Q3 ดังนั้นถึงจะน่าประทับใจแต่ก็ยังต่างจากโมเดลเต็มพอสมควร
- ตรงที่บอกว่าต้องใช้ VRAM 96GB นี่ทำให้อยากรู้ว่ามีใครลองรันบน Mac ที่มี RAM น้อยกว่านี้หรือยัง
  ดูเหมือนว่าน่าจะยังทำงานได้ แต่อาจช้าลงเล็กน้อยเพราะต้องดึงเลเยอร์ของโมเดลมาจากสตอเรจ
- สงสัยว่า DwarfStar4 ต่างจาก llama.cpp อย่างไร
สงสัยมากว่าความฉลาดที่ต้องใช้สำหรับการเขียนโค้ดจะไปถึงจุดไหนถึงจะเรียกว่า “พอแล้ว”
ถึงจุดหนึ่ง อาจใช้โมเดลที่ฉลาดน้อยกว่าแต่ปล่อยให้มันเกาะปัญหานานขึ้นจนได้ผลลัพธ์แบบเดียวกัน และถ้าฉันไม่ต้องเข้าไปแทรกแซง สุดท้ายก็ถือว่าเท่ากัน
DeepSeek V4 Pro ให้ความรู้สึกว่าเกือบถึงจุดนั้นแล้ว และ Flash ก็อาจจะด้วย
ถ้าไปถึงจุดนั้นได้ ก็สงสัยว่าโมเดลธุรกิจปัจจุบันของ Anthropic จะพังลงไปมากแค่ไหน
ที่ผ่านมามันชัดเจนเสมอว่าการจ่ายเงินให้โมเดลที่ฉลาดที่สุดนั้นคุ้มค่า แต่ตอนนี้ดูชัดว่าพื้นที่ให้แนวคิดนั้นเติบโตต่อมีจำกัด
คำถามคือระยะทางที่ยังเหลืออยู่อีกยาวแค่ไหน และการที่ Anthropic เร่งขยายไปทางองค์กรและงานสาย productivity ก็เพราะเห็นแนวโน้มนี้อยู่แล้วหรือเปล่า
- โมเดลที่ฉลาดกว่าบางทีก็ทำสิ่งที่โมเดลเล็กทำไม่ได้เลย
  ดูไม่ใช่ปัญหาที่แค่รอนานขึ้นก็พอ
- สุดท้ายแล้วมันจะกลายเป็นเรื่องของ ต้นทุน เสมอ
  เป็นสมดุลระหว่างเวลานักพัฒนา ต้นทุนนักพัฒนา ต้นทุน AI และผลิตภาพของนักพัฒนา
  ถ้ามองจาก 4.6 ก็เหมือนว่าเข้าใกล้เพดานที่องค์กรทั่วไปพอจะรับต้นทุนได้แล้ว ดังนั้นตัวแปรอื่นน่าจะต้องเปลี่ยน
- เอเจนต์เขียนโค้ดโอเพนซอร์ส Kilo ได้ทดสอบเปรียบเทียบ Deepseek v4 Pro และ Flash กับ Opus 4.7 และ Kimi K2[1]
  ผลลัพธ์ถือว่าใช้ได้ แต่คะแนนต่ำกว่า Opus พอสมควร และแม้ใช้ราคาโปรโมชันตอนเปิดตัวของ Deepseek แล้ว ต้นทุนก็ยังแทบไม่ต่างกัน
  โครงสร้างต้นทุนแบบนี้น่าสนใจ เพราะเคยเห็นคล้ายกันกับ Sonnet และ Opus และเวลาเบนช์มาร์กเองก็พบว่าบางโมเดลดูเหมือนราคาดี แต่ใช้โทเคนมากเกินไปจนสุดท้ายมีต้นทุนเท่ากับโมเดลที่ “แพงกว่า”
  [1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
- สำหรับโปรแกรมเมอร์สายงานอดิเรก มันคงไปถึงระดับ ดีพอ ได้ค่อนข้างเร็ว แต่ฝั่งองค์กรก็น่าจะยังยอมจ่ายให้โมเดลที่เร็วกว่าและฉลาดกว่าต่อไป
  จะปล่อยให้โปรแกรมเมอร์นั่งรอไปทำไม
ดีที่ได้เจอ เครื่องมือที่โฟกัสแคบๆ แบบนี้
แบ็กเอนด์ที่รองรับตั้งเป้าไปที่ Metal เป็นหลัก และเริ่มจาก MacBook ที่มี RAM 96GB
ฝั่ง NVIDIA CUDA ให้ความสำคัญกับ DGX Spark เป็นพิเศษ ส่วน AMD ROCm รองรับเฉพาะในสาขา rocm เท่านั้น
เพราะ antirez ไม่มีสิทธิ์เข้าถึงฮาร์ดแวร์โดยตรง จึงแยกออกจาก main และอาศัยชุมชนช่วย rebase เมื่อต้องการ
โปรเจกต์นี้คงไม่มีทางเกิดขึ้นได้หากไม่มี llama.cpp และ GGML และก็มีการบอกให้อ่านส่วนขอบคุณด้วย
แต่ดูเหมือนว่ายังไม่รองรับ system RAM offloading[0]
ดังนั้นก็คงต้องติดตาม issue ของ llama.cpp ต่อไปด้วย[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
- ที่บอกว่า AMD ROCm รองรับเฉพาะในสาขา rocm อยากรู้ว่ามีใครลองจริงแล้วหรือยัง
  กระทู้นี้พูดถึง MacBook Pro กันเยอะ แต่ฉันอยากลองบน AMD Halo Strix ที่มี หน่วยความจำรวม 128GB
- ถ้าซื้อ Mac ที่มี RAM ขนาดนั้นได้จริงก็คงดี
ลองใช้ เวอร์ชัน Q4 ผ่านเครือข่ายโลคัลบน Mac Studio แล้ว รู้สึกว่าดีมาก
ใช้ร่วมกับหลายเอเจนต์ แล้วมีอยู่ครั้งหนึ่งที่มันทำงานได้ดีมากจนลืมไปเลยว่านี่คือโมเดลโลคัล
แต่ก็ยังสงสัยว่าจำเป็นต้องมีเอเจนต์อีกตัวจริงไหม
ลองรันด้วย Pi แล้ว system prompt ของ Claude Code หนักเกินไปมากถ้าคิดถึงความเร็ว prefill แต่ผลลัพธ์ออกมายอดเยี่ยม
OpenCode ก็เป็นอีกตัวเลือกที่ดี
สงสัยว่าการทำเครื่องมือคล้ายกันเพิ่มขึ้นมาอีกตัวที่เจาะเฉพาะ Deepseek 4 จะได้ประโยชน์เพิ่มแค่ไหน
- ในแง่ฟังก์ชันแล้ว ไม่จำเป็นต้องมีเอเจนต์อีกตัว
  แต่ถ้าทำตามแนวคิดของ DS4 เอง เอเจนต์แบบ API มักถูกบังคับให้ทำเรื่องประหลาด เช่น แปลไวยากรณ์ DSML เป็น JSON ซึ่งก็นำไปสู่ปัญหาเรื่อง normalization หรือการทำ KV cache checkpointing
  ไม่ว่าจะเป็นอย่างนั้นจริงไหม การมีทางเลือกที่ดูปกติกว่าก็ยังมีความหมาย
  ฉันก็ยังไม่เข้าใจเหมือนกันว่าทำไมถึงไม่มีใครพยายามเขียนอะไรในสายนี้ด้วย C/Go/Rust ให้มากกว่านี้ เพื่อให้ควบคุมได้ดีขึ้น เร็วขึ้น และลด dependency
  ฝั่ง TUI เองก็ยังมีอะไรให้จินตนาการได้อีกมาก
  หลายโปรเจกต์มีปัญหาตรงที่แค่ลอกสิ่งที่เห็นมาแล้ว เช่น ฉันทำอะไรแบบนี้ขึ้นมาได้ใน 20 นาที: https://x.com/antirez/status/2055190821373116619
  ตอนนี้โค้ดมีต้นทุนถูกลง และมูลค่าของไอเดียสูงขึ้น
  ไม่แน่ใจว่าในยุคนี้การคิดว่า “จำเป็นต้องมี XYZ อีกตัวไหม?” ยังเป็นกรอบคิดที่ถูกอยู่หรือเปล่า
  แค่เพื่อสำรวจไอเดียใหม่ๆ ก็น่าจะคุ้มแล้ว
  ส่วนตัวฉันไม่ชอบใช้ ecosystem ของ JavaScript / Node กับงานเขียนโค้ด ดังนั้นเวลาอยากลอง TUI ใหม่หรือเวิร์กโฟลว์แบบเอเจนต์ การใช้เครื่องมือที่ถนัดกว่าจะเปลี่ยนทั้งผลลัพธ์และกระบวนการทำซ้ำ
- DS4 เป็น inference engine ไม่ใช่ execution harness
  มันให้ inference API server แล้วค่อยเอา coding harness ไปต่อเข้ากับมัน
ตอนนี้ยังใช้ไม่ได้เพราะฮาร์ดแวร์ไม่ถึง แต่ชอบแนวทางนี้นะ ฉันมีแค่ M2 Max 96GB
เข้าใจได้เหมือนกันว่ามันอาจดูใช้ไม่ได้หรือดูแย่กว่าบนเครื่องของผู้ใช้ทั่วไปหรือคอมพิวเตอร์ตลาดแมส
มันทำให้นึกถึงสมัยก่อนที่คอมพิวเตอร์ตามบ้านยังถูกมองเป็นของเล่น ก่อนจะกลายเป็นคอมพิวเตอร์ส่วนบุคคลจริงๆ
ชุดที่ยังพอใช้ได้บนฮาร์ดแวร์ตอนนี้ของฉันคือ pi agent + llama.cpp + nemotron cascade-2
มันรองรับบริบทได้ถึง 1M และด้วยสถาปัตยกรรมแบบไฮบริด มันจึงไม่พังลงแบบ 1/N² เมื่อเจอกับความลึกบริบทระดับ 10K·50K·100K ที่ code agent ใช้
ไม่กี่วันก่อนบนเครื่องบิน ฉันยังรัน pi agent กับ llama.cpp serving ได้โดยไม่ต้องใช้อินเทอร์เน็ต และมันก็พอใช้งานได้แบบเฉียดๆ ที่ราว 40~30 โทเคนต่อวินาที ซึ่งก็ชวนขำดี
ปกติฉันเข้าใจว่าความเร็วผ่าน API จะประมาณสองเท่าคือ 60~80 โทเคนต่อวินาที
ระหว่างอนุมาน เซ็นเซอร์แสดงว่ากินไฟ 60W และแบตเตอรี่น่าจะอยู่ได้ไม่ถึง 3 ชั่วโมง
ขนาดโมเดลมีแค่ 30B ทำให้ยังมีพื้นที่เหลือสำหรับ KV cache และโปรแกรมอื่นๆ เยอะพอ และแม้ใช้การควอนไทซ์ 8 บิตแบบเผื่อๆ ก็ยังโอเค
MoE A3B ที่มีพารามิเตอร์ทำงานพร้อมกันแค่ 3B ดูเหมือนจะเป็นเพดานสูงสุดที่ M2 Max รุ่นเริ่มเก่าจะรับไหว
- ไม่รู้ว่าบน macOS จะต่างกันไหม แต่ถ้าเป็น CUDA กับ DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf มันใส่อยู่ใน VRAM 96GB ได้แม้รวมบริบทด้วย
  ดังนั้นถ้า macOS ไม่ได้จอง RAM/VRAM ไปให้ OS หรือจอแสดงผลหลาย GB โดยปริยาย ในทางทฤษฎีก็น่าจะพอได้
- คิดว่าน่าจะรันได้บนเครื่องนั้นเหมือนกัน
  มีรายงานเชิงบวกอยู่บ้าง
- ถ้า 96GB ก็น่าจะรันได้ โดยเฉพาะเมื่อใช้บริบทจำกัด
  แต่ M2 Max จะค่อนข้างช้า
แปลกใจที่มันให้ความรู้สึกใกล้กับ Claude มาก
แน่นอนว่าช้ากว่ามาก แต่ไม่แน่ใจว่ามันโง่กว่ามากไหม
ที่น่าสนใจคือ imatrix quantization ดูดีกว่าการควอนไทซ์ทุกแบบที่แบ็กเอนด์อนุมาน zdr ของ OpenRouter ใช้อยู่
เมื่อวานมันยังรู้เองด้วยว่า server process ของมันก็คือตัวมันเอง โดยที่ฉันไม่ต้องบอก ซึ่งนี่เป็นครั้งแรกที่เห็นโมเดลโลคัลทำแบบนั้น
- อยากรู้ว่าใช้พรอมป์ต์อะไร
- แม้จะเป็นการทดสอบเชิงประสบการณ์ล้วนๆ แต่ DeepseekV4 Pro เขียนโค้ดได้ดีกว่า Sonnet
  แม้จะช้ากว่ามาก แต่ในราคาโปรโมชันตอนนี้ก็ถูกกว่าหลายเท่าด้วย
ดูเหมือนยังไม่ได้อธิบายว่าทำไมต้องสร้าง inference engine ใหม่แยกตามแต่ละโมเดล
ใช้ llama.cpp ไปเลยก็ได้ เพราะตอนนี้ก็มีคนจำนวนมากกำลังทำงานรวมเข้ากับ llama.cpp อยู่แล้ว
มันเหมือนทุ่มแรงไปมากกับโมเดลเดียว และถ้ามีโมเดลอื่นที่ดีกว่าออกมา มันก็อาจล้าสมัยเร็วมาก
ในบางการสนทนา ผู้คนกำลังส่ง PR ทั้งไปที่สาขา llama.cpp และ ds4 พร้อมกัน ทำให้กำลังคนที่หายากซึ่งลงทุนเวลาในการพัฒนาโมเดลนี้ถูก กระจายตัว
- การทำงานบน โค้ดเบส C ที่โฟกัสและเป็นของตัวเองนั้นง่ายกว่ามาก เมื่อเทียบกับโค้ดเบส C++ ที่โตเต็มที่ จัดการยาก และเราไม่ได้เป็นเจ้าของ
  แต่ก็ไม่เป็นไร เดี๋ยวคนอื่นก็คงพอร์ตงานนั้นไปที่ llama.cpp และทุกคนก็ได้ประโยชน์
  ประสบการณ์ใช้งานของ ds4 ก็ดีมากเช่นกัน ได้โมเดลที่ผ่านการยืนยันแล้วและการควอนไทซ์ที่ดีได้ง่ายมาก
  ส่วน llama.cpp มีปุ่มให้ปรับเยอะเกินไปจนให้ความรู้สึกเหมือนแฮ็กอะไรอยู่กลางถิ่นทุรกันดารมากกว่า
- ดูเหมือนสมมติฐานคือ “โค้ดราคาถูก แต่การร่วมมือกัน เช่น การ upstream งานกลับไปนั้นแพง”
  อีกไม่กี่ปีก็คงได้เห็นกันว่าจริงหรือไม่
- อย่างที่ผู้เขียนพูดหลายครั้ง ผู้ดูแล llama.cpp ไม่ต้องการรับโค้ดที่ AI เขียนเข้ามาจำนวนมากโดยไม่มีมนุษย์ตรวจทาน
  ถ้าใครอยากอัปสตรีมการรองรับกลับเข้าโปรเจกต์นั้นก็ทำได้อย่างอิสระ และโค้ดก็อยู่ภายใต้ MIT license
- เมื่อโปรเจกต์ใหญ่และยืดหยุ่นอย่าง llama.cpp หรือ Linux โตถึงระดับหนึ่ง ระดับของ abstraction และ generalization ที่ต้องใช้จะทำให้จำนวนไฟล์พุ่งสูงมาก
  โปรเจกต์ที่ใหม่กว่าและเล็กกว่าจึงเคลื่อนที่ได้เร็วกว่า
DeepSeekV4 Pro เป็นโมเดลที่มีความสามารถจริงๆ และดีมากโดยเฉพาะเมื่อเทียบกับราคาที่ให้มา
ฉันกำลังลองเล่นเอนจิน 2.5D บน raylib ด้วย C แล้วใช้ DeepSeek เป็นผู้ช่วย
ใน OpenaCode มองเห็นบันทึกกระบวนการคิดได้อย่างโปร่งใส และการได้เห็นกระบวนการคิดนั้นน่าทึ่งมาก
มันยาวมากเวลาอ่าน แต่ไม่มีส่วนไหนไร้ประโยชน์หรือไม่มีความหมาย
DeepSeek มักจะชี้ให้เห็นสมมติฐานที่ฉันไม่ได้คิดถึงหรือคิดผิดไว้ในกระบวนการคิด และในเอาต์พุตสุดท้ายก็มักจะจัดให้สอดคล้องกับ flawed request ของฉัน
พอเป็นแบบนั้นฉันก็จะสั่งกลับไปว่า “เดี๋ยวก่อน คุณก็คิดแบบนั้นเหมือนกันใช่ไหม นั่นแหละถูกแล้วและฉันเป็นฝ่ายพลาด งั้นมาพิจารณาด้านนั้นด้วย”
อยากให้รันของแบบนี้ได้ไม่ใช่แค่บนคอมของฉัน แต่บนโปรเจกต์ลูกค้าหรือ คลาวด์ GPU ด้วย
ไอเดียหลักที่ว่าใช้โมเดลทรงพลังได้อย่างมีประสิทธิภาพโดยไม่ต้องมีคลัสเตอร์ ยังใช้ได้กับกรณีธุรกิจอีกมาก
หวังว่าวิธีนี้จะทำงานได้ในโหมดแบตช์ด้วย
ตอนนี้บน H200 สำหรับการเรียกใช้เครื่องมือแบบเอเจนต์ของ voice agent ฉลาดๆ รู้สึกว่า Qwen 3.6 27B แบบ 4 บิตที่มี MTP เป็นหนึ่งในตัวเลือกที่ดีที่สุด
ถ้า DS4 Flash เป็น 80B แบบ 2 บิต active 13B และมีโครงสร้าง MTP ก็สงสัยว่ามันจะทั้งเร็วกว่า ฉลาดกว่า และรองรับจำนวนลำดับพร้อมกันได้มากกว่าหรือไม่
การควอนไทซ์ 2 บิต แบบพิเศษนี้ดูมีนัยสำคัญมากทีเดียว
เวลามองดูประสิทธิภาพและความเร็วของสิ่งที่เรียกว่า “ความฉลาด” บนโมเดลโลคัลเพิ่มขึ้นเร็วมาก ก็อดสงสัยไม่ได้ว่าอัตราการเติบโตและเพดานของพื้นที่นี้อยู่ตรงไหน
ภายในไม่กี่ปี เราจะได้ความฉลาดและประสิทธิภาพระดับนี้บนเครื่องที่มี RAM 16GB อย่างเช่นนี้ไหม?
เรานิยามกฎของมัวร์รูปแบบใหม่จากตรงนี้ได้หรือเปล่า?
- ถ้าจะยัดโมเดลแบบนี้ลงใน 16GB แบบให้ยังมีกลิ่นอายของ ‘โมเดลใหญ่’ อยู่ด้วย ตรงไปตรงมาคือทุกวันนี้ยังทำไม่ได้ หรืออย่างน้อยก็ไม่สมจริง
  ต้องมีนวัตกรรมทางสถาปัตยกรรม ฮาร์ดแวร์ หรือเทคนิคการควอนไทซ์แบบใหม่
  ปัญหาคือแม้แต่พารามิเตอร์ที่ไม่ได้ถูก activate ก็ยังต้องอยู่ในหน่วยความจำทั้งหมด
  ต่อให้เป็น mixture-of-experts การสลับพารามิเตอร์เข้าออก RAM ก็ช้าเกินไป
- คนที่ทำงานแนวหน้าของสายนี้ดูเหมือนจะมองว่าจำเป็นต้องมี โมเดลแบบขนาน ที่แก้คนละปัญหา
  อีกามีสมองเล็กกว่ามนุษย์มากแต่ก็ยังแสดงความฉลาดได้ระดับหนึ่ง และความสามารถในการแก้ปัญหาระหว่างมนุษย์ที่ฉลาดน้อยที่สุดกับอีกาที่ฉลาดที่สุดก็มีส่วนทับซ้อนกันอยู่
  เพราะงั้นคำถามก็คือสิ่งนั้นคืออะไร
  Yann LeCun ดูเหมือนจะมองว่านั่นคือสิ่งที่ตอนนี้เราเรียกว่า world model
  world model ไม่ได้ทำนายข้อมูลมีโครงสร้างอย่างภาษา แต่ทำนายการกระทำ
  ถ้าคุณทำนายได้ว่าโลกใดโลกหนึ่งทำงานอย่างไร ในทางทฤษฎีก็อนุมานเหตุและผลได้
  ถ้ารวมการอนุมานเหตุและผลเข้ากับภาษาได้ ก็อาจได้บางอย่างที่เข้าใกล้ปัญญาจริง
  ดูเหมือนทิศทางจะกำลังไปทางนั้น
  ถ้ามีต้นแบบของระบบแบบนั้นออกมา คำถามจำนวนมากก็จะตามมาเกี่ยวกับว่าจริงๆ แล้วต้องใช้ข้อมูลมากแค่ไหน
  เราเห็นมาแล้วว่าต่อให้ย่อ LLM ด้วยการควอนไทซ์ 1 บิต ก็ยังได้โมเดลที่เข้าใจภาษาค่อนข้างแข็งแรง
  ฉันไม่คิดว่าจะเป็นเรื่องไร้เหตุผลเลยที่จะได้เห็นระบบ AI ที่ฉลาดมากโดยใช้หน่วยความจำค่อนข้างต่ำภายในอีกไม่กี่ปีข้างหน้า

พูดถึง DS4 สักหน่อย

การแพร่กระจายอย่างรวดเร็วของ DS4 และเบื้องหลัง

ทิศทางในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News