2 คะแนน โดย GN⁺ 3 시간 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • AI คือ โครงสร้างพื้นฐานระดับอารยธรรม สำหรับงาน การศึกษา วิทยาศาสตร์ ซอฟต์แวร์ งานสร้างสรรค์ บริการสาธารณะ และขีดความสามารถของชาติ และการเข้าถึงไม่ควรถูกกำหนดโดยเงื่อนไขและราคาของบริษัทไม่กี่แห่ง
  • ความสามารถในการวิจัย สร้าง ซ่อมแซม เผยแพร่ ตรวจสอบ ปรับแต่ง ฝึก อนุรักษ์ และรันระบบปัญญาได้โดยไม่ต้องขออนุญาต เชื่อมโยงโดยตรงกับ เสรีภาพในการปฏิบัติการ
  • โอเพนซอร์ส AI ต้องคง ความสามารถในการใช้งาน ไว้ได้ แม้ว่าสถาบันวิจัยผู้ครองตลาดในปัจจุบัน สถาบันวิจัยต่างประเทศ ผู้ผลิตฮาร์ดแวร์ แพลตฟอร์มคลาวด์ หรือผู้ให้บริการโมเดลแบบ open-weight จะเปลี่ยนทิศทางหรือหายไปก็ตาม
  • หากสถาบันแนวหน้าที่ปิดไม่กี่แห่งและบริษัทแพลตฟอร์มไม่กี่รายควบคุมโมเดลไว้ โครงสร้างพื้นฐานด้านปัญญาอาจเสี่ยงกลายเป็น เศรษฐกิจแบบสมัครสมาชิกของการรับรู้
  • สหรัฐฯ ต้องไม่ตามหลังในเสรีภาพในการรัน ตรวจสอบ แก้ไข ทำเบนช์มาร์ก ฝึก และอนุรักษ์โครงสร้างพื้นฐานด้านปัญญา และท่าทีเชิงปฏิบัติควรเป็นการผสาน ขีดความสามารถของสหรัฐฯ เข้ากับมาตรฐานเปิดระดับโลก

โอเพนซอร์ส AI ต้องชนะ

  • หากปัญญากลายเป็นสิ่งที่ยืมใช้ได้เฉพาะจากสถาบันปิดไม่กี่แห่ง สาธารณชนจะสูญเสียไม่ใช่แค่เสรีภาพของซอฟต์แวร์ แต่รวมถึง เสรีภาพในการปฏิบัติการ ด้วย
  • ต้องสามารถวิจัย สร้าง ซ่อมแซม เผยแพร่ ตรวจสอบ ปรับแต่ง ฝึก อนุรักษ์ และรันระบบปัญญาได้โดยไม่ต้องขออนุญาต และความสามารถนี้มี ความสำคัญในระดับการดำรงอยู่
  • AI ถูกมองว่าเป็น โครงสร้างพื้นฐานระดับอารยธรรม ที่ค้ำจุนงาน การศึกษา วิทยาศาสตร์ ซอฟต์แวร์ งานสร้างสรรค์ บริการสาธารณะ และขีดความสามารถของชาติ
  • การเข้าถึง AI ไม่ควรพึ่งพา API แบบปิด แพลตฟอร์มระยะไกล ข้อกำหนดการใช้งานที่เปลี่ยนแปลงได้ การปรับแต่งที่ไม่โปร่งใส ความพร้อมใช้งานของโมเดล หรือราคาที่กำหนดโดยบริษัทไม่กี่แห่ง

เงื่อนไขที่โอเพนซอร์ส AI ต้องรักษาไว้

  • โอเพนซอร์ส AI ต้อง ใช้งานได้ เข้าใจได้ และทำซ้ำได้
  • โอเพนซอร์ส AI ต้อง ติดตั้งใช้งานในเครื่องได้ มีความยั่งยืนทางเศรษฐกิจ และชุมชนต้องสามารถรับหน้าที่กำกับดูแลได้
  • แม้ว่าสถาบันวิจัยผู้ครองตลาดในวันนี้ สถาบันวิจัยต่างประเทศ ผู้ผลิตฮาร์ดแวร์ แพลตฟอร์มคลาวด์ หรือผู้ให้บริการโมเดลแบบ open-weight จะเปลี่ยนทิศทางหรือหายไป โอเพนซอร์ส AI ก็ต้องทำงานต่อไปได้
  • หากสถาบันแนวหน้าที่ปิดไม่กี่แห่งและบริษัทแพลตฟอร์มไม่กี่รายควบคุมโมเดลไว้ โครงสร้างพื้นฐานด้านปัญญาอาจเสี่ยงกลายเป็น เศรษฐกิจแบบสมัครสมาชิกของการรับรู้
  • สหรัฐฯ ต้องไม่ตามหลังในเสรีภาพในการรัน ตรวจสอบ แก้ไข ทำเบนช์มาร์ก ฝึก และอนุรักษ์โครงสร้างพื้นฐานด้านปัญญา
  • ท่าทีเชิงปฏิบัติควรเป็นแนวทางที่วาง ขีดความสามารถของสหรัฐฯ ควบคู่ไปกับมาตรฐานเปิดระดับโลก

2 ความคิดเห็น

 
GN⁺ 3 시간 전
ความเห็นจาก Lobste.rs
  • “AI” โอเพนซอร์สไม่มีอยู่จริง LLM ที่รันบนเครื่องตัวเองได้ก็เป็นแค่ ก้อนดำทึบ ที่บริษัทยักษ์ใหญ่ซึ่งใช้เงินหลายล้านดอลลาร์ต่อการฝึกแต่ละเวอร์ชันและควบคุมข้อมูลนำเข้าอย่างเบ็ดเสร็จ ปล่อยออกมาด้วยความเมตตาเท่านั้น
    คนธรรมดาที่ไม่ได้ร่ำรวยอย่างอิสระไม่สามารถตรวจสอบได้ทั้งหมดว่าโมเดลถูกสร้างขึ้นอย่างไร ปรับแต่งชุดข้อมูลฝึกต้นฉบับ หรือสร้างใหม่ตั้งแต่ต้นได้ทุกเมื่อที่ต้องการ
    การรัน LLM ฟรีที่คอมไพล์ไว้ล่วงหน้าบนคอมพิวเตอร์ส่วนตัวจึงเป็นการพึ่งพาโครงสร้างพื้นฐานแบบรวมศูนย์ที่ถูกปลูกฝัง และในความเป็นจริงตอนนี้ก็ใกล้เคียงกับการสนับสนุนเทคโนโลยีที่ปัจเจกบุคคลไม่มีทางควบคุมได้ในเชิงโครงสร้าง เสียเวลาเขียนแถลงการณ์ว่าอยากให้ปฏิกิริยานิวเคลียร์ฟิวชันเย็นชนะยังจะดีกว่า

    • โดยรวมก็ถูก แต่ในทางปฏิบัติก็มีโมเดลที่ได้รับทุนสาธารณะและเปิดเผยทั้งน้ำหนัก ชุดข้อมูลฝึก และวิธีการอยู่จริง
      แน่นอนว่าโมเดลเหล่านี้ส่วนใหญ่ถ้าวัดแค่ศักยภาพทางเทคนิคก็ยังไม่อยู่ระดับเดียวกับโมเดลแนวหน้า และหลายครั้งก็ไม่ได้ตั้งเป้าไปทางนั้นตั้งแต่แรก ตัวอย่างเช่น EU ได้ให้ทุนเพื่อ พัฒนาโมเดลที่เป็นตัวแทนของภาษาภายใน EU ได้ดีกว่าเดิม สำหรับงานอย่างการแปลภาษา
      และผมก็ไม่คิดว่าโมเดลโอเพนซอร์สจะต้องรันบนเครื่องโลคัลได้เสมอไปตามนิยาม ถ้าโมเดลนั้นเปิดจริง ต่อให้บริษัทข้างหลังล้มไป รากฐานสำหรับการพัฒนาต่อก็จะไม่ถูกขังอยู่ในบริษัท ทำให้ความเสี่ยงลดลงมาก ซอฟต์แวร์โอเพนซอร์สไม่ได้แปลว่าต้อง “ทำบนเครื่องตัวเองได้ในราคาถูก” เสมอไป
    • แม้แต่ LLM ที่รันโลคัลได้ก็มี สเปกตรัมของความเปิดกว้าง บางตัวเป็นก้อนดำทึบที่แทบไม่มีข้อมูลเรื่องชุดข้อมูลฝึกและวิธีการเลย แต่บางตัวก็เปิดทั้งชุดข้อมูลฝึกและซอร์สโค้ด
      ตัวอย่าง LLM ที่ค่อนข้างเปิดล่าสุดคือ NVIDIA-Nemotron-3-Nano-30B-A3B (โค้ดโอเพนซอร์ส ให้ชุดข้อมูลฝึกเกือบทั้งหมด) และ Olmo-3.1-32B-Think (โค้ดโอเพนซอร์ส และข้อมูลฝึกทั้งหมดเปิดบน Hugging Face)
      ในทางทฤษฎีใครก็สามารถทำซ้ำโมเดลลักษณะใกล้เคียงกัน เลือกได้ว่าจะใช้ข้อมูลอะไรฝึก หรือแก้สูตรการฝึกอย่างไร เพียงแต่ก็จริงที่สำหรับปัจเจกบุคคลที่ไม่ได้ร่ำรวย การพรีเทรนก็ยังเอื้อมไม่ถึงอยู่ดี
    • โมเดลโอเพนซอร์สแบบสมบูรณ์มีอยู่แน่นอน ไม่ใช่โมเดลแนวหน้า แต่มีอยู่จริง
      OLMo ถูกระบุชัดว่าเป็นโมเดลที่ผ่านขั้นตอนตรวจสอบของ OSI และ Pythia ก็ได้รับการยืนยันจาก OSI ว่าตรงตามข้อกำหนดของระบบ AI โอเพนซอร์ส Lucie-7B เป็นหนึ่งใน LLM หลายภาษารุ่นแรก ๆ ที่ยึดตามนิยาม AI ของ OSI และผู้สร้างก็ระบุชัดว่าชุดข้อมูลฝึก โค้ดเตรียมข้อมูล และน้ำหนักโมเดลทั้งหมดถูกเผยแพร่ภายใต้ไลเซนส์แบบเปิด
    • ส่วนที่ถูกต้องในประโยคที่ว่า “ไม่สามารถตรวจสอบได้ทั้งหมดว่าโมเดลถูกสร้างขึ้นอย่างไร ปรับแต่งชุดข้อมูลฝึกต้นฉบับ และสร้างใหม่ตั้งแต่ต้นได้ตามใจ” ก็คือ โมเดลทุกตัวที่โฆษณาว่า “เปิด” ไม่ได้โปร่งใสและเปิดจริงในเรื่องข้อมูล ขั้นตอนการฝึก และอื่น ๆ ทั้งหมด สิ่งที่ดีที่สุดคือไปให้ถึงขั้น ทำซ้ำได้
      ที่ว่าการฝึกตั้งแต่ต้นใช้เงินมหาศาลก็จริง แต่ถ้าอย่างนั้นจะเรียกการใช้ Linux kernel ว่าเป็น “การพึ่งพาที่ถูกปลูกฝัง” ด้วยหรือไม่ เพราะเงื่อนไขแบบเดียวกันหลายอย่างก็ใช้กับกรณีนั้นเหมือนกัน
  • AI ไม่ใช่ “โครงสร้างพื้นฐานระดับอารยธรรมสำหรับงาน การศึกษา วิทยาศาสตร์ ซอฟต์แวร์ การสร้างสรรค์ บริการสาธารณะ และศักยภาพของรัฐ” มีแต่คนที่ควบคุมมันต่างหากที่อยากให้เป็นแบบนั้น และกำลังผลักมันอย่างสิ้นหวัง ทั้งที่ความจริงไม่ใช่แบบนั้น

  • ก็แค่อย่าเอาความคิดไปจ้างเครื่องจักรกินทรัพยากรสูง ละเมิดลิขสิทธิ์ และหลอนเองก็พอ 😘
    แน่นอนว่า การไม่ปล่อยให้อำนาจนี้กระจุกอยู่ในมือบริษัทยักษ์ใหญ่ไม่กี่ราย ช่วยแก้ปัญหาใหญ่ข้อหนึ่งของ AI ปัจจุบันได้ แต่ไม่ได้แก้ปัญหาอื่นเลยแม้แต่น้อย

    • คำว่า “กินทรัพยากรมาก” นั้นถูกต้องเมื่อพูดถึงการฝึกโมเดลแนวหน้า หรือทำให้คนหลายร้อยล้านคนใช้งานโมเดลแนวหน้า แต่ถ้าพูดแบบนั้นกับ AI ที่รันโลคัล ก็แปลว่าคุณคำนวณผิด หรือไม่ก็ยืนอยู่บนจุดยืนสิ่งแวดล้อมนิยมสุดโต่งพอสมควร
      ตอนนี้โค้ดดิ้งเอเยนต์โลคัลที่เล็กที่สุดซึ่งใช้งานได้จริงคือ Qwen3.6 27B และมันรันได้สบาย ๆ บนการ์ด NVIDIA ที่มีการจำกัดไฟที่ราว 280~300W เป็นช่วง ๆ ไฟฟ้าที่ใช้สำหรับการเขียนโค้ดหนึ่งวันน่าจะน้อยกว่าการเปิดเครื่องเกมเดสก์ท็อปเล่น Subnautica 2 ไม่กี่ชั่วโมงเสียอีก ส่วนหนึ่งก็เพราะโมเดลเล็กไม่สามารถเอาความคิดไปจ้างข้างนอกได้มากนัก AI จึงพัก และมนุษย์ต้องคิดเองมากกว่า
      ต้นทุนการฝึกสูงกว่า แต่ถ้าพูดถึงการฝึกโมเดลขนาด 27B แค่ไม่กี่ตัวต่อปี ในภาพรวมของอารยธรรมอุตสาหกรรมทั้งหมดก็แทบกลืนหายไปเลย ตอนที่ผมเคยลองคำนวณดู ผลออกมาประมาณว่าแค่เพิ่มโรงถลุงอะลูมิเนียมพลังงานความร้อนใต้พิภพในไอซ์แลนด์อีกแห่งเดียว ก็เพียงพอจะฝึกโมเดลระดับ 27B ได้หลายตัว ไม่ได้ฟรี แต่ใกล้เคียงกับค่าคลาดเคลื่อนจากการปัดเศษ
      การใช้พลังงานตอน inference น้อยกว่าหลอดไส้ 3 หลอด และใช้เฉพาะตอนที่โมเดลกำลังสร้างผลลัพธ์จริง ๆ เท่านั้น ส่วนการใช้พลังงานตอนฝึกอยู่ระดับสถานประกอบการอุตสาหกรรมขนาดใหญ่หนึ่งแห่ง แต่ก็สามารถทำด้วยพลังงานหมุนเวียนเกือบทั้งหมดได้ ไอซ์แลนด์เหมาะกับเรื่องนั้น
      เรื่อง “ละเมิดลิขสิทธิ์” ดูจะไม่ตรงกับแนวคำพิพากษาในสหรัฐฯ ตอนนี้ และก็ควรระวังการขยายอำนาจของลิขสิทธิ์ให้มากขึ้น ผมคัดค้านการขยายลิขสิทธิ์มาตั้งแต่ยุค 90 ดังนั้นแม้จะไม่ชอบวิธีฝึก LLM ประเด็นนี้ก็ดูเหมือนย้ายออกจากขอบเขตกฎหมายลิขสิทธิ์ ไปอยู่ในขอบเขตการเมืองและนิติบัญญัติแล้ว ยกเว้นกรณีที่ Anthropic ก๊อปปี้หนังสือแบบผิดกฎหมายตรง ๆ
      แต่ปัญหาเรื่อง เอาความคิดไปจ้างข้างนอก นั้นกำลังเละเทะอย่างรวดเร็ว หลายคนกำลังพยายามเปลี่ยนตัวเองให้เป็นหุ่นเชิดเนื้อหนังของเทพเครื่องจักร ซึ่งน่ากลัวมาก
    • การละเมิดลิขสิทธิ์มักถูกยกมาเป็นเหตุผลว่าทำไม LLM และบริษัท AI ถึงแย่ แต่ผมคิดว่าการไประดมพลรอบประเด็นนั้นเป็นการออกนอกเรื่อง
      มันคล้ายกับการบอกว่าการฆ่าคนนั้นเลวเพราะ “ผิดกฎหมาย” การฆ่าคนมันเลวจริง แต่เหตุผลที่มันเลวไม่ใช่เพราะมันผิดกฎหมาย กฎหมายเปลี่ยนได้ ถ้าคุณสร้างกระแสว่า AI แย่เพราะเรื่องลิขสิทธิ์ แล้ววันหนึ่งสภานิติบัญญัติทำให้มันถูกกฎหมาย ทุกคนจะหันมายอมรับ AI ว่าโอเคทันทีหรือ? มีเหตุผลคัดค้านอื่นที่ใกล้กับแก่นของความกังวลจริงมากกว่า และการรวมตัวกันรอบสิ่งนั้นอาจจะมีประโยชน์กว่า
      Alexandra Elbakyan ก็เป็น ผู้ละเมิดลิขสิทธิ์ เหมือนกัน แต่เขาเป็น ผู้ใหญ่ และทุกมหาวิทยาลัยควรมีรูปปั้นของเขา
  • อนาคตของแมชชีนเลิร์นนิงและโมเดลภาษาขนาดใหญ่ที่เปิดกว้างและเป็นธรรมอย่างแท้จริง จะเกิดขึ้นไม่ได้ถ้าไม่มองทั้ง ซัพพลายเชนทั้งหมด แนะนำให้อ่าน https://time.com/6247678/openai-chatgpt-kenya-workers/

  • อีกไม่นานเราจะถึง จุดสูงสุดของข้อมูล และหลังจากนั้นความก้าวหน้าส่วนใหญ่น่าจะมาจากการจับ LLM รุ่นล่าสุดมามัดรวมใช้งานแบบเอเยนต์
    โมเดลโอเพนซอร์สตัวสุดท้ายที่ถูกเปิดเผยต่อสาธารณะ มีแนวโน้มสูงว่าจะถูกใช้เป็นฐานของโอเพนซอร์สแบบเอเยนต์ หรือโครงสร้างชั้นบนรูปแบบอื่นที่เปลี่ยนไปเรื่อย ๆ ในอีกหลายปีข้างหน้า

  • ให้แม่นกว่านั้น ประชาชนควรตระหนักถึง เงินสาธารณะมหาศาล ที่บิ๊กเทคได้รับตลอด 20 ปีที่ผ่านมา โดยเฉพาะช่วงหลัง ๆ และควรเรียกร้องสิทธิในโครงสร้างพื้นฐานที่จ่ายด้วยภาษีของตน
    บริษัทเหล่านี้จะไม่มีวันเกิดขึ้น และไม่อาจดำรงอยู่ได้เลย หากไม่มีการอัดฉีดเงินสาธารณะมหาศาล ยิ่งไปกว่านั้น ข้อมูลฝึกส่วนใหญ่ก็ถูกดึงมาจากพื้นที่สาธารณะที่ใช้ร่วมกันโดยตรง
    โมเดลเหล่านี้ไม่ใช่ผลผลิตจากความพยายามส่วนตัว แต่เป็นผลลัพธ์สุดท้ายของความพยายามร่วมกันขนาดมหึมา และควรถูกยอมรับทางกฎหมายว่าเป็น ทรัพยากรสาธารณะร่วม

  • ไม่ว่าจะสำคัญหรือไม่ จะเป็นฟองสบู่หรือไม่ จะเป็นแค่เครื่องทำนายโทเคนที่หลอนหรือไม่ก็ตาม การมีกรอบกฎหมายที่บังคับให้ “Frontier lab” ทุกแห่งเปิดซอร์สโมเดลทั้งหมด ยกเว้นรุ่นล่าสุดที่สุด เป็นเรื่องสำคัญมาก
    ขอบเขตที่ต้องเปิดควรรวมถึง น้ำหนัก ชุดข้อมูลฝึก และวิธีการ เป็นต้น หรือไม่เช่นนั้นก็ควรบังคับให้แต่ละโมเดลกลายเป็นโอเพนซอร์สหลังผ่านไป 10~15 ปี เพื่อความก้าวหน้าขององค์ความรู้มนุษย์และเพื่อป้องกันไม่ให้เกิดการแบ่งแยกระหว่าง “ผู้มี” กับ “ผู้ไม่มี” โมเดลทุกตัวควรถูกเปิดเผยหลังผ่านไประยะหนึ่ง
    คุณอาจคิดว่า AGI ยังไม่ใกล้ แต่เจตนาของสถาบันแนวหน้าเหล่านี้คือไปให้ถึง AGI ก่อนใคร แล้วเก็บมันไว้คนเดียวหลัง paywall ไม่ว่าจะมีโอกาสมากหรือน้อย เพื่อประโยชน์ของมนุษยชาติทั้งหมด เราควรป้องกันไม่ให้สิ่งนั้นเกิดขึ้น

 
GN⁺ 3 시간 전
ความคิดเห็นจาก Hacker News
  • ช่วงหนึ่งผมเคยคิดเรื่องการสร้าง ระบบฝึกโมเดลแบบกระจายศูนย์ โดยใช้เครื่องของคนที่มาช่วยกันเหมือนงานอาสา แต่ในทางปฏิบัติความยากสูงลิบลิ่ว
    ทั้งความเร็วการสื่อสารก็รับไม่ไหว และยังมีปัญหา ข้อมูลปนเปื้อน จากโหนดที่ไม่น่าเชื่อถือ
    อย่างหลังนี้น่าจะแก้ได้เกือบหมดด้วยระบบ rollback checkpoint แบบกู้คืนตัวเองได้ ซึ่งไม่จำเป็นต้องทิ้งผลลัพธ์ทั้งหมดที่เกิดหลังข้อมูลปนเปื้อน แต่ก็ไม่ใช่โปรเจ็กต์เล็ก ๆ ที่คนคนเดียวจะทำจากแค่ไอเดียได้
    ถ้าวันหนึ่งทั้งแล็บวิจัย frontier ถูกห้ามไม่ให้เดินหน้าต่อเพิ่ม แบบนั้นแนวทางนี้ก็น่าอาจได้รับความสนใจ
    GPU ทั้งหมดบนโลกเมื่อรวมกันแล้วก็น่าจะเหนือกว่าศักยภาพของพวกเขา เพียงแต่เราต้องหาวิธีกระจายการใช้งานอย่างมีประสิทธิภาพ
    ถึงจะฝึก Fable ได้ไม่เร็วเท่าพวกเขา แต่สุดท้ายการพอเข้าถึงได้บ้างก็ยังดีกว่าเข้าไม่ถึงตลอดกาล

    • อย่างที่ผมเขียนไว้ในอีกคอมเมนต์ก่อนหน้า ต่อให้เป็นไอเดียที่ดี ก็ยากจะใช้ได้จริง
      ฮาร์ดแวร์เฉพาะทางสำหรับ AI ไม่ได้แค่เร็วกว่า GPU ผู้บริโภคมากเท่านั้น แต่ยังกินไฟคุ้มกว่ามากและการเชื่อมต่อก็ดีกว่ามากด้วย ซึ่งทั้งสามแกนนี้ต่างก็ทำให้ไอเดียนี้พังได้
      ความต่างด้านประสิทธิภาพพลังงานมากจนถึงขั้นว่าต่อให้รวบรวม GPU สาธารณะหรืออุปกรณ์คล้ายกันทั้งหมดบนโลก ค่าไฟก็ยังสูงเกินไป และเอาเงินก้อนนั้นไปสร้างดาต้าเซ็นเตอร์เองอาจถูกกว่าด้วยซ้ำในแง่ต้นทุนรวม
      ต่อให้ไฟฟ้าฟรี การเอา GPU ที่กระจายอยู่ทั่วโลกมาผูกกันด้วย latency ของอินเทอร์เน็ตก็จะช้าลงเป็นหลักพันถึงหลักล้านเท่า และยังไม่แน่ว่าจะทำได้จริงหรือไม่
      ไม่ว่าอย่างไร ใน 10 ปีนี้เราคงได้ fable-oss ยากมาก และบางทีอาจยากไปทั้งศตวรรษนี้
      ทางที่ดีกว่าคือให้รัฐบาล แม้จะเป็นในรูปแบบพันธมิตร ก็ซื้อและถือครองดาต้าเซ็นเตอร์เอง แล้วดำเนินงานเพื่อประโยชน์สาธารณะ ซึ่งผมคิดว่าควรทำจริง ๆ
    • เวลาใครนึกถึง การฝึกแบบกระจายศูนย์ คนส่วนใหญ่มักไม่ได้จินตนาการถึงดาต้าเซ็นเตอร์ขนาดใหญ่ที่บริษัทเดียวเป็นเจ้าของแล้วฝึกโมเดลข้ามระยะไกล
      แต่จะนึกถึงดาต้าเซ็นเตอร์เล็ก ๆ หลายพันแห่งหรือผู้ใช้ทั่วไปที่เอาทรัพยากรคอมพิวต์ส่วนเกินมารวมกันผ่านอินเทอร์เน็ต เพื่อประสานการฝึกรอบใหญ่ที่เกินกว่าผู้เล่นรายเดียวจะทำได้
      บริษัทอย่าง Pluralis Research, Prime Intellect และ Nous Research กำลังไล่ตามวิสัยทัศน์นี้ และก็ประสบความสำเร็จในการฝึกแบบกระจายศูนย์ที่มีขนาดพอสมควรแล้ว แต่ในความเป็นจริง การฝึกแบบกระจายผ่านอินเทอร์เน็ตยังตามหลังการฝึกแบบรวมศูนย์อยู่มาก
      แม้แต่โมเดลที่ใหญ่ที่สุดอย่าง Pluralis 8B Protocol Model, INTELLECT-1 ของ Prime Intellect และ Consilience 40B ของ Nous ก็ยังถูกฝึกด้วย ปริมาณคอมพิวต์น้อยกว่า 1,000 เท่า เมื่อเทียบกับโมเดล frontier ปัจจุบันอย่าง Grok 4 ของ xAI
      https://epoch.ai/gradient-updates/how-far-can-decentralized-...
    • ไม่จริงที่ว่า GPU ทั้งหมดบนโลกรวมกันแล้วจะเหนือกว่าศักยภาพของพวกเขา
      นั่นเป็นการประเมินผิดว่าซิลิคอนจำนวนมากแค่ไหนถูกส่งไปยังบริษัทเหล่านั้นโดยตรง และซิลิคอนนั้นทรงพลังกว่าอุปกรณ์ผู้บริโภคมากเพียงใด
    • เมื่อไม่กี่ปีก่อนมีโปรเจ็กต์ชื่อ Petals ที่พยายามบรรลุบางส่วนของเป้าหมายนี้ด้วย P2P: https://github.com/bigscience-workshop/petals
      โมเดล BLOOM เองก็เป็นผลลัพธ์จากการร่วมมือกันสร้าง: https://huggingface.co/docs/transformers/en/model_doc/bloom
    • ถ้าใช้เทคนิคที่เหมาะสม ผมคิดว่าเป็นไปได้ เพราะสามารถบีบอัด ข้อมูล gradient ได้ถึง 10000 เท่า
      Nous ก็อ้างว่าทำได้แล้ว: https://github.com/NousResearch/DisTrO
      ก่อนหน้านี้ก็มีงานวิจัยเรื่องการบีบอัด gradient ที่รายงานอัตราการบีบอัดสูงมากเหมือนกัน
  • เราต้องการสิ่งนี้ และต้องการ การอนุมาน LLM แบบกระจายศูนย์ ด้วย
    ตอนนี้มาถึงจุดที่คนคนเดียวจะประกอบเครื่องไว้รันโมเดลสมัยใหม่เองนั้นแพงเกินไปแล้ว
    ดังนั้นเราจำเป็นต้องสร้างและผลักดันการใช้เฟรมเวิร์กที่ทำให้ผู้คนแบ่งปันทรัพยากรกันเพื่อรันโมเดลสมัยใหม่แบบกระจายศูนย์ได้
    แบบนั้นรัฐบาลก็จะเซ็นเซอร์ได้ยากขึ้นด้วย
    วิธีเดียวที่จะป้องกันไม่ให้หน่วยงานใดหน่วยงานหนึ่งเอามันไปทำเป็นอาวุธได้ คือทำให้ทุกคนเข้าถึงได้

    • ผมสงสัยว่าจะมีวิธีให้ LLM ขนาดเล็กที่รันในเครื่องหลายตัวมาเสริมกัน จนรวมแล้วได้ LLM ที่มีประสิทธิภาพดีกว่ามากหรือเปล่า
    • ผมสร้าง Teale.com และเปิดซอร์สไว้แล้ว
      มันรัน การอนุมานแบบกระจายเต็มรูปแบบ ได้บน Mac, Windows, Linux, Android, iOS, และแม้แต่ HarmonyOS
      โมเดลโอเพนซอร์ส/โอเพนน้ำหนักจะดีขึ้นเรื่อย ๆ และในที่สุดโมเดลระดับ mythos ก็จะรันได้แม้บนฮาร์ดแวร์สมาร์ตโฟนหรือแว่นตา
      เพียงแต่ตอนนี้การจับคู่ระหว่างอุปสงค์กับอุปทานยังยุ่งยากอย่างทรมาน
      ตัวอย่างเช่น MacBook RAM 16GB ในเชิงกายภาพไม่ได้แปลว่าจะใช้ 16GB ได้เต็มจริงเสมอไป และยังมีปัญหาเรื่องจับคู่โมเดลกับการตั้งค่า (kvcache, context limit, temperature เป็นต้น) ให้เหมาะกับความต้องการด้วย
      เราต้องการ AI inference โดยมนุษย์ เพื่อมนุษย์ และยินดีรับความช่วยเหลือ
    • ถ้าโมเดลถูกกระจายอยู่ตามจุดต่าง ๆ เมื่อคำนึงถึงการส่งข้อมูลระหว่างชั้นของโมเดลแล้ว การอนุมาน LLM แบบกระจายศูนย์ ดูไม่มีประสิทธิภาพมาก
      มีโปรเจ็กต์ชื่อ Petals ที่เคยอ้างว่าทำได้สูงสุด 4 tok/s บนโมเดล 180B แต่รีโพไม่มีการอัปเดตมา 2 ปีแล้ว
      https://petals.dev/
    • ข้ออ้างที่ว่าวิธีเดียวที่จะป้องกันไม่ให้หน่วยงานเดียวเอาสิ่งนี้ไปทำเป็นอาวุธได้ คือให้ทุกคนเข้าถึงได้นั้น ยังมีพื้นที่ตรงกลางอยู่
      ในเชิงนโยบาย ยังมีแนวทางที่รัฐกำกับทั้งการเข้าถึงและการผูกขาดไปพร้อมกันได้
      ผมต่อต้านการผูกขาดเทคโนโลยีนี้ แต่ความเสี่ยงของการให้ทุกคนมี AGI/ASI ที่ jailbreak แล้วก็ควรถูกมองอย่างชัดเจน
      ถ้ายกตัวอย่างแบบง่าย ๆ เราอาจจินตนาการถึง AI พื้นฐานถ้วนหน้า ที่รัฐบาลจ้างหลายแล็บวิจัย (n_quorum) แล้วให้โควตาโทเค็นกับทุกคน
      แต่การให้บริการผ่าน API ก็ควรมาพร้อมมาตรการความปลอดภัย
      หากทุกคนสามารถรัน AGI ที่ jailbreak ของตัวเองได้จริง บรรทัดฐานสังคมที่มั่นคงอาจต้องพึ่งการเฝ้าระวังขนาดใหญ่เพื่อคอยดูว่าใครกำลังสร้างภัยคุกคาม CBRNE อยู่
      จากมุมมองเสรีภาพของพลเมือง มันไม่ได้ดูเป็นชัยชนะที่ชัดเจนนัก แต่ผมก็เข้าใจว่าทำไมถึงมีตรรกะแบบนั้นได้
  • ที่บ้านและในธุรกิจของฉัน มันชนะมาตั้งแต่แรกแล้ว
    ถ้าจะให้แม่นยำคือ open weights และความต่างเล็กน้อยนั้นก็ทำให้รู้สึกขัดใจ
    ฉันไม่เคยเข้าใจแนวคิดที่ทำให้การทำงานหรือการพัฒนาผลิตภัณฑ์ต้องพึ่งพาซอร์สลับของสตาร์ตอัปรายใหญ่สองรายแบบเต็มตัว ทั้งที่ความสามารถทำกำไรก็ยังไม่ชัดเจนและเราไม่รู้ด้วยซ้ำว่าข้างในเป็นอย่างไร
    มันขัดกับหลักวิศวกรรมที่ดีด้วย
    เพราะงั้นฉันจึงไม่คิดจะทำแบบนั้น และเหตุผลที่ตอนนี้ยังยอมใช้เวลาไปกับการสำรวจ AI ก็เพราะมองว่า open weights ทำให้มันคุ้มค่าพอจะลงทุนเวลา
    ทุกวันนี้ธุรกิจก็มักต้องขึ้นกับนโยบายของแพลตฟอร์มรับชำระเงินเจ้าเดียวและผู้ให้บริการบัตรเครดิตอเมริกันสองเจ้าอยู่แล้ว แค่นั้นก็แย่พอแล้ว
    อาจเพราะนิสัยฟรีแลนซ์ด้วยก็ได้ แต่ฉันมักรู้สึกไม่สบายใจเสมอเมื่อถูกคาดหวังให้ทุ่มพลังงานมากเกินไปกับการศึกษาและเรียนรู้ผลิตภัณฑ์ของคนอื่น แทนที่จะเป็นเทคโนโลยีพื้นฐาน
    ฉันยังจำยุคที่ Microsoft โน้มน้าวภาควิชาต่าง ๆ ด้วยการสัญญาว่าจะให้สิทธิ์เข้าถึงซอร์สโค้ดของ NT ได้
    และยังจำได้ว่าผู้บริหารระดับสูงฝั่งเราคนหนึ่งเคยพูดว่า Linux เป็นเพียงเรื่องข้างเคียง ส่วนสิทธิ์เข้าถึง NT จะทำให้เรามีความหมายอย่างแท้จริง
    ฉันคอยเตือนตัวเองและคนรอบข้างเสมอว่าเราต้องการอำนาจควบคุมชะตาของตัวเองมากขึ้น และ แนวหน้า นั้นนำหน้า เทคโนโลยีที่เสถียรล่าสุด อยู่เสมอ
    ความก้าวหน้าเกิดขึ้นที่แนวหน้า แต่ก็มาพร้อมความเสี่ยงต่อความเสียหาย
    งานวิศวกรรมควรโฟกัสที่การสร้างบนเทคโนโลยีที่เสถียรล่าสุด ไม่ใช่แค่ขึ้นขี่ความก้าวหน้าของคนอื่น

    • ในบริบทนี้ คำว่า โอเพนซอร์ส มีความกำกวมที่ชวนอึดอัดอยู่
      เครื่องมืออย่าง llama.cpp นั้นเปิดจริง แต่ถ้าไม่มี weights ก็ไม่มีประโยชน์
      weights คือ ทุน ที่มีต้นทุนมหาศาลซึ่งองค์กรขนาดใหญ่ที่กำลังทำสงครามกันเป็นผู้บริจาคให้
      เช่น ฉันไม่รู้ว่า archive.org จะสร้าง weights ที่เปิดจริงได้ไหม และนอกจาก archive.org แล้วก็ยังนึกภาพไม่ออกว่าองค์กรโอเพนซอร์สอื่นอย่าง freebsd หรือ apache จะอยู่ในฐานะที่สร้าง weights ที่เปิดจริงได้
      ถ้าจะเป็นไปได้ก็คงเป็นรัฐบาล หน่วยงานรัฐ หรือมหาวิทยาลัย
      แต่ตอนนี้สถาบันแบบนั้นยังไม่มีทั้งเงิน อำนาจ ความตั้งใจ หรือความสนใจมากพอที่จะทุ่มงบให้โครงสร้างพื้นฐานสำหรับสร้าง weights
    • ที่น่าสนใจคือฉันเลือกอีกแนวทางหนึ่ง
      AI เข้ามาเสริมวิธีพัฒนาของธุรกิจเรา และวิศวกรก็ชอบใช้ Opus 4.8 มากกว่าการใช้โมเดลโอเพนซอร์สที่ดีที่สุดเสียอีก
      ฉันเชื่อว่าโอเพนซอร์สสำคัญ แต่ในธุรกิจของฉัน ฉันก็จะใช้เครื่องมือที่ดีที่สุดเท่าที่ใช้ได้อยู่ดี
  • ถ้า โอเพนซอร์ส ถูกทำให้หมายถึงซอฟต์แวร์ฟรี มันก็แทบจะไม่ต่างจากการบอกว่าแค่อยากได้สำเนาฟรี
    สิ่งที่เราควรพูดคือโครงการที่เปิดเผยและชุมชนเป็นผู้ดำเนินการร่วมกันทำ pretraining และ training
    นั่นหมายถึงการจัดการกับคลังข้อมูลฝึกแบบเปิดเผย และประสานงานงานฝึกไม่ทางใดก็ทางหนึ่ง
    นี่คือการเปลี่ยนความหมายของคำไปอย่างสิ้นเชิง และคล้ายกับเวลาที่ผู้คนเอาการละเมิดลิขสิทธิ์ไปปนกับการขโมย
    มันเป็นคนละเรื่องกัน จึงควรใช้คนละคำ
    weights ฟรี, inference code, และ chat template นั้นต่างจาก โครงการ LLM ที่ชุมชนดำเนินการ อย่างมาก

    • EleutherAI อาจใกล้เคียงกับสิ่งนั้น
  • แล้วใครจะให้ทุน?
    ค่า training แพงจนแทบนึกภาพไม่ออก
    ที่มีอยู่ก็มีแต่ โมเดลเงินทุนแบบ VC ที่หวังผลตอบแทนจากการลงทุน หรือโมเดลเงินทุนจาก CCP ที่มุ่งทำให้แบบจำลองสังคมจีนแบบอำนาจนิยมแข็งแรงขึ้น
    อาจมีโมเดลระดับ 4B ของมหาวิทยาลัยอยู่บ้าง แต่ดูแล้วคงไปได้ไม่ไกล

    • ฉันเข้าใจความกังวลนั้น แต่แม้ตอนนี้ก็ยังมีสิ่งที่ใหญ่และซับซ้อนพอ ๆ กันซึ่งยังคงเป็นโอเพนซอร์ส
      ฉันทึ่งทุกวันกับความจริงที่ว่าคอมพิวเตอร์ Linux ของฉันมอบประสบการณ์ที่แทบไม่ต่างจากระบบปฏิบัติการที่บริษัทระดับล้านล้านดอลลาร์สองแห่งสร้างขึ้น
      แถมยังทำบางอย่างที่ทางเลือกเชิงพาณิชย์เหล่านั้นทำไม่ได้อีกด้วย
      ถ้า DeepSeek สามารถปล่อยโมเดลได้ด้วยต้นทุนเพียง 1/10 ของคู่แข่งฝั่งตะวันตกและใช้พนักงานเพียงเศษเสี้ยวจริง นั่นอาจแปลว่ามีตลาดสำหรับใครบางคนที่อยากเข้ามาเป็นทางเลือกในพื้นที่นี้
      ฉันนึกถึงเหตุผลที่บริษัทอย่าง IBM ยินดีมีส่วนร่วมกับ Linux และปล่อยผลงานที่ตนร่วมทำออกมาให้ใช้ฟรี
      เพราะพวกเขาเป็นส่วนหนึ่งของกลุ่มผู้สนับสนุนจากภาคธุรกิจที่ต้องการทางเลือกนอกเหนือจากผู้เล่นเชิงพาณิชย์ที่ครองตลาดมากกว่า
      เหตุผลที่ Meta ปล่อย React ให้ใช้ฟรีแทบทั้งหมดก็คล้ายกัน
      เพราะการให้มันกลายเป็นมาตรฐานและสามารถจ้างคนที่รู้มันอยู่แล้วได้ เป็นประโยชน์ต่อ Meta มากกว่า
      การจินตนาการถึงผลประโยชน์เชิงระบบนิเวศแบบเดียวกันในโมเดล AI นั้นยากกว่า แต่ก็อาจมีอยู่ที่ไหนสักแห่ง
      พอนึกภาพได้ว่าผู้ให้บริการดาต้าเซ็นเตอร์/VPS อาจสนับสนุนอะไรแบบนั้นเพื่อลดอำนาจต่อรองของบริษัท AI รายใหญ่
      แน่นอนว่าความมองโลกในแง่ดีนี้อาจเป็นเพียงความฝันลม ๆ แล้ง ๆ ก็ได้
    • เราต้องการบรรทัดฐานทางกฎหมายจริง ๆ ว่า model distillation เป็นกิจกรรมที่ชอบด้วยกฎหมาย
      ถ้าผู้สร้างโมเดลสามารถขูดเอาผลงานของคนอื่นไปฝึก แล้วฟอกข้อมูลให้กลายเป็นของตัวเองโดยไม่ต้องคืนอะไรให้ผู้สร้างต้นฉบับได้ ฉันก็ไม่เห็นว่าทำไมการ distill โมเดลจึงควรผิดกฎหมาย
      มันก็เป็นสิ่งเดียวกับที่ผู้สร้าง frontier model กำลังทำกับทรัพย์สินทางปัญญาของคนอื่นโดยรวมอยู่แล้ว
    • เคยลองคำนวณต้นทุนคอมพิวเตอร์ในยุค 1960s แบบปรับตามเงินเฟ้อไหม?
      ตอนนี้การ training แพงจนแทบนึกภาพไม่ออก
      แล้วถ้ามหาวิทยาลัยหลายแห่งรวมเงินกันล่ะ?
      แล้วถ้าหลายประเทศรวมเงินกันล่ะ?
      สุดท้ายก็จะมีจุดพลิกผันและการปรับให้เหมาะสมเกิดขึ้น
      ผู้คนเคยสงสัยว่าระบบปฏิบัติการโอเพนซอร์สจะเกิดขึ้นได้จริงหรือไม่ แต่ Linux ก็เป็นตัวเลือกจริงบนเดสก์ท็อปมานานหลายทศวรรษ และไม่ต้องพูดถึงบนเซิร์ฟเวอร์กับระบบปฏิบัติการมือถือที่ถูกใช้อย่างแพร่หลายอยู่แล้ว
    • มันไม่ได้แค่แพง แต่ยังสิ้นเปลืองด้วย
      การใช้โมเดลเก่าไม่มีคุณค่าอะไร
      แถลงการณ์โอเพนซอร์ส AI เรียกร้องว่า “โอเพนซอร์ส AI ต้องยั่งยืนทางเศรษฐกิจด้วย” แต่เรื่องนั้นออกจะใกล้เคียงกับการคิดแบบโลกสวยมากกว่า
    • ถ้าเป็นแล็บวิจัยที่ออกโมเดลปิด ก็น่าจะมีแนวทางให้ ปล่อยโมเดลโอเพนซอร์สออกมาควบคู่กันด้วย ได้
      gpt-oss ตอนนี้เก่าแล้ว แต่ตอนออกมาใหม่ ๆ ก็ใช้ได้ดี
      Nemotron ก็แข็งแรงดี โดยเฉพาะ ultra รุ่นล่าสุดที่ดีมาก
      Nvidia มีเรื่องเล่าที่ดีกว่ามาก โดยเฉพาะเมื่อเทียบกับโมเดลจากจีน ตรงที่พวกเขาเปิดเผยทุกส่วน ไม่ใช่แค่ตัวโมเดล แต่รวมถึงข้อมูลสำหรับ pretraining และ post-training ด้วย
  • แทนที่จะได้โมเดลโอเพนซอร์สเป็นของพลอยได้จากบริษัท ฉันยินดีจ่าย 50 ดอลลาร์ต่อเดือนเพื่อสนับสนุน สถาบันวิจัย AI โอเพนซอร์ส โดยตรง

    • แต่สถาบันวิจัย AI ใช้เงินกันระดับหลายแสนล้านดอลลาร์ ดังนั้นถ้าจะไปแข่งได้ก็ต้องมีผู้สมัครสมาชิกจำนวนมหาศาล
    • ฉันคิดว่า OpenAI ทำลายความน่าเชื่อถือไปแล้ว
      แล้วเราจะรู้ได้อย่างไรว่าสถาบันวิจัย AI โอเพนซอร์สนั้นจะไม่แยกตัวออกไปเป็นบริษัทแสวงหากำไรไม่ทางใดก็ทางหนึ่ง?
    • เท่าที่ฉันรู้ DeepSeek ไม่มีโมเดลปิด และเปิดเผยโค้ด/ข้อมูล/งานวิจัยมากกว่าคนส่วนใหญ่
      บางทีฉันอาจเริ่มใช้ API ของพวกเขาก็ได้
      มันก็ไม่ใช่ของพลอยได้จากบริษัทด้วย
  • สำหรับ AI แบบ open weights อาจไม่มีแรงจูงใจให้ทุ่มทุนก้อนใหญ่กับการฝึกและการวิจัย
    อาจมีสิ่งอย่างกองทุนบริจาคเกิดขึ้นได้ แต่แน่นอนว่าคงเทียบระดับการระดมทุนที่แล็บแนวหน้าต่าง ๆ ได้รับไม่ได้
    เพราะอย่างนั้น จึงอาจเป็นไปไม่ได้ที่ AI จะดำรงอยู่ได้ด้วย open weights เพียงอย่างเดียว
    ผู้เล่นหลักอย่าง OpenAI, Anthropic, Google น่าจะยังคงอยู่ต่อไป และมีแนวโน้มจะมีโมเดลที่ดีกว่าเวอร์ชันโอเพนซอร์ส
    มันอาจดูเหมือนความสัมพันธ์ระหว่าง Photoshop กับ GIMP
    Photoshop ก็คือแล็บแนวหน้า ส่วน GIMP ก็คือโมเดลแบบ open weights
    GIMP ใช้งานได้ดีพอสำหรับเวิร์กโฟลว์การแต่งภาพหลากหลายแบบ แต่ Photoshop ก็ยังดีกว่าอยู่ดี
    แน่นอนว่าถ้ามีโมเดล open weights ที่ดีกว่าแล็บแนวหน้าก็คงดี แต่ผมไม่คิดว่ามันเป็นไปได้

    • ผมก็คิดคล้ายกัน แต่ต่อให้ไม่ใช่โมเดลโอเพนซอร์ส AI แบบรันในเครื่อง ก็สุดท้ายคงเป็นสิ่งที่หลีกเลี่ยงไม่ได้
      OpenAI และรายอื่น ๆ ก็อาจออกผลิตภัณฑ์แบบ on-premises ได้
      จะเป็น appliance rack หรือรูปแบบอื่นก็ตาม องค์กรขนาดใหญ่คงอยากรัน inference ไว้ในเครื่องเพื่ออธิปไตยด้านข้อมูลและการควบคุมต้นทุน
      โดยเฉพาะเมื่อถึงจุดที่ต้องการผสาน AI เข้ากับภาคการผลิตหรือเครือข่ายที่แยกขาดจากกันแบบอื่น ๆ ก็ยิ่งเป็นเช่นนั้น
    • การเปรียบเทียบ Photoshop กับ GIMP ค่อนข้างใช้ได้เลย
      ตอนนี้ยังเป็นช่วงขยายตัวแบบพุ่งแรงอยู่ แต่ถ้าเทคโนโลยีเบื้องหลัง AI ไม่ได้วิวัฒน์จริง ๆ การสร้างโมเดลที่ดีขึ้นเรื่อย ๆ จะยากขึ้นและผลตอบแทนจะลดลง
      ถ้า GIMP ของโลก LLM ทำผลงานได้แค่ 80% ของโมเดลที่ขับเคลื่อนด้วยเงิน VC ก็ยังมีประโยชน์พอสำหรับคนจำนวนมาก
      ต่อให้จริงที่มันไม่ดีเท่าโมเดลปิดก็ตาม แค่ มีตัวเลือกให้ใช้โมเดลโอเพนซอร์ส ก็ถือว่าชนะแล้ว
    • ถอยออกมามองสักก้าว มันเป็นแค่เรื่องของเวลา
      เมื่อชัดเจนขึ้นว่าไม่มีทางรีดเงินระดับล้านล้านดอลลาร์จากผู้บริโภคได้ การประเมินมูลค่าระดับล้านล้านก็จะถูกมองว่าไร้ความหมาย
      ระหว่างนั้น และไม่ว่าอย่างไร หากการปรับแต่งซอฟต์แวร์กับการขยายฮาร์ดแวร์ยังเดินหน้าต่อ อีกไม่นาน open weights ที่มีความสามารถเหนือกว่า Fable ก็จะรันได้บนอุปกรณ์พกพา
    • ถ้ามีวิธีให้ผู้ใช้บริจาคพลังประมวลผลเพื่อการฝึกแบบเดียวกับ folding@home ก็อาจเป็นไปได้
      เพียงแต่ผมไม่รู้ว่ามันจะใช้งานได้จริงอย่างไร
    • ยังมีเหตุผลที่เป็นรากกว่านั้นว่าทำไม AI จึงยากจะมีอยู่ได้ด้วย open weights เพียงอย่างเดียว
      โมเดล AI บางตัวมีขนาดใหญ่จนสมเหตุสมผลที่จะรันได้เฉพาะใน hyperscale datacenter ระดับล้ำสมัยเท่านั้น
      การปล่อยโมเดลแบบนั้นเป็นโอเพนซอร์สโดยมากแทบไม่มีความหมาย
      มันใหญ่กว่าระดับของโมเดลเปิดที่ใหญ่ที่สุดในปัจจุบันมาก และใหญ่ถึงขั้นตัดความเป็นไปได้แม้แต่การทำ inference แบบช้าบนคลัสเตอร์ชั่วคราวขนาดเล็กราคาถูก
      Fable อาจอยู่ถึงจุดนั้นแล้วก็ได้
  • ผมเห็นด้วยกับอารมณ์ร่วมและพันธกิจนี้ แต่เป้าหมายนี้แยกออกจาก การเมือง ไม่ได้อีกต่อไป
    การเป็น Open Source(tm) ไม่ได้ช่วยกันไม่ให้รัฐบาลหรือฝ่ายอื่นเข้าควบคุมซิลิคอนหรือสิ่งที่ซิลิคอนนั้นทำได้ และเรื่องแบบนั้นก็เกิดขึ้นทั่วโลกอยู่แล้ว
    ต่อให้โมเดลเป็นโอเพนซอร์ส ก็ไม่ได้แก้ปัญหาเรื่องกฎระเบียบหรือแรงจูงใจทางเศรษฐกิจ
    นี่ไม่ใช่ปัญหาที่จะย่อให้เหลือไม่กี่ย่อหน้าได้
    AI คือ โครงสร้างพื้นฐานระดับอารยธรรม และต้องการทางออกระดับอารยธรรม ไม่ใช่แค่ซอร์สโค้ด

    • ทุนนิยมแบบผูกขาดและทุนนิยมการเงินครองตลาดมานานกว่าร้อยปีแล้ว และรัฐก็รับใช้ผลประโยชน์มหาศาลเหล่านั้น
      ทุกคนรู้ว่าบริษัท AI เอาสิ่งต่าง ๆ ไปใช้ฝึกโดยไม่ได้รับอนุญาต แต่สุดท้ายคงไม่มีอะไรเกิดขึ้น
      นี่คือตัวอย่างชัด ๆ ของการบังคับใช้กฎหมายแบบแบ่งชนชั้น
      เหตุผลที่พวกเขาใช้กฎหมายของตัวเองตามอำเภอใจก็มักจะเป็นเรื่องความมั่นคงของชาติ
      เพราะพวกเขาเป็นเจ้าของโครงสร้างพื้นฐาน ดังนั้นผลประโยชน์ของพวกเขาจึงกลายเป็นความมั่นคงของชาติ
      แม้เทคโนโลยีจะสั่นกระดานได้ทุกครั้งที่เกิดการก้าวกระโดดครั้งใหญ่ แต่ทุนนิยมการเงินก็จะปรับตัวเร็วและดูดซับคลื่นนั้นเข้าไป
  • ถ้าในบทความไม่ได้พูดถึง ความแตกต่างระหว่าง โอเพนซอร์ส กับ open weights เป็นเรื่องสำคัญ
    โมเดล open weights แทบจะเหมือนยาเสพติดสำหรับมือใหม่แบบเข็มแรกฟรี
    อย่างน้อยที่สุด หากไม่มีข้อมูลฝึกต้นฉบับ ความสามารถในการอัปเกรดอย่างมีนัยสำคัญก็ถูกจำกัดเกินไป จนไม่นานก็จะตามหลังโมเดลใหม่ ๆ ที่พัฒนาอย่างต่อเนื่อง
    จากนั้นคุณก็จะโหยหาการปล่อยรุ่นถัดไป หรือไม่ก็กลับไปใช้ API ของผู้ให้บริการ
    แค่เลื่อน knowledge cutoff ไปข้างหน้าก็ทำให้ประสบการณ์ผู้ใช้ดีขึ้นอย่างเห็นได้ชัดแล้ว ยังไม่ต้องพูดถึง inference, quantization-aware training และการปรับปรุงอื่น ๆ ที่กำลังจะตามมา
    จะทำวิจัยเพื่อปรับปรุงโมเดล open weights ก็ได้ แต่บทสรุปก็เหมือนเดิม
    ถ้าไม่ใช่โอเพนซอร์ส ประโยชน์ที่มอบให้สาธารณะโดยรวมก็จะน้อยลงมาก

  • ตามนิยามแล้ว AI โอเพนซอร์สไม่มีทางชนะได้อย่างเด็ดขาด
    ทุกวันนี้ AI ท้ายที่สุดก็ใกล้เคียงกับการทำ hill-climbing optimization และแล็บแบบปิดก็สามารถดูดซับทุกอย่างที่โลกเปิดทำได้แล้วต่อยอดทับขึ้นไปอีก
    สำหรับกรณีใช้งานส่วนใหญ่ นี่ไม่ใช่ปัญหาใหญ่นัก เพราะ AI ทำงานในลักษณะของ ความสามารถอิ่มตัว
    https://www.delanceyukschoolschesschallenge.com/the-rising-t...
    ข้อยกเว้นมีเพียงกรณีที่ความได้เปรียบเหนือคู่แข่งสำคัญ เช่น สาขาที่โดยเนื้อแท้แล้วต้องเผชิญหน้ากับธรรมชาติหรือผู้อื่นเท่านั้น

    • เมื่อไปถึงจุด ความสามารถอิ่มตัว ในงานทั่วไป โอเพนซอร์สก็เป็นฝ่ายชนะ และเรื่องนั้นก็กำลังเกิดขึ้นแล้ว
      ชัยชนะครั้งใหญ่อีกครั้งน่าจะเป็นตอนที่คนทั่วไปสามารถรันมันบนฮาร์ดแวร์ของตัวเองได้
    • เรื่องเดียวกันนี้ก็พูดกับ Linux ได้
      Microsoft จะเรียนรู้อะไรจาก Linux มากแค่ไหนก็ได้ แต่ Linux ไม่เพียงรักษาความเกี่ยวข้องไว้ได้แม้มีคู่แข่งเชิงพาณิชย์ ตรงกันข้ามกับกรณีอย่างส่วนแบ่งตลาดปัจจุบันของ Firefox ตอนนี้มันยังกลายเป็นระบบปฏิบัติการที่แพร่หลายที่สุดแบบทิ้งห่างไปแล้วด้วย
      ดูเหมือนว่าความสามารถในการดูดซับไอเดียหรือข้อมูลดี ๆ ทั้งหมดจากระบบเปิดไม่ใช่ปัจจัยชี้ขาดเพียงอย่างเดียว
    • แล็บแบบปิดก็ยังต้องทำให้การลงทุนของตนสมเหตุสมผลอยู่ดี และยิ่งความสามารถของโมเดลเข้าใกล้ภาวะชะงักงันมากเท่าไร เรื่องนั้นก็ยิ่งยากขึ้น
      ตอนนี้ Fable และ Mythos คือระดับล้ำหน้าสุด แต่ในไม่ช้าก็จะกลายเป็นสินค้าโภคภัณฑ์
      สำหรับบริษัทหนึ่งแห่งที่พยายามนำหน้าด้วยโมเดลล่าสุดแบบ OpenAI/Anthropic ก็น่าจะมีอีกราวร้อยแห่งที่พยายามทำให้ส่วนเติมเต็มของมันกลายเป็นสินค้าโภคภัณฑ์
    • AllegroLisp ตามหลัง SBCL อยู่มาก
    • โมเดลโอเพนซอร์สไม่จำเป็นต้องดีเท่า Claude Mythos หรือ Claude Sonnet ถึงจะชนะ
      ชัยชนะของโอเพนซอร์สแค่มีทางเลือกแทนโมเดลแบบปิดอย่างน้อยหนึ่งตัวที่ดีระดับ GPT-4 ก็เพียงพอแล้ว
      ที่จริงด้วยโมเดล Google Gemma เราก็เกือบถึงจุดนั้นแล้ว
      ในฐานะวิศวกรซอฟต์แวร์ ผมไม่รู้สึกถึงความต่างด้านผลิตภาพของตัวเองหลังจาก Sonnet
      แน่นอนว่า Opus ดีกว่า และ Fable ก็ดีกว่าอีก แต่ในแง่มูลค่าทางเศรษฐกิจ มันชนกับผลตอบแทนที่ลดลงแล้ว
      ตอนย้ายจากหนึ่งในโมเดล GPT รุ่นแรก ๆ ใน Cursor มาใช้ Claude Code กับ Sonnet ผมได้ ผลิตภาพเพิ่มขึ้นเกือบ 5 เท่า
      ก่อนมี Claude Code ผมใช้ AI แค่กับโค้ดชิ้นเล็ก ๆ แต่พอเป็น Claude Code + Sonnet ผมสามารถโยนงานย่อยทั้งก้อนไปให้ได้
      ถึงอย่างนั้น ผมก็ยังไม่ไว้ใจให้ Opus รับผิดชอบทั้งฟีเจอร์ตั้งแต่ต้นจนจบ
      ผมก็ไม่แน่ใจว่ามันจะไปถึงจุดนั้นในสักวันหรือไม่ และมันอาจไม่จำเป็นต้องเป็นแบบนั้นด้วย
      บริษัทต่าง ๆ ต้องการพรสวรรค์ในระดับค่อนข้างสูงจากวิศวกรซอฟต์แวร์ แต่พอเกินระดับนั้นไปแล้ว พวกเขาไม่ได้สนใจจริง ๆ
      ต่อให้ต่างกันมากก็อาจไม่ทันสังเกตด้วยซ้ำ