สิ่งที่ได้เรียนรู้เกี่ยวกับ LLMs ในปี 2024
(simonwillison.net)สรุปภาพรวมการเปลี่ยนแปลงทั้งหมดเกี่ยวกับ LLM ในปี 2024 ของ Simon Willison
- ก้าวข้ามข้อจำกัดของ GPT-4 ไปอย่างสิ้นเชิง
- โมเดลบางตัวระดับ GPT-4 รันได้บนโน้ตบุ๊กของผม
- ราคา LLM ร่วงหนัก การเปลี่ยนแปลงที่เกิดจากการแข่งขันและประสิทธิภาพ
- การแพร่หลายของวิสัยทัศน์แบบ Multimodal พร้อมการมาถึงใหม่ของเสียงและวิดีโอ
- โหมดเสียงและกล้องสด ไซไฟที่กลายเป็นความจริง
- การสร้างแอปด้วยพรอมป์ต เทคโนโลยีที่กลายเป็นเรื่องปกติไปแล้ว
- การเข้าถึงโมเดลที่ดีที่สุดได้ฟรี สิ้นสุดลงในเวลาไม่กี่เดือน
- “Agent” แนวคิดที่ยังไม่เกิดขึ้นจริง
- ความสำคัญของการประเมินผล (Evals)
- Apple Intelligence น่าผิดหวัง แต่ไลบรารี MLX ยอดเยี่ยม
- การขยายสเกลการให้เหตุผล และการมาของโมเดล “Reasoning”
- LLM ที่ดีที่สุดในตอนนี้ ฝึกในจีนด้วยงบต่ำกว่า 6 ล้านดอลลาร์จริงหรือ?
- ผลกระทบต่อสิ่งแวดล้อมดีขึ้น
- ผลกระทบต่อสิ่งแวดล้อมแย่ลงกว่าเดิม
- ปี 2024 ปีแห่ง “Slop”
- ผลลัพธ์ที่น่าทึ่งของข้อมูลฝึกแบบสังเคราะห์
- ปี 2024 ที่การใช้ LLM ยากขึ้น
- การกระจายตัวของความรู้ที่ไม่สมดุล
- เราต้องการคำวิจารณ์ LLM ที่ดีกว่านี้
# ก้าวข้ามข้อจำกัดของ GPT-4 ไปอย่างสิ้นเชิง
- สถานการณ์ในปี 2023: GPT-4 ได้รับการประเมินว่าเป็นโมเดลภาษาที่ดีที่สุด และห้องแล็บ AI อื่นยังไม่สามารถแซงได้ ความลับทางเทคนิคของ OpenAI ได้รับความสนใจอย่างมาก
- ความเปลี่ยนแปลงในปี 2024: มีการเปิดตัวโมเดลจาก 18 องค์กรที่เหนือกว่า GPT-4 ปัจจุบันบนกระดานผู้นำ Chatbot Arena มีโมเดล 70 ตัวที่ทำได้ดีกว่า GPT-4-0314 (เปิดตัวเมื่อมีนาคม 2023)
- โมเดลหลักและความก้าวหน้าทางเทคนิค
- Google Gemini 1.5 Pro: เปิดตัวกุมภาพันธ์ 2024
- ให้เอาต์พุตระดับ GPT-4 พร้อมความสามารถใหม่
- รองรับความยาวบริบทอินพุต 1 ล้านโทเค็น (ภายหลังเพิ่มเป็น 2 ล้าน)
- เพิ่มความสามารถรับอินพุตแบบวิดีโอ
- ใช้อินพุตยาวเพื่อแก้ปัญหาการเขียนโค้ดและวิเคราะห์หนังสือทั้งเล่มได้
- ถูกนำเสนอเป็นประกาศสำคัญในคีย์โน้ต Google I/O 2024
- ซีรีส์ Anthropic Claude 3:
- Claude 3 Opus: เปิดตัวมีนาคม 2024 โดดเด่นจากประสิทธิภาพสูง
- Claude 3.5 Sonnet: เปิดตัวในเดือนมิถุนายน และมีเวอร์ชันอัปเกรดประกาศเมื่อ 22 ตุลาคม
- แม้อัปเกรดแล้วก็ยังคงหมายเลขเวอร์ชัน 3.5 จนแฟน ๆ เรียกว่า Claude 3.6
- Google Gemini 1.5 Pro: เปิดตัวกุมภาพันธ์ 2024
- การขยายความยาวบริบท
- ปี 2023: โมเดลส่วนใหญ่รองรับ 4,096~8,192 โทเค็น โดย Claude 2.1 เป็นข้อยกเว้นที่ 200,000 โทเค็น
- ปี 2024: โมเดลหลักรองรับมากกว่า 100,000 โทเค็น และซีรีส์ Google Gemini รองรับได้สูงสุด 2 ล้านโทเค็น
- สามารถประมวลผลข้อมูลอินพุตขนาดยาวเพื่อแก้ปัญหาได้หลากหลาย
- เหมาะกับการวิเคราะห์หนังสือทั้งเล่มหรือแก้ปัญหาจากโค้ดตัวอย่าง
- โมเดลและองค์กรที่แซง GPT-4
- ตามกระดานผู้นำ Chatbot Arena องค์กรที่มีโมเดลทำผลงานสูงกว่า GPT-4-0314 ได้แก่:
- Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI และอีก 18 องค์กร
- บนกระดานผู้นำ GPT-4-0314 ปัจจุบันอยู่ราวอันดับที่ 70
- ตามกระดานผู้นำ Chatbot Arena องค์กรที่มีโมเดลทำผลงานสูงกว่า GPT-4-0314 ได้แก่:
# โมเดลบางตัวระดับ GPT-4 รันได้บนโน้ตบุ๊กของผม
- อุปกรณ์ที่ใช้: M2 MacBook Pro แรม 64GB ที่ออกในปี 2023 เป็นเครื่องอายุราว 2 ปี และเป็นแล็ปท็อปเครื่องเดียวกับที่เคยรัน LLM ครั้งแรกในมีนาคม 2023
- การเปลี่ยนแปลงด้านประสิทธิภาพ: ช่วงแรกแทบจะรันได้แค่โมเดลระดับ GPT-3 แต่ตอนนี้รันโมเดลระดับ GPT-4 ได้แล้ว
- Qwen2.5-Coder-32B: โมเดลเฉพาะทางด้านโค้ดที่มีไลเซนส์ Apache 2.0 ในเดือนพฤศจิกายน 2024
- Meta Llama 3.3 70B: โมเดลระดับ GPT-4 ที่เปิดตัวในเดือนธันวาคม 2024
- ความสำคัญ: น่าทึ่งที่โมเดลระดับ GPT-4 สามารถรันได้บนแล็ปท็อป ไม่ใช่เฉพาะบนเซิร์ฟเวอร์ดาต้าเซ็นเตอร์ที่ติดตั้ง GPU ราคาเกิน $40,000
- เพราะใช้ RAM 64GB แทบทั้งหมด จึงทำงานอื่นควบคู่ได้ยาก
- สิ่งนี้เป็นไปได้เพราะประสิทธิภาพของโมเดลดีขึ้น และน่าจะเป็นผลจากการปรับแต่งตลอด 1 ปีที่ผ่านมา
- ยังน่าจะมีช่องให้ปรับปรุงประสิทธิภาพได้อีกมาก
- โมเดล Meta Llama 3.2: ยังไม่ถึงระดับ GPT-4 แต่โมเดลขนาด 1B และ 3B ให้ประสิทธิภาพโดดเด่นแม้ขนาดเล็ก
- Llama 3.2 3B: รันได้ผ่านแอป MLC Chat iOS แบบฟรี
- มีขนาดต่ำกว่า 2GB รันบน iPhone ได้ และสร้างได้ 20 โทเค็นต่อวินาที
- ตัวอย่าง: เมื่อขอ “พล็อตหนังคริสต์มาสของ Netflix ที่นักข่าวข้อมูลตกหลุมรักช่างปั้นเครื่องปั้นดินเผาท้องถิ่น” ก็สร้างคำตอบพื้นฐานแต่เหมาะสม
- ชื่อเรื่อง: “Love in the Clay”
- เรื่องย่อ: เรื่องราวดำเนินไปเมื่อ Jessica กลับสู่บ้านเกิด Willow Creek และสืบสวนประวัติศาสตร์ท้องถิ่นรวมถึงผลกระทบของ gentrification
- ผลลัพธ์อาจธรรมดา แต่ก็น่าสนใจที่ทำสิ่งนี้ได้บน iPhone
# ราคา LLM ร่วงหนัก การเปลี่ยนแปลงที่เกิดจากการแข่งขันและประสิทธิภาพ
- ราคาช่วงปลายปี 2023: ราคาของโมเดลหลักจาก OpenAI ในตอนนั้นเป็นดังนี้
- GPT-4: $30/million input tokens
- GPT-4 Turbo: $10/mTok
- GPT-3.5 Turbo: $1/mTok
- การเปลี่ยนแปลงราคาในปี 2024:
- OpenAI o1: $30/mTok เป็นโมเดลที่แพงที่สุด
- GPT-4o: $2.50/mTok (ถูกกว่า GPT-4 ถึง 12 เท่า)
- GPT-4o Mini: $0.15/mTok (ถูกกว่า GPT-3.5 ราว 7 เท่าแต่ประสิทธิภาพดีกว่า)
- Anthropic Claude 3 Haiku: $0.25/mTok (เปิดตัวในเดือนมีนาคม เป็นโมเดลที่ถูกที่สุดของ Anthropic)
- Google Gemini 1.5 Flash: $0.075/mTok
- Google Gemini 1.5 Flash 8B: $0.0375/mTok (ถูกกว่า GPT-3.5 Turbo ถึง 27 เท่า)
- ปัจจัยที่ทำให้ราคาลดลง:
- การแข่งขันที่เพิ่มขึ้น: ผู้ให้บริการโมเดลจำนวนมากเข้าสู่ตลาด ทำให้การแข่งขันด้านราคารุนแรงขึ้น
- ประสิทธิภาพที่ดีขึ้น: การปรับแต่งกระบวนการฝึกและอนุมานของโมเดลทำให้ใช้พลังงานลดลง
- ความกังวลเรื่องต้นทุนพลังงานในการรันพรอมป์ตแต่ละครั้งลดลง
- ประสิทธิภาพและต้นทุนด้านสิ่งแวดล้อม:
- ประสิทธิภาพพลังงานที่เพิ่มขึ้นช่วยลดความกังวลด้านสิ่งแวดล้อม
- แต่ผลกระทบด้านสิ่งแวดล้อมจากการสร้างดาต้าเซ็นเตอร์ยังคงเป็นปัญหา
- การคำนวณต้นทุนการใช้งานจริง:
- คำนวณค่าใช้จ่ายในการสร้างคำอธิบายสำหรับคลังภาพส่วนตัว 68,000 รูป ด้วย Google Gemini 1.5 Flash 8B
- ต่อภาพต้องใช้ 260 input tokens และ 100 output tokens
- รวม 17,680,000 input tokens * $0.0375/million = $0.66
- รวม 6,800,000 output tokens * $0.15/million = $1.02
- รวมทั้งหมด: สามารถประมวลผลภาพ 68,000 รูปได้ในราคา $1.68
- คำนวณค่าใช้จ่ายในการสร้างคำอธิบายสำหรับคลังภาพส่วนตัว 68,000 รูป ด้วย Google Gemini 1.5 Flash 8B
- ตัวอย่างคำอธิบาย:
- ภาพ: ผีเสื้อสองตัวกำลังกินอาหารบนถาดสีแดงที่ California Academy of Sciences
- คำอธิบายที่สร้างขึ้น:
- ภาพผีเสื้อสองตัวกำลังกินผลไม้อยู่บนถาดสีแดง
- บรรยายสีและลวดลายของผีเสื้ออย่างละเอียด
- ต้นทุน: ประมาณ 0.0024 เซนต์ น้อยกว่า 1/400 ของเซนต์
- หนึ่งในการเปลี่ยนแปลงใหญ่ที่สุดของปี 2024:
- การลดลงของราคาและต้นทุนพลังงานกำลังทำให้ความมีประโยชน์ของ LLM สูงขึ้นอย่างมาก
# การแพร่หลายของวิสัยทัศน์แบบ Multimodal พร้อมการมาถึงใหม่ของเสียงและวิดีโอ
- เทรนด์สำคัญของปี 2024: มัลติโหมด LLM (รองรับอินพุตได้หลากหลาย นอกเหนือจากข้อความ เช่น ภาพ เสียง และวิดีโอ) กลายเป็นเรื่องปกติ
- กรณีตัวอย่างในปี 2023:
- OpenAI GPT-4 Vision: เปิดตัวในงาน DevDay เดือนพฤศจิกายน 2023
- Google Gemini 1.0: ประกาศเมื่อวันที่ 7 ธันวาคม 2023
- การเปิดตัวสำคัญในปี 2024:
- Anthropic Claude 3 series: เปิดตัวในเดือนมีนาคม
- Google Gemini 1.5 Pro: เปิดตัวในเดือนเมษายน (รองรับการประมวลผลภาพ เสียง และวิดีโอ)
- Qwen2-VL: เปิดตัวในเดือนกันยายน
- Mistral Pixtral 12B: เปิดตัวในเดือนกันยายน
- Meta Llama 3.2: เปิดตัวในเดือนกันยายน (โมเดลวิชัน 11B และ 90B)
- ความสามารถรับเข้าและส่งออกเสียงของ OpenAI: เพิ่มเข้ามาในเดือนตุลาคม
- Hugging Face SmolVLM: เปิดตัวในเดือนพฤศจิกายน
- Amazon Nova โมเดลภาพและวิดีโอ: เปิดตัวในเดือนธันวาคม
- กรณีตัวอย่างในปี 2023:
- เครื่องมือและการรองรับมัลติโหมด:
- ในเดือนตุลาคม 2024 ได้อัปเกรดเครื่องมือ LLM CLI ที่ใช้งานส่วนตัวให้รองรับโมเดลมัลติโหมด
- เพิ่มปลั๊กอินที่สามารถจัดการไฟล์แนบอย่างภาพ เสียง และวิดีโอได้
- ความสำคัญของโมเดลมัลติโหมด:
- คำวิจารณ์ที่ว่า LLM พัฒนาได้ช้าลง ดูเหมือนจะมองข้ามความก้าวหน้าของโมเดลมัลติโหมด
- การรันพรอมป์ด้วยภาพ เสียง และวิดีโอ เป็นพัฒนาการที่น่าตื่นเต้นซึ่งเปิดโอกาสการใช้งานแบบใหม่
# โหมดเสียงและโหมดกล้องสด เมื่อไซไฟกลายเป็นความจริง
- การมาถึงของโหมดเสียงยุคแรก:
- เดือนกันยายน 2023 แอปมือถือ ChatGPT เพิ่มฟีเจอร์สนทนาด้วยเสียง
- ใช้โมเดล Whisper (Speech-to-Text) และ tts-1 (Text-to-Speech) แต่ตัวโมเดลเองประมวลผลได้เฉพาะข้อความเท่านั้น
- โหมดเสียงของ GPT-4o:
- ในโหมดเสียงใหม่ที่ประกาศเมื่อ 13 พฤษภาคม 2024 โมเดล GPT-4o เป็นมัลติโหมดอย่างแท้จริง โดยรองรับอินพุตเสียงและเอาต์พุตเสียงที่เป็นธรรมชาติ
- ในเดโมมีการใช้เสียงที่คล้าย Scarlett Johansson แต่หลังเกิดข้อถกเถียง เสียงดังกล่าวไม่ได้ถูกรวมอยู่ในผลิตภัณฑ์เชิงพาณิชย์
- มีความสับสนจากการเลื่อนเปิดตัวโหมดเสียง แต่ในช่วงเดือนสิงหาคมถึงกันยายนก็ทยอยเปิดให้ใช้ในชื่อ ChatGPT Advanced Voice mode
- ประสบการณ์ใช้งาน: การพูดคุยกับโหมดเสียงระหว่างเดินเล่นช่วยยกระดับคุณภาพของคอนเทนต์ได้อย่างมาก
- จากการทดลองด้วย OpenAI Audio API พบความสามารถด้านเสียงที่หลากหลาย
- ลักษณะเด่นของโหมดเสียง:
- Advanced Voice mode สามารถถ่ายทอดสำเนียงได้หลากหลาย
- ตัวอย่าง: ขอให้สนทนาเป็นภาษาสเปนด้วยสำเนียงรัสเซียหนาแบบนก California brown pelican
- โมเดลเสียงมัลติโหมดจากบริษัทอื่น:
- Google Gemini: รองรับอินพุตเสียง และสามารถสนทนาด้วยเสียงได้คล้าย ChatGPT
- Amazon Nova: ประกาศล่วงหน้าเกี่ยวกับโหมดเสียง (มีกำหนดเปิดตัวใน Q1 2025)
- Google NotebookLM (เปิดตัวเดือนกันยายน 2024): สร้างบทสนทนาระหว่าง "ผู้ดำเนินพอดแคสต์" สองคนจากเนื้อหาที่ป้อนเข้าไป และรองรับคำสั่งแบบกำหนดเอง
- การมาถึงของโหมดวิดีโอสด:
- เดือนธันวาคม 2024 ในโหมดเสียงของ ChatGPT มีการเพิ่มความสามารถแชร์ฟีดจากกล้อง
- สามารถพูดคุยเกี่ยวกับฟีดจากกล้องได้แบบเรียลไทม์
- Google Gemini ก็ปล่อยฟีเจอร์คล้ายกันในรูปแบบพรีวิวช่วงเวลาเดียวกัน
- การเข้าถึงผ่าน API:
- ทั้ง OpenAI และ Google ต่างก็มี API สำหรับความสามารถเหล่านี้
- ในเดือนธันวาคม OpenAI ประกาศ WebRTC API เพื่อทำให้การพัฒนาเว็บแอปที่ใช้เสียงเป็นหลักง่ายขึ้น
# การสร้างแอปด้วยพรอมป์ เทคโนโลยีที่กลายเป็นเรื่องปกติไปแล้ว
- ศักยภาพของ GPT-4 ในปี 2023:
- สามารถใช้ GPT-4 สร้างแอปแบบอินเทอร์แอ็กทีฟที่สมบูรณ์ด้วย HTML, CSS และ JavaScript
- ยังสามารถผสานเครื่องมืออย่าง React ผ่านกลไกการบิลด์เพิ่มเติมได้ด้วย
- การมาของ Claude Artifacts ในปี 2024:
- ฟีเจอร์ใหม่ที่เปิดตัวในช่วงกลางของการประกาศ Anthropic Claude 3.5 Sonnet
- ผู้ใช้สามารถสร้างแอปตามต้องการที่รันได้ทันทีภายในอินเทอร์เฟซของ Claude
- ตัวอย่าง: เครื่องมือดึง URL ที่สร้างผ่าน Claude
- เพียงใส่ URL ก็จะแสดงลิสต์ที่ดึงออกมาได้ทันที
- มีการแชร์ประสบการณ์ว่าสร้างเครื่องมือเล็ก ๆ ได้ 14 ชิ้นในหนึ่งสัปดาห์ด้วย Claude Artifacts
- คู่แข่งเพิ่มฟีเจอร์ลักษณะเดียวกัน:
- GitHub Spark: ประกาศในเดือนตุลาคม 2024
- Mistral Chat Canvas: เพิ่มเข้ามาในเดือนพฤศจิกายน 2024
- Steve Krause จาก Val Town: ใช้โมเดลของ Cerebras เพื่อทำการแก้ไขแอปแบบเรียลไทม์ที่ความเร็วประมวลผล 2,000 โทเค็นต่อวินาที
- ทีม Chatbot Arena: เปิดตัวลีดเดอร์บอร์ดใหม่ในเดือนธันวาคม โดยให้สองโมเดลสร้างแอปเดียวกันแล้วโหวตเลือก
- โปรเจกต์ของตัวเอง:
- กำลังพัฒนาในโปรเจกต์ Datasette ให้สามารถใช้พรอมป์สร้างวิดเจ็ตแบบกำหนดเองและการแสดงผลข้อมูล รวมถึงทำซ้ำงานได้
- ใช้
uvเพื่อทำแพตเทิร์นคล้ายกันสำหรับการเขียนโปรแกรม Python เดี่ยว
- แนวโน้มในปี 2025:
- เมื่อปัญหา browser sandboxing ได้รับการแก้ไข ฟีเจอร์นี้มีแนวโน้มสูงที่จะกลายเป็นค่าพื้นฐานในผลิตภัณฑ์หลากหลายประเภท
# การเข้าถึงโมเดลที่ดีที่สุดได้ฟรี ช่วงเวลาสั้น ๆ ที่จบลงในไม่กี่เดือน
- การเปิดให้ใช้ฟรีในช่วงต้นปี 2024:
- GPT-4o, Claude 3.5 Sonnet และ Gemini 1.5 Pro — โมเดลที่ดีที่สุด 3 ตัวในเวลานั้น เปิดให้ผู้ใช้ส่วนใหญ่ใช้งานได้ฟรี
- OpenAI เปิดให้ GPT-4o ใช้งานฟรีในเดือนพฤษภาคม 2024
- Claude 3.5 Sonnet ก็ใช้งานฟรีได้ทันทีตั้งแต่เปิดตัวในเดือนมิถุนายน
- ก่อนหน้านั้นผู้ใช้ฟรีมักเข้าถึงได้เพียงโมเดลระดับ GPT-3.5 เป็นหลัก แต่ช่วงเวลานี้เปิดโอกาสให้ได้สัมผัสความสามารถที่แท้จริงของ LLM ประสิทธิภาพสูง
- การสิ้นสุดของการเข้าถึงฟรี:
- OpenAI เปิดตัว ChatGPT Pro ทำให้การเข้าถึงฟรีสิ้นสุดลง
- ChatGPT Pro คิดค่าสมัครสมาชิก $200 ต่อเดือน และเปิดให้เข้าถึง o1 Pro ซึ่งเป็นโมเดลที่ทรงพลังที่สุด
- มุมมองในอนาคต:
- จุดเด่นสำคัญของซีรีส์ o1 คือใช้ทรัพยากรการคำนวณมากขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีกว่า
- ด้วยโครงสร้างต้นทุนแบบนี้ ยุคของการเข้าถึงโมเดลที่ดีที่สุดได้ฟรีจึงมีโอกาสน้อยที่จะกลับมาอีก
# "เอเจนต์" แนวคิดที่ยังไม่กลายเป็นจริงเสียที
- ความกำกวมของคำนี้:
- คำว่า "เอเจนต์" ยังขาดนิยามเดียวที่ชัดเจน และแต่ละคนก็ใช้ไม่เหมือนกัน
- โดยทั่วไปแบ่งได้เป็นสองหมวด:
- เอเจนต์แบบโมเดลตัวแทนท่องเที่ยวที่ทำงานแทนผู้ใช้
- เอเจนต์ที่อิงกับ LLM ซึ่งเข้าถึงเครื่องมือ ทำงานซ้ำ ๆ และแก้ปัญหาได้
- คำว่า "autonomy" ก็ถูกใช้บ่อยเช่นกัน แต่ยิ่งเพิ่มความสับสนเพราะไม่มีนิยามที่ชัดเจน
- ข้อจำกัดเชิงแนวคิด:
- "เอเจนต์" ยังคงเป็นเพียงแนวคิดแบบ "กำลังจะมาในเร็ว ๆ นี้"
- มีการรวบรวมคำนิยามไว้ 211 แบบ (สำรวจจาก Twitter) และให้โมเดล Gemini-exp-1206 ช่วยสรุป แต่ก็ยังไม่เกิดฉันทามติที่ชัดเจน
- ความกังขาต่อประโยชน์ใช้งานจริง:
- ประโยชน์ใช้สอยของเอเจนต์ถูกจำกัดด้วยปัญหาที่มาจากแนวโน้ม "เชื่อง่ายเกินไป (gullibility)" ของ LLM
- หากแยกไม่ออกว่าอะไรจริงหรือเท็จ เครื่องมืออย่างตัวแทนท่องเที่ยว ผู้ช่วยดิจิทัล หรือเครื่องมือวิจัย ก็ยากจะตัดสินใจอย่างมีความหมายได้
- ตัวอย่าง: กรณีที่ Google Search สรุปผิดเกี่ยวกับภาพยนตร์ที่ไม่มีอยู่จริงชื่อ "Encanto 2" โดยอ้างอิงจากวิกิแฟนฟิกชันสมมุติ
- การโจมตีแบบ prompt injection:
- เป็นปัญหาที่สืบเนื่องจากความเชื่อง่ายนี้ โดยมีการพูดถึงมาตั้งแต่เดือนกันยายน 2022 แต่จนถึงปี 2024 ก็ยังไม่มีความคืบหน้าสำคัญ
- บทสรุป:
- แนวคิดเอเจนต์ในความหมายที่ได้รับความนิยม ดูเหมือนจะพึ่งพา AGI (ปัญญาประดิษฐ์ทั่วไป) โดยพฤตินัย
- การพัฒนาโมเดลที่มีความน่าเชื่อถือยังคงเป็นโจทย์ที่ยากอย่างยิ่ง
# ความสำคัญของ Evals
- การประเมินกลายเป็นทักษะหลัก:
- ในปี 2024 การเขียนการประเมินอัตโนมัติที่ดี (Evals) สำหรับระบบที่อิงกับ LLM ได้กลายเป็นทักษะที่สำคัญที่สุด
- หากมีเครื่องมือประเมินที่แข็งแกร่ง ก็จะสามารถนำโมเดลใหม่มาใช้ได้อย่างรวดเร็ว ทำงานแบบวนซ้ำได้ดีขึ้น และพัฒนาฟีเจอร์ที่เชื่อถือได้
- แนวทางของ Anthropic:
- Amanda Askell: เคล็ดลับของ system prompt ที่ดีคือการพัฒนาแบบอิงการทดสอบ
- "ไม่ใช่การเขียน system prompt แล้วค่อยหาการทดสอบ แต่เป็นการเขียนการทดสอบก่อน แล้วค่อยหา system prompt ที่ทำให้ผ่านการทดสอบเหล่านั้น"
- แนวทางนี้มีบทบาทสำคัญในการพัฒนา Claude
- Amanda Askell: เคล็ดลับของ system prompt ที่ดีคือการพัฒนาแบบอิงการทดสอบ
- กรณีศึกษาของ Vercel:
- Malte Ubl: ในช่วงแรกใช้วิธี pre-processing และ post-processing ที่ซับซ้อนเพื่อปกป้อง prompt
- แต่ภายหลังตระหนักได้ว่าความเรียบง่ายของ prompt รวมถึงการประเมิน โมเดล และ UX สำคัญกว่า จึงเปลี่ยนทิศทาง
- "prompt ที่ไม่มีการประเมิน ก็เหมือนเครื่องจักรที่พังและไม่มีคู่มือ"
- Malte Ubl: ในช่วงแรกใช้วิธี pre-processing และ post-processing ที่ซับซ้อนเพื่อปกป้อง prompt
- การสำรวจส่วนตัว:
- กำลังศึกษาหารูปแบบที่ดีที่สุดสำหรับการทำการประเมินที่มีประสิทธิภาพ
- แม้ตอนนี้จะมีการเน้นย้ำว่าการประเมินสำคัญ แต่ยังขาดคู่มือที่ยอดเยี่ยมว่าควรลงมือทำอย่างไรอย่างเป็นรูปธรรม
- โดยส่วนตัวเคยใช้ benchmark "นกกระทุง SVG ขี่จักรยาน" แต่สิ่งนี้ไม่ใช่ตัวแทนของเครื่องมือประเมินที่เหมาะสม
# Apple Intelligence น่าผิดหวัง แต่ไลบรารี MLX ยอดเยี่ยม
- ประสบการณ์ใช้งาน ML บน Mac ที่ดีขึ้น:
- Mac ที่มี RAM 64GB สามารถให้ CPU และ GPU ใช้หน่วยความจำร่วมกันได้ จึงเหมาะกับการรันโมเดลในทางทฤษฎี
- แต่ผู้ใช้ Mac มีข้อจำกัดมานาน เพราะโมเดลและไลบรารีต่าง ๆ ให้ความสำคัญกับ NVIDIA CUDA ก่อน
- นวัตกรรมของไลบรารี MLX:
- MLX ของ Apple (array framework สำหรับ Apple Silicon) ทำให้สามารถรันโมเดลที่รองรับ MLX ได้หลากหลายบน Mac ด้วยประสิทธิภาพที่ยอดเยี่ยม
mlx-lmของ Python: รองรับโมเดลที่เข้ากันได้กับ MLX และมีประสิทธิภาพดีมากmlx-communityของ Hugging Face: มีโมเดลมากกว่า 1,000 รายการที่แปลงเป็นฟอร์แมตที่ต้องใช้ไว้ให้แล้ว- โปรเจกต์
mlx-vlmของ Prince Canuma: ทำให้สามารถรัน vision LLM บน Apple Silicon ได้- เมื่อไม่นานมานี้ถูกใช้เพื่อรัน QvQ ของ Qwen
- ความน่าผิดหวังของ Apple Intelligence:
- ตอนเปิดตัวในเดือนมิถุนายน 2024 ได้รับความคาดหวังเพราะมุ่งเน้นการประยุกต์ใช้ LLM ที่ให้ความสำคัญกับความเป็นส่วนตัวของผู้ใช้
- แต่ฟีเจอร์ที่เปิดตัวจริงกลับเบาบาง และยังด้อยเมื่อเทียบกับความสามารถของ LLM ระดับแนวหน้า
- ตัวอย่าง:
- สรุปการแจ้งเตือนที่สรุปพาดหัวข่าวผิด
- เครื่องมือช่วยเขียนที่ใช้งานจริงได้ไม่มาก
- อย่างไรก็ตาม Genmoji ถูกมองว่าเป็นฟีเจอร์ที่สนุกอยู่บ้าง
- ตัวอย่าง:
- มุมมองที่เปลี่ยนไปของผู้ใช้ Mac:
- ด้วยเครื่องมืออย่าง MLX ทำให้ความพึงพอใจต่อการเลือกใช้แพลตฟอร์ม Mac เพิ่มขึ้นอย่างมาก
- โดยเฉพาะสภาพแวดล้อมสำหรับรัน LLM บน Apple Silicon ที่ดีขึ้น
# การสเกลการอนุมานและการมาของโมเดล "Reasoning"
- การมาของ LLM รูปแบบใหม่:
- ในไตรมาส 4 ของปี 2024 OpenAI เปิดตัวโมเดล o1 (o1-preview, o1-mini) เป็นครั้งแรกเมื่อวันที่ 12 กันยายน
- เป็นการต่อยอดเทคนิค chain-of-thought ที่ออกแบบให้โมเดลแก้ปัญหาโดย "คิด" ไปด้วยระหว่างทาง
- ลักษณะเด่นของโมเดล o1:
- ใช้ "reasoning tokens" เพื่ออนุมานปัญหา โดยผู้ใช้ไม่สามารถเห็นกระบวนการนี้โดยตรง แต่ดูสรุปได้ใน UI ของ ChatGPT
- ไม่ได้เพิ่มประสิทธิภาพจากกำลังคำนวณในช่วงฝึกเท่านั้น แต่ยังปรับปรุงได้ด้วยการใช้การคำนวณมากขึ้นในช่วงอนุมาน
- ความสามารถในการขยายของโมเดล:
- ใช้ทรัพยากรคำนวณเพิ่มเติมในช่วงอนุมานเพื่อจัดการปัญหาที่ยากขึ้น
- นี่เป็นอีกแนวทางใหม่ในการขยายสถาปัตยกรรมโมเดล LLM แบบเดิม
- โมเดลรุ่นต่อ o3:
- เปิดตัวเมื่อวันที่ 20 ธันวาคม 2024 และทำผลงานได้โดดเด่นบน benchmark ARC-AGI
- อาจใช้ต้นทุนการคำนวณมากกว่า $1,000,000
- มีกำหนดเปิดตัวในเดือนมกราคม 2025 และคาดว่าการใช้งานจริงจะมีข้อจำกัดเพราะต้นทุนการคำนวณสูงมาก
- การเปิดตัวโมเดลสำคัญอื่น ๆ:
- Google: เปิดตัว
gemini-2.0-flash-thinking-expเมื่อวันที่ 19 ธันวาคม - Alibaba: ประกาศโมเดล QwQ (สัญญาอนุญาต Apache 2.0) เมื่อวันที่ 28 พฤศจิกายน และสามารถรันแบบโลคัลได้
- ต่อมาในวันที่ 24 ธันวาคม เปิดตัวโมเดลอนุมานภาพ QvQ ซึ่งรันแบบโลคัลได้เช่นกัน
- DeepSeek: ให้บริการโมเดล
DeepSeek-R1-Lite-Previewผ่านอินเทอร์เฟซแชตเมื่อวันที่ 20 พฤศจิกายน
- Google: เปิดตัว
- งานวิจัยที่เกี่ยวข้องและสิ่งที่คาดไว้:
- แม้ Anthropic และ Meta จะยังไม่ได้ประกาศโมเดลอย่างเป็นทางการ แต่มีความเป็นไปได้สูงว่ากำลังพัฒนาโมเดลสเกลการอนุมานในลักษณะคล้ายกันอยู่
- ในเดือนธันวาคม Meta เผยแพร่บทความวิจัยที่เกี่ยวข้องชื่อ "Training Large Language Models to Reason in a Continuous Latent Space"
- ข้อมูลเพิ่มเติม: แนะนำให้อ่าน Is AI progress slowing down? ของ Arvind Narayanan และ Sayash Kapoor
# ตอนนี้ LLM ที่ดีที่สุด ถูกฝึกในจีนด้วยเงินไม่ถึง 6 ล้านดอลลาร์หรือ?
- ข่าวสำคัญ:
- ช่วงคริสต์มาสปี 2024 DeepSeek v3 ถูกเผยแพร่บน Hugging Face (โพสต์โดยไม่มีไฟล์ README และเพิ่มเอกสารกับบทความในวันถัดมา)
- เป็นโมเดลขนาดใหญ่ 685B พารามิเตอร์ ใหญ่กว่า Llama 3.1 405B ของ Meta มาก
- เป็นโมเดลขนาดใหญ่ที่สุดในบรรดาโมเดลที่เผยแพร่ภายใต้สัญญาอนุญาตแบบเปิด
- ประสิทธิภาพ:
- มีประสิทธิภาพบน benchmark ใกล้เคียงกับ Claude 3.5 Sonnet
- อยู่อันดับ 7 บน Chatbot Arena ตามหลัง Gemini 2.0 และโมเดล 4o/o1 ของ OpenAI ทันที
- เป็นโมเดลภายใต้สัญญาอนุญาตแบบเปิดที่มีอันดับสูงสุด
- ต้นทุนการฝึก:
- DeepSeek v3: ใช้เวลา GPU H800 จำนวน 2,788,000 ชั่วโมง คิดเป็นต้นทุนประมาณ $5,576,000
- Meta Llama 3.1 405B: ใช้เวลา GPU 30,840,000 ชั่วโมง มากกว่า DeepSeek v3 ถึง 11 เท่า แต่ได้คะแนน benchmark ต่ำกว่านิดหน่อย
- ผลของมาตรการควบคุมการส่งออก GPU ไปจีน:
- มาตรการควบคุมการส่งออก GPU ของสหรัฐฯ ดูเหมือนจะกระตุ้นการเพิ่มประสิทธิภาพการฝึกอย่างมาก
- การฝึก DeepSeek v3 ที่คุ้มค่าด้านต้นทุนจึงถูกมองว่าเป็นผลลัพธ์ของการเพิ่มประสิทธิภาพเหล่านี้
# ผลกระทบต่อสิ่งแวดล้อมดีขึ้น
- ประสิทธิภาพที่ดีขึ้นทำให้ใช้พลังงานลดลง:
- เมื่อประสิทธิภาพของโมเดลเพิ่มขึ้นอย่างมาก การใช้พลังงานและผลกระทบต่อสิ่งแวดล้อมจากการรัน prompt ก็ลดลงอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา
- OpenAI ลดต้นทุนต่อ prompt ลงได้ 100 เท่าเมื่อเทียบกับยุค GPT-3
- ผู้ให้บริการโมเดลต้นทุนต่ำอย่าง Google Gemini และ Amazon Nova ก็สามารถให้บริการ prompt ได้โดยไม่ขาดทุน
- จากมุมมองของผู้ใช้รายบุคคล:
- การใช้พลังงานจากการรัน prompt ส่วนใหญ่นั้นแท้จริงแล้วอยู่ในระดับเล็กน้อย
- อาจส่งผลกระทบต่อสิ่งแวดล้อมน้อยกว่าการขับรถระยะสั้นหรือการดูวิดีโอ YouTube
- ต้นทุนการฝึกลดลง:
- ต้นทุนการฝึก DeepSeek v3 ที่ต่ำกว่า $6,000,000 แสดงให้เห็นว่าต้นทุนการฝึกอาจยังลดลงต่อไปได้
- ทำให้สามารถฝึกได้อย่างมีประสิทธิภาพมากขึ้นด้วยทรัพยากรที่น้อยลง
- เมื่อเทียบกับโมเดลที่ไร้ประสิทธิภาพ:
- ต้นทุนพลังงานในการฝึกโมเดลที่ใหญ่ที่สุดของ Llama 3 ใกล้เคียงกับต้นทุนพลังงานของเที่ยวบินพาณิชย์ที่ผู้โดยสารเต็มลำหลายเที่ยวระหว่างนิวยอร์กกับลอนดอน
- แต่เมื่อฝึกเสร็จแล้ว ผู้คนนับล้านสามารถใช้งานได้โดยไม่ต้องมีต้นทุนการฝึกเพิ่ม จึงมีประสิทธิภาพในระยะยาว
# ผลกระทบต่อสิ่งแวดล้อม แย่ลงอีก
- การแข่งขันสร้างศูนย์ข้อมูลขนาดใหญ่:
- บริษัทหลักอย่าง Google, Meta, Microsoft และ Amazon กำลังลงทุนหลายพันล้านดอลลาร์เพื่อสร้างศูนย์ข้อมูลให้รองรับความต้องการของโมเดลในอนาคต
- การขยายโครงสร้างพื้นฐานเช่นนี้ส่งผลกระทบอย่างมากต่อโครงข่ายไฟฟ้าและสิ่งแวดล้อม
- แม้จะมีการพูดคุยเรื่องการสร้างโรงไฟฟ้านิวเคลียร์แห่งใหม่ แต่สิ่งนี้อาจใช้เวลาหลายสิบปี
- ข้อถกเถียงเรื่องความจำเป็นของโครงสร้างพื้นฐาน:
- ค่าใช้จ่ายในการฝึก DeepSeek v3 ที่ 6 ล้านดอลลาร์ และราคาของ LLM ที่ลดลง บ่งชี้ว่าการขยายตัวเช่นนี้อาจไม่จำเป็นเสมอไป
- อย่างไรก็ตาม แทบไม่มีผู้บริหารคนใดพร้อมจะรับความเสี่ยงจากการ "ไม่สร้างโครงสร้างพื้นฐาน แล้วภายหลังกลายเป็นการตัดสินใจที่ผิดพลาด"
- ความคล้ายคลึงทางประวัติศาสตร์:
- สามารถเปรียบเทียบได้กับช่วงศตวรรษที่ 19 ที่มีการสร้างเครือข่ายรถไฟทั่วโลก
- ต้องใช้เงินลงทุนมหาศาลและสร้างผลกระทบต่อสิ่งแวดล้อม โดยมีหลายเส้นทางที่ซ้ำซ้อนจนกลายเป็นสิ่งไม่จำเป็น
- ท้ายที่สุดยังนำไปสู่วิกฤตการเงินหลายครั้ง:
- วิกฤตปี 1873, วิกฤตปี 1893, วิกฤตปี 1901 และ Railway Mania ของสหราชอาณาจักร
- แม้โครงสร้างพื้นฐานจะยังคงอยู่ แต่ก็มาพร้อมการล้มละลายครั้งใหญ่และความเสียหายต่อสิ่งแวดล้อม
- บทเรียนสำหรับปัจจุบัน:
- การแข่งขันด้านศูนย์ข้อมูลอาจทิ้งโครงสร้างพื้นฐานที่มีประโยชน์ไว้ได้ แต่ก็มีความเสี่ยงที่จะนำไปสู่การขยายตัวเกินความจำเป็นและความเสียหายต่อสิ่งแวดล้อม
# ปี 2024, ปีแห่ง "Slop"
- ความหมายของ "Slop":
- กลายเป็นคำที่ใช้เรียก คอนเทนต์ที่ AI สร้างขึ้นโดยไม่มีใครต้องการและไม่ได้ผ่านการตรวจทาน
- เช่นเดียวกับที่ "สแปม" กลายเป็นคำหมายถึงอีเมลที่ไม่พึงประสงค์ "slop" ก็ถูกใช้อย่างแพร่หลายจนถึงขั้นมีโอกาสถูกบรรจุในพจนานุกรม
- ที่มาของคำนี้:
- เริ่มจากบทสนทนาในทวีตของ @deepfates:
- "กำลังได้เห็นคำว่า 'slop' กลายเป็นคำศัพท์หนึ่งแบบเรียลไทม์"
- ในเดือนพฤษภาคม 2024 แนวคิดนี้ถูกขยายความเป็น "คอนเทนต์ที่ AI สร้างขึ้นโดยไม่มีการร้องขอและไม่ได้ผ่านการตรวจทาน"
- เริ่มจากบทสนทนาในทวีตของ @deepfates:
- ปฏิกิริยาจากสื่อ:
- มีการอ้างคำสัมภาษณ์เกี่ยวกับ "slop" ใน NY Times และ Guardian:
- "เราต้องการคำที่ใช้พูดถึง AI สมัยใหม่ได้อย่างกระชับ 'ไม่ต้องสนใจอีเมลนั้น มันเป็นสแปม' กับ 'ไม่ต้องสนใจบทความนั้น มันเป็น slop' ต่างก็เป็นบทเรียนที่มีประโยชน์"
- มีการอ้างคำสัมภาษณ์เกี่ยวกับ "slop" ใน NY Times และ Guardian:
- ความสำคัญของ slop:
- มีประโยชน์ในการอธิบายอย่างกระชับถึงวิธีใช้ generative AI อย่างผิดทาง
- ช่วยให้ AI ถูกใช้อย่างมีประสิทธิภาพและมีความรับผิดชอบมากขึ้น
- อิทธิพลทางวัฒนธรรมในปี 2024:
- "Slop" ได้รับการเสนอชื่อเข้าชิงคำแห่งปีของ Oxford แต่ไม่ได้รับเลือก โดยแพ้ให้กับ "brain rot"
# ผลลัพธ์อันน่าทึ่งของข้อมูลฝึกแบบสังเคราะห์
- แนวคิดเรื่อง "model collapse":
- ถูกกล่าวถึงครั้งแรกในงานวิจัยเดือนพฤษภาคม 2023 ชื่อ The Curse of Recursion และได้รับความสนใจมากขึ้นใน Nature เดือนกรกฎาคม 2024
- ข้ออ้างคือ หากคอนเทนต์ที่ AI สร้างท่วมอินเทอร์เน็ต โมเดลจะเรียนรู้จากผลลัพธ์ของตัวเองซ้ำไปซ้ำมาและประสิทธิภาพจะลดลง
- ความเป็นจริง: การล่มสลายแบบนั้นไม่ได้เกิดขึ้น ตรงกันข้าม การฝึกโมเดลด้วยข้อมูลสังเคราะห์กลับกลายเป็นเรื่องที่พบได้มากขึ้นเรื่อย ๆ
- ข้อดีของข้อมูลสังเคราะห์:
- อธิบายไว้ใน Phi-4 Technical Report:
- ข้อมูลสังเคราะห์ไม่ใช่แค่ตัวแทนของข้อมูลแบบ organic แต่ให้ประโยชน์โดยตรงดังนี้:
- การเรียนรู้ที่มีโครงสร้างและเป็นลำดับขั้น:
- ข้อมูล organic มีความสัมพันธ์ระหว่างโทเค็นที่ซับซ้อนและอ้อมมาก ทำให้เรียนรู้ได้ยาก
- ในทางกลับกัน ข้อมูลสังเคราะห์ถูกสร้างขึ้นโดย language model จากโทเค็นก่อนหน้า จึงทำให้เรียนรู้รูปแบบการให้เหตุผลได้ง่ายกว่า
- กระบวนการเรียนรู้มีความเป็นระบบและคาดการณ์ได้มากกว่า
- การเรียนรู้ที่มีโครงสร้างและเป็นลำดับขั้น:
- ข้อมูลสังเคราะห์ไม่ใช่แค่ตัวแทนของข้อมูลแบบ organic แต่ให้ประโยชน์โดยตรงดังนี้:
- อธิบายไว้ใน Phi-4 Technical Report:
- ตัวอย่างที่โมเดลใหญ่ช่วยโมเดลเล็ก:
- โมเดลขนาดใหญ่สร้างข้อมูลสังเคราะห์ให้โมเดลขนาดเล็กกว่า:
- DeepSeek v3: ใช้ข้อมูล "reasoning" ที่สร้างโดย DeepSeek-R1
- Meta Llama 3.3 70B: fine-tune ด้วยตัวอย่างสังเคราะห์มากกว่า 25 ล้านรายการ
- โมเดลขนาดใหญ่สร้างข้อมูลสังเคราะห์ให้โมเดลขนาดเล็กกว่า:
- ความสำคัญของการออกแบบข้อมูล:
- การออกแบบข้อมูลกลายเป็นปัจจัยที่สำคัญที่สุดในการฝึก LLM
- วิธีการแบบเดิมที่กวาดข้อมูลทั้งอินเทอร์เน็ตมาฝึกอย่างไม่เลือกนั้นไม่ได้ใช้อีกต่อไปแล้ว
# ปี 2024 ที่การใช้ LLM ยากขึ้นกว่าเดิม
- LLM เป็นเครื่องมือที่ซับซ้อน:
- ภายนอกดูเรียบง่าย แต่ความจริงเป็น "เครื่องมือสำหรับ power user" ที่ต้องอาศัยความเข้าใจลึกและประสบการณ์
- อธิบายได้ด้วยอุปมาว่า "เป็นเครื่องมือซับซ้อนอย่างเลื่อยยนต์ที่ปลอมตัวให้ดูเหมือนมีดทำครัว"
- ปัญหาที่รุนแรงขึ้นในปี 2024:
- โมเดลมีความสามารถมากขึ้น แต่ก็ยังคงมีข้อจำกัดและเพดานแบบเดิม
- มีระบบหลากหลายถูกนำมาใช้ โดยแต่ละระบบรองรับเครื่องมือต่างกัน เช่น Python, JavaScript, การค้นหาเว็บ, การสร้างภาพ เป็นต้น
- ผู้ใช้ต้องเข้าใจทั้งศักยภาพและข้อจำกัดของแต่ละเครื่องมือจึงจะใช้งานได้อย่างมีประสิทธิภาพ
- ความซับซ้อนที่เพิ่มขึ้นระหว่างระบบต่าง ๆ:
- ตัวอย่างเช่น ใน ChatGPT สามารถรัน Python ได้สองวิธี
- หากต้องการสร้าง Claude Artifact ที่สื่อสารกับ external API ก็จำเป็นต้องเข้าใจ HTTP header ของ CSP และ CORS
- o1 ของ OpenAI ทำงานด้วยความสามารถที่จำกัด ขณะที่ GPT-4o รองรับการค้นหาเว็บและ code interpreter
- ผู้ใช้ต้องเข้าใจความแตกต่างด้านความสามารถของทั้งสองโมเดลภายใน UI เดียวกันของ ChatGPT
- ข้อจำกัดของประสบการณ์ผู้ใช้:
- UI แชตพื้นฐานของ LLM ให้ประสบการณ์เหมือนโยนมือใหม่ลงไปใน Linux terminal
- ผู้ใช้จำนวนมากพัฒนา mental model ที่ผิดเกี่ยวกับวิธีทำงานและความสามารถของ LLM
- ตัวอย่างเช่น มีกรณีไร้เหตุผลเพิ่มขึ้นที่ใช้ภาพหน้าจอของ ChatGPT เป็นหลักฐานในการโต้เถียง
- ปัญหาสองด้าน:
- การใช้งานผิดทาง: ผู้ใช้มองว่า LLM เป็นเครื่องมือสารพัดประโยชน์ ทั้งที่มันยังไม่สมบูรณ์
- การหลีกเลี่ยง: แม้แต่คนที่เข้าใจดีก็ยังเลิกใช้ LLM ไปเลยเพราะข้อบกพร่องของมัน
- การจะใช้ LLM ได้อย่างมีประสิทธิภาพ จำเป็นต้องมีความสามารถในการทำงานร่วมกับเทคโนโลยีที่ทั้งทรงพลังและไม่สมบูรณ์แบบ
- ความจำเป็นของคอนเทนต์เพื่อการศึกษา:
- การให้ความรู้ผู้ใช้เป็นเรื่องสำคัญ แต่ตอนนี้ยังมีไม่เพียงพอ
- แทนที่จะพึ่งพา Twitter thread ที่พูดเกินจริงเกี่ยวกับ AI จำเป็นต้องพัฒนาสื่อการเรียนรู้ที่น่าเชื่อถือมากกว่าเดิม
# การกระจายตัวของความรู้อย่างไม่สมดุล
- สิ่งที่คนรู้และไม่รู้:
- คนส่วนใหญ่รู้จัก ChatGPT แต่มีน้อยมากที่เคยได้ยินชื่อ Claude
- ช่องว่างความรู้ระหว่างคนที่ติดตามวงการนี้อย่างจริงจังกับคนอีก 99% ที่เหลือนั้นกว้างมาก
- ความเร็วของการเปลี่ยนแปลง:
- ความเร็วของการเปลี่ยนแปลงทางเทคโนโลยียิ่งทำให้ช่องว่างความรู้รุนแรงขึ้น
- ในช่วงเดือนที่ผ่านมา มีการเปิดตัวอินเทอร์เฟซแบบไลฟ์:
- สามารถชี้กล้องมือถือไปที่สิ่งใดสิ่งหนึ่งและสนทนาด้วยเสียงได้
- ยังสามารถเลือกฟีเจอร์ให้มันแสดงบทบาทเป็นซานตาคลอสได้ด้วย
- แม้แต่คนที่เรียกตัวเองว่าหลงใหลเทคโนโลยีก็ยังมีจำนวนมากที่ไม่เคยลองฟีเจอร์เหล่านี้
- ผลกระทบทางสังคมและความจำเป็น:
- เมื่อพิจารณาถึงผลกระทบที่เทคโนโลยีนี้จะมีต่อสังคมทั้งในปัจจุบันและอนาคต ขนาดของช่องว่างความรู้นี้ไม่ใช่เรื่องที่ดีต่อระบบนิเวศโดยรวม
- จำเป็นต้องมีความพยายามมากกว่านี้เพื่อแก้ไขปัญหา
# เราต้องการคำวิจารณ์ LLM ที่ดีกว่านี้
- ความรู้สึกต่อต้านเทคโนโลยี:
- ในบางคอมมูนิตี้อย่าง Mastodon, Bluesky, Lobste.rs และ Hacker News แค่แสดงความเห็นว่า “LLM มีประโยชน์” ก็อาจกลายเป็นประเด็นถกเถียงได้แล้ว
- เหตุผลที่ผู้คนมีความรู้สึกต่อต้านเทคโนโลยี:
- ผลกระทบต่อสิ่งแวดล้อม
- ปัญหาด้านจริยธรรมของข้อมูลฝึกสอน
- ความน่าเชื่อถือที่ยังไม่เพียงพอ
- กรณีการนำไปใช้ในทางลบ
- ผลกระทบที่อาจเกิดขึ้นต่ออาชีพการงาน
- ความจำเป็นของการวิพากษ์วิจารณ์:
- LLM สมควรถูกวิพากษ์วิจารณ์ และสิ่งสำคัญคือการพูดคุยถึงปัญหา ค้นหาทางแก้ไข และให้ความรู้เกี่ยวกับวิธีใช้งานอย่างรับผิดชอบ
- เป้าหมายคือช่วยให้การใช้งานในทางบวกมีมากกว่าผลกระทบด้านลบ
- คุณค่าของมุมมองแบบตั้งข้อสงสัย:
- กระแส hype ที่มากเกินไปทำให้ปัญหาเลวร้ายลงตลอด 2 ปีที่ผ่านมา:
- ข้อมูลเท็จและความคาดหวังเกินจริงแพร่หลาย
- มีการตัดสินใจที่ผิดพลาดเกิดขึ้นบ่อยครั้ง
- การคิดเชิงวิพากษ์เป็นสิ่งจำเป็นต่อการทำความเข้าใจและใช้งานเทคโนโลยีนี้อย่างถูกต้อง
- กระแส hype ที่มากเกินไปทำให้ปัญหาเลวร้ายลงตลอด 2 ปีที่ผ่านมา:
- การสนทนากับผู้มีอำนาจตัดสินใจ:
- ควรยอมรับตัวอย่างการใช้งานเครื่องมือที่ดี พร้อมทั้งอธิบายวิธีหลีกเลี่ยงกับดักที่ไม่ชัดเจน
- การอ้างว่าไม่มีกรณีใช้งานที่ดีเลย เป็นการมองข้ามคุณค่าที่เป็นไปได้ของเทคโนโลยีนี้
- การสื่อสารข้อความที่ถูกต้อง:
- คำวิจารณ์แบบตัดทอนอย่าง “เครื่องจักรลอกเลียนที่ทำลายสิ่งแวดล้อมและโกหกตลอดเวลา” ไม่ได้ช่วยแก้ปัญหา
- การค้นหาและทำให้คุณค่าที่แท้จริงของ LLM เกิดขึ้นจริง ต้องอาศัยคำแนะนำและการให้ความรู้ที่ไม่ตรงไปตรงมาตามสัญชาตญาณ
- บทบาทอย่างมีความรับผิดชอบ:
- คนที่เข้าใจเทคโนโลยีนี้มีหน้าที่รับผิดชอบในการช่วยให้ผู้อื่นสามารถใช้งานมันได้อย่างถูกต้อง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
หลายคนมีแนวโน้มจะคิดว่า LLMs ไร้ประโยชน์หลังจากได้ใช้ ChatGPT 4 แต่ Claude Sonnet 3.5 ก็ยังอาจมีประโยชน์อยู่
คำว่า "agent" ไม่มีความหมายที่ชัดเจน จึงทำให้เกิดความสับสน
มีความกังวลเกี่ยวกับการที่ราคา LLM ลดลง
แนวคิดเรื่อง "agent" ยังไม่ได้ถูกนิยามไว้อย่างชัดเจน
ไม่เห็นด้วยกับข้ออ้างที่ว่าการใช้ LLMs ยากขึ้น
การตัดสินว่าอะไรคือสิ่งที่ "ดี" กลายเป็นเรื่องยากขึ้น
มีคนที่เลิกใช้ LLMs เพราะข้อบกพร่องของมัน
โมเดล GPT-4 บางตัวสามารถรันบนโน้ตบุ๊กได้ด้วย
ไม่เข้าใจว่าการใช้ 64GB DRAM ของ Apple มีความพิเศษอย่างไร
มีความสับสนเกี่ยวกับโครงสร้างต้นทุนของ Google Gemini และ Amazon Nova
มีความเห็นว่า LLMs ไม่ได้มีประโยชน์กับงานในชีวิตประจำวัน
ได้ตระหนักว่ามาตรฐานด้านจริยธรรมและความเป็นเลิศของอุตสาหกรรมนี้อยู่ในระดับต่ำ
มีคำถามเกี่ยวกับสภาพปัจจุบันที่ผลัก "การให้เหตุผล" เข้าไปอยู่ใน latent/neural space