สิ่งที่ได้เรียนรู้เกี่ยวกับ LLMs ในปี 2024

(simonwillison.net)

22 คะแนน โดย GN⁺ 2025-01-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

สรุปภาพรวมการเปลี่ยนแปลงทั้งหมดเกี่ยวกับ LLM ในปี 2024 ของ Simon Willison

ก้าวข้ามข้อจำกัดของ GPT-4 ไปอย่างสิ้นเชิง
โมเดลบางตัวระดับ GPT-4 รันได้บนโน้ตบุ๊กของผม
ราคา LLM ร่วงหนัก การเปลี่ยนแปลงที่เกิดจากการแข่งขันและประสิทธิภาพ
การแพร่หลายของวิสัยทัศน์แบบ Multimodal พร้อมการมาถึงใหม่ของเสียงและวิดีโอ
โหมดเสียงและกล้องสด ไซไฟที่กลายเป็นความจริง
การสร้างแอปด้วยพรอมป์ต เทคโนโลยีที่กลายเป็นเรื่องปกติไปแล้ว
การเข้าถึงโมเดลที่ดีที่สุดได้ฟรี สิ้นสุดลงในเวลาไม่กี่เดือน
“Agent” แนวคิดที่ยังไม่เกิดขึ้นจริง
ความสำคัญของการประเมินผล (Evals)
Apple Intelligence น่าผิดหวัง แต่ไลบรารี MLX ยอดเยี่ยม
การขยายสเกลการให้เหตุผล และการมาของโมเดล “Reasoning”
LLM ที่ดีที่สุดในตอนนี้ ฝึกในจีนด้วยงบต่ำกว่า 6 ล้านดอลลาร์จริงหรือ?
ผลกระทบต่อสิ่งแวดล้อมดีขึ้น
ผลกระทบต่อสิ่งแวดล้อมแย่ลงกว่าเดิม
ปี 2024 ปีแห่ง “Slop”
ผลลัพธ์ที่น่าทึ่งของข้อมูลฝึกแบบสังเคราะห์
ปี 2024 ที่การใช้ LLM ยากขึ้น
การกระจายตัวของความรู้ที่ไม่สมดุล
เราต้องการคำวิจารณ์ LLM ที่ดีกว่านี้

# ก้าวข้ามข้อจำกัดของ GPT-4 ไปอย่างสิ้นเชิง

สถานการณ์ในปี 2023: GPT-4 ได้รับการประเมินว่าเป็นโมเดลภาษาที่ดีที่สุด และห้องแล็บ AI อื่นยังไม่สามารถแซงได้ ความลับทางเทคนิคของ OpenAI ได้รับความสนใจอย่างมาก
ความเปลี่ยนแปลงในปี 2024: มีการเปิดตัวโมเดลจาก 18 องค์กรที่เหนือกว่า GPT-4 ปัจจุบันบนกระดานผู้นำ Chatbot Arena มีโมเดล 70 ตัวที่ทำได้ดีกว่า GPT-4-0314 (เปิดตัวเมื่อมีนาคม 2023)
โมเดลหลักและความก้าวหน้าทางเทคนิค
- Google Gemini 1.5 Pro: เปิดตัวกุมภาพันธ์ 2024
  - ให้เอาต์พุตระดับ GPT-4 พร้อมความสามารถใหม่
  - รองรับความยาวบริบทอินพุต 1 ล้านโทเค็น (ภายหลังเพิ่มเป็น 2 ล้าน)
  - เพิ่มความสามารถรับอินพุตแบบวิดีโอ
  - ใช้อินพุตยาวเพื่อแก้ปัญหาการเขียนโค้ดและวิเคราะห์หนังสือทั้งเล่มได้
  - ถูกนำเสนอเป็นประกาศสำคัญในคีย์โน้ต Google I/O 2024
- ซีรีส์ Anthropic Claude 3:
  - Claude 3 Opus: เปิดตัวมีนาคม 2024 โดดเด่นจากประสิทธิภาพสูง
  - Claude 3.5 Sonnet: เปิดตัวในเดือนมิถุนายน และมีเวอร์ชันอัปเกรดประกาศเมื่อ 22 ตุลาคม
  - แม้อัปเกรดแล้วก็ยังคงหมายเลขเวอร์ชัน 3.5 จนแฟน ๆ เรียกว่า Claude 3.6
การขยายความยาวบริบท
- ปี 2023: โมเดลส่วนใหญ่รองรับ 4,096~8,192 โทเค็น โดย Claude 2.1 เป็นข้อยกเว้นที่ 200,000 โทเค็น
- ปี 2024: โมเดลหลักรองรับมากกว่า 100,000 โทเค็น และซีรีส์ Google Gemini รองรับได้สูงสุด 2 ล้านโทเค็น
- สามารถประมวลผลข้อมูลอินพุตขนาดยาวเพื่อแก้ปัญหาได้หลากหลาย
- เหมาะกับการวิเคราะห์หนังสือทั้งเล่มหรือแก้ปัญหาจากโค้ดตัวอย่าง
โมเดลและองค์กรที่แซง GPT-4
- ตามกระดานผู้นำ Chatbot Arena องค์กรที่มีโมเดลทำผลงานสูงกว่า GPT-4-0314 ได้แก่:
  - Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI และอีก 18 องค์กร
- บนกระดานผู้นำ GPT-4-0314 ปัจจุบันอยู่ราวอันดับที่ 70

# โมเดลบางตัวระดับ GPT-4 รันได้บนโน้ตบุ๊กของผม

อุปกรณ์ที่ใช้: M2 MacBook Pro แรม 64GB ที่ออกในปี 2023 เป็นเครื่องอายุราว 2 ปี และเป็นแล็ปท็อปเครื่องเดียวกับที่เคยรัน LLM ครั้งแรกในมีนาคม 2023
การเปลี่ยนแปลงด้านประสิทธิภาพ: ช่วงแรกแทบจะรันได้แค่โมเดลระดับ GPT-3 แต่ตอนนี้รันโมเดลระดับ GPT-4 ได้แล้ว
- Qwen2.5-Coder-32B: โมเดลเฉพาะทางด้านโค้ดที่มีไลเซนส์ Apache 2.0 ในเดือนพฤศจิกายน 2024
- Meta Llama 3.3 70B: โมเดลระดับ GPT-4 ที่เปิดตัวในเดือนธันวาคม 2024
ความสำคัญ: น่าทึ่งที่โมเดลระดับ GPT-4 สามารถรันได้บนแล็ปท็อป ไม่ใช่เฉพาะบนเซิร์ฟเวอร์ดาต้าเซ็นเตอร์ที่ติดตั้ง GPU ราคาเกิน $40,000
- เพราะใช้ RAM 64GB แทบทั้งหมด จึงทำงานอื่นควบคู่ได้ยาก
- สิ่งนี้เป็นไปได้เพราะประสิทธิภาพของโมเดลดีขึ้น และน่าจะเป็นผลจากการปรับแต่งตลอด 1 ปีที่ผ่านมา
- ยังน่าจะมีช่องให้ปรับปรุงประสิทธิภาพได้อีกมาก
โมเดล Meta Llama 3.2: ยังไม่ถึงระดับ GPT-4 แต่โมเดลขนาด 1B และ 3B ให้ประสิทธิภาพโดดเด่นแม้ขนาดเล็ก
- Llama 3.2 3B: รันได้ผ่านแอป MLC Chat iOS แบบฟรี
- มีขนาดต่ำกว่า 2GB รันบน iPhone ได้ และสร้างได้ 20 โทเค็นต่อวินาที
- ตัวอย่าง: เมื่อขอ “พล็อตหนังคริสต์มาสของ Netflix ที่นักข่าวข้อมูลตกหลุมรักช่างปั้นเครื่องปั้นดินเผาท้องถิ่น” ก็สร้างคำตอบพื้นฐานแต่เหมาะสม
  - ชื่อเรื่อง: “Love in the Clay”
  - เรื่องย่อ: เรื่องราวดำเนินไปเมื่อ Jessica กลับสู่บ้านเกิด Willow Creek และสืบสวนประวัติศาสตร์ท้องถิ่นรวมถึงผลกระทบของ gentrification
- ผลลัพธ์อาจธรรมดา แต่ก็น่าสนใจที่ทำสิ่งนี้ได้บน iPhone

# ราคา LLM ร่วงหนัก การเปลี่ยนแปลงที่เกิดจากการแข่งขันและประสิทธิภาพ

ราคาช่วงปลายปี 2023: ราคาของโมเดลหลักจาก OpenAI ในตอนนั้นเป็นดังนี้
- GPT-4: $30/million input tokens
- GPT-4 Turbo: $10/mTok
- GPT-3.5 Turbo: $1/mTok
การเปลี่ยนแปลงราคาในปี 2024:
- OpenAI o1: $30/mTok เป็นโมเดลที่แพงที่สุด
- GPT-4o: $2.50/mTok (ถูกกว่า GPT-4 ถึง 12 เท่า)
- GPT-4o Mini: $0.15/mTok (ถูกกว่า GPT-3.5 ราว 7 เท่าแต่ประสิทธิภาพดีกว่า)
- Anthropic Claude 3 Haiku: $0.25/mTok (เปิดตัวในเดือนมีนาคม เป็นโมเดลที่ถูกที่สุดของ Anthropic)
- Google Gemini 1.5 Flash: $0.075/mTok
- Google Gemini 1.5 Flash 8B: $0.0375/mTok (ถูกกว่า GPT-3.5 Turbo ถึง 27 เท่า)
ปัจจัยที่ทำให้ราคาลดลง:
- การแข่งขันที่เพิ่มขึ้น: ผู้ให้บริการโมเดลจำนวนมากเข้าสู่ตลาด ทำให้การแข่งขันด้านราคารุนแรงขึ้น
- ประสิทธิภาพที่ดีขึ้น: การปรับแต่งกระบวนการฝึกและอนุมานของโมเดลทำให้ใช้พลังงานลดลง
  - ความกังวลเรื่องต้นทุนพลังงานในการรันพรอมป์ตแต่ละครั้งลดลง
ประสิทธิภาพและต้นทุนด้านสิ่งแวดล้อม:
- ประสิทธิภาพพลังงานที่เพิ่มขึ้นช่วยลดความกังวลด้านสิ่งแวดล้อม
- แต่ผลกระทบด้านสิ่งแวดล้อมจากการสร้างดาต้าเซ็นเตอร์ยังคงเป็นปัญหา
การคำนวณต้นทุนการใช้งานจริง:
- คำนวณค่าใช้จ่ายในการสร้างคำอธิบายสำหรับคลังภาพส่วนตัว 68,000 รูป ด้วย Google Gemini 1.5 Flash 8B
  - ต่อภาพต้องใช้ 260 input tokens และ 100 output tokens
  - รวม 17,680,000 input tokens * $0.0375/million = $0.66
  - รวม 6,800,000 output tokens * $0.15/million = $1.02
  - รวมทั้งหมด: สามารถประมวลผลภาพ 68,000 รูปได้ในราคา $1.68
ตัวอย่างคำอธิบาย:
- ภาพ: ผีเสื้อสองตัวกำลังกินอาหารบนถาดสีแดงที่ California Academy of Sciences
- คำอธิบายที่สร้างขึ้น:
  - ภาพผีเสื้อสองตัวกำลังกินผลไม้อยู่บนถาดสีแดง
  - บรรยายสีและลวดลายของผีเสื้ออย่างละเอียด
- ต้นทุน: ประมาณ 0.0024 เซนต์ น้อยกว่า 1/400 ของเซนต์
หนึ่งในการเปลี่ยนแปลงใหญ่ที่สุดของปี 2024:
- การลดลงของราคาและต้นทุนพลังงานกำลังทำให้ความมีประโยชน์ของ LLM สูงขึ้นอย่างมาก

# การแพร่หลายของวิสัยทัศน์แบบ Multimodal พร้อมการมาถึงใหม่ของเสียงและวิดีโอ

เทรนด์สำคัญของปี 2024: มัลติโหมด LLM (รองรับอินพุตได้หลากหลาย นอกเหนือจากข้อความ เช่น ภาพ เสียง และวิดีโอ) กลายเป็นเรื่องปกติ
- กรณีตัวอย่างในปี 2023:
  - OpenAI GPT-4 Vision: เปิดตัวในงาน DevDay เดือนพฤศจิกายน 2023
  - Google Gemini 1.0: ประกาศเมื่อวันที่ 7 ธันวาคม 2023
- การเปิดตัวสำคัญในปี 2024:
  - Anthropic Claude 3 series: เปิดตัวในเดือนมีนาคม
  - Google Gemini 1.5 Pro: เปิดตัวในเดือนเมษายน (รองรับการประมวลผลภาพ เสียง และวิดีโอ)
  - Qwen2-VL: เปิดตัวในเดือนกันยายน
  - Mistral Pixtral 12B: เปิดตัวในเดือนกันยายน
  - Meta Llama 3.2: เปิดตัวในเดือนกันยายน (โมเดลวิชัน 11B และ 90B)
  - ความสามารถรับเข้าและส่งออกเสียงของ OpenAI: เพิ่มเข้ามาในเดือนตุลาคม
  - Hugging Face SmolVLM: เปิดตัวในเดือนพฤศจิกายน
  - Amazon Nova โมเดลภาพและวิดีโอ: เปิดตัวในเดือนธันวาคม
เครื่องมือและการรองรับมัลติโหมด:
- ในเดือนตุลาคม 2024 ได้อัปเกรดเครื่องมือ LLM CLI ที่ใช้งานส่วนตัวให้รองรับโมเดลมัลติโหมด
- เพิ่มปลั๊กอินที่สามารถจัดการไฟล์แนบอย่างภาพ เสียง และวิดีโอได้
ความสำคัญของโมเดลมัลติโหมด:
- คำวิจารณ์ที่ว่า LLM พัฒนาได้ช้าลง ดูเหมือนจะมองข้ามความก้าวหน้าของโมเดลมัลติโหมด
- การรันพรอมป์ด้วยภาพ เสียง และวิดีโอ เป็นพัฒนาการที่น่าตื่นเต้นซึ่งเปิดโอกาสการใช้งานแบบใหม่

# โหมดเสียงและโหมดกล้องสด เมื่อไซไฟกลายเป็นความจริง

การมาถึงของโหมดเสียงยุคแรก:
- เดือนกันยายน 2023 แอปมือถือ ChatGPT เพิ่มฟีเจอร์สนทนาด้วยเสียง
- ใช้โมเดล Whisper (Speech-to-Text) และ tts-1 (Text-to-Speech) แต่ตัวโมเดลเองประมวลผลได้เฉพาะข้อความเท่านั้น
โหมดเสียงของ GPT-4o:
- ในโหมดเสียงใหม่ที่ประกาศเมื่อ 13 พฤษภาคม 2024 โมเดล GPT-4o เป็นมัลติโหมดอย่างแท้จริง โดยรองรับอินพุตเสียงและเอาต์พุตเสียงที่เป็นธรรมชาติ
- ในเดโมมีการใช้เสียงที่คล้าย Scarlett Johansson แต่หลังเกิดข้อถกเถียง เสียงดังกล่าวไม่ได้ถูกรวมอยู่ในผลิตภัณฑ์เชิงพาณิชย์
- มีความสับสนจากการเลื่อนเปิดตัวโหมดเสียง แต่ในช่วงเดือนสิงหาคมถึงกันยายนก็ทยอยเปิดให้ใช้ในชื่อ ChatGPT Advanced Voice mode
  - ประสบการณ์ใช้งาน: การพูดคุยกับโหมดเสียงระหว่างเดินเล่นช่วยยกระดับคุณภาพของคอนเทนต์ได้อย่างมาก
  - จากการทดลองด้วย OpenAI Audio API พบความสามารถด้านเสียงที่หลากหลาย
ลักษณะเด่นของโหมดเสียง:
- Advanced Voice mode สามารถถ่ายทอดสำเนียงได้หลากหลาย
- ตัวอย่าง: ขอให้สนทนาเป็นภาษาสเปนด้วยสำเนียงรัสเซียหนาแบบนก California brown pelican
โมเดลเสียงมัลติโหมดจากบริษัทอื่น:
- Google Gemini: รองรับอินพุตเสียง และสามารถสนทนาด้วยเสียงได้คล้าย ChatGPT
- Amazon Nova: ประกาศล่วงหน้าเกี่ยวกับโหมดเสียง (มีกำหนดเปิดตัวใน Q1 2025)
- Google NotebookLM (เปิดตัวเดือนกันยายน 2024): สร้างบทสนทนาระหว่าง "ผู้ดำเนินพอดแคสต์" สองคนจากเนื้อหาที่ป้อนเข้าไป และรองรับคำสั่งแบบกำหนดเอง
การมาถึงของโหมดวิดีโอสด:
- เดือนธันวาคม 2024 ในโหมดเสียงของ ChatGPT มีการเพิ่มความสามารถแชร์ฟีดจากกล้อง
- สามารถพูดคุยเกี่ยวกับฟีดจากกล้องได้แบบเรียลไทม์
- Google Gemini ก็ปล่อยฟีเจอร์คล้ายกันในรูปแบบพรีวิวช่วงเวลาเดียวกัน
การเข้าถึงผ่าน API:
- ทั้ง OpenAI และ Google ต่างก็มี API สำหรับความสามารถเหล่านี้
- ในเดือนธันวาคม OpenAI ประกาศ WebRTC API เพื่อทำให้การพัฒนาเว็บแอปที่ใช้เสียงเป็นหลักง่ายขึ้น

# การสร้างแอปด้วยพรอมป์ เทคโนโลยีที่กลายเป็นเรื่องปกติไปแล้ว

ศักยภาพของ GPT-4 ในปี 2023:
- สามารถใช้ GPT-4 สร้างแอปแบบอินเทอร์แอ็กทีฟที่สมบูรณ์ด้วย HTML, CSS และ JavaScript
- ยังสามารถผสานเครื่องมืออย่าง React ผ่านกลไกการบิลด์เพิ่มเติมได้ด้วย
การมาของ Claude Artifacts ในปี 2024:
- ฟีเจอร์ใหม่ที่เปิดตัวในช่วงกลางของการประกาศ Anthropic Claude 3.5 Sonnet
- ผู้ใช้สามารถสร้างแอปตามต้องการที่รันได้ทันทีภายในอินเทอร์เฟซของ Claude
- ตัวอย่าง: เครื่องมือดึง URL ที่สร้างผ่าน Claude
  - เพียงใส่ URL ก็จะแสดงลิสต์ที่ดึงออกมาได้ทันที
- มีการแชร์ประสบการณ์ว่าสร้างเครื่องมือเล็ก ๆ ได้ 14 ชิ้นในหนึ่งสัปดาห์ด้วย Claude Artifacts
คู่แข่งเพิ่มฟีเจอร์ลักษณะเดียวกัน:
- GitHub Spark: ประกาศในเดือนตุลาคม 2024
- Mistral Chat Canvas: เพิ่มเข้ามาในเดือนพฤศจิกายน 2024
- Steve Krause จาก Val Town: ใช้โมเดลของ Cerebras เพื่อทำการแก้ไขแอปแบบเรียลไทม์ที่ความเร็วประมวลผล 2,000 โทเค็นต่อวินาที
- ทีม Chatbot Arena: เปิดตัวลีดเดอร์บอร์ดใหม่ในเดือนธันวาคม โดยให้สองโมเดลสร้างแอปเดียวกันแล้วโหวตเลือก
โปรเจกต์ของตัวเอง:
- กำลังพัฒนาในโปรเจกต์ Datasette ให้สามารถใช้พรอมป์สร้างวิดเจ็ตแบบกำหนดเองและการแสดงผลข้อมูล รวมถึงทำซ้ำงานได้
- ใช้ uv เพื่อทำแพตเทิร์นคล้ายกันสำหรับการเขียนโปรแกรม Python เดี่ยว
แนวโน้มในปี 2025:
- เมื่อปัญหา browser sandboxing ได้รับการแก้ไข ฟีเจอร์นี้มีแนวโน้มสูงที่จะกลายเป็นค่าพื้นฐานในผลิตภัณฑ์หลากหลายประเภท

# การเข้าถึงโมเดลที่ดีที่สุดได้ฟรี ช่วงเวลาสั้น ๆ ที่จบลงในไม่กี่เดือน

การเปิดให้ใช้ฟรีในช่วงต้นปี 2024:
- GPT-4o, Claude 3.5 Sonnet และ Gemini 1.5 Pro — โมเดลที่ดีที่สุด 3 ตัวในเวลานั้น เปิดให้ผู้ใช้ส่วนใหญ่ใช้งานได้ฟรี
- OpenAI เปิดให้ GPT-4o ใช้งานฟรีในเดือนพฤษภาคม 2024
- Claude 3.5 Sonnet ก็ใช้งานฟรีได้ทันทีตั้งแต่เปิดตัวในเดือนมิถุนายน
- ก่อนหน้านั้นผู้ใช้ฟรีมักเข้าถึงได้เพียงโมเดลระดับ GPT-3.5 เป็นหลัก แต่ช่วงเวลานี้เปิดโอกาสให้ได้สัมผัสความสามารถที่แท้จริงของ LLM ประสิทธิภาพสูง
การสิ้นสุดของการเข้าถึงฟรี:
- OpenAI เปิดตัว ChatGPT Pro ทำให้การเข้าถึงฟรีสิ้นสุดลง
- ChatGPT Pro คิดค่าสมัครสมาชิก $200 ต่อเดือน และเปิดให้เข้าถึง o1 Pro ซึ่งเป็นโมเดลที่ทรงพลังที่สุด
มุมมองในอนาคต:
- จุดเด่นสำคัญของซีรีส์ o1 คือใช้ทรัพยากรการคำนวณมากขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีกว่า
- ด้วยโครงสร้างต้นทุนแบบนี้ ยุคของการเข้าถึงโมเดลที่ดีที่สุดได้ฟรีจึงมีโอกาสน้อยที่จะกลับมาอีก

# "เอเจนต์" แนวคิดที่ยังไม่กลายเป็นจริงเสียที

ความกำกวมของคำนี้:
- คำว่า "เอเจนต์" ยังขาดนิยามเดียวที่ชัดเจน และแต่ละคนก็ใช้ไม่เหมือนกัน
- โดยทั่วไปแบ่งได้เป็นสองหมวด:
  - เอเจนต์แบบโมเดลตัวแทนท่องเที่ยวที่ทำงานแทนผู้ใช้
  - เอเจนต์ที่อิงกับ LLM ซึ่งเข้าถึงเครื่องมือ ทำงานซ้ำ ๆ และแก้ปัญหาได้
- คำว่า "autonomy" ก็ถูกใช้บ่อยเช่นกัน แต่ยิ่งเพิ่มความสับสนเพราะไม่มีนิยามที่ชัดเจน
ข้อจำกัดเชิงแนวคิด:
- "เอเจนต์" ยังคงเป็นเพียงแนวคิดแบบ "กำลังจะมาในเร็ว ๆ นี้"
- มีการรวบรวมคำนิยามไว้ 211 แบบ (สำรวจจาก Twitter) และให้โมเดล Gemini-exp-1206 ช่วยสรุป แต่ก็ยังไม่เกิดฉันทามติที่ชัดเจน
ความกังขาต่อประโยชน์ใช้งานจริง:
- ประโยชน์ใช้สอยของเอเจนต์ถูกจำกัดด้วยปัญหาที่มาจากแนวโน้ม "เชื่อง่ายเกินไป (gullibility)" ของ LLM
- หากแยกไม่ออกว่าอะไรจริงหรือเท็จ เครื่องมืออย่างตัวแทนท่องเที่ยว ผู้ช่วยดิจิทัล หรือเครื่องมือวิจัย ก็ยากจะตัดสินใจอย่างมีความหมายได้
- ตัวอย่าง: กรณีที่ Google Search สรุปผิดเกี่ยวกับภาพยนตร์ที่ไม่มีอยู่จริงชื่อ "Encanto 2" โดยอ้างอิงจากวิกิแฟนฟิกชันสมมุติ
การโจมตีแบบ prompt injection:
- เป็นปัญหาที่สืบเนื่องจากความเชื่อง่ายนี้ โดยมีการพูดถึงมาตั้งแต่เดือนกันยายน 2022 แต่จนถึงปี 2024 ก็ยังไม่มีความคืบหน้าสำคัญ
บทสรุป:
- แนวคิดเอเจนต์ในความหมายที่ได้รับความนิยม ดูเหมือนจะพึ่งพา AGI (ปัญญาประดิษฐ์ทั่วไป) โดยพฤตินัย
- การพัฒนาโมเดลที่มีความน่าเชื่อถือยังคงเป็นโจทย์ที่ยากอย่างยิ่ง

# ความสำคัญของ Evals

การประเมินกลายเป็นทักษะหลัก:
- ในปี 2024 การเขียนการประเมินอัตโนมัติที่ดี (Evals) สำหรับระบบที่อิงกับ LLM ได้กลายเป็นทักษะที่สำคัญที่สุด
- หากมีเครื่องมือประเมินที่แข็งแกร่ง ก็จะสามารถนำโมเดลใหม่มาใช้ได้อย่างรวดเร็ว ทำงานแบบวนซ้ำได้ดีขึ้น และพัฒนาฟีเจอร์ที่เชื่อถือได้
แนวทางของ Anthropic:
- Amanda Askell: เคล็ดลับของ system prompt ที่ดีคือการพัฒนาแบบอิงการทดสอบ
  - "ไม่ใช่การเขียน system prompt แล้วค่อยหาการทดสอบ แต่เป็นการเขียนการทดสอบก่อน แล้วค่อยหา system prompt ที่ทำให้ผ่านการทดสอบเหล่านั้น"
- แนวทางนี้มีบทบาทสำคัญในการพัฒนา Claude
กรณีศึกษาของ Vercel:
- Malte Ubl: ในช่วงแรกใช้วิธี pre-processing และ post-processing ที่ซับซ้อนเพื่อปกป้อง prompt
  - แต่ภายหลังตระหนักได้ว่าความเรียบง่ายของ prompt รวมถึงการประเมิน โมเดล และ UX สำคัญกว่า จึงเปลี่ยนทิศทาง
  - "prompt ที่ไม่มีการประเมิน ก็เหมือนเครื่องจักรที่พังและไม่มีคู่มือ"
การสำรวจส่วนตัว:
- กำลังศึกษาหารูปแบบที่ดีที่สุดสำหรับการทำการประเมินที่มีประสิทธิภาพ
- แม้ตอนนี้จะมีการเน้นย้ำว่าการประเมินสำคัญ แต่ยังขาดคู่มือที่ยอดเยี่ยมว่าควรลงมือทำอย่างไรอย่างเป็นรูปธรรม
- โดยส่วนตัวเคยใช้ benchmark "นกกระทุง SVG ขี่จักรยาน" แต่สิ่งนี้ไม่ใช่ตัวแทนของเครื่องมือประเมินที่เหมาะสม

# Apple Intelligence น่าผิดหวัง แต่ไลบรารี MLX ยอดเยี่ยม

ประสบการณ์ใช้งาน ML บน Mac ที่ดีขึ้น:
- Mac ที่มี RAM 64GB สามารถให้ CPU และ GPU ใช้หน่วยความจำร่วมกันได้ จึงเหมาะกับการรันโมเดลในทางทฤษฎี
- แต่ผู้ใช้ Mac มีข้อจำกัดมานาน เพราะโมเดลและไลบรารีต่าง ๆ ให้ความสำคัญกับ NVIDIA CUDA ก่อน
นวัตกรรมของไลบรารี MLX:
- MLX ของ Apple (array framework สำหรับ Apple Silicon) ทำให้สามารถรันโมเดลที่รองรับ MLX ได้หลากหลายบน Mac ด้วยประสิทธิภาพที่ยอดเยี่ยม
- mlx-lm ของ Python: รองรับโมเดลที่เข้ากันได้กับ MLX และมีประสิทธิภาพดีมาก
- mlx-community ของ Hugging Face: มีโมเดลมากกว่า 1,000 รายการที่แปลงเป็นฟอร์แมตที่ต้องใช้ไว้ให้แล้ว
- โปรเจกต์ mlx-vlm ของ Prince Canuma: ทำให้สามารถรัน vision LLM บน Apple Silicon ได้
  - เมื่อไม่นานมานี้ถูกใช้เพื่อรัน QvQ ของ Qwen
ความน่าผิดหวังของ Apple Intelligence:
- ตอนเปิดตัวในเดือนมิถุนายน 2024 ได้รับความคาดหวังเพราะมุ่งเน้นการประยุกต์ใช้ LLM ที่ให้ความสำคัญกับความเป็นส่วนตัวของผู้ใช้
- แต่ฟีเจอร์ที่เปิดตัวจริงกลับเบาบาง และยังด้อยเมื่อเทียบกับความสามารถของ LLM ระดับแนวหน้า
  - ตัวอย่าง:
    - สรุปการแจ้งเตือนที่สรุปพาดหัวข่าวผิด
    - เครื่องมือช่วยเขียนที่ใช้งานจริงได้ไม่มาก
  - อย่างไรก็ตาม Genmoji ถูกมองว่าเป็นฟีเจอร์ที่สนุกอยู่บ้าง
มุมมองที่เปลี่ยนไปของผู้ใช้ Mac:
- ด้วยเครื่องมืออย่าง MLX ทำให้ความพึงพอใจต่อการเลือกใช้แพลตฟอร์ม Mac เพิ่มขึ้นอย่างมาก
- โดยเฉพาะสภาพแวดล้อมสำหรับรัน LLM บน Apple Silicon ที่ดีขึ้น

# การสเกลการอนุมานและการมาของโมเดล "Reasoning"

การมาของ LLM รูปแบบใหม่:
- ในไตรมาส 4 ของปี 2024 OpenAI เปิดตัวโมเดล o1 (o1-preview, o1-mini) เป็นครั้งแรกเมื่อวันที่ 12 กันยายน
- เป็นการต่อยอดเทคนิค chain-of-thought ที่ออกแบบให้โมเดลแก้ปัญหาโดย "คิด" ไปด้วยระหว่างทาง
ลักษณะเด่นของโมเดล o1:
- ใช้ "reasoning tokens" เพื่ออนุมานปัญหา โดยผู้ใช้ไม่สามารถเห็นกระบวนการนี้โดยตรง แต่ดูสรุปได้ใน UI ของ ChatGPT
- ไม่ได้เพิ่มประสิทธิภาพจากกำลังคำนวณในช่วงฝึกเท่านั้น แต่ยังปรับปรุงได้ด้วยการใช้การคำนวณมากขึ้นในช่วงอนุมาน
ความสามารถในการขยายของโมเดล:
- ใช้ทรัพยากรคำนวณเพิ่มเติมในช่วงอนุมานเพื่อจัดการปัญหาที่ยากขึ้น
- นี่เป็นอีกแนวทางใหม่ในการขยายสถาปัตยกรรมโมเดล LLM แบบเดิม
โมเดลรุ่นต่อ o3:
- เปิดตัวเมื่อวันที่ 20 ธันวาคม 2024 และทำผลงานได้โดดเด่นบน benchmark ARC-AGI
- อาจใช้ต้นทุนการคำนวณมากกว่า $1,000,000
- มีกำหนดเปิดตัวในเดือนมกราคม 2025 และคาดว่าการใช้งานจริงจะมีข้อจำกัดเพราะต้นทุนการคำนวณสูงมาก
การเปิดตัวโมเดลสำคัญอื่น ๆ:
- Google: เปิดตัว gemini-2.0-flash-thinking-exp เมื่อวันที่ 19 ธันวาคม
- Alibaba: ประกาศโมเดล QwQ (สัญญาอนุญาต Apache 2.0) เมื่อวันที่ 28 พฤศจิกายน และสามารถรันแบบโลคัลได้
  - ต่อมาในวันที่ 24 ธันวาคม เปิดตัวโมเดลอนุมานภาพ QvQ ซึ่งรันแบบโลคัลได้เช่นกัน
- DeepSeek: ให้บริการโมเดล DeepSeek-R1-Lite-Preview ผ่านอินเทอร์เฟซแชตเมื่อวันที่ 20 พฤศจิกายน
งานวิจัยที่เกี่ยวข้องและสิ่งที่คาดไว้:
- แม้ Anthropic และ Meta จะยังไม่ได้ประกาศโมเดลอย่างเป็นทางการ แต่มีความเป็นไปได้สูงว่ากำลังพัฒนาโมเดลสเกลการอนุมานในลักษณะคล้ายกันอยู่
- ในเดือนธันวาคม Meta เผยแพร่บทความวิจัยที่เกี่ยวข้องชื่อ "Training Large Language Models to Reason in a Continuous Latent Space"
- ข้อมูลเพิ่มเติม: แนะนำให้อ่าน Is AI progress slowing down? ของ Arvind Narayanan และ Sayash Kapoor

# ตอนนี้ LLM ที่ดีที่สุด ถูกฝึกในจีนด้วยเงินไม่ถึง 6 ล้านดอลลาร์หรือ?

ข่าวสำคัญ:
- ช่วงคริสต์มาสปี 2024 DeepSeek v3 ถูกเผยแพร่บน Hugging Face (โพสต์โดยไม่มีไฟล์ README และเพิ่มเอกสารกับบทความในวันถัดมา)
- เป็นโมเดลขนาดใหญ่ 685B พารามิเตอร์ ใหญ่กว่า Llama 3.1 405B ของ Meta มาก
- เป็นโมเดลขนาดใหญ่ที่สุดในบรรดาโมเดลที่เผยแพร่ภายใต้สัญญาอนุญาตแบบเปิด
ประสิทธิภาพ:
- มีประสิทธิภาพบน benchmark ใกล้เคียงกับ Claude 3.5 Sonnet
- อยู่อันดับ 7 บน Chatbot Arena ตามหลัง Gemini 2.0 และโมเดล 4o/o1 ของ OpenAI ทันที
- เป็นโมเดลภายใต้สัญญาอนุญาตแบบเปิดที่มีอันดับสูงสุด
ต้นทุนการฝึก:
- DeepSeek v3: ใช้เวลา GPU H800 จำนวน 2,788,000 ชั่วโมง คิดเป็นต้นทุนประมาณ $5,576,000
- Meta Llama 3.1 405B: ใช้เวลา GPU 30,840,000 ชั่วโมง มากกว่า DeepSeek v3 ถึง 11 เท่า แต่ได้คะแนน benchmark ต่ำกว่านิดหน่อย
ผลของมาตรการควบคุมการส่งออก GPU ไปจีน:
- มาตรการควบคุมการส่งออก GPU ของสหรัฐฯ ดูเหมือนจะกระตุ้นการเพิ่มประสิทธิภาพการฝึกอย่างมาก
- การฝึก DeepSeek v3 ที่คุ้มค่าด้านต้นทุนจึงถูกมองว่าเป็นผลลัพธ์ของการเพิ่มประสิทธิภาพเหล่านี้

# ผลกระทบต่อสิ่งแวดล้อมดีขึ้น

ประสิทธิภาพที่ดีขึ้นทำให้ใช้พลังงานลดลง:
- เมื่อประสิทธิภาพของโมเดลเพิ่มขึ้นอย่างมาก การใช้พลังงานและผลกระทบต่อสิ่งแวดล้อมจากการรัน prompt ก็ลดลงอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา
- OpenAI ลดต้นทุนต่อ prompt ลงได้ 100 เท่าเมื่อเทียบกับยุค GPT-3
- ผู้ให้บริการโมเดลต้นทุนต่ำอย่าง Google Gemini และ Amazon Nova ก็สามารถให้บริการ prompt ได้โดยไม่ขาดทุน
จากมุมมองของผู้ใช้รายบุคคล:
- การใช้พลังงานจากการรัน prompt ส่วนใหญ่นั้นแท้จริงแล้วอยู่ในระดับเล็กน้อย
- อาจส่งผลกระทบต่อสิ่งแวดล้อมน้อยกว่าการขับรถระยะสั้นหรือการดูวิดีโอ YouTube
ต้นทุนการฝึกลดลง:
- ต้นทุนการฝึก DeepSeek v3 ที่ต่ำกว่า $6,000,000 แสดงให้เห็นว่าต้นทุนการฝึกอาจยังลดลงต่อไปได้
- ทำให้สามารถฝึกได้อย่างมีประสิทธิภาพมากขึ้นด้วยทรัพยากรที่น้อยลง
เมื่อเทียบกับโมเดลที่ไร้ประสิทธิภาพ:
- ต้นทุนพลังงานในการฝึกโมเดลที่ใหญ่ที่สุดของ Llama 3 ใกล้เคียงกับต้นทุนพลังงานของเที่ยวบินพาณิชย์ที่ผู้โดยสารเต็มลำหลายเที่ยวระหว่างนิวยอร์กกับลอนดอน
- แต่เมื่อฝึกเสร็จแล้ว ผู้คนนับล้านสามารถใช้งานได้โดยไม่ต้องมีต้นทุนการฝึกเพิ่ม จึงมีประสิทธิภาพในระยะยาว

# ผลกระทบต่อสิ่งแวดล้อม แย่ลงอีก

การแข่งขันสร้างศูนย์ข้อมูลขนาดใหญ่:
- บริษัทหลักอย่าง Google, Meta, Microsoft และ Amazon กำลังลงทุนหลายพันล้านดอลลาร์เพื่อสร้างศูนย์ข้อมูลให้รองรับความต้องการของโมเดลในอนาคต
- การขยายโครงสร้างพื้นฐานเช่นนี้ส่งผลกระทบอย่างมากต่อโครงข่ายไฟฟ้าและสิ่งแวดล้อม
- แม้จะมีการพูดคุยเรื่องการสร้างโรงไฟฟ้านิวเคลียร์แห่งใหม่ แต่สิ่งนี้อาจใช้เวลาหลายสิบปี
ข้อถกเถียงเรื่องความจำเป็นของโครงสร้างพื้นฐาน:
- ค่าใช้จ่ายในการฝึก DeepSeek v3 ที่ 6 ล้านดอลลาร์ และราคาของ LLM ที่ลดลง บ่งชี้ว่าการขยายตัวเช่นนี้อาจไม่จำเป็นเสมอไป
- อย่างไรก็ตาม แทบไม่มีผู้บริหารคนใดพร้อมจะรับความเสี่ยงจากการ "ไม่สร้างโครงสร้างพื้นฐาน แล้วภายหลังกลายเป็นการตัดสินใจที่ผิดพลาด"
ความคล้ายคลึงทางประวัติศาสตร์:
- สามารถเปรียบเทียบได้กับช่วงศตวรรษที่ 19 ที่มีการสร้างเครือข่ายรถไฟทั่วโลก
- ต้องใช้เงินลงทุนมหาศาลและสร้างผลกระทบต่อสิ่งแวดล้อม โดยมีหลายเส้นทางที่ซ้ำซ้อนจนกลายเป็นสิ่งไม่จำเป็น
- ท้ายที่สุดยังนำไปสู่วิกฤตการเงินหลายครั้ง:
  - วิกฤตปี 1873, วิกฤตปี 1893, วิกฤตปี 1901 และ Railway Mania ของสหราชอาณาจักร
- แม้โครงสร้างพื้นฐานจะยังคงอยู่ แต่ก็มาพร้อมการล้มละลายครั้งใหญ่และความเสียหายต่อสิ่งแวดล้อม
บทเรียนสำหรับปัจจุบัน:
- การแข่งขันด้านศูนย์ข้อมูลอาจทิ้งโครงสร้างพื้นฐานที่มีประโยชน์ไว้ได้ แต่ก็มีความเสี่ยงที่จะนำไปสู่การขยายตัวเกินความจำเป็นและความเสียหายต่อสิ่งแวดล้อม

# ปี 2024, ปีแห่ง "Slop"

ความหมายของ "Slop":
- กลายเป็นคำที่ใช้เรียก คอนเทนต์ที่ AI สร้างขึ้นโดยไม่มีใครต้องการและไม่ได้ผ่านการตรวจทาน
- เช่นเดียวกับที่ "สแปม" กลายเป็นคำหมายถึงอีเมลที่ไม่พึงประสงค์ "slop" ก็ถูกใช้อย่างแพร่หลายจนถึงขั้นมีโอกาสถูกบรรจุในพจนานุกรม
ที่มาของคำนี้:
- เริ่มจากบทสนทนาในทวีตของ @deepfates:
  - "กำลังได้เห็นคำว่า 'slop' กลายเป็นคำศัพท์หนึ่งแบบเรียลไทม์"
- ในเดือนพฤษภาคม 2024 แนวคิดนี้ถูกขยายความเป็น "คอนเทนต์ที่ AI สร้างขึ้นโดยไม่มีการร้องขอและไม่ได้ผ่านการตรวจทาน"
ปฏิกิริยาจากสื่อ:
- มีการอ้างคำสัมภาษณ์เกี่ยวกับ "slop" ใน NY Times และ Guardian:
  - "เราต้องการคำที่ใช้พูดถึง AI สมัยใหม่ได้อย่างกระชับ 'ไม่ต้องสนใจอีเมลนั้น มันเป็นสแปม' กับ 'ไม่ต้องสนใจบทความนั้น มันเป็น slop' ต่างก็เป็นบทเรียนที่มีประโยชน์"
ความสำคัญของ slop:
- มีประโยชน์ในการอธิบายอย่างกระชับถึงวิธีใช้ generative AI อย่างผิดทาง
- ช่วยให้ AI ถูกใช้อย่างมีประสิทธิภาพและมีความรับผิดชอบมากขึ้น
อิทธิพลทางวัฒนธรรมในปี 2024:
- "Slop" ได้รับการเสนอชื่อเข้าชิงคำแห่งปีของ Oxford แต่ไม่ได้รับเลือก โดยแพ้ให้กับ "brain rot"

# ผลลัพธ์อันน่าทึ่งของข้อมูลฝึกแบบสังเคราะห์

แนวคิดเรื่อง "model collapse":
- ถูกกล่าวถึงครั้งแรกในงานวิจัยเดือนพฤษภาคม 2023 ชื่อ The Curse of Recursion และได้รับความสนใจมากขึ้นใน Nature เดือนกรกฎาคม 2024
- ข้ออ้างคือ หากคอนเทนต์ที่ AI สร้างท่วมอินเทอร์เน็ต โมเดลจะเรียนรู้จากผลลัพธ์ของตัวเองซ้ำไปซ้ำมาและประสิทธิภาพจะลดลง
- ความเป็นจริง: การล่มสลายแบบนั้นไม่ได้เกิดขึ้น ตรงกันข้าม การฝึกโมเดลด้วยข้อมูลสังเคราะห์กลับกลายเป็นเรื่องที่พบได้มากขึ้นเรื่อย ๆ
ข้อดีของข้อมูลสังเคราะห์:
- อธิบายไว้ใน Phi-4 Technical Report:
  - ข้อมูลสังเคราะห์ไม่ใช่แค่ตัวแทนของข้อมูลแบบ organic แต่ให้ประโยชน์โดยตรงดังนี้:
    - การเรียนรู้ที่มีโครงสร้างและเป็นลำดับขั้น:
      - ข้อมูล organic มีความสัมพันธ์ระหว่างโทเค็นที่ซับซ้อนและอ้อมมาก ทำให้เรียนรู้ได้ยาก
      - ในทางกลับกัน ข้อมูลสังเคราะห์ถูกสร้างขึ้นโดย language model จากโทเค็นก่อนหน้า จึงทำให้เรียนรู้รูปแบบการให้เหตุผลได้ง่ายกว่า
    - กระบวนการเรียนรู้มีความเป็นระบบและคาดการณ์ได้มากกว่า
ตัวอย่างที่โมเดลใหญ่ช่วยโมเดลเล็ก:
- โมเดลขนาดใหญ่สร้างข้อมูลสังเคราะห์ให้โมเดลขนาดเล็กกว่า:
  - DeepSeek v3: ใช้ข้อมูล "reasoning" ที่สร้างโดย DeepSeek-R1
  - Meta Llama 3.3 70B: fine-tune ด้วยตัวอย่างสังเคราะห์มากกว่า 25 ล้านรายการ
ความสำคัญของการออกแบบข้อมูล:
- การออกแบบข้อมูลกลายเป็นปัจจัยที่สำคัญที่สุดในการฝึก LLM
- วิธีการแบบเดิมที่กวาดข้อมูลทั้งอินเทอร์เน็ตมาฝึกอย่างไม่เลือกนั้นไม่ได้ใช้อีกต่อไปแล้ว

# ปี 2024 ที่การใช้ LLM ยากขึ้นกว่าเดิม

LLM เป็นเครื่องมือที่ซับซ้อน:
- ภายนอกดูเรียบง่าย แต่ความจริงเป็น "เครื่องมือสำหรับ power user" ที่ต้องอาศัยความเข้าใจลึกและประสบการณ์
- อธิบายได้ด้วยอุปมาว่า "เป็นเครื่องมือซับซ้อนอย่างเลื่อยยนต์ที่ปลอมตัวให้ดูเหมือนมีดทำครัว"
ปัญหาที่รุนแรงขึ้นในปี 2024:
- โมเดลมีความสามารถมากขึ้น แต่ก็ยังคงมีข้อจำกัดและเพดานแบบเดิม
- มีระบบหลากหลายถูกนำมาใช้ โดยแต่ละระบบรองรับเครื่องมือต่างกัน เช่น Python, JavaScript, การค้นหาเว็บ, การสร้างภาพ เป็นต้น
- ผู้ใช้ต้องเข้าใจทั้งศักยภาพและข้อจำกัดของแต่ละเครื่องมือจึงจะใช้งานได้อย่างมีประสิทธิภาพ
ความซับซ้อนที่เพิ่มขึ้นระหว่างระบบต่าง ๆ:
- ตัวอย่างเช่น ใน ChatGPT สามารถรัน Python ได้สองวิธี
- หากต้องการสร้าง Claude Artifact ที่สื่อสารกับ external API ก็จำเป็นต้องเข้าใจ HTTP header ของ CSP และ CORS
- o1 ของ OpenAI ทำงานด้วยความสามารถที่จำกัด ขณะที่ GPT-4o รองรับการค้นหาเว็บและ code interpreter
  - ผู้ใช้ต้องเข้าใจความแตกต่างด้านความสามารถของทั้งสองโมเดลภายใน UI เดียวกันของ ChatGPT
ข้อจำกัดของประสบการณ์ผู้ใช้:
- UI แชตพื้นฐานของ LLM ให้ประสบการณ์เหมือนโยนมือใหม่ลงไปใน Linux terminal
- ผู้ใช้จำนวนมากพัฒนา mental model ที่ผิดเกี่ยวกับวิธีทำงานและความสามารถของ LLM
  - ตัวอย่างเช่น มีกรณีไร้เหตุผลเพิ่มขึ้นที่ใช้ภาพหน้าจอของ ChatGPT เป็นหลักฐานในการโต้เถียง
ปัญหาสองด้าน:
- การใช้งานผิดทาง: ผู้ใช้มองว่า LLM เป็นเครื่องมือสารพัดประโยชน์ ทั้งที่มันยังไม่สมบูรณ์
- การหลีกเลี่ยง: แม้แต่คนที่เข้าใจดีก็ยังเลิกใช้ LLM ไปเลยเพราะข้อบกพร่องของมัน
- การจะใช้ LLM ได้อย่างมีประสิทธิภาพ จำเป็นต้องมีความสามารถในการทำงานร่วมกับเทคโนโลยีที่ทั้งทรงพลังและไม่สมบูรณ์แบบ
ความจำเป็นของคอนเทนต์เพื่อการศึกษา:
- การให้ความรู้ผู้ใช้เป็นเรื่องสำคัญ แต่ตอนนี้ยังมีไม่เพียงพอ
- แทนที่จะพึ่งพา Twitter thread ที่พูดเกินจริงเกี่ยวกับ AI จำเป็นต้องพัฒนาสื่อการเรียนรู้ที่น่าเชื่อถือมากกว่าเดิม

# การกระจายตัวของความรู้อย่างไม่สมดุล

สิ่งที่คนรู้และไม่รู้:
- คนส่วนใหญ่รู้จัก ChatGPT แต่มีน้อยมากที่เคยได้ยินชื่อ Claude
- ช่องว่างความรู้ระหว่างคนที่ติดตามวงการนี้อย่างจริงจังกับคนอีก 99% ที่เหลือนั้นกว้างมาก
ความเร็วของการเปลี่ยนแปลง:
- ความเร็วของการเปลี่ยนแปลงทางเทคโนโลยียิ่งทำให้ช่องว่างความรู้รุนแรงขึ้น
- ในช่วงเดือนที่ผ่านมา มีการเปิดตัวอินเทอร์เฟซแบบไลฟ์:
  - สามารถชี้กล้องมือถือไปที่สิ่งใดสิ่งหนึ่งและสนทนาด้วยเสียงได้
  - ยังสามารถเลือกฟีเจอร์ให้มันแสดงบทบาทเป็นซานตาคลอสได้ด้วย
- แม้แต่คนที่เรียกตัวเองว่าหลงใหลเทคโนโลยีก็ยังมีจำนวนมากที่ไม่เคยลองฟีเจอร์เหล่านี้
ผลกระทบทางสังคมและความจำเป็น:
- เมื่อพิจารณาถึงผลกระทบที่เทคโนโลยีนี้จะมีต่อสังคมทั้งในปัจจุบันและอนาคต ขนาดของช่องว่างความรู้นี้ไม่ใช่เรื่องที่ดีต่อระบบนิเวศโดยรวม
- จำเป็นต้องมีความพยายามมากกว่านี้เพื่อแก้ไขปัญหา

# เราต้องการคำวิจารณ์ LLM ที่ดีกว่านี้

ความรู้สึกต่อต้านเทคโนโลยี:
- ในบางคอมมูนิตี้อย่าง Mastodon, Bluesky, Lobste.rs และ Hacker News แค่แสดงความเห็นว่า “LLM มีประโยชน์” ก็อาจกลายเป็นประเด็นถกเถียงได้แล้ว
- เหตุผลที่ผู้คนมีความรู้สึกต่อต้านเทคโนโลยี:
  - ผลกระทบต่อสิ่งแวดล้อม
  - ปัญหาด้านจริยธรรมของข้อมูลฝึกสอน
  - ความน่าเชื่อถือที่ยังไม่เพียงพอ
  - กรณีการนำไปใช้ในทางลบ
  - ผลกระทบที่อาจเกิดขึ้นต่ออาชีพการงาน
ความจำเป็นของการวิพากษ์วิจารณ์:
- LLM สมควรถูกวิพากษ์วิจารณ์ และสิ่งสำคัญคือการพูดคุยถึงปัญหา ค้นหาทางแก้ไข และให้ความรู้เกี่ยวกับวิธีใช้งานอย่างรับผิดชอบ
- เป้าหมายคือช่วยให้การใช้งานในทางบวกมีมากกว่าผลกระทบด้านลบ
คุณค่าของมุมมองแบบตั้งข้อสงสัย:
- กระแส hype ที่มากเกินไปทำให้ปัญหาเลวร้ายลงตลอด 2 ปีที่ผ่านมา:
  - ข้อมูลเท็จและความคาดหวังเกินจริงแพร่หลาย
  - มีการตัดสินใจที่ผิดพลาดเกิดขึ้นบ่อยครั้ง
- การคิดเชิงวิพากษ์เป็นสิ่งจำเป็นต่อการทำความเข้าใจและใช้งานเทคโนโลยีนี้อย่างถูกต้อง
การสนทนากับผู้มีอำนาจตัดสินใจ:
- ควรยอมรับตัวอย่างการใช้งานเครื่องมือที่ดี พร้อมทั้งอธิบายวิธีหลีกเลี่ยงกับดักที่ไม่ชัดเจน
- การอ้างว่าไม่มีกรณีใช้งานที่ดีเลย เป็นการมองข้ามคุณค่าที่เป็นไปได้ของเทคโนโลยีนี้
การสื่อสารข้อความที่ถูกต้อง:
- คำวิจารณ์แบบตัดทอนอย่าง “เครื่องจักรลอกเลียนที่ทำลายสิ่งแวดล้อมและโกหกตลอดเวลา” ไม่ได้ช่วยแก้ปัญหา
- การค้นหาและทำให้คุณค่าที่แท้จริงของ LLM เกิดขึ้นจริง ต้องอาศัยคำแนะนำและการให้ความรู้ที่ไม่ตรงไปตรงมาตามสัญชาตญาณ
บทบาทอย่างมีความรับผิดชอบ:
- คนที่เข้าใจเทคโนโลยีนี้มีหน้าที่รับผิดชอบในการช่วยให้ผู้อื่นสามารถใช้งานมันได้อย่างถูกต้อง

1 ความคิดเห็น

GN⁺ 2025-01-01

ความคิดเห็นจาก Hacker News

หลายคนมีแนวโน้มจะคิดว่า LLMs ไร้ประโยชน์หลังจากได้ใช้ ChatGPT 4 แต่ Claude Sonnet 3.5 ก็ยังอาจมีประโยชน์อยู่
- ประโยชน์ของ LLMs ขึ้นอยู่กับความสามารถในการสื่อสารของผู้ใช้อย่างมาก
- สามารถดึงประสิทธิภาพของ LLMs ออกมาได้สูงสุดด้วยการตั้งคำถามให้แม่นยำและอธิบายบริบทให้ชัดเจน
- มีประโยชน์สำหรับการจัดการงานน่าเบื่อได้อย่างรวดเร็ว
คำว่า "agent" ไม่มีความหมายที่ชัดเจน จึงทำให้เกิดความสับสน
- คำฮิตอย่าง "Agentic" อาจทำให้รู้สึกขัดใจได้
มีความกังวลเกี่ยวกับการที่ราคา LLM ลดลง
- ฟรีเทียร์ของ Gemini ยังน่าสนใจอยู่ แต่เชื่อถือได้ยาก
- กังวลว่าราคาอาจกลับมาสูงขึ้นอีกครั้งในช่วงครึ่งแรกของปี 2025
แนวคิดเรื่อง "agent" ยังไม่ได้ถูกนิยามไว้อย่างชัดเจน
- มองว่า "agent" ที่แท้จริงควรต้องมีความเป็นอิสระในการทำงาน
ไม่เห็นด้วยกับข้ออ้างที่ว่าการใช้ LLMs ยากขึ้น
- แม้จะมีตัวเลือกมากขึ้น แต่ไม่ได้แปลว่าตัวการใช้งานยากขึ้น
- สำหรับผู้เริ่มต้นก็ยังมีคำแนะนำแบบเดิมให้อยู่
การตัดสินว่าอะไรคือสิ่งที่ "ดี" กลายเป็นเรื่องยากขึ้น
- มีการปั่นแต่ง benchmark มากขึ้นจนทำให้สับสน
- มีความตั้งใจจะสร้าง framework สำหรับทดสอบด้วยตัวเอง
มีคนที่เลิกใช้ LLMs เพราะข้อบกพร่องของมัน
- หากต้องการใช้ LLMs ให้คุ้มค่าที่สุด ต้องเรียนรู้วิธีทำงานร่วมกับเทคโนโลยีที่ทั้งไม่เสถียรแต่ทรงพลัง
โมเดล GPT-4 บางตัวสามารถรันบนโน้ตบุ๊กได้ด้วย
- นั่นหมายความว่าไม่จำเป็นต้องใช้ดาต้าเซ็นเตอร์ขนาดใหญ่เสมอไป
- มูลค่าของ OpenAI อาจถูกประเมินสูงเกินจริง
ไม่เข้าใจว่าการใช้ 64GB DRAM ของ Apple มีความพิเศษอย่างไร
- แม้ดาต้าเซ็นเตอร์จะกินกำลังการผลิต RAM ไปเกือบทั้งหมด ก็ยังสงสัยว่า Apple จัดหา DRAM ได้อย่างไร
มีความสับสนเกี่ยวกับโครงสร้างต้นทุนของ Google Gemini และ Amazon Nova
- มีทั้งคำกล่าวอ้างว่าตั้งราคาต่ำกว่าต้นทุนพลังงาน และคำกล่าวอ้างว่าไม่ใช่เช่นนั้น
มีความเห็นว่า LLMs ไม่ได้มีประโยชน์กับงานในชีวิตประจำวัน
- อ้างว่าโมเดล LLM รุ่นใหม่ก็เป็นเพียงการปรับปรุงที่ถูกโฆษณาเกินจริง
ได้ตระหนักว่ามาตรฐานด้านจริยธรรมและความเป็นเลิศของอุตสาหกรรมนี้อยู่ในระดับต่ำ
มีคำถามเกี่ยวกับสภาพปัจจุบันที่ผลัก "การให้เหตุผล" เข้าไปอยู่ใน latent/neural space
- การที่โมเดลคุยกับตัวเองนั้นเกี่ยวข้องกับผลลัพธ์สุดท้ายน้อยมาก จึงไม่มีประสิทธิภาพ

สิ่งที่ได้เรียนรู้เกี่ยวกับ LLMs ในปี 2024

# ก้าวข้ามข้อจำกัดของ GPT-4 ไปอย่างสิ้นเชิง

# โมเดลบางตัวระดับ GPT-4 รันได้บนโน้ตบุ๊กของผม

# ราคา LLM ร่วงหนัก การเปลี่ยนแปลงที่เกิดจากการแข่งขันและประสิทธิภาพ

# การแพร่หลายของวิสัยทัศน์แบบ Multimodal พร้อมการมาถึงใหม่ของเสียงและวิดีโอ

# โหมดเสียงและโหมดกล้องสด เมื่อไซไฟกลายเป็นความจริง

# การสร้างแอปด้วยพรอมป์ เทคโนโลยีที่กลายเป็นเรื่องปกติไปแล้ว

# การเข้าถึงโมเดลที่ดีที่สุดได้ฟรี ช่วงเวลาสั้น ๆ ที่จบลงในไม่กี่เดือน

# "เอเจนต์" แนวคิดที่ยังไม่กลายเป็นจริงเสียที

# ความสำคัญของ Evals

# Apple Intelligence น่าผิดหวัง แต่ไลบรารี MLX ยอดเยี่ยม

# การสเกลการอนุมานและการมาของโมเดล "Reasoning"

# ตอนนี้ LLM ที่ดีที่สุด ถูกฝึกในจีนด้วยเงินไม่ถึง 6 ล้านดอลลาร์หรือ?

# ผลกระทบต่อสิ่งแวดล้อมดีขึ้น

# ผลกระทบต่อสิ่งแวดล้อม แย่ลงอีก

# ปี 2024, ปีแห่ง "Slop"

# ผลลัพธ์อันน่าทึ่งของข้อมูลฝึกแบบสังเคราะห์

# ปี 2024 ที่การใช้ LLM ยากขึ้นกว่าเดิม

# การกระจายตัวของความรู้อย่างไม่สมดุล

# เราต้องการคำวิจารณ์ LLM ที่ดีกว่านี้

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News