22 คะแนน โดย GN⁺ 2025-01-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

สรุปภาพรวมการเปลี่ยนแปลงทั้งหมดเกี่ยวกับ LLM ในปี 2024 ของ Simon Willison

  • ก้าวข้ามข้อจำกัดของ GPT-4 ไปอย่างสิ้นเชิง
  • โมเดลบางตัวระดับ GPT-4 รันได้บนโน้ตบุ๊กของผม
  • ราคา LLM ร่วงหนัก การเปลี่ยนแปลงที่เกิดจากการแข่งขันและประสิทธิภาพ
  • การแพร่หลายของวิสัยทัศน์แบบ Multimodal พร้อมการมาถึงใหม่ของเสียงและวิดีโอ
  • โหมดเสียงและกล้องสด ไซไฟที่กลายเป็นความจริง
  • การสร้างแอปด้วยพรอมป์ต เทคโนโลยีที่กลายเป็นเรื่องปกติไปแล้ว
  • การเข้าถึงโมเดลที่ดีที่สุดได้ฟรี สิ้นสุดลงในเวลาไม่กี่เดือน
  • “Agent” แนวคิดที่ยังไม่เกิดขึ้นจริง
  • ความสำคัญของการประเมินผล (Evals)
  • Apple Intelligence น่าผิดหวัง แต่ไลบรารี MLX ยอดเยี่ยม
  • การขยายสเกลการให้เหตุผล และการมาของโมเดล “Reasoning”
  • LLM ที่ดีที่สุดในตอนนี้ ฝึกในจีนด้วยงบต่ำกว่า 6 ล้านดอลลาร์จริงหรือ?
  • ผลกระทบต่อสิ่งแวดล้อมดีขึ้น
  • ผลกระทบต่อสิ่งแวดล้อมแย่ลงกว่าเดิม
  • ปี 2024 ปีแห่ง “Slop”
  • ผลลัพธ์ที่น่าทึ่งของข้อมูลฝึกแบบสังเคราะห์
  • ปี 2024 ที่การใช้ LLM ยากขึ้น
  • การกระจายตัวของความรู้ที่ไม่สมดุล
  • เราต้องการคำวิจารณ์ LLM ที่ดีกว่านี้

# ก้าวข้ามข้อจำกัดของ GPT-4 ไปอย่างสิ้นเชิง

  • สถานการณ์ในปี 2023: GPT-4 ได้รับการประเมินว่าเป็นโมเดลภาษาที่ดีที่สุด และห้องแล็บ AI อื่นยังไม่สามารถแซงได้ ความลับทางเทคนิคของ OpenAI ได้รับความสนใจอย่างมาก
  • ความเปลี่ยนแปลงในปี 2024: มีการเปิดตัวโมเดลจาก 18 องค์กรที่เหนือกว่า GPT-4 ปัจจุบันบนกระดานผู้นำ Chatbot Arena มีโมเดล 70 ตัวที่ทำได้ดีกว่า GPT-4-0314 (เปิดตัวเมื่อมีนาคม 2023)
  • โมเดลหลักและความก้าวหน้าทางเทคนิค
    • Google Gemini 1.5 Pro: เปิดตัวกุมภาพันธ์ 2024
      • ให้เอาต์พุตระดับ GPT-4 พร้อมความสามารถใหม่
      • รองรับความยาวบริบทอินพุต 1 ล้านโทเค็น (ภายหลังเพิ่มเป็น 2 ล้าน)
      • เพิ่มความสามารถรับอินพุตแบบวิดีโอ
      • ใช้อินพุตยาวเพื่อแก้ปัญหาการเขียนโค้ดและวิเคราะห์หนังสือทั้งเล่มได้
      • ถูกนำเสนอเป็นประกาศสำคัญในคีย์โน้ต Google I/O 2024
    • ซีรีส์ Anthropic Claude 3:
      • Claude 3 Opus: เปิดตัวมีนาคม 2024 โดดเด่นจากประสิทธิภาพสูง
      • Claude 3.5 Sonnet: เปิดตัวในเดือนมิถุนายน และมีเวอร์ชันอัปเกรดประกาศเมื่อ 22 ตุลาคม
      • แม้อัปเกรดแล้วก็ยังคงหมายเลขเวอร์ชัน 3.5 จนแฟน ๆ เรียกว่า Claude 3.6
  • การขยายความยาวบริบท
    • ปี 2023: โมเดลส่วนใหญ่รองรับ 4,096~8,192 โทเค็น โดย Claude 2.1 เป็นข้อยกเว้นที่ 200,000 โทเค็น
    • ปี 2024: โมเดลหลักรองรับมากกว่า 100,000 โทเค็น และซีรีส์ Google Gemini รองรับได้สูงสุด 2 ล้านโทเค็น
    • สามารถประมวลผลข้อมูลอินพุตขนาดยาวเพื่อแก้ปัญหาได้หลากหลาย
    • เหมาะกับการวิเคราะห์หนังสือทั้งเล่มหรือแก้ปัญหาจากโค้ดตัวอย่าง
  • โมเดลและองค์กรที่แซง GPT-4
    • ตามกระดานผู้นำ Chatbot Arena องค์กรที่มีโมเดลทำผลงานสูงกว่า GPT-4-0314 ได้แก่:
      • Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI และอีก 18 องค์กร
    • บนกระดานผู้นำ GPT-4-0314 ปัจจุบันอยู่ราวอันดับที่ 70

# โมเดลบางตัวระดับ GPT-4 รันได้บนโน้ตบุ๊กของผม

  • อุปกรณ์ที่ใช้: M2 MacBook Pro แรม 64GB ที่ออกในปี 2023 เป็นเครื่องอายุราว 2 ปี และเป็นแล็ปท็อปเครื่องเดียวกับที่เคยรัน LLM ครั้งแรกในมีนาคม 2023
  • การเปลี่ยนแปลงด้านประสิทธิภาพ: ช่วงแรกแทบจะรันได้แค่โมเดลระดับ GPT-3 แต่ตอนนี้รันโมเดลระดับ GPT-4 ได้แล้ว
    • Qwen2.5-Coder-32B: โมเดลเฉพาะทางด้านโค้ดที่มีไลเซนส์ Apache 2.0 ในเดือนพฤศจิกายน 2024
    • Meta Llama 3.3 70B: โมเดลระดับ GPT-4 ที่เปิดตัวในเดือนธันวาคม 2024
  • ความสำคัญ: น่าทึ่งที่โมเดลระดับ GPT-4 สามารถรันได้บนแล็ปท็อป ไม่ใช่เฉพาะบนเซิร์ฟเวอร์ดาต้าเซ็นเตอร์ที่ติดตั้ง GPU ราคาเกิน $40,000
    • เพราะใช้ RAM 64GB แทบทั้งหมด จึงทำงานอื่นควบคู่ได้ยาก
    • สิ่งนี้เป็นไปได้เพราะประสิทธิภาพของโมเดลดีขึ้น และน่าจะเป็นผลจากการปรับแต่งตลอด 1 ปีที่ผ่านมา
    • ยังน่าจะมีช่องให้ปรับปรุงประสิทธิภาพได้อีกมาก
  • โมเดล Meta Llama 3.2: ยังไม่ถึงระดับ GPT-4 แต่โมเดลขนาด 1B และ 3B ให้ประสิทธิภาพโดดเด่นแม้ขนาดเล็ก
    • Llama 3.2 3B: รันได้ผ่านแอป MLC Chat iOS แบบฟรี
    • มีขนาดต่ำกว่า 2GB รันบน iPhone ได้ และสร้างได้ 20 โทเค็นต่อวินาที
    • ตัวอย่าง: เมื่อขอ “พล็อตหนังคริสต์มาสของ Netflix ที่นักข่าวข้อมูลตกหลุมรักช่างปั้นเครื่องปั้นดินเผาท้องถิ่น” ก็สร้างคำตอบพื้นฐานแต่เหมาะสม
      • ชื่อเรื่อง: “Love in the Clay”
      • เรื่องย่อ: เรื่องราวดำเนินไปเมื่อ Jessica กลับสู่บ้านเกิด Willow Creek และสืบสวนประวัติศาสตร์ท้องถิ่นรวมถึงผลกระทบของ gentrification
    • ผลลัพธ์อาจธรรมดา แต่ก็น่าสนใจที่ทำสิ่งนี้ได้บน iPhone

# ราคา LLM ร่วงหนัก การเปลี่ยนแปลงที่เกิดจากการแข่งขันและประสิทธิภาพ

  • ราคาช่วงปลายปี 2023: ราคาของโมเดลหลักจาก OpenAI ในตอนนั้นเป็นดังนี้
    • GPT-4: $30/million input tokens
    • GPT-4 Turbo: $10/mTok
    • GPT-3.5 Turbo: $1/mTok
  • การเปลี่ยนแปลงราคาในปี 2024:
    • OpenAI o1: $30/mTok เป็นโมเดลที่แพงที่สุด
    • GPT-4o: $2.50/mTok (ถูกกว่า GPT-4 ถึง 12 เท่า)
    • GPT-4o Mini: $0.15/mTok (ถูกกว่า GPT-3.5 ราว 7 เท่าแต่ประสิทธิภาพดีกว่า)
    • Anthropic Claude 3 Haiku: $0.25/mTok (เปิดตัวในเดือนมีนาคม เป็นโมเดลที่ถูกที่สุดของ Anthropic)
    • Google Gemini 1.5 Flash: $0.075/mTok
    • Google Gemini 1.5 Flash 8B: $0.0375/mTok (ถูกกว่า GPT-3.5 Turbo ถึง 27 เท่า)
  • ปัจจัยที่ทำให้ราคาลดลง:
    • การแข่งขันที่เพิ่มขึ้น: ผู้ให้บริการโมเดลจำนวนมากเข้าสู่ตลาด ทำให้การแข่งขันด้านราคารุนแรงขึ้น
    • ประสิทธิภาพที่ดีขึ้น: การปรับแต่งกระบวนการฝึกและอนุมานของโมเดลทำให้ใช้พลังงานลดลง
      • ความกังวลเรื่องต้นทุนพลังงานในการรันพรอมป์ตแต่ละครั้งลดลง
  • ประสิทธิภาพและต้นทุนด้านสิ่งแวดล้อม:
    • ประสิทธิภาพพลังงานที่เพิ่มขึ้นช่วยลดความกังวลด้านสิ่งแวดล้อม
    • แต่ผลกระทบด้านสิ่งแวดล้อมจากการสร้างดาต้าเซ็นเตอร์ยังคงเป็นปัญหา
  • การคำนวณต้นทุนการใช้งานจริง:
    • คำนวณค่าใช้จ่ายในการสร้างคำอธิบายสำหรับคลังภาพส่วนตัว 68,000 รูป ด้วย Google Gemini 1.5 Flash 8B
      • ต่อภาพต้องใช้ 260 input tokens และ 100 output tokens
      • รวม 17,680,000 input tokens * $0.0375/million = $0.66
      • รวม 6,800,000 output tokens * $0.15/million = $1.02
      • รวมทั้งหมด: สามารถประมวลผลภาพ 68,000 รูปได้ในราคา $1.68
  • ตัวอย่างคำอธิบาย:
    • ภาพ: ผีเสื้อสองตัวกำลังกินอาหารบนถาดสีแดงที่ California Academy of Sciences
    • คำอธิบายที่สร้างขึ้น:
      • ภาพผีเสื้อสองตัวกำลังกินผลไม้อยู่บนถาดสีแดง
      • บรรยายสีและลวดลายของผีเสื้ออย่างละเอียด
    • ต้นทุน: ประมาณ 0.0024 เซนต์ น้อยกว่า 1/400 ของเซนต์
  • หนึ่งในการเปลี่ยนแปลงใหญ่ที่สุดของปี 2024:
    • การลดลงของราคาและต้นทุนพลังงานกำลังทำให้ความมีประโยชน์ของ LLM สูงขึ้นอย่างมาก

# การแพร่หลายของวิสัยทัศน์แบบ Multimodal พร้อมการมาถึงใหม่ของเสียงและวิดีโอ

  • เทรนด์สำคัญของปี 2024: มัลติโหมด LLM (รองรับอินพุตได้หลากหลาย นอกเหนือจากข้อความ เช่น ภาพ เสียง และวิดีโอ) กลายเป็นเรื่องปกติ
    • กรณีตัวอย่างในปี 2023:
      • OpenAI GPT-4 Vision: เปิดตัวในงาน DevDay เดือนพฤศจิกายน 2023
      • Google Gemini 1.0: ประกาศเมื่อวันที่ 7 ธันวาคม 2023
    • การเปิดตัวสำคัญในปี 2024:
      • Anthropic Claude 3 series: เปิดตัวในเดือนมีนาคม
      • Google Gemini 1.5 Pro: เปิดตัวในเดือนเมษายน (รองรับการประมวลผลภาพ เสียง และวิดีโอ)
      • Qwen2-VL: เปิดตัวในเดือนกันยายน
      • Mistral Pixtral 12B: เปิดตัวในเดือนกันยายน
      • Meta Llama 3.2: เปิดตัวในเดือนกันยายน (โมเดลวิชัน 11B และ 90B)
      • ความสามารถรับเข้าและส่งออกเสียงของ OpenAI: เพิ่มเข้ามาในเดือนตุลาคม
      • Hugging Face SmolVLM: เปิดตัวในเดือนพฤศจิกายน
      • Amazon Nova โมเดลภาพและวิดีโอ: เปิดตัวในเดือนธันวาคม
  • เครื่องมือและการรองรับมัลติโหมด:
    • ในเดือนตุลาคม 2024 ได้อัปเกรดเครื่องมือ LLM CLI ที่ใช้งานส่วนตัวให้รองรับโมเดลมัลติโหมด
    • เพิ่มปลั๊กอินที่สามารถจัดการไฟล์แนบอย่างภาพ เสียง และวิดีโอได้
  • ความสำคัญของโมเดลมัลติโหมด:
    • คำวิจารณ์ที่ว่า LLM พัฒนาได้ช้าลง ดูเหมือนจะมองข้ามความก้าวหน้าของโมเดลมัลติโหมด
    • การรันพรอมป์ด้วยภาพ เสียง และวิดีโอ เป็นพัฒนาการที่น่าตื่นเต้นซึ่งเปิดโอกาสการใช้งานแบบใหม่

# โหมดเสียงและโหมดกล้องสด เมื่อไซไฟกลายเป็นความจริง

  • การมาถึงของโหมดเสียงยุคแรก:
    • เดือนกันยายน 2023 แอปมือถือ ChatGPT เพิ่มฟีเจอร์สนทนาด้วยเสียง
    • ใช้โมเดล Whisper (Speech-to-Text) และ tts-1 (Text-to-Speech) แต่ตัวโมเดลเองประมวลผลได้เฉพาะข้อความเท่านั้น
  • โหมดเสียงของ GPT-4o:
    • ในโหมดเสียงใหม่ที่ประกาศเมื่อ 13 พฤษภาคม 2024 โมเดล GPT-4o เป็นมัลติโหมดอย่างแท้จริง โดยรองรับอินพุตเสียงและเอาต์พุตเสียงที่เป็นธรรมชาติ
    • ในเดโมมีการใช้เสียงที่คล้าย Scarlett Johansson แต่หลังเกิดข้อถกเถียง เสียงดังกล่าวไม่ได้ถูกรวมอยู่ในผลิตภัณฑ์เชิงพาณิชย์
    • มีความสับสนจากการเลื่อนเปิดตัวโหมดเสียง แต่ในช่วงเดือนสิงหาคมถึงกันยายนก็ทยอยเปิดให้ใช้ในชื่อ ChatGPT Advanced Voice mode
      • ประสบการณ์ใช้งาน: การพูดคุยกับโหมดเสียงระหว่างเดินเล่นช่วยยกระดับคุณภาพของคอนเทนต์ได้อย่างมาก
      • จากการทดลองด้วย OpenAI Audio API พบความสามารถด้านเสียงที่หลากหลาย
  • ลักษณะเด่นของโหมดเสียง:
    • Advanced Voice mode สามารถถ่ายทอดสำเนียงได้หลากหลาย
    • ตัวอย่าง: ขอให้สนทนาเป็นภาษาสเปนด้วยสำเนียงรัสเซียหนาแบบนก California brown pelican
  • โมเดลเสียงมัลติโหมดจากบริษัทอื่น:
    • Google Gemini: รองรับอินพุตเสียง และสามารถสนทนาด้วยเสียงได้คล้าย ChatGPT
    • Amazon Nova: ประกาศล่วงหน้าเกี่ยวกับโหมดเสียง (มีกำหนดเปิดตัวใน Q1 2025)
    • Google NotebookLM (เปิดตัวเดือนกันยายน 2024): สร้างบทสนทนาระหว่าง "ผู้ดำเนินพอดแคสต์" สองคนจากเนื้อหาที่ป้อนเข้าไป และรองรับคำสั่งแบบกำหนดเอง
  • การมาถึงของโหมดวิดีโอสด:
    • เดือนธันวาคม 2024 ในโหมดเสียงของ ChatGPT มีการเพิ่มความสามารถแชร์ฟีดจากกล้อง
    • สามารถพูดคุยเกี่ยวกับฟีดจากกล้องได้แบบเรียลไทม์
    • Google Gemini ก็ปล่อยฟีเจอร์คล้ายกันในรูปแบบพรีวิวช่วงเวลาเดียวกัน
  • การเข้าถึงผ่าน API:
    • ทั้ง OpenAI และ Google ต่างก็มี API สำหรับความสามารถเหล่านี้
    • ในเดือนธันวาคม OpenAI ประกาศ WebRTC API เพื่อทำให้การพัฒนาเว็บแอปที่ใช้เสียงเป็นหลักง่ายขึ้น

# การสร้างแอปด้วยพรอมป์ เทคโนโลยีที่กลายเป็นเรื่องปกติไปแล้ว

  • ศักยภาพของ GPT-4 ในปี 2023:
    • สามารถใช้ GPT-4 สร้างแอปแบบอินเทอร์แอ็กทีฟที่สมบูรณ์ด้วย HTML, CSS และ JavaScript
    • ยังสามารถผสานเครื่องมืออย่าง React ผ่านกลไกการบิลด์เพิ่มเติมได้ด้วย
  • การมาของ Claude Artifacts ในปี 2024:
    • ฟีเจอร์ใหม่ที่เปิดตัวในช่วงกลางของการประกาศ Anthropic Claude 3.5 Sonnet
    • ผู้ใช้สามารถสร้างแอปตามต้องการที่รันได้ทันทีภายในอินเทอร์เฟซของ Claude
    • ตัวอย่าง: เครื่องมือดึง URL ที่สร้างผ่าน Claude
      • เพียงใส่ URL ก็จะแสดงลิสต์ที่ดึงออกมาได้ทันที
    • มีการแชร์ประสบการณ์ว่าสร้างเครื่องมือเล็ก ๆ ได้ 14 ชิ้นในหนึ่งสัปดาห์ด้วย Claude Artifacts
  • คู่แข่งเพิ่มฟีเจอร์ลักษณะเดียวกัน:
    • GitHub Spark: ประกาศในเดือนตุลาคม 2024
    • Mistral Chat Canvas: เพิ่มเข้ามาในเดือนพฤศจิกายน 2024
    • Steve Krause จาก Val Town: ใช้โมเดลของ Cerebras เพื่อทำการแก้ไขแอปแบบเรียลไทม์ที่ความเร็วประมวลผล 2,000 โทเค็นต่อวินาที
    • ทีม Chatbot Arena: เปิดตัวลีดเดอร์บอร์ดใหม่ในเดือนธันวาคม โดยให้สองโมเดลสร้างแอปเดียวกันแล้วโหวตเลือก
  • โปรเจกต์ของตัวเอง:
    • กำลังพัฒนาในโปรเจกต์ Datasette ให้สามารถใช้พรอมป์สร้างวิดเจ็ตแบบกำหนดเองและการแสดงผลข้อมูล รวมถึงทำซ้ำงานได้
    • ใช้ uv เพื่อทำแพตเทิร์นคล้ายกันสำหรับการเขียนโปรแกรม Python เดี่ยว
  • แนวโน้มในปี 2025:
    • เมื่อปัญหา browser sandboxing ได้รับการแก้ไข ฟีเจอร์นี้มีแนวโน้มสูงที่จะกลายเป็นค่าพื้นฐานในผลิตภัณฑ์หลากหลายประเภท

# การเข้าถึงโมเดลที่ดีที่สุดได้ฟรี ช่วงเวลาสั้น ๆ ที่จบลงในไม่กี่เดือน

  • การเปิดให้ใช้ฟรีในช่วงต้นปี 2024:
    • GPT-4o, Claude 3.5 Sonnet และ Gemini 1.5 Pro — โมเดลที่ดีที่สุด 3 ตัวในเวลานั้น เปิดให้ผู้ใช้ส่วนใหญ่ใช้งานได้ฟรี
    • OpenAI เปิดให้ GPT-4o ใช้งานฟรีในเดือนพฤษภาคม 2024
    • Claude 3.5 Sonnet ก็ใช้งานฟรีได้ทันทีตั้งแต่เปิดตัวในเดือนมิถุนายน
    • ก่อนหน้านั้นผู้ใช้ฟรีมักเข้าถึงได้เพียงโมเดลระดับ GPT-3.5 เป็นหลัก แต่ช่วงเวลานี้เปิดโอกาสให้ได้สัมผัสความสามารถที่แท้จริงของ LLM ประสิทธิภาพสูง
  • การสิ้นสุดของการเข้าถึงฟรี:
    • OpenAI เปิดตัว ChatGPT Pro ทำให้การเข้าถึงฟรีสิ้นสุดลง
    • ChatGPT Pro คิดค่าสมัครสมาชิก $200 ต่อเดือน และเปิดให้เข้าถึง o1 Pro ซึ่งเป็นโมเดลที่ทรงพลังที่สุด
  • มุมมองในอนาคต:
    • จุดเด่นสำคัญของซีรีส์ o1 คือใช้ทรัพยากรการคำนวณมากขึ้นเพื่อให้ได้ผลลัพธ์ที่ดีกว่า
    • ด้วยโครงสร้างต้นทุนแบบนี้ ยุคของการเข้าถึงโมเดลที่ดีที่สุดได้ฟรีจึงมีโอกาสน้อยที่จะกลับมาอีก

# "เอเจนต์" แนวคิดที่ยังไม่กลายเป็นจริงเสียที

  • ความกำกวมของคำนี้:
    • คำว่า "เอเจนต์" ยังขาดนิยามเดียวที่ชัดเจน และแต่ละคนก็ใช้ไม่เหมือนกัน
    • โดยทั่วไปแบ่งได้เป็นสองหมวด:
      • เอเจนต์แบบโมเดลตัวแทนท่องเที่ยวที่ทำงานแทนผู้ใช้
      • เอเจนต์ที่อิงกับ LLM ซึ่งเข้าถึงเครื่องมือ ทำงานซ้ำ ๆ และแก้ปัญหาได้
    • คำว่า "autonomy" ก็ถูกใช้บ่อยเช่นกัน แต่ยิ่งเพิ่มความสับสนเพราะไม่มีนิยามที่ชัดเจน
  • ข้อจำกัดเชิงแนวคิด:
    • "เอเจนต์" ยังคงเป็นเพียงแนวคิดแบบ "กำลังจะมาในเร็ว ๆ นี้"
    • มีการรวบรวมคำนิยามไว้ 211 แบบ (สำรวจจาก Twitter) และให้โมเดล Gemini-exp-1206 ช่วยสรุป แต่ก็ยังไม่เกิดฉันทามติที่ชัดเจน
  • ความกังขาต่อประโยชน์ใช้งานจริง:
    • ประโยชน์ใช้สอยของเอเจนต์ถูกจำกัดด้วยปัญหาที่มาจากแนวโน้ม "เชื่อง่ายเกินไป (gullibility)" ของ LLM
    • หากแยกไม่ออกว่าอะไรจริงหรือเท็จ เครื่องมืออย่างตัวแทนท่องเที่ยว ผู้ช่วยดิจิทัล หรือเครื่องมือวิจัย ก็ยากจะตัดสินใจอย่างมีความหมายได้
    • ตัวอย่าง: กรณีที่ Google Search สรุปผิดเกี่ยวกับภาพยนตร์ที่ไม่มีอยู่จริงชื่อ "Encanto 2" โดยอ้างอิงจากวิกิแฟนฟิกชันสมมุติ
  • การโจมตีแบบ prompt injection:
    • เป็นปัญหาที่สืบเนื่องจากความเชื่อง่ายนี้ โดยมีการพูดถึงมาตั้งแต่เดือนกันยายน 2022 แต่จนถึงปี 2024 ก็ยังไม่มีความคืบหน้าสำคัญ
  • บทสรุป:
    • แนวคิดเอเจนต์ในความหมายที่ได้รับความนิยม ดูเหมือนจะพึ่งพา AGI (ปัญญาประดิษฐ์ทั่วไป) โดยพฤตินัย
    • การพัฒนาโมเดลที่มีความน่าเชื่อถือยังคงเป็นโจทย์ที่ยากอย่างยิ่ง

# ความสำคัญของ Evals

  • การประเมินกลายเป็นทักษะหลัก:
    • ในปี 2024 การเขียนการประเมินอัตโนมัติที่ดี (Evals) สำหรับระบบที่อิงกับ LLM ได้กลายเป็นทักษะที่สำคัญที่สุด
    • หากมีเครื่องมือประเมินที่แข็งแกร่ง ก็จะสามารถนำโมเดลใหม่มาใช้ได้อย่างรวดเร็ว ทำงานแบบวนซ้ำได้ดีขึ้น และพัฒนาฟีเจอร์ที่เชื่อถือได้
  • แนวทางของ Anthropic:
    • Amanda Askell: เคล็ดลับของ system prompt ที่ดีคือการพัฒนาแบบอิงการทดสอบ
      • "ไม่ใช่การเขียน system prompt แล้วค่อยหาการทดสอบ แต่เป็นการเขียนการทดสอบก่อน แล้วค่อยหา system prompt ที่ทำให้ผ่านการทดสอบเหล่านั้น"
    • แนวทางนี้มีบทบาทสำคัญในการพัฒนา Claude
  • กรณีศึกษาของ Vercel:
    • Malte Ubl: ในช่วงแรกใช้วิธี pre-processing และ post-processing ที่ซับซ้อนเพื่อปกป้อง prompt
      • แต่ภายหลังตระหนักได้ว่าความเรียบง่ายของ prompt รวมถึงการประเมิน โมเดล และ UX สำคัญกว่า จึงเปลี่ยนทิศทาง
      • "prompt ที่ไม่มีการประเมิน ก็เหมือนเครื่องจักรที่พังและไม่มีคู่มือ"
  • การสำรวจส่วนตัว:
    • กำลังศึกษาหารูปแบบที่ดีที่สุดสำหรับการทำการประเมินที่มีประสิทธิภาพ
    • แม้ตอนนี้จะมีการเน้นย้ำว่าการประเมินสำคัญ แต่ยังขาดคู่มือที่ยอดเยี่ยมว่าควรลงมือทำอย่างไรอย่างเป็นรูปธรรม
    • โดยส่วนตัวเคยใช้ benchmark "นกกระทุง SVG ขี่จักรยาน" แต่สิ่งนี้ไม่ใช่ตัวแทนของเครื่องมือประเมินที่เหมาะสม

# Apple Intelligence น่าผิดหวัง แต่ไลบรารี MLX ยอดเยี่ยม

  • ประสบการณ์ใช้งาน ML บน Mac ที่ดีขึ้น:
    • Mac ที่มี RAM 64GB สามารถให้ CPU และ GPU ใช้หน่วยความจำร่วมกันได้ จึงเหมาะกับการรันโมเดลในทางทฤษฎี
    • แต่ผู้ใช้ Mac มีข้อจำกัดมานาน เพราะโมเดลและไลบรารีต่าง ๆ ให้ความสำคัญกับ NVIDIA CUDA ก่อน
  • นวัตกรรมของไลบรารี MLX:
    • MLX ของ Apple (array framework สำหรับ Apple Silicon) ทำให้สามารถรันโมเดลที่รองรับ MLX ได้หลากหลายบน Mac ด้วยประสิทธิภาพที่ยอดเยี่ยม
    • mlx-lm ของ Python: รองรับโมเดลที่เข้ากันได้กับ MLX และมีประสิทธิภาพดีมาก
    • mlx-community ของ Hugging Face: มีโมเดลมากกว่า 1,000 รายการที่แปลงเป็นฟอร์แมตที่ต้องใช้ไว้ให้แล้ว
    • โปรเจกต์ mlx-vlm ของ Prince Canuma: ทำให้สามารถรัน vision LLM บน Apple Silicon ได้
      • เมื่อไม่นานมานี้ถูกใช้เพื่อรัน QvQ ของ Qwen
  • ความน่าผิดหวังของ Apple Intelligence:
    • ตอนเปิดตัวในเดือนมิถุนายน 2024 ได้รับความคาดหวังเพราะมุ่งเน้นการประยุกต์ใช้ LLM ที่ให้ความสำคัญกับความเป็นส่วนตัวของผู้ใช้
    • แต่ฟีเจอร์ที่เปิดตัวจริงกลับเบาบาง และยังด้อยเมื่อเทียบกับความสามารถของ LLM ระดับแนวหน้า
      • ตัวอย่าง:
        • สรุปการแจ้งเตือนที่สรุปพาดหัวข่าวผิด
        • เครื่องมือช่วยเขียนที่ใช้งานจริงได้ไม่มาก
      • อย่างไรก็ตาม Genmoji ถูกมองว่าเป็นฟีเจอร์ที่สนุกอยู่บ้าง
  • มุมมองที่เปลี่ยนไปของผู้ใช้ Mac:
    • ด้วยเครื่องมืออย่าง MLX ทำให้ความพึงพอใจต่อการเลือกใช้แพลตฟอร์ม Mac เพิ่มขึ้นอย่างมาก
    • โดยเฉพาะสภาพแวดล้อมสำหรับรัน LLM บน Apple Silicon ที่ดีขึ้น

# การสเกลการอนุมานและการมาของโมเดล "Reasoning"

  • การมาของ LLM รูปแบบใหม่:
    • ในไตรมาส 4 ของปี 2024 OpenAI เปิดตัวโมเดล o1 (o1-preview, o1-mini) เป็นครั้งแรกเมื่อวันที่ 12 กันยายน
    • เป็นการต่อยอดเทคนิค chain-of-thought ที่ออกแบบให้โมเดลแก้ปัญหาโดย "คิด" ไปด้วยระหว่างทาง
  • ลักษณะเด่นของโมเดล o1:
    • ใช้ "reasoning tokens" เพื่ออนุมานปัญหา โดยผู้ใช้ไม่สามารถเห็นกระบวนการนี้โดยตรง แต่ดูสรุปได้ใน UI ของ ChatGPT
    • ไม่ได้เพิ่มประสิทธิภาพจากกำลังคำนวณในช่วงฝึกเท่านั้น แต่ยังปรับปรุงได้ด้วยการใช้การคำนวณมากขึ้นในช่วงอนุมาน
  • ความสามารถในการขยายของโมเดล:
    • ใช้ทรัพยากรคำนวณเพิ่มเติมในช่วงอนุมานเพื่อจัดการปัญหาที่ยากขึ้น
    • นี่เป็นอีกแนวทางใหม่ในการขยายสถาปัตยกรรมโมเดล LLM แบบเดิม
  • โมเดลรุ่นต่อ o3:
    • เปิดตัวเมื่อวันที่ 20 ธันวาคม 2024 และทำผลงานได้โดดเด่นบน benchmark ARC-AGI
    • อาจใช้ต้นทุนการคำนวณมากกว่า $1,000,000
    • มีกำหนดเปิดตัวในเดือนมกราคม 2025 และคาดว่าการใช้งานจริงจะมีข้อจำกัดเพราะต้นทุนการคำนวณสูงมาก
  • การเปิดตัวโมเดลสำคัญอื่น ๆ:
    • Google: เปิดตัว gemini-2.0-flash-thinking-exp เมื่อวันที่ 19 ธันวาคม
    • Alibaba: ประกาศโมเดล QwQ (สัญญาอนุญาต Apache 2.0) เมื่อวันที่ 28 พฤศจิกายน และสามารถรันแบบโลคัลได้
      • ต่อมาในวันที่ 24 ธันวาคม เปิดตัวโมเดลอนุมานภาพ QvQ ซึ่งรันแบบโลคัลได้เช่นกัน
    • DeepSeek: ให้บริการโมเดล DeepSeek-R1-Lite-Preview ผ่านอินเทอร์เฟซแชตเมื่อวันที่ 20 พฤศจิกายน
  • งานวิจัยที่เกี่ยวข้องและสิ่งที่คาดไว้:
    • แม้ Anthropic และ Meta จะยังไม่ได้ประกาศโมเดลอย่างเป็นทางการ แต่มีความเป็นไปได้สูงว่ากำลังพัฒนาโมเดลสเกลการอนุมานในลักษณะคล้ายกันอยู่
    • ในเดือนธันวาคม Meta เผยแพร่บทความวิจัยที่เกี่ยวข้องชื่อ "Training Large Language Models to Reason in a Continuous Latent Space"
    • ข้อมูลเพิ่มเติม: แนะนำให้อ่าน Is AI progress slowing down? ของ Arvind Narayanan และ Sayash Kapoor

# ตอนนี้ LLM ที่ดีที่สุด ถูกฝึกในจีนด้วยเงินไม่ถึง 6 ล้านดอลลาร์หรือ?

  • ข่าวสำคัญ:
    • ช่วงคริสต์มาสปี 2024 DeepSeek v3 ถูกเผยแพร่บน Hugging Face (โพสต์โดยไม่มีไฟล์ README และเพิ่มเอกสารกับบทความในวันถัดมา)
    • เป็นโมเดลขนาดใหญ่ 685B พารามิเตอร์ ใหญ่กว่า Llama 3.1 405B ของ Meta มาก
    • เป็นโมเดลขนาดใหญ่ที่สุดในบรรดาโมเดลที่เผยแพร่ภายใต้สัญญาอนุญาตแบบเปิด
  • ประสิทธิภาพ:
    • มีประสิทธิภาพบน benchmark ใกล้เคียงกับ Claude 3.5 Sonnet
    • อยู่อันดับ 7 บน Chatbot Arena ตามหลัง Gemini 2.0 และโมเดล 4o/o1 ของ OpenAI ทันที
    • เป็นโมเดลภายใต้สัญญาอนุญาตแบบเปิดที่มีอันดับสูงสุด
  • ต้นทุนการฝึก:
    • DeepSeek v3: ใช้เวลา GPU H800 จำนวน 2,788,000 ชั่วโมง คิดเป็นต้นทุนประมาณ $5,576,000
    • Meta Llama 3.1 405B: ใช้เวลา GPU 30,840,000 ชั่วโมง มากกว่า DeepSeek v3 ถึง 11 เท่า แต่ได้คะแนน benchmark ต่ำกว่านิดหน่อย
  • ผลของมาตรการควบคุมการส่งออก GPU ไปจีน:
    • มาตรการควบคุมการส่งออก GPU ของสหรัฐฯ ดูเหมือนจะกระตุ้นการเพิ่มประสิทธิภาพการฝึกอย่างมาก
    • การฝึก DeepSeek v3 ที่คุ้มค่าด้านต้นทุนจึงถูกมองว่าเป็นผลลัพธ์ของการเพิ่มประสิทธิภาพเหล่านี้

# ผลกระทบต่อสิ่งแวดล้อมดีขึ้น

  • ประสิทธิภาพที่ดีขึ้นทำให้ใช้พลังงานลดลง:
    • เมื่อประสิทธิภาพของโมเดลเพิ่มขึ้นอย่างมาก การใช้พลังงานและผลกระทบต่อสิ่งแวดล้อมจากการรัน prompt ก็ลดลงอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา
    • OpenAI ลดต้นทุนต่อ prompt ลงได้ 100 เท่าเมื่อเทียบกับยุค GPT-3
    • ผู้ให้บริการโมเดลต้นทุนต่ำอย่าง Google Gemini และ Amazon Nova ก็สามารถให้บริการ prompt ได้โดยไม่ขาดทุน
  • จากมุมมองของผู้ใช้รายบุคคล:
    • การใช้พลังงานจากการรัน prompt ส่วนใหญ่นั้นแท้จริงแล้วอยู่ในระดับเล็กน้อย
    • อาจส่งผลกระทบต่อสิ่งแวดล้อมน้อยกว่าการขับรถระยะสั้นหรือการดูวิดีโอ YouTube
  • ต้นทุนการฝึกลดลง:
    • ต้นทุนการฝึก DeepSeek v3 ที่ต่ำกว่า $6,000,000 แสดงให้เห็นว่าต้นทุนการฝึกอาจยังลดลงต่อไปได้
    • ทำให้สามารถฝึกได้อย่างมีประสิทธิภาพมากขึ้นด้วยทรัพยากรที่น้อยลง
  • เมื่อเทียบกับโมเดลที่ไร้ประสิทธิภาพ:
    • ต้นทุนพลังงานในการฝึกโมเดลที่ใหญ่ที่สุดของ Llama 3 ใกล้เคียงกับต้นทุนพลังงานของเที่ยวบินพาณิชย์ที่ผู้โดยสารเต็มลำหลายเที่ยวระหว่างนิวยอร์กกับลอนดอน
    • แต่เมื่อฝึกเสร็จแล้ว ผู้คนนับล้านสามารถใช้งานได้โดยไม่ต้องมีต้นทุนการฝึกเพิ่ม จึงมีประสิทธิภาพในระยะยาว

# ผลกระทบต่อสิ่งแวดล้อม แย่ลงอีก

  • การแข่งขันสร้างศูนย์ข้อมูลขนาดใหญ่:
    • บริษัทหลักอย่าง Google, Meta, Microsoft และ Amazon กำลังลงทุนหลายพันล้านดอลลาร์เพื่อสร้างศูนย์ข้อมูลให้รองรับความต้องการของโมเดลในอนาคต
    • การขยายโครงสร้างพื้นฐานเช่นนี้ส่งผลกระทบอย่างมากต่อโครงข่ายไฟฟ้าและสิ่งแวดล้อม
    • แม้จะมีการพูดคุยเรื่องการสร้างโรงไฟฟ้านิวเคลียร์แห่งใหม่ แต่สิ่งนี้อาจใช้เวลาหลายสิบปี
  • ข้อถกเถียงเรื่องความจำเป็นของโครงสร้างพื้นฐาน:
    • ค่าใช้จ่ายในการฝึก DeepSeek v3 ที่ 6 ล้านดอลลาร์ และราคาของ LLM ที่ลดลง บ่งชี้ว่าการขยายตัวเช่นนี้อาจไม่จำเป็นเสมอไป
    • อย่างไรก็ตาม แทบไม่มีผู้บริหารคนใดพร้อมจะรับความเสี่ยงจากการ "ไม่สร้างโครงสร้างพื้นฐาน แล้วภายหลังกลายเป็นการตัดสินใจที่ผิดพลาด"
  • ความคล้ายคลึงทางประวัติศาสตร์:
    • สามารถเปรียบเทียบได้กับช่วงศตวรรษที่ 19 ที่มีการสร้างเครือข่ายรถไฟทั่วโลก
    • ต้องใช้เงินลงทุนมหาศาลและสร้างผลกระทบต่อสิ่งแวดล้อม โดยมีหลายเส้นทางที่ซ้ำซ้อนจนกลายเป็นสิ่งไม่จำเป็น
    • ท้ายที่สุดยังนำไปสู่วิกฤตการเงินหลายครั้ง:
      • วิกฤตปี 1873, วิกฤตปี 1893, วิกฤตปี 1901 และ Railway Mania ของสหราชอาณาจักร
    • แม้โครงสร้างพื้นฐานจะยังคงอยู่ แต่ก็มาพร้อมการล้มละลายครั้งใหญ่และความเสียหายต่อสิ่งแวดล้อม
  • บทเรียนสำหรับปัจจุบัน:
    • การแข่งขันด้านศูนย์ข้อมูลอาจทิ้งโครงสร้างพื้นฐานที่มีประโยชน์ไว้ได้ แต่ก็มีความเสี่ยงที่จะนำไปสู่การขยายตัวเกินความจำเป็นและความเสียหายต่อสิ่งแวดล้อม

# ปี 2024, ปีแห่ง "Slop"

  • ความหมายของ "Slop":
    • กลายเป็นคำที่ใช้เรียก คอนเทนต์ที่ AI สร้างขึ้นโดยไม่มีใครต้องการและไม่ได้ผ่านการตรวจทาน
    • เช่นเดียวกับที่ "สแปม" กลายเป็นคำหมายถึงอีเมลที่ไม่พึงประสงค์ "slop" ก็ถูกใช้อย่างแพร่หลายจนถึงขั้นมีโอกาสถูกบรรจุในพจนานุกรม
  • ที่มาของคำนี้:
    • เริ่มจากบทสนทนาในทวีตของ @deepfates:
      • "กำลังได้เห็นคำว่า 'slop' กลายเป็นคำศัพท์หนึ่งแบบเรียลไทม์"
    • ในเดือนพฤษภาคม 2024 แนวคิดนี้ถูกขยายความเป็น "คอนเทนต์ที่ AI สร้างขึ้นโดยไม่มีการร้องขอและไม่ได้ผ่านการตรวจทาน"
  • ปฏิกิริยาจากสื่อ:
    • มีการอ้างคำสัมภาษณ์เกี่ยวกับ "slop" ใน NY Times และ Guardian:
      • "เราต้องการคำที่ใช้พูดถึง AI สมัยใหม่ได้อย่างกระชับ 'ไม่ต้องสนใจอีเมลนั้น มันเป็นสแปม' กับ 'ไม่ต้องสนใจบทความนั้น มันเป็น slop' ต่างก็เป็นบทเรียนที่มีประโยชน์"
  • ความสำคัญของ slop:
    • มีประโยชน์ในการอธิบายอย่างกระชับถึงวิธีใช้ generative AI อย่างผิดทาง
    • ช่วยให้ AI ถูกใช้อย่างมีประสิทธิภาพและมีความรับผิดชอบมากขึ้น
  • อิทธิพลทางวัฒนธรรมในปี 2024:
    • "Slop" ได้รับการเสนอชื่อเข้าชิงคำแห่งปีของ Oxford แต่ไม่ได้รับเลือก โดยแพ้ให้กับ "brain rot"

# ผลลัพธ์อันน่าทึ่งของข้อมูลฝึกแบบสังเคราะห์

  • แนวคิดเรื่อง "model collapse":
    • ถูกกล่าวถึงครั้งแรกในงานวิจัยเดือนพฤษภาคม 2023 ชื่อ The Curse of Recursion และได้รับความสนใจมากขึ้นใน Nature เดือนกรกฎาคม 2024
    • ข้ออ้างคือ หากคอนเทนต์ที่ AI สร้างท่วมอินเทอร์เน็ต โมเดลจะเรียนรู้จากผลลัพธ์ของตัวเองซ้ำไปซ้ำมาและประสิทธิภาพจะลดลง
    • ความเป็นจริง: การล่มสลายแบบนั้นไม่ได้เกิดขึ้น ตรงกันข้าม การฝึกโมเดลด้วยข้อมูลสังเคราะห์กลับกลายเป็นเรื่องที่พบได้มากขึ้นเรื่อย ๆ
  • ข้อดีของข้อมูลสังเคราะห์:
    • อธิบายไว้ใน Phi-4 Technical Report:
      • ข้อมูลสังเคราะห์ไม่ใช่แค่ตัวแทนของข้อมูลแบบ organic แต่ให้ประโยชน์โดยตรงดังนี้:
        • การเรียนรู้ที่มีโครงสร้างและเป็นลำดับขั้น:
          • ข้อมูล organic มีความสัมพันธ์ระหว่างโทเค็นที่ซับซ้อนและอ้อมมาก ทำให้เรียนรู้ได้ยาก
          • ในทางกลับกัน ข้อมูลสังเคราะห์ถูกสร้างขึ้นโดย language model จากโทเค็นก่อนหน้า จึงทำให้เรียนรู้รูปแบบการให้เหตุผลได้ง่ายกว่า
        • กระบวนการเรียนรู้มีความเป็นระบบและคาดการณ์ได้มากกว่า
  • ตัวอย่างที่โมเดลใหญ่ช่วยโมเดลเล็ก:
    • โมเดลขนาดใหญ่สร้างข้อมูลสังเคราะห์ให้โมเดลขนาดเล็กกว่า:
      • DeepSeek v3: ใช้ข้อมูล "reasoning" ที่สร้างโดย DeepSeek-R1
      • Meta Llama 3.3 70B: fine-tune ด้วยตัวอย่างสังเคราะห์มากกว่า 25 ล้านรายการ
  • ความสำคัญของการออกแบบข้อมูล:
    • การออกแบบข้อมูลกลายเป็นปัจจัยที่สำคัญที่สุดในการฝึก LLM
    • วิธีการแบบเดิมที่กวาดข้อมูลทั้งอินเทอร์เน็ตมาฝึกอย่างไม่เลือกนั้นไม่ได้ใช้อีกต่อไปแล้ว

# ปี 2024 ที่การใช้ LLM ยากขึ้นกว่าเดิม

  • LLM เป็นเครื่องมือที่ซับซ้อน:
    • ภายนอกดูเรียบง่าย แต่ความจริงเป็น "เครื่องมือสำหรับ power user" ที่ต้องอาศัยความเข้าใจลึกและประสบการณ์
    • อธิบายได้ด้วยอุปมาว่า "เป็นเครื่องมือซับซ้อนอย่างเลื่อยยนต์ที่ปลอมตัวให้ดูเหมือนมีดทำครัว"
  • ปัญหาที่รุนแรงขึ้นในปี 2024:
    • โมเดลมีความสามารถมากขึ้น แต่ก็ยังคงมีข้อจำกัดและเพดานแบบเดิม
    • มีระบบหลากหลายถูกนำมาใช้ โดยแต่ละระบบรองรับเครื่องมือต่างกัน เช่น Python, JavaScript, การค้นหาเว็บ, การสร้างภาพ เป็นต้น
    • ผู้ใช้ต้องเข้าใจทั้งศักยภาพและข้อจำกัดของแต่ละเครื่องมือจึงจะใช้งานได้อย่างมีประสิทธิภาพ
  • ความซับซ้อนที่เพิ่มขึ้นระหว่างระบบต่าง ๆ:
    • ตัวอย่างเช่น ใน ChatGPT สามารถรัน Python ได้สองวิธี
    • หากต้องการสร้าง Claude Artifact ที่สื่อสารกับ external API ก็จำเป็นต้องเข้าใจ HTTP header ของ CSP และ CORS
    • o1 ของ OpenAI ทำงานด้วยความสามารถที่จำกัด ขณะที่ GPT-4o รองรับการค้นหาเว็บและ code interpreter
      • ผู้ใช้ต้องเข้าใจความแตกต่างด้านความสามารถของทั้งสองโมเดลภายใน UI เดียวกันของ ChatGPT
  • ข้อจำกัดของประสบการณ์ผู้ใช้:
    • UI แชตพื้นฐานของ LLM ให้ประสบการณ์เหมือนโยนมือใหม่ลงไปใน Linux terminal
    • ผู้ใช้จำนวนมากพัฒนา mental model ที่ผิดเกี่ยวกับวิธีทำงานและความสามารถของ LLM
      • ตัวอย่างเช่น มีกรณีไร้เหตุผลเพิ่มขึ้นที่ใช้ภาพหน้าจอของ ChatGPT เป็นหลักฐานในการโต้เถียง
  • ปัญหาสองด้าน:
    • การใช้งานผิดทาง: ผู้ใช้มองว่า LLM เป็นเครื่องมือสารพัดประโยชน์ ทั้งที่มันยังไม่สมบูรณ์
    • การหลีกเลี่ยง: แม้แต่คนที่เข้าใจดีก็ยังเลิกใช้ LLM ไปเลยเพราะข้อบกพร่องของมัน
    • การจะใช้ LLM ได้อย่างมีประสิทธิภาพ จำเป็นต้องมีความสามารถในการทำงานร่วมกับเทคโนโลยีที่ทั้งทรงพลังและไม่สมบูรณ์แบบ
  • ความจำเป็นของคอนเทนต์เพื่อการศึกษา:
    • การให้ความรู้ผู้ใช้เป็นเรื่องสำคัญ แต่ตอนนี้ยังมีไม่เพียงพอ
    • แทนที่จะพึ่งพา Twitter thread ที่พูดเกินจริงเกี่ยวกับ AI จำเป็นต้องพัฒนาสื่อการเรียนรู้ที่น่าเชื่อถือมากกว่าเดิม

# การกระจายตัวของความรู้อย่างไม่สมดุล

  • สิ่งที่คนรู้และไม่รู้:
    • คนส่วนใหญ่รู้จัก ChatGPT แต่มีน้อยมากที่เคยได้ยินชื่อ Claude
    • ช่องว่างความรู้ระหว่างคนที่ติดตามวงการนี้อย่างจริงจังกับคนอีก 99% ที่เหลือนั้นกว้างมาก
  • ความเร็วของการเปลี่ยนแปลง:
    • ความเร็วของการเปลี่ยนแปลงทางเทคโนโลยียิ่งทำให้ช่องว่างความรู้รุนแรงขึ้น
    • ในช่วงเดือนที่ผ่านมา มีการเปิดตัวอินเทอร์เฟซแบบไลฟ์:
      • สามารถชี้กล้องมือถือไปที่สิ่งใดสิ่งหนึ่งและสนทนาด้วยเสียงได้
      • ยังสามารถเลือกฟีเจอร์ให้มันแสดงบทบาทเป็นซานตาคลอสได้ด้วย
    • แม้แต่คนที่เรียกตัวเองว่าหลงใหลเทคโนโลยีก็ยังมีจำนวนมากที่ไม่เคยลองฟีเจอร์เหล่านี้
  • ผลกระทบทางสังคมและความจำเป็น:
    • เมื่อพิจารณาถึงผลกระทบที่เทคโนโลยีนี้จะมีต่อสังคมทั้งในปัจจุบันและอนาคต ขนาดของช่องว่างความรู้นี้ไม่ใช่เรื่องที่ดีต่อระบบนิเวศโดยรวม
    • จำเป็นต้องมีความพยายามมากกว่านี้เพื่อแก้ไขปัญหา

# เราต้องการคำวิจารณ์ LLM ที่ดีกว่านี้

  • ความรู้สึกต่อต้านเทคโนโลยี:
    • ในบางคอมมูนิตี้อย่าง Mastodon, Bluesky, Lobste.rs และ Hacker News แค่แสดงความเห็นว่า “LLM มีประโยชน์” ก็อาจกลายเป็นประเด็นถกเถียงได้แล้ว
    • เหตุผลที่ผู้คนมีความรู้สึกต่อต้านเทคโนโลยี:
      • ผลกระทบต่อสิ่งแวดล้อม
      • ปัญหาด้านจริยธรรมของข้อมูลฝึกสอน
      • ความน่าเชื่อถือที่ยังไม่เพียงพอ
      • กรณีการนำไปใช้ในทางลบ
      • ผลกระทบที่อาจเกิดขึ้นต่ออาชีพการงาน
  • ความจำเป็นของการวิพากษ์วิจารณ์:
    • LLM สมควรถูกวิพากษ์วิจารณ์ และสิ่งสำคัญคือการพูดคุยถึงปัญหา ค้นหาทางแก้ไข และให้ความรู้เกี่ยวกับวิธีใช้งานอย่างรับผิดชอบ
    • เป้าหมายคือช่วยให้การใช้งานในทางบวกมีมากกว่าผลกระทบด้านลบ
  • คุณค่าของมุมมองแบบตั้งข้อสงสัย:
    • กระแส hype ที่มากเกินไปทำให้ปัญหาเลวร้ายลงตลอด 2 ปีที่ผ่านมา:
      • ข้อมูลเท็จและความคาดหวังเกินจริงแพร่หลาย
      • มีการตัดสินใจที่ผิดพลาดเกิดขึ้นบ่อยครั้ง
    • การคิดเชิงวิพากษ์เป็นสิ่งจำเป็นต่อการทำความเข้าใจและใช้งานเทคโนโลยีนี้อย่างถูกต้อง
  • การสนทนากับผู้มีอำนาจตัดสินใจ:
    • ควรยอมรับตัวอย่างการใช้งานเครื่องมือที่ดี พร้อมทั้งอธิบายวิธีหลีกเลี่ยงกับดักที่ไม่ชัดเจน
    • การอ้างว่าไม่มีกรณีใช้งานที่ดีเลย เป็นการมองข้ามคุณค่าที่เป็นไปได้ของเทคโนโลยีนี้
  • การสื่อสารข้อความที่ถูกต้อง:
    • คำวิจารณ์แบบตัดทอนอย่าง “เครื่องจักรลอกเลียนที่ทำลายสิ่งแวดล้อมและโกหกตลอดเวลา” ไม่ได้ช่วยแก้ปัญหา
    • การค้นหาและทำให้คุณค่าที่แท้จริงของ LLM เกิดขึ้นจริง ต้องอาศัยคำแนะนำและการให้ความรู้ที่ไม่ตรงไปตรงมาตามสัญชาตญาณ
  • บทบาทอย่างมีความรับผิดชอบ:
    • คนที่เข้าใจเทคโนโลยีนี้มีหน้าที่รับผิดชอบในการช่วยให้ผู้อื่นสามารถใช้งานมันได้อย่างถูกต้อง

1 ความคิดเห็น

 
GN⁺ 2025-01-01
ความคิดเห็นจาก Hacker News
  • หลายคนมีแนวโน้มจะคิดว่า LLMs ไร้ประโยชน์หลังจากได้ใช้ ChatGPT 4 แต่ Claude Sonnet 3.5 ก็ยังอาจมีประโยชน์อยู่

    • ประโยชน์ของ LLMs ขึ้นอยู่กับความสามารถในการสื่อสารของผู้ใช้อย่างมาก
    • สามารถดึงประสิทธิภาพของ LLMs ออกมาได้สูงสุดด้วยการตั้งคำถามให้แม่นยำและอธิบายบริบทให้ชัดเจน
    • มีประโยชน์สำหรับการจัดการงานน่าเบื่อได้อย่างรวดเร็ว
  • คำว่า "agent" ไม่มีความหมายที่ชัดเจน จึงทำให้เกิดความสับสน

    • คำฮิตอย่าง "Agentic" อาจทำให้รู้สึกขัดใจได้
  • มีความกังวลเกี่ยวกับการที่ราคา LLM ลดลง

    • ฟรีเทียร์ของ Gemini ยังน่าสนใจอยู่ แต่เชื่อถือได้ยาก
    • กังวลว่าราคาอาจกลับมาสูงขึ้นอีกครั้งในช่วงครึ่งแรกของปี 2025
  • แนวคิดเรื่อง "agent" ยังไม่ได้ถูกนิยามไว้อย่างชัดเจน

    • มองว่า "agent" ที่แท้จริงควรต้องมีความเป็นอิสระในการทำงาน
  • ไม่เห็นด้วยกับข้ออ้างที่ว่าการใช้ LLMs ยากขึ้น

    • แม้จะมีตัวเลือกมากขึ้น แต่ไม่ได้แปลว่าตัวการใช้งานยากขึ้น
    • สำหรับผู้เริ่มต้นก็ยังมีคำแนะนำแบบเดิมให้อยู่
  • การตัดสินว่าอะไรคือสิ่งที่ "ดี" กลายเป็นเรื่องยากขึ้น

    • มีการปั่นแต่ง benchmark มากขึ้นจนทำให้สับสน
    • มีความตั้งใจจะสร้าง framework สำหรับทดสอบด้วยตัวเอง
  • มีคนที่เลิกใช้ LLMs เพราะข้อบกพร่องของมัน

    • หากต้องการใช้ LLMs ให้คุ้มค่าที่สุด ต้องเรียนรู้วิธีทำงานร่วมกับเทคโนโลยีที่ทั้งไม่เสถียรแต่ทรงพลัง
  • โมเดล GPT-4 บางตัวสามารถรันบนโน้ตบุ๊กได้ด้วย

    • นั่นหมายความว่าไม่จำเป็นต้องใช้ดาต้าเซ็นเตอร์ขนาดใหญ่เสมอไป
    • มูลค่าของ OpenAI อาจถูกประเมินสูงเกินจริง
  • ไม่เข้าใจว่าการใช้ 64GB DRAM ของ Apple มีความพิเศษอย่างไร

    • แม้ดาต้าเซ็นเตอร์จะกินกำลังการผลิต RAM ไปเกือบทั้งหมด ก็ยังสงสัยว่า Apple จัดหา DRAM ได้อย่างไร
  • มีความสับสนเกี่ยวกับโครงสร้างต้นทุนของ Google Gemini และ Amazon Nova

    • มีทั้งคำกล่าวอ้างว่าตั้งราคาต่ำกว่าต้นทุนพลังงาน และคำกล่าวอ้างว่าไม่ใช่เช่นนั้น
  • มีความเห็นว่า LLMs ไม่ได้มีประโยชน์กับงานในชีวิตประจำวัน

    • อ้างว่าโมเดล LLM รุ่นใหม่ก็เป็นเพียงการปรับปรุงที่ถูกโฆษณาเกินจริง
  • ได้ตระหนักว่ามาตรฐานด้านจริยธรรมและความเป็นเลิศของอุตสาหกรรมนี้อยู่ในระดับต่ำ

  • มีคำถามเกี่ยวกับสภาพปัจจุบันที่ผลัก "การให้เหตุผล" เข้าไปอยู่ใน latent/neural space

    • การที่โมเดลคุยกับตัวเองนั้นเกี่ยวข้องกับผลลัพธ์สุดท้ายน้อยมาก จึงไม่มีประสิทธิภาพ