46 คะแนน โดย spilist2 2025-03-04 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • สรุปพร้อมภาพแคปจาก How I use LLMs ซึ่งเป็นคลาสสอน AI สำหรับคนทั่วไปของ Andrej Karpathy ผู้ร่วมก่อตั้ง OpenAI ที่อัปโหลดเมื่อ 28/2
  • ทำขึ้นเพราะมีคุณค่ามากจากสื่อภาพประกอบหลากหลายและตัวอย่างการใช้งานจริงของ Karpathy จนการสรุปเป็นข้อความอย่างเดียวไม่สามารถถ่ายทอดอรรถรสของวิดีโอได้ครบ

มี LLM หลายประเภท

ChatGPT เป็นตัวที่มีชื่อเสียงที่สุดและมีความสามารถมากที่สุด นอกจากนี้ยังมีตัวดัง ๆ เหล่านี้

  • Gemini ของ Google
  • Meta AI ของ Meta
  • Copilot ของ MS
  • Claude ของ Anthropic
  • Grok ของ xAI
  • Perplexity
  • DeepSeek จากจีน
  • Le Chat ของ Mistral จากฝรั่งเศส

ChatGPT ทำงานอย่างไร

LLM คล้ายไฟล์ zip ที่บีบอัดแบบสูญเสียข้อมูลของเอกสารทั้งอินเทอร์เน็ตให้เหลือ 1TB ภายในนั้นมีโครงข่ายประสาทเทียมที่มีพารามิเตอร์ระดับล้านล้านตัว และมันจะปล่อย "ตัวอักษรถัดไป" ออกมาแบบอิงความน่าจะเป็น

ไฟล์บีบอัดนี้สร้างขึ้นด้วยการฝึกหลัก ๆ สองประเภท

การฝึกล่วงหน้า: ใช้เงินหลายสิบล้านดอลลาร์ + ใช้เวลามากกว่า 3 เดือน มีค่าใช้จ่ายสูงจึงทำบ่อยไม่ได้ และนั่นทำให้เกิด knowledge cutoff

การฝึกภายหลัง: เป็นการ fine-tuning ที่ต้นทุนต่ำกว่ามาก ทำให้มันไม่ใช่แค่พ่นเอกสารจากอินเทอร์เน็ตออกมา แต่ทำงานเหมือน Assistant ที่ตอบคำถามผู้ใช้ได้

  • Supervised Fine-Tuning ที่สอนคำตอบตัวอย่างที่ดี
  • Reinforcement Learning from Human Feedback ที่อิงความชอบของมนุษย์ต่อคำตอบที่สร้างขึ้น
  • Reinforcement Learning on Conversation ที่อิงคำตอบในอุดมคติของ Assistant ต่อคำถามของมนุษย์

เมื่อสร้างเซสชันใหม่ใน ChatGPT แล้วผู้ใช้ป้อนข้อความ ข้อความนั้นจะถูกแปลงเป็นโทเคนและส่งเข้าไปเป็นอินพุตของโมเดล จากนั้น LLM จะสร้างโทเคนถัดไป และบทสนทนาทั้งหมดนี้ (อินพุตของผู้ใช้และเอาต์พุตของ ChatGPT) จะถูกเก็บไว้ใน Context Window

Context Window คล้ายกับ working memory ของมนุษย์ และเหมือนมนุษย์ตรงที่มีข้อจำกัด ยิ่ง Context Window ยาวขึ้น โอกาสที่จะให้ข้อมูลไม่แม่นยำก็จะสูงขึ้นเล็กน้อย และการสร้างคำตอบถัดไปก็มีต้นทุนมากขึ้นด้วย (= ช้าลง)

ดังนั้นถ้าไม่จำเป็นจริง ๆ การคงเซสชันเดิมไว้นานมากก็ไม่ใช่ตัวเลือกที่ดีนัก

ควรใช้โมเดลแบบ 'Thinking' เมื่อไร

คือโมเดลที่นำ LLM ซึ่งผ่านการฝึกล่วงหน้า/ภายหลังแบบเดิมมาเสริมด้วยการฝึกแบบ reinforcement learning เพิ่มเติม เพื่อให้ตอบปัญหา STEM ที่ซับซ้อนได้ผ่านกระบวนการคิดที่ยาวขึ้น

เพราะมัน "คิด" โดยปล่อยหลายโทเคนออกมาระหว่างทาง จึงใช้ทั้งเวลาและค่าใช้จ่ายมากกว่า แต่ความแม่นยำในการตอบปัญหาซับซ้อนก็สูงขึ้นอย่างมาก

อย่างไรก็ดี ต้องระวังว่าโมเดลที่ "คิด" ก็ไม่ได้แก้ปัญหาได้ถูกต้องเสมอไป และในทางกลับกัน โมเดลที่ไม่มี "การคิด" ก็อาจแก้โจทย์ได้แม่นยำเช่นกัน (ในโจทย์ดีบักซับซ้อนที่ Karpathy ยกมา โมเดลสายคิดทั้งหมดทำสำเร็จ ส่วน ChatGPT-4o ล้มเหลว แต่ Sonnet 3.5, Gemini 2.0 Pro, Grok 3 กลับทำสำเร็จได้โดยไม่ต้องใช้ Thinking)

Karpathy บอกว่าเขามักเริ่มลองด้วยโมเดล non-thinking ที่ตอบเร็วก่อน แล้วถ้าคำตอบดูน่าสงสัยค่อยใช้ Thinking

เครื่องมือที่ช่วย LLM

การค้นหาบนอินเทอร์เน็ต

มีทั้งโมเดลที่ค้นอินเทอร์เน็ตได้และไม่ได้ (จะเป็นการค้นหาหรือไม่ก็ตาม) เราควรรู้เสมอว่าโมเดลนั้นทำอะไรได้บ้างก่อนใช้งาน

การค้นหาจำเป็นอย่างพื้นฐานที่สุดก็เพราะ knowledge cutoff ทำให้ตอบข้อมูลล่าสุดไม่ได้ เรื่องนี้เคยทำไม่ได้ใน ChatGPT รุ่นแรก ๆ แต่ Perplexity เจาะจุดนี้ได้จึงดึงผู้ใช้จำนวนมากมาได้

ระบบจะตัดสินจากคำถามผู้ใช้ว่า "อันนี้ต้องค้นหา" แล้วนำผลค้นหาจากอินเทอร์เน็ตมาแปลงเป็นโทเคน ใส่เข้า Context Window ก่อนตอบกลับ (บางครั้งอาจต้องสั่งให้มันค้นหาอย่างชัดเจน)

ช่วงนี้ Karpathy ถาม Perplexity บ่อยแทนการกูเกิล และเริ่มมีนิสัยคิดว่า "ข้อมูลแบบนี้ต้องถาม Perplexity"

  • คิดว่าน่าจะหาคำตอบได้จากการกูเกิลแล้วคลิกลิงก์บน ๆ สักไม่กี่อัน (เช่น วันนี้ตลาดหุ้นเปิดไหม, White Lotus ซีซัน 3 ถ่ายทำเมื่อไร)
  • ข้อมูลเปลี่ยนตลอดและต้องการข้อมูลล่าสุด (เช่น Vercel รองรับ Postgresql ไหม, ตอนนี้นักแสดงจาก Single’s Inferno ซีซัน 4 ทำอะไรกันอยู่)

Deep Research

พูดง่าย ๆ คือการค้นหาอินเทอร์เน็ต + Thinking อาจใช้เวลาค้นหานานเป็นสิบ ๆ นาที แล้วนำข้อมูลที่ได้มาจัดระเบียบผ่าน Thinking เพื่อสร้างรายงานให้

จุดเด่นของ ChatGPT Deep Research คือก่อนเริ่ม มันจะถามก่อนว่าเจตนาของผู้ถามคืออะไรและควรโฟกัสตรงไหนเพื่อทำรายงานที่ดีขึ้น ฟีเจอร์คล้ายกันนี้ Perplexity ก็มี Deep Research และ Grok3 ก็มี "Deep Search" โดยแต่ละตัวมีความเร็วและคุณภาพต่างกัน

เช่นเดียวกับการค้นหาบนอินเทอร์เน็ต ต้องระวังว่าคำตอบอาจไม่ถูกต้องเสมอไป จึงยังควรตรวจสอบแหล่งที่มาด้วยตนเอง แต่ก็ถือเป็น "ร่างแรกที่มีประโยชน์มาก"

Karpathy ลอง Deep Research ไปประมาณ 20 กว่าครั้ง และรู้สึกว่าคำตอบของ ChatGPT ดีที่สุดเพราะยาวและมีข้อมูลที่มีความหมายมากที่สุด หัวข้อที่เขาเคยถามมีเช่น

  • ทำความเข้าใจส่วนผสมเฉพาะบางตัวในอาหารเสริมเพื่อสุขภาพ
  • ระหว่าง Brave Browser กับ Arc Browser ตัวไหนดีกว่ากันในด้านความปลอดภัยและความเป็นส่วนตัว
  • เทคโนโลยีล่าสุดที่ช่วยยืดอายุหนูทดลองคืออะไร? มีการทดลองแทรกแซงแบบใดบ้าง? ฉันมาจากสาย ML จึงคุ้นกับการตั้งและปรับปรุงตัวชี้วัด การวัดอายุขัยของหนูก็ทำแบบนั้นไหม?
  • ช่วยทำตารางห้องแล็บวิจัย LLM รายใหญ่ทั้งหมดในสหรัฐฯ ให้หน่อย ก่อตั้งเมื่อไร มีคนทำงานกี่คน และระดมทุนได้ดีหรือไม่

Code Interpreter

คือให้ LLM เขียนและรันโค้ด แล้วนำผลลัพธ์ของโค้ดกลับมาใส่ในคอนเท็กซ์เพื่อใช้ตอบ มีทั้ง Python และ JavaScript ถ้าใช้ดี ๆ จะทรงพลังมาก เหมือนมีจูเนียร์ฝีมือดีเพิ่มมาอีกคน

  • วิเคราะห์ข้อมูลด้วย ChatGPT 4o
  • สร้างแอปแฟลชการ์ดสรุปเนื้อหาหนังสือด้วย Claude
  • สร้างไดอะแกรม Mermaid เพื่อทำภาพสรุปเนื้อหาหนังสือด้วย Claude
  • สร้างเกม tic-tac-toe ด้วย Cursor แล้วปรับปรุงเพิ่มเอฟเฟกต์ผู้ชนะได้ด้วยการคุยแชตอย่างเดียว

Modality

ไม่ได้โต้ตอบกับ LLM แค่ข้อความ แต่ยังทำได้ทั้งเสียง ภาพ และวิดีโอ

อินพุต/เอาต์พุตเสียง

สำหรับอินพุตเสียง Karpathy ใช้แอปเขียนตามคำบอกบน Mac เช่น SuperWhisper, WisprFlow, MacWhisper เขาบอกว่าประมาณครึ่งหนึ่งของสิ่งที่แต่ก่อนจะพิมพ์ ทุกวันนี้พูดแทน

ส่วนเอาต์พุตเสียงมักมีให้ในตัวแอปอยู่แล้ว จะให้มันอ่านข้อความบนหน้าจอก็ได้

แต่สิ่งเหล่านี้โดยพื้นฐานยังเป็นการสื่อสารผ่านข้อความอยู่ดี เพราะต้องทำ Speech-to-Text แล้วค่อย Text-to-Speech อีกที จึงช้า

ยังมีแบบที่สื่อสารกับ LLM ด้วยเสียงล้วนจริง ๆ ได้ด้วย นั่นคือการแปลงข้อมูลเสียงให้เป็นโทเคน Karpathy เรียกสิ่งนี้ว่า True Audio ส่วนใน ChatGPT เรียกว่า Advanced Voice Mode

Grok3 ก็มี Advanced Voice Mode ในแอปมือถือเช่นกัน มีทั้งโหมดเซ็กซี่ โหมดหยาบคาย และโมเดลสายไม่มีกั๊กหลายแบบ จึงอาจสนุกและน่าสนใจกว่าในบางแง่

NotebookLM ยังสามารถอัปโหลดไฟล์เพื่อวิเคราะห์ แล้วใช้เนื้อหานั้นให้พิธีกรหลายคนจัดพอดแคสต์ด้วยเสียงธรรมชาติได้ด้วย และเรายังแทรกคำถามระหว่างทางได้อย่างอิสระ (Interactive Mode)

  • Karpathy มักสร้างพอดแคสต์ไว้ฟังในหัวข้อที่ตนไม่ได้เชี่ยวชาญมากแต่มีความอยากรู้อยากเห็น และยังอัปโหลดพอดแคสต์ที่ทำแบบนั้นไว้บน Spotify ในชื่อ Histories of Mysteris

อินพุต/เอาต์พุตภาพ

Karpathy มีนิสัยว่าตอนใช้ OCR จะตรวจเสมอว่ามันอ่านข้อความถูกจริงไหมก่อนค่อยถามต่อ เพราะมีโอกาสอ่านผิดได้เสมอ

ตัวอย่างการใช้งานจริง: ตรวจสารอาหารของอาหารเสริมเพื่อสุขภาพ, ตรวจผลเลือดและตีความ, ขอเวอร์ชัน LaTeX ของสมการ, ตีความมีม เป็นต้น

ส่วนเอาต์พุตภาพใช้ DALL·E, IdeoGram เป็นต้น การสร้างภาพไม่ใช่ความสามารถที่ฝังอยู่ใน LLM โดยตรง แต่เป็นการส่งพรอมป์ต์ไปยังโมเดลแยกต่างหาก แล้วดึงภาพที่สร้างเสร็จกลับมา

อินพุต/เอาต์พุตวิดีโอ

เช่นเดียวกับเสียง สามารถใช้ Advanced Voice + Video เป็นอินพุตเพื่อให้มันตอบได้ ทำได้ในแอปมือถือ แทนที่ LLM จะรับวิดีโอเป็นอินพุตตรง ๆ ก็น่าจะเป็นการดึงวิดีโอมาเป็นเฟรมตามช่วงเวลาแล้วแปลงเป็นอินพุตภาพ

Karpathy เองไม่ได้ใช้บ่อยนัก แต่เห็นว่าดีมากสำหรับคนที่พื้นฐานทางเทคนิคน้อย เช่น คนรุ่นพ่อแม่ เพราะสามารถถามตอบได้ทันที

ส่วนเอาต์พุตวิดีโอก็มีหลายโมเดลรวมถึง Sora โดย Karpathy รู้สึกว่าตอนนี้ Google Veo 2 ดูสมจริงที่สุด

ฟีเจอร์เพิ่มเติม

Memory

  • ระหว่างคุยถามตอบกับผู้ใช้ ถ้ามีสิ่งที่ระบบคิดว่า "ถ้าจำสิ่งนี้ไว้จะตอบได้ดีขึ้น" หรือผู้ใช้บอกชัด ๆ ว่าอยากให้จำ มันจะถูกบันทึกพร้อมข้อความว่า Memory Updated
    = พอมองแบบง่าย ๆ ก็คือสิ่งเหล่านี้จะถูกใส่เข้า Context Window ทุกครั้งที่เริ่มแชตใหม่ และยังดูรายการทั้งหมดเพื่อจัดการได้ด้วย

Customize

  • หากกำหนดไว้ว่าจะเรียกผู้ใช้อย่างไร ทำงานอะไร อยากได้คำตอบแบบไหน ฯลฯ สิ่งเหล่านี้ก็จะถูกใส่ใน context window ระหว่างตอบเช่นกัน
  • ช่วงนี้ Karpathy กำลังเรียนภาษาเกาหลี จึงลองใส่ข้อมูลที่เกี่ยวข้องไว้เพื่อทดลองอยู่

Custom GPTs

Karpathy สร้าง GPTs หลายตัวไว้ใช้สำหรับเรียนภาษาเกาหลี โดยใช้พรอมป์ต์แบบง่ายร่วมกับ few-shot

Korean Vocabulary Extractor: แยกประโยคภาษาเกาหลีแล้วดึงคำศัพท์ออกมา

Korean Detailed Translator: คล้ายกับตัวด้านบน แต่แปลแบบจับคู่คำต่อคำ

KoreanCap: ให้ภาพแคปมาแล้วจะทำ OCR แปล และแยกคำเป็นรายคำพร้อมการออกเสียง

3 ความคิดเห็น

 
halfenif 2025-03-06

> "พ่น 'ตัวอักษรถัดไป' ออกมาตามความน่าจะเป็น"

ผมว่าน่าจะไม่มีคำอธิบายไหนเหมาะไปกว่านี้แล้ว

 
ned0909 2025-03-05

การเรียนภาษาเกาหลีนี่น่าทึ่งดีนะ

 
stadia 2025-03-04

https://youtube.com/watch/… ดูพร้อมคำบรรยาย