ผู้ร่วมก่อตั้ง OpenAI ใช้ AI ในชีวิตประจำวันและการทำงานอย่างไร

(stdy.blog)

46 คะแนน โดย spilist2 2025-03-04 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

สรุปพร้อมภาพแคปจาก How I use LLMs ซึ่งเป็นคลาสสอน AI สำหรับคนทั่วไปของ Andrej Karpathy ผู้ร่วมก่อตั้ง OpenAI ที่อัปโหลดเมื่อ 28/2
ทำขึ้นเพราะมีคุณค่ามากจากสื่อภาพประกอบหลากหลายและตัวอย่างการใช้งานจริงของ Karpathy จนการสรุปเป็นข้อความอย่างเดียวไม่สามารถถ่ายทอดอรรถรสของวิดีโอได้ครบ

มี LLM หลายประเภท

ChatGPT เป็นตัวที่มีชื่อเสียงที่สุดและมีความสามารถมากที่สุด นอกจากนี้ยังมีตัวดัง ๆ เหล่านี้

Gemini ของ Google
Meta AI ของ Meta
Copilot ของ MS
Claude ของ Anthropic
Grok ของ xAI
Perplexity
DeepSeek จากจีน
Le Chat ของ Mistral จากฝรั่งเศส

ChatGPT ทำงานอย่างไร

LLM คล้ายไฟล์ zip ที่บีบอัดแบบสูญเสียข้อมูลของเอกสารทั้งอินเทอร์เน็ตให้เหลือ 1TB ภายในนั้นมีโครงข่ายประสาทเทียมที่มีพารามิเตอร์ระดับล้านล้านตัว และมันจะปล่อย "ตัวอักษรถัดไป" ออกมาแบบอิงความน่าจะเป็น

ไฟล์บีบอัดนี้สร้างขึ้นด้วยการฝึกหลัก ๆ สองประเภท

การฝึกล่วงหน้า: ใช้เงินหลายสิบล้านดอลลาร์ + ใช้เวลามากกว่า 3 เดือน มีค่าใช้จ่ายสูงจึงทำบ่อยไม่ได้ และนั่นทำให้เกิด knowledge cutoff

การฝึกภายหลัง: เป็นการ fine-tuning ที่ต้นทุนต่ำกว่ามาก ทำให้มันไม่ใช่แค่พ่นเอกสารจากอินเทอร์เน็ตออกมา แต่ทำงานเหมือน Assistant ที่ตอบคำถามผู้ใช้ได้

Supervised Fine-Tuning ที่สอนคำตอบตัวอย่างที่ดี
Reinforcement Learning from Human Feedback ที่อิงความชอบของมนุษย์ต่อคำตอบที่สร้างขึ้น
Reinforcement Learning on Conversation ที่อิงคำตอบในอุดมคติของ Assistant ต่อคำถามของมนุษย์

เมื่อสร้างเซสชันใหม่ใน ChatGPT แล้วผู้ใช้ป้อนข้อความ ข้อความนั้นจะถูกแปลงเป็นโทเคนและส่งเข้าไปเป็นอินพุตของโมเดล จากนั้น LLM จะสร้างโทเคนถัดไป และบทสนทนาทั้งหมดนี้ (อินพุตของผู้ใช้และเอาต์พุตของ ChatGPT) จะถูกเก็บไว้ใน Context Window

Context Window คล้ายกับ working memory ของมนุษย์ และเหมือนมนุษย์ตรงที่มีข้อจำกัด ยิ่ง Context Window ยาวขึ้น โอกาสที่จะให้ข้อมูลไม่แม่นยำก็จะสูงขึ้นเล็กน้อย และการสร้างคำตอบถัดไปก็มีต้นทุนมากขึ้นด้วย (= ช้าลง)

ดังนั้นถ้าไม่จำเป็นจริง ๆ การคงเซสชันเดิมไว้นานมากก็ไม่ใช่ตัวเลือกที่ดีนัก

ควรใช้โมเดลแบบ 'Thinking' เมื่อไร

คือโมเดลที่นำ LLM ซึ่งผ่านการฝึกล่วงหน้า/ภายหลังแบบเดิมมาเสริมด้วยการฝึกแบบ reinforcement learning เพิ่มเติม เพื่อให้ตอบปัญหา STEM ที่ซับซ้อนได้ผ่านกระบวนการคิดที่ยาวขึ้น

เพราะมัน "คิด" โดยปล่อยหลายโทเคนออกมาระหว่างทาง จึงใช้ทั้งเวลาและค่าใช้จ่ายมากกว่า แต่ความแม่นยำในการตอบปัญหาซับซ้อนก็สูงขึ้นอย่างมาก

อย่างไรก็ดี ต้องระวังว่าโมเดลที่ "คิด" ก็ไม่ได้แก้ปัญหาได้ถูกต้องเสมอไป และในทางกลับกัน โมเดลที่ไม่มี "การคิด" ก็อาจแก้โจทย์ได้แม่นยำเช่นกัน (ในโจทย์ดีบักซับซ้อนที่ Karpathy ยกมา โมเดลสายคิดทั้งหมดทำสำเร็จ ส่วน ChatGPT-4o ล้มเหลว แต่ Sonnet 3.5, Gemini 2.0 Pro, Grok 3 กลับทำสำเร็จได้โดยไม่ต้องใช้ Thinking)

Karpathy บอกว่าเขามักเริ่มลองด้วยโมเดล non-thinking ที่ตอบเร็วก่อน แล้วถ้าคำตอบดูน่าสงสัยค่อยใช้ Thinking

เครื่องมือที่ช่วย LLM

การค้นหาบนอินเทอร์เน็ต

มีทั้งโมเดลที่ค้นอินเทอร์เน็ตได้และไม่ได้ (จะเป็นการค้นหาหรือไม่ก็ตาม) เราควรรู้เสมอว่าโมเดลนั้นทำอะไรได้บ้างก่อนใช้งาน

การค้นหาจำเป็นอย่างพื้นฐานที่สุดก็เพราะ knowledge cutoff ทำให้ตอบข้อมูลล่าสุดไม่ได้ เรื่องนี้เคยทำไม่ได้ใน ChatGPT รุ่นแรก ๆ แต่ Perplexity เจาะจุดนี้ได้จึงดึงผู้ใช้จำนวนมากมาได้

ระบบจะตัดสินจากคำถามผู้ใช้ว่า "อันนี้ต้องค้นหา" แล้วนำผลค้นหาจากอินเทอร์เน็ตมาแปลงเป็นโทเคน ใส่เข้า Context Window ก่อนตอบกลับ (บางครั้งอาจต้องสั่งให้มันค้นหาอย่างชัดเจน)

ช่วงนี้ Karpathy ถาม Perplexity บ่อยแทนการกูเกิล และเริ่มมีนิสัยคิดว่า "ข้อมูลแบบนี้ต้องถาม Perplexity"

คิดว่าน่าจะหาคำตอบได้จากการกูเกิลแล้วคลิกลิงก์บน ๆ สักไม่กี่อัน (เช่น วันนี้ตลาดหุ้นเปิดไหม, White Lotus ซีซัน 3 ถ่ายทำเมื่อไร)
ข้อมูลเปลี่ยนตลอดและต้องการข้อมูลล่าสุด (เช่น Vercel รองรับ Postgresql ไหม, ตอนนี้นักแสดงจาก Single’s Inferno ซีซัน 4 ทำอะไรกันอยู่)

Deep Research

พูดง่าย ๆ คือการค้นหาอินเทอร์เน็ต + Thinking อาจใช้เวลาค้นหานานเป็นสิบ ๆ นาที แล้วนำข้อมูลที่ได้มาจัดระเบียบผ่าน Thinking เพื่อสร้างรายงานให้

จุดเด่นของ ChatGPT Deep Research คือก่อนเริ่ม มันจะถามก่อนว่าเจตนาของผู้ถามคืออะไรและควรโฟกัสตรงไหนเพื่อทำรายงานที่ดีขึ้น ฟีเจอร์คล้ายกันนี้ Perplexity ก็มี Deep Research และ Grok3 ก็มี "Deep Search" โดยแต่ละตัวมีความเร็วและคุณภาพต่างกัน

เช่นเดียวกับการค้นหาบนอินเทอร์เน็ต ต้องระวังว่าคำตอบอาจไม่ถูกต้องเสมอไป จึงยังควรตรวจสอบแหล่งที่มาด้วยตนเอง แต่ก็ถือเป็น "ร่างแรกที่มีประโยชน์มาก"

Karpathy ลอง Deep Research ไปประมาณ 20 กว่าครั้ง และรู้สึกว่าคำตอบของ ChatGPT ดีที่สุดเพราะยาวและมีข้อมูลที่มีความหมายมากที่สุด หัวข้อที่เขาเคยถามมีเช่น

ทำความเข้าใจส่วนผสมเฉพาะบางตัวในอาหารเสริมเพื่อสุขภาพ
ระหว่าง Brave Browser กับ Arc Browser ตัวไหนดีกว่ากันในด้านความปลอดภัยและความเป็นส่วนตัว
เทคโนโลยีล่าสุดที่ช่วยยืดอายุหนูทดลองคืออะไร? มีการทดลองแทรกแซงแบบใดบ้าง? ฉันมาจากสาย ML จึงคุ้นกับการตั้งและปรับปรุงตัวชี้วัด การวัดอายุขัยของหนูก็ทำแบบนั้นไหม?
ช่วยทำตารางห้องแล็บวิจัย LLM รายใหญ่ทั้งหมดในสหรัฐฯ ให้หน่อย ก่อตั้งเมื่อไร มีคนทำงานกี่คน และระดมทุนได้ดีหรือไม่

Code Interpreter

คือให้ LLM เขียนและรันโค้ด แล้วนำผลลัพธ์ของโค้ดกลับมาใส่ในคอนเท็กซ์เพื่อใช้ตอบ มีทั้ง Python และ JavaScript ถ้าใช้ดี ๆ จะทรงพลังมาก เหมือนมีจูเนียร์ฝีมือดีเพิ่มมาอีกคน

วิเคราะห์ข้อมูลด้วย ChatGPT 4o
สร้างแอปแฟลชการ์ดสรุปเนื้อหาหนังสือด้วย Claude
สร้างไดอะแกรม Mermaid เพื่อทำภาพสรุปเนื้อหาหนังสือด้วย Claude
สร้างเกม tic-tac-toe ด้วย Cursor แล้วปรับปรุงเพิ่มเอฟเฟกต์ผู้ชนะได้ด้วยการคุยแชตอย่างเดียว

Modality

ไม่ได้โต้ตอบกับ LLM แค่ข้อความ แต่ยังทำได้ทั้งเสียง ภาพ และวิดีโอ

อินพุต/เอาต์พุตเสียง

สำหรับอินพุตเสียง Karpathy ใช้แอปเขียนตามคำบอกบน Mac เช่น SuperWhisper, WisprFlow, MacWhisper เขาบอกว่าประมาณครึ่งหนึ่งของสิ่งที่แต่ก่อนจะพิมพ์ ทุกวันนี้พูดแทน

ส่วนเอาต์พุตเสียงมักมีให้ในตัวแอปอยู่แล้ว จะให้มันอ่านข้อความบนหน้าจอก็ได้

แต่สิ่งเหล่านี้โดยพื้นฐานยังเป็นการสื่อสารผ่านข้อความอยู่ดี เพราะต้องทำ Speech-to-Text แล้วค่อย Text-to-Speech อีกที จึงช้า

ยังมีแบบที่สื่อสารกับ LLM ด้วยเสียงล้วนจริง ๆ ได้ด้วย นั่นคือการแปลงข้อมูลเสียงให้เป็นโทเคน Karpathy เรียกสิ่งนี้ว่า True Audio ส่วนใน ChatGPT เรียกว่า Advanced Voice Mode

วิดีโอสาธิตการสนทนา ที่ให้มันพูดด้วยสำเนียงและความเร็วหลากหลาย รวมถึงเลียนเสียงสัตว์

Grok3 ก็มี Advanced Voice Mode ในแอปมือถือเช่นกัน มีทั้งโหมดเซ็กซี่ โหมดหยาบคาย และโมเดลสายไม่มีกั๊กหลายแบบ จึงอาจสนุกและน่าสนใจกว่าในบางแง่

วิดีโอสาธิตการสนทนากับ Grok3 ของ Karpathy

NotebookLM ยังสามารถอัปโหลดไฟล์เพื่อวิเคราะห์ แล้วใช้เนื้อหานั้นให้พิธีกรหลายคนจัดพอดแคสต์ด้วยเสียงธรรมชาติได้ด้วย และเรายังแทรกคำถามระหว่างทางได้อย่างอิสระ (Interactive Mode)

Karpathy มักสร้างพอดแคสต์ไว้ฟังในหัวข้อที่ตนไม่ได้เชี่ยวชาญมากแต่มีความอยากรู้อยากเห็น และยังอัปโหลดพอดแคสต์ที่ทำแบบนั้นไว้บน Spotify ในชื่อ Histories of Mysteris

อินพุต/เอาต์พุตภาพ

Karpathy มีนิสัยว่าตอนใช้ OCR จะตรวจเสมอว่ามันอ่านข้อความถูกจริงไหมก่อนค่อยถามต่อ เพราะมีโอกาสอ่านผิดได้เสมอ

ตัวอย่างการใช้งานจริง: ตรวจสารอาหารของอาหารเสริมเพื่อสุขภาพ, ตรวจผลเลือดและตีความ, ขอเวอร์ชัน LaTeX ของสมการ, ตีความมีม เป็นต้น

ส่วนเอาต์พุตภาพใช้ DALL·E, IdeoGram เป็นต้น การสร้างภาพไม่ใช่ความสามารถที่ฝังอยู่ใน LLM โดยตรง แต่เป็นการส่งพรอมป์ต์ไปยังโมเดลแยกต่างหาก แล้วดึงภาพที่สร้างเสร็จกลับมา

อินพุต/เอาต์พุตวิดีโอ

เช่นเดียวกับเสียง สามารถใช้ Advanced Voice + Video เป็นอินพุตเพื่อให้มันตอบได้ ทำได้ในแอปมือถือ แทนที่ LLM จะรับวิดีโอเป็นอินพุตตรง ๆ ก็น่าจะเป็นการดึงวิดีโอมาเป็นเฟรมตามช่วงเวลาแล้วแปลงเป็นอินพุตภาพ

Karpathy เองไม่ได้ใช้บ่อยนัก แต่เห็นว่าดีมากสำหรับคนที่พื้นฐานทางเทคนิคน้อย เช่น คนรุ่นพ่อแม่ เพราะสามารถถามตอบได้ทันที

วิดีโอสาธิต

ส่วนเอาต์พุตวิดีโอก็มีหลายโมเดลรวมถึง Sora โดย Karpathy รู้สึกว่าตอนนี้ Google Veo 2 ดูสมจริงที่สุด

เปรียบเทียบโมเดลวิดีโอ 9 ตัว

ฟีเจอร์เพิ่มเติม

Memory

ระหว่างคุยถามตอบกับผู้ใช้ ถ้ามีสิ่งที่ระบบคิดว่า "ถ้าจำสิ่งนี้ไว้จะตอบได้ดีขึ้น" หรือผู้ใช้บอกชัด ๆ ว่าอยากให้จำ มันจะถูกบันทึกพร้อมข้อความว่า Memory Updated
= พอมองแบบง่าย ๆ ก็คือสิ่งเหล่านี้จะถูกใส่เข้า Context Window ทุกครั้งที่เริ่มแชตใหม่ และยังดูรายการทั้งหมดเพื่อจัดการได้ด้วย

Customize

หากกำหนดไว้ว่าจะเรียกผู้ใช้อย่างไร ทำงานอะไร อยากได้คำตอบแบบไหน ฯลฯ สิ่งเหล่านี้ก็จะถูกใส่ใน context window ระหว่างตอบเช่นกัน
ช่วงนี้ Karpathy กำลังเรียนภาษาเกาหลี จึงลองใส่ข้อมูลที่เกี่ยวข้องไว้เพื่อทดลองอยู่

Custom GPTs

Karpathy สร้าง GPTs หลายตัวไว้ใช้สำหรับเรียนภาษาเกาหลี โดยใช้พรอมป์ต์แบบง่ายร่วมกับ few-shot

Korean Vocabulary Extractor: แยกประโยคภาษาเกาหลีแล้วดึงคำศัพท์ออกมา

Korean Detailed Translator: คล้ายกับตัวด้านบน แต่แปลแบบจับคู่คำต่อคำ

KoreanCap: ให้ภาพแคปมาแล้วจะทำ OCR แปล และแยกคำเป็นรายคำพร้อมการออกเสียง

3 ความคิดเห็น

halfenif 2025-03-06

> "พ่น 'ตัวอักษรถัดไป' ออกมาตามความน่าจะเป็น"

ผมว่าน่าจะไม่มีคำอธิบายไหนเหมาะไปกว่านี้แล้ว

ned0909 2025-03-05

การเรียนภาษาเกาหลีนี่น่าทึ่งดีนะ

stadia 2025-03-04

https://youtube.com/watch/… ดูพร้อมคำบรรยาย