62 คะแนน โดย GN⁺ 2025-08-25 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • ณ ปี 2025 การสร้าง Coding Agent ด้วยตัวเองเป็นหนึ่งในโปรเจกต์ที่ดีที่สุดที่นักพัฒนารายบุคคลควรลองทำ
  • เอเจนต์สามารถทำงานได้ด้วยเพียง โค้ด 300 บรรทัด และ ลูปโทเค็นของ LLM และการลองสร้างสิ่งนี้จะเปิดโอกาสให้เปลี่ยนจากผู้บริโภคมาเป็น ผู้ผลิต AI
  • องค์ประกอบพื้นฐานคือเครื่องมืออย่าง การอ่านไฟล์, การแสดงรายการไฟล์, การรัน Bash, การแก้ไขไฟล์, การค้นหาโค้ด ซึ่งช่วยให้สร้างความสามารถด้านอัตโนมัติได้จริง
  • ในการเลือกโมเดล โมเดลเชิงเอเจนต์ อย่าง Claude Sonnet, Kimi K2 เหมาะสมกว่า และหากจำเป็นก็สามารถเชื่อมต่อโมเดลแบบออราเคิลอย่าง GPT เป็นเครื่องมือเพื่อทำการตรวจสอบในระดับสูงได้
  • ในความเป็นจริง ผลิตภัณฑ์เชิงพาณิชย์อย่าง Amp, Cursor, Claude Code, GitHub Copilot ก็ใช้โครงสร้างคล้ายกัน

ภาพรวมเวิร์กช็อป

  • เวิร์กช็อปฟรีที่จัดโดย Geoffrey Huntley ซึ่งสอนทั้งวิธีและหลักการของการสร้าง Coding Agent ด้วยตนเองโดยเน้นการลงมือปฏิบัติ
  • เปรียบเทียบโครงสร้างและหลักการกับผู้ช่วย AI เชิงพาณิชย์ที่มีอยู่แล้ว เช่น Roo code, Cline, Amp, Cursor, Windsurf, OpenCode พร้อมเปิดโอกาสให้ได้ลองทำเอง
  • จากประสบการณ์การสร้างจริง ผู้เข้าร่วมสามารถเติบโตจากผู้ใช้ AI ทั่วไปไปเป็น นักพัฒนาที่ใช้ AI เพื่อสร้างเครื่องมืออัตโนมัติด้วยตนเอง
  • โครงสร้างหลักคือการใช้ลูปโทเค็นของ LLM ภายในโค้ดราว 300 บรรทัดเพื่อสร้างความสามารถแบบเอเจนต์
  • มีการเพิ่มความสามารถระดับ primitive ของแต่ละเครื่องมือ (อ่าน, แสดงรายการไฟล์, รัน, แก้ไข, ค้นหาโค้ด) และเผยแพร่ตัวอย่างการทำงานจริงพร้อมโค้ดไว้ที่ GitHub repository

เอเจนต์คืออะไร

  • ช่วงหลังมานี้คำว่า "เอเจนต์" ถูกใช้กันอย่างกว้างขวาง แต่ความหมายที่แท้จริงและ หลักการทำงานภายใน ยังไม่ชัดเจนนัก
  • เมื่ออุปสรรคในการเริ่มสร้างเอเจนต์ลดลง จึงเป็นไปได้ที่จะก้าวข้ามจากผู้บริโภค AI ไปสู่ ผู้ผลิตที่ขับเคลื่อนระบบอัตโนมัติในการทำงาน
  • ณ ปี 2025 หลักการสร้างเอเจนต์ ได้กลายเป็นความรู้จำเป็นพอ ๆ กับแนวคิดพื้นฐานของฐานข้อมูลอย่าง Primary key
  • บริษัทอย่าง Canva เริ่ม สนับสนุนการใช้ AI ในกระบวนการสัมภาษณ์แล้ว และความสามารถด้านระบบอัตโนมัติด้วย AI ก็กลายเป็นองค์ประกอบสำคัญของการจ้างงาน
  • จากนี้ไป สาเหตุที่ตามไม่ทันไม่ใช่เพราะ AI แต่เป็นเพราะไม่ยอมพัฒนาตัวเองและเรียนรู้เครื่องมือใหม่

หลักการสำคัญของ Coding Agent

  • Coding Agent ประกอบขึ้นจากเพียง โค้ด 300 บรรทัด และ ลูปโทเค็นของ LLM โดยอาศัยการป้อนโทเค็นแบบวนซ้ำเพื่อทำงาน
  • แนวคิดเรื่อง การทำงานพร้อมกัน (concurrent work) มีความสำคัญ
    • ตัวอย่าง: แม้อยู่ในระหว่างประชุม Zoom เอเจนต์ก็ยังสามารถทำงานแบบขนานต่อไปได้ ช่วยเพิ่มประสิทธิภาพการทำงานอย่างมาก
    โฆษณา
  • ไม่ใช่ LLM ทุกตัวจะมีความเป็นเอเจนต์
    • 'ความปลอดภัยสูง' (เช่น Anthropic, OpenAI)
    • 'ความปลอดภัยต่ำ' (เช่น Grok)
    • 'ออราเคิล' (เหมาะกับการสรุปและการคิดขั้นสูง)
    • 'เชิงเอเจนต์' (เอนเอียงไปทางการลงมือทำ, วนซ้ำเร็ว, เรียกใช้เครื่องมือเก่ง)
  • นักพัฒนาควรเข้าใจ ลักษณะเฉพาะของแต่ละโมเดล และเลือกโมเดลให้เหมาะกับเป้าหมาย
  • การจัดสรรคอนเท็กซ์วินโดว์แบบมากเกินไปส่งผลให้ประสิทธิภาพลดลง และควรจำไว้ว่า "ยิ่งใส่น้อย ผลลัพธ์ยิ่งดี"
    • การลงทะเบียนเครื่องมือ MCP มากเกินไป นำไปสู่ประสิทธิภาพที่ลดลง
  • กฎคือ “Less is more” → ควรวางเครื่องมือและข้อมูลในบริบทเท่าที่จำเป็นเพื่อให้ได้ประสิทธิภาพสูงสุด

ลำดับขั้นของการสร้าง Coding Agent

  • 1. การลงทะเบียนเครื่องมือและการเรียกใช้ฟังก์ชัน

    • ตัวอย่างเช่น ลงทะเบียน เครื่องมือตรวจสอบสภาพอากาศ ให้กับ LLM เพื่อให้ LLM ตอบสนองในรูปแบบการเรียกฟังก์ชันได้เมื่อเจอสถานการณ์ที่เหมาะสม
    • MCP(Model Context Protocol) มีลักษณะคล้าย "แบนเนอร์ข้อมูลของฟังก์ชัน" และเพียงลงทะเบียนคำอธิบายของฟังก์ชันก็สามารถเรียกใช้อัตโนมัติได้
  • 2. ความสามารถหลักของเครื่องมือ primitive แต่ละชนิด

    • อ่านไฟล์(ReadFile): เมื่อส่งพาธเข้ามา จะอ่านเนื้อหาไฟล์เข้ามาเป็นคอนเท็กซ์
    • แสดงรายการไฟล์(ListFiles): แสดงรายการไฟล์และโฟลเดอร์ในไดเรกทอรี
    • รันคำสั่ง(Bash): ให้ LLM รันคำสั่งเชลล์ของระบบและส่งผลลัพธ์กลับมา
    • แก้ไขไฟล์(Edit): ทำให้การสร้างหรือแก้ไขไฟล์ที่ระบุเป็นไปโดยอัตโนมัติ
    • ค้นหาโค้ด(CodeSearch): ค้นหาได้อย่างรวดเร็วทั่วทั้งโค้ดเบสตามแพตเทิร์น คีย์เวิร์ด หรือชื่อฟังก์ชัน (ใช้ ripgrep)
    โฆษณา
  • 3. ตัวอย่างและลำดับผลลัพธ์

    • เมื่อนำแต่ละเครื่องมือมารวมเข้ากับ LLM ก็สามารถทำงานต่อเนื่องโดยอัตโนมัติได้ด้วยเพียงพรอมป์ต์ภาษาธรรมชาติ เช่น สร้างโค้ด FizzBuzz → ตรวจสอบการรัน, สำรวจไดเรกทอรี → วิเคราะห์เนื้อหา เป็นต้น
    • ฟังก์ชันของเครื่องมือจะถูกเรียกตามลำดับให้สอดคล้องกับอินพุตของผู้ใช้หรือสถานการณ์ และวนซ้ำภายในลูปพร้อมส่งคืนผลลัพธ์
    • ลำดับการทำงานหลักของเอเจนต์คือ: อินพุตผู้ใช้ → ตัดสินใจว่าจะเรียกเครื่องมือหรือไม่ → รันเครื่องมือ → ใส่ผลลัพธ์เข้าไปในคอนเท็กซ์ → ทำซ้ำ

ความสามารถในการขยายและโอเพนซอร์ส

  • ปัจจุบัน Coding Agent ส่วนใหญ่ทำงานบนพื้นฐานของ เครื่องมือโอเพนซอร์สที่มีอยู่แล้ว เช่น ripgrep
  • บน GitHub มีโปรเจกต์เอเจนต์ที่เรียบง่ายแต่ทรงพลังอย่าง SST Open Code, mini-swe-agent ซึ่งสร้างด้วยโค้ดเพียง 100 บรรทัด ทำให้สามารถใช้เป็นข้อมูลอ้างอิงด้านประสิทธิภาพและโครงสร้างได้
  • นักพัฒนาควรทำความเข้าใจหลักการและการใช้งานผ่านการสร้างด้วยตนเอง มากกว่ามัวแต่เปรียบเทียบผลิตภัณฑ์ที่มีอยู่
  • เมื่อนำไปใช้กับงานจริงและระบบอัตโนมัติ การสร้างเอเจนต์ใช้เองและขยายการใช้งานภายในองค์กรจะกลายเป็นความสามารถในการแข่งขัน

บทสรุปและข้อคิด

  • Coding Agent ไม่ใช่เทคโนโลยีที่ซับซ้อน แต่ประกอบขึ้นจาก โครงสร้างลูปที่เรียบง่ายและการผสมผสานเครื่องมือ
  • หัวใจสำคัญของการสร้าง Coding Agent คือ ความเข้าใจในโครงสร้างและความสามารถในการลงมือทำอย่างรวดเร็ว และประสบการณ์จากการสร้างเองช่วยให้รับมือกับการเปลี่ยนแปลงของเทคโนโลยี AI ได้อย่างกระตือรือร้น
  • สิ่งสำคัญในตอนนี้ไม่ใช่ AI เพียงอย่างเดียว แต่คือ การพัฒนาตัวเองอย่างต่อเนื่องและการลงทุนกับความสามารถในการสร้างเครื่องมือ ซึ่งเป็นกลยุทธ์การเติบโตส่วนบุคคลที่สำคัญที่สุด ณ เวลานี้
  • “สิ่งที่คุกคามไม่ใช่ AI ที่มาแย่งงานของคุณ แต่คือ เพื่อนร่วมงานของคุณที่ติดอาวุธด้วยเอเจนต์ ทำระบบอัตโนมัติ และทำงานได้เร็วกว่าเดิม

4 ความคิดเห็น

 
GN⁺ 2025-08-25
ความคิดเห็นจาก Hacker News
  • ทีม Princeton SWE-bench ของพวกเราเคยสร้างเอเจนต์ที่ทำผลงานได้ดีบน SWE-bench ด้วยโค้ดราว 100 บรรทัด ถ้าสนใจก็น่าลองดู mini-swe-agent

    • น่าทึ่งที่โครงสร้างมันเรียบง่ายได้ขนาดนี้จริง ๆ ขอบคุณที่แชร์ข้อมูลแบบนี้
      โค้ดทั้งหมดจริง ๆ แล้วทำงานอยู่บนพรอมป์ต์เหล่านี้ ซอร์สโค้ดพรอมป์ต์พื้นฐานของเอเจนต์

      Your task: {{task}}. Please reply
      with a single shell command in
      triple backticks.
      
      To finish, the first line of the
      output of the shell command must be
      'COMPLETE_TASK_AND_SUBMIT_FINAL_OUTPUT'.
      
    • ในตัวอย่างพรอมป์ต์ของเอเจนต์ ส่วนที่ว่า “1. ค้นหาและอ่านไฟล์ที่เกี่ยวข้องในโค้ดเบส 2. สร้างสคริปต์เพื่อทำให้บั๊กเกิดซ้ำ 3. แก้บั๊ก 4. ตรวจสอบการแก้ด้วยสคริปต์ 5. ทดสอบ edge case” มีประโยชน์มาก
      ผมเองก็ใช้พรอมป์ต์ลักษณะคล้ายกันในลูปดีบัก
      แนวทางแบบ “วิเคราะห์โค้ดเบสแล้วลิสต์สาเหตุที่เป็นไปได้ จัดอันดับตามความน่าจะเป็น แล้วตรวจสอบสมมติฐานด้วยสคริปต์หรือ debug logging” ช่วยรูทีนการแก้ปัญหาของผมได้มาก

    • การใช้ LLM แก้ปัญหานั้นง่ายมากเมื่อปัญหาอยู่ครบในไฟล์เดียว
      แต่ในโค้ดเบสทั่วไป ไฟล์และบริบทมักกระจายกันไปหลายจุด เลยไม่ง่ายที่จะทำความเข้าใจให้ตรงกับเจตนาเชิงสถาปัตยกรรมและการจัดระเบียบที่นักพัฒนาวางไว้

    • ขอชื่นชมว่าเป็นความพยายามที่ยอดเยี่ยม แต่ก็น่าเสียดายที่มีเครื่องมือไม่มากนัก
      โค้ดส่วนใหญ่เป็นกรอบงานของเอเจนต์ และโค้ดที่ปรับเฉพาะเพื่อ SWE จริง ๆ มีไม่มากอย่างที่คิด
      ผมก็เคยทำ SWE agent เล่น ๆ เหมือนกัน ลองดู autocode ได้

    • เพิ่มไว้ในแหล่งอ้างอิงเพื่อเป็นการขอบคุณ

  • มี “คู่มือวิธีสร้างเอเจนต์” ที่คล้ายกันมาก เขียนโดย Thorsten Ball อยู่ใน AmpCode How To Guide ด้วย
    โดยรวมแล้ว Amp ก็น่าสนใจไม่น้อย
    ตอนนี้มันไม่ใช่บริการลับอีกต่อไปแล้ว แต่ก็ดีใจที่เครื่องมือเกี่ยวกับ agent coding ถูกเปิดเผยออกมาเรื่อย ๆ
    คิดว่าในอนาคตซอฟต์แวร์หลากหลายแบบจะมีโมเดลเอเจนต์ลักษณะนี้ติดมาเป็นค่าเริ่มต้น

    • อันนี้อ่านสบายตากว่าเยอะ ขอบคุณมาก

    • มีการพูดถึงด้วยว่าผู้เขียนทำงานอยู่ที่ Amp

    • Ghuntley ก็ทำงานที่ Amp เช่นกัน

  • เขาว่าภาพหนึ่งภาพมีค่าพอ ๆ กับคำพูด 1000 คำ แต่ในเอกสารนี้รู้สึกเหมือนภาพต่าง ๆ ถูกลดค่าลง 99.6%
    เลยสงสัยว่านี่คืออะไรกันแน่

    • เป็นสไลด์สำหรับเวิร์กช็อปในงานประชุม
      ข้อความคือคำพูดจริงจากการบรรยายที่ถอดออกมาเป็นตัวอักษร
  • สงสัยว่ามีใครช่วยยืนยันเรื่องวิธีใช้เครื่องมือได้ไหม
    ผมเข้าใจว่า Claude, ChatGPT ฯลฯ ให้ “tools” ผ่าน API และเมื่อมีคำขอเรียกใช้เครื่องมือเข้ามา ฝั่งผู้ตอบก็จะรันเครื่องมือนั้นจริงแล้วส่งผลลัพธ์กลับมา
    แต่ในเมื่อโมเดลจริง ๆ เป็นระบบที่อิงตัวอักษรอย่างเคร่งครัด เลยสงสัยว่า API แปลงคำตอบของโมเดลให้กลายเป็นหลายโครงสร้างได้อย่างไร
    เดาว่าในขั้นตอน fine-tuning น่าจะมีตัวอย่างที่ใส่การเรียกใช้เครื่องมือบางอย่างในรูปแบบบล็อกพิเศษ เพื่อให้โมเดลเข้าใจ แล้วฝั่งเซิร์ฟเวอร์ของ Claude/ChatGPT ก็ตีความมัน
    เลยอยากรู้ว่ามีเอกสารเกี่ยวกับเรื่องนี้ไหม หรือมีข้อมูลเกี่ยวกับ special token ที่ใช้ภายในหรือเปล่า และเขาป้องกันไม่ให้ผู้ใช้โจมตี “โทเค็นที่มีหน้าที่เชิงความหมาย” นี้อย่างไร

    • มีเอกสารการติดตั้งใช้งานที่ Anthropic เผยแพร่ไว้
      Anthropic Tool Use Documentation
      จากตรงนี้จะเห็นได้ชัดว่าโมเดลจริง ๆ ไม่ได้ทำงานกับ “ข้อความ” แต่ทำงานในระดับโทเค็น
      คล้ายกับที่คอมไพเลอร์พาร์สซอร์สโค้ดออกมาเป็นลำดับของ “โทเค็น” เช่น คีย์เวิร์ด วงเล็บ และโครงสร้างต่าง ๆ
      ในเอาต์พุตจึงอาจมีทั้งคำจริงและเมทาดาทาปะปนกันได้

    • ในเชิงแนวคิด คุณเข้าใจถูกแล้ว
      อินเทอร์เฟซที่แท้จริงกับ LLM มีเพียง “โทเค็น” เท่านั้น และไม่มีการแยกช่องทางควบคุมออกจากช่องทางข้อมูล
      ที่ชั้น API ของโมเดลจะมีการแทรกคำสั่งสำหรับการเรียกใช้เครื่องมือและรายการเครื่องมือที่ใช้ได้ลงในพรอมป์ต์ พร้อมคำอธิบายของแต่ละตัว
      เมื่อจำเป็นต้องเรียกใช้เครื่องมือ โมเดลจะใส่บล็อกพิเศษในคำตอบของมัน (มี special token และระบุชื่อเครื่องมือกับพารามิเตอร์) แล้วชั้น API จะดึงส่วนนี้ออกมาแปลงเป็น JSON
      ผลการทำงานของเครื่องมือก็ถูกเข้ารหัสและแทรกกลับเข้าไปด้วย special token เช่นกัน
      ชั้น API จะป้องกันไม่ให้ข้อมูลจากผู้ใช้ฉีดโทเค็นประเภทนี้เข้าไปเอง
      โมเดลรุ่นใหม่ระดับ SoTA ถูก fine-tune เรื่องการเรียกใช้เครื่องมือมาอย่างมาก ทั้งในแบบเรียกเครื่องมือทั่วไปและกรณีเฉพาะเครื่องมือบางตัว (เช่น โมเดล Claude Sonnet ที่ถูกจูนให้เข้ากับเครื่องมือของ Claude Code)
      มันน่าทึ่งพอสมควรที่ทุกอย่างทำงานได้ดีขนาดนี้ เพราะในการเรียกใช้เครื่องมือ fine-tuning มีบทบาทสำคัญมากจริง ๆ
      ถ้าไม่มี fine-tuning มันก็ยังพอทำงานได้ แต่ความสำเร็จจะลดลงอย่างมาก

    • ผมคิดว่าข้อสันนิษฐานที่ว่า “ถูก fine-tune ให้ส่งตัวอย่างที่ต้องเรียกใช้เครื่องมือกลับมาในรูปแบบบล็อกพิเศษ” นั้นถูกต้อง
      มันถูกฝึกให้ตอบในรูปแบบการเรียกใช้เครื่องมือเมื่อไม่รู้คำตอบดีพอหรือเมื่อได้รับคำสั่งให้ทำเช่นนั้น
      มีทั้งการฝึกจากตัวอย่างการเรียกใช้เครื่องมือที่ทำตามฟอร์แมตนั้น และการฝึกที่ปรับเฉพาะกับเครื่องมือบางตัว
      ตัวอย่างเช่น gpt-oss มีแนวโน้มจะใช้เครื่องมือค้นหาแม้ไม่มีการพูดถึงเลย
      ในเอกสารของ Anthropic ยังแยกรายการเครื่องมือที่คุ้นเคยไว้ด้วย (เช่น text_editor, bash) และมีความเป็นไปได้สูงว่าเครื่องมือเหล่านี้ถูกฝึกให้เข้าใจวิธีใช้อย่างลึกพอสมควรด้วย
      ในทางปฏิบัติโครงสร้างพวกนี้แตกง่ายพอสมควร และทั้งหมดอาศัยสัญญาณระดับต่ำอย่าง “special token หรือ sequence ของโทเค็น”

  • คำพูดที่ว่า “ถ้าโยนโทเค็นเข้าไปในลูปเรื่อย ๆ เอเจนต์ก็จะเกิดขึ้น” ถ้าลองแทนคำว่า “โทเค็น” ด้วย “เงิน” จะรู้สึกว่าเป็นการเสียดสีโลกความจริงได้ดีมาก
    สรุปคือแค่เผาเงินต่อเนื่อง เดี๋ยวเอเจนต์ก็เกิดขึ้นเอง

    • ผมไม่คิดว่าจะพูดได้ว่าโทเค็นทั้งหมดก็คือเงิน
      โมเดลแบบรันในเครื่องก็กำลังดีขึ้นเรื่อย ๆ
      ตอนนี้ถ้าต้องการผลลัพธ์ที่ดีที่สุดยังคงต้องใช้โทเค็น (=เงิน) แต่อนาคตอาจเปลี่ยนไปได้มาก
  • พอมีแต่รูปแบบนี้มันอ่านยากมาก
    ให้ความรู้สึกเหมือนกำลังดูตัวจำลองการเลื่อนหน้าจอ

  • สงสัยว่าทำไมต้องมีเครื่องมืออื่นนอกจาก bash
    พวกการดูรายการไฟล์ การค้นหาและสำรวจ repo หรือการแก้เนื้อหาไฟล์ ใช้แค่ bash อย่างเดียวก็ทำได้ไม่ใช่หรือ
    หรือว่านี่เป็นกรณีแบบที่แสดงในตัวอย่าง mini-swe-agent

    • ถ้ามองในเชิงเทคนิค ใช้แค่ bash ตัวเดียวก็ทำงานได้หลากหลายมาก และผมเองก็เคยสำเร็จแบบนั้นจริง
      สิ่งที่น่าสนใจคือยิ่งจำกัดเครื่องมือ เอเจนต์ยิ่งหาทางแก้แบบสร้างสรรค์มากขึ้น
      แต่ถ้าให้เครื่องมือหลากหลายที่ถูกฝึกไว้แล้ว โมเดลจะรู้วิธีใช้ของแต่ละตัวดีอยู่แล้ว ทำให้ใช้โทเค็นได้คุ้มกว่าและอัตราความสำเร็จโดยรวมสูงขึ้น
      ถ้าใช้แต่ bash มันก็มักหลงกับพวก bashism การจัดการอาร์กิวเมนต์ หรือการจัดการช่องว่างบ่อย ๆ

    • การมีเครื่องมือแยกต่างหากง่ายกว่าการยัดทุกอย่างลงใน bash ตัวเดียวมาก
      ถ้าจะทำทุกอย่างผ่าน bash คุณต้องสร้างระบบแยกว่าคำสั่งไหนปลอดภัยจนรันได้ทันที (เช่น ดูรายการไฟล์) และคำสั่งไหนเสี่ยงจนต้องขออนุมัติผู้ใช้ก่อน
      ถ้ามีเครื่องมือสำหรับดูรายการไฟล์แยกออกมา ก็ยังป้องกันไม่ให้ไฟล์นอกไดเรกทอรีโปรเจกต์ถูกเปิดเผยได้ด้วย

    • ในทางปฏิบัติ ใช้แค่เครื่องมือ bash กับ Edit ก็เพียงพอให้ coding agent ทำงานได้แล้ว (Edit ไม่ถึงกับบังคับ แต่ถ้าไม่มีจะไม่มีประสิทธิภาพมาก)
      แต่ในส่วนค้นหาโค้ดอาจจะลำบากหน่อย
      เช่น อาจแก้ได้ด้วยการปรับพรอมป์ต์ให้ใช้ ripgrep ผ่าน bash

    • ทำไมต้องมี IDE? ทั้งที่ทุกอย่างทำได้จากเชลล์อยู่แล้ว ทำไมถึงยังใช้?
      UI (อินเทอร์เฟซ) มีหน้าที่มอบข้อมูลและแอ็กชันที่จำเป็นในจังหวะที่ต้องใช้พอดี

    • สำหรับคำถามว่าทำไมถึงมีอย่างอื่นนอกจาก bash tool ผมคิดว่าน่าจะเป็นเพราะเริ่มต้นด้วยเครื่องมือให้น้อยที่สุดก่อน แล้วค่อยเพิ่ม bash ทีหลังได้

  • แทนที่จะอธิบายยืดยาวว่า “วิธีสร้างเอเจนต์” ผมอยากเห็นโปรเจกต์ที่เอเจนต์สร้างขึ้นจริงมากกว่า

    • ถ้าคุณสร้างเอเจนต์ขึ้นมาเองแล้วเอามาแชร์เป็น “Show HN” จะดีมากเลย
  • มีใครอธิบายได้ไหมว่าแกนอย่าง Oracle, Agent, high safety, low safety หมายถึงอะไร

  • ผมลองด้วยตัวเองบนโมเดล on-device ของ edge และ chrome (phi4-mini, gemini nano) แล้ว และแปลกใจที่มันทำงานได้ดีทีเดียวเมื่อเทียบกับขนาดโมเดล
    กรณีทดลอง how to build an agent on device

 
crawler 2025-08-25

ปกติเขาว่ากันว่ารูปหนึ่งรูปมีค่าเท่ากับคำพูด 1,000 คำ แต่สำหรับข้อมูลนี้รู้สึกเหมือนมูลค่าของรูปโดนลดราคาไป 99.6% เลย สงสัยมากว่ามันคืออะไร

โคตรฮาเลย 555555 ตอนแรกก็งงว่าหมายถึงอะไร แต่พอกดลิงก์เข้าไปแล้วก็เข้าใจแจ่มแจ้งเลย

 
savvykang 2025-08-25

ภาพตัวอย่างของโพสต์อื่น ๆ ในบล็อกก็ห่วยเหมือนกัน ดูแล้วไม่อยากกดเข้าไปเลย

 
nemorize 2025-08-25

55555555555555555555555