16 คะแนน โดย GN⁺ 2025-07-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เปรียบเทียบราคาของ ผู้ให้บริการ LLM หลายราย (เช่น OpenAI, Anthropic, Google) ได้อย่างชัดเจนด้วย เกณฑ์เดียวกัน (ราคาต่อโทเค็น)
    • รองรับทั้งตารางและกราฟในรูปแบบ ผู้ให้บริการ, โมเดล, Input ($/M), Output ($/M)
  • เวลาอัปเดตข้อมูลล่าสุด: 26 กรกฎาคม 2025
  • ก่อนเลือกโมเดลเฉพาะ สามารถใช้เป็นข้อมูลอ้างอิงสำหรับการวิเคราะห์ ประสิทธิภาพเทียบกับต้นทุน ได้
  • สมัครรับจดหมายข่าวเพื่อ รับข้อมูลล่าสุดเป็นประจำ

1 ความคิดเห็น

 
GN⁺ 2025-07-26
ความเห็นจาก Hacker News
  • (ทำงานที่ OpenRouter) เราร่วมมือกับผู้ให้บริการที่เปิดข้อมูลราคาและข้อมูลโมเดลผ่าน API เพื่อแก้ปัญหานี้ ทำให้สามารถอัปเดตข้อมูลในมาร์เก็ตเพลสให้ใหม่ล่าสุดได้ตลอด นึกถึงเมื่อปีที่แล้วที่ยังต้องแชร์ข้อมูลกันผ่านการคุยใน Slack อยู่เลย ช่วงหลังโครงสร้างราคาต่อโทเค็นซับซ้อนมากขึ้นมาก เพราะแต่ละผู้ให้บริการมีปัจจัยอย่างความยาวพรอมป์ต์ การแคช และอื่น ๆ จริง ๆ แล้วประเด็นสำคัญไม่ใช่ราคาต่อโทเค็นในระดับโมเดล แต่เป็นราคาต่อโทเค็นในระดับ endpoint ตัวอย่างเช่น เวอร์ชันเร็ว/ช้า, thinking/non-thinking แม้จะเป็นโมเดลเดียวกัน แต่ราคามักต่างกันตาม endpoint เราทุ่มเทอย่างมากเพื่อจัดการเรื่องทั้งหมดนี้ และตอนนี้ผลลัพธ์ถูกเผยแพร่บน OpenRouter แล้ว (ยอมรับว่ายังไม่ใช่ฟอร์แมตที่จัดให้อ่านง่ายโดยเน้นด้านราคาเป็นหลัก)
    • เพิ่งลองทำให้กระชับและดูง่ายขึ้นได้ทันที ขอบคุณมากจริง ๆ สำหรับความพยายามนี้ ขอแชร์ โปรเจกต์ llm-pricing
  • สงสัยว่าข้อมูลอาจผิดหรือเปล่า ราคาต่อ input token ของ Google Gemini 2.5 Flash-Lite คือ $0.10 แต่ที่นี่ดูเหมือนจะแสดงเป็น $0.40 ดู ตารางราคาอย่างเป็นทางการ
    • ข้อมูลไม่ได้ผิด น่าจะเป็นเพราะผมอ่านตารางของตัวเองผิด (แก้ไข: เหมือนผมจะตอบผิดเอง คำตอบแบบนั้นไม่ค่อยเหมาะ)
  • ข้อมูลนี้ยอดเยี่ยม แต่ในแง่ UX ยังต้องคิดเพิ่มอีกมาก
    • ถึงจะเป็นโมเดลเดียวกัน ราคาก็ต่างกันตามผู้ให้บริการ
    • ผู้ให้บริการแต่ละเจ้าปรับแต่งไปคนละเป้าหมาย เช่น ความเร็ว ต้นทุน ฯลฯ
    • แม้เป็นโมเดลเดียวกันก็มีเวอร์ชัน quantization ต่างกัน
    • บางที่ เช่น Grok API มีราคาแบบ batch
    • ยังมีเงื่อนไขให้กรองเพิ่มอีกมาก เช่น “thinking/non-thinking”, รองรับมัลติโหมดหรือไม่
    • คะแนน benchmark ก็เป็นอีกตัวแปรหนึ่ง
      artificialanalysis.ai ที่ให้ blended cost (ค่าใช้จ่ายรวม input/output) ก็ช่วยอ้างอิงได้ระดับหนึ่ง แต่ในทางปฏิบัติ โมเดลค่าบริการ Input/Output ก็ยังเปลี่ยนไปได้ตามจุดประสงค์การใช้งานอยู่ดี หวังว่าจะมีเว็บที่ทำ UI เปรียบเทียบได้ดีจริง ๆ ออกมาสักที อยากให้มีใครสักคนทำให้ได้เร็ว ๆ
    • (ทำงานที่ OpenRouter) จริง ๆ แล้วบนเว็บมีเครื่องมือเปรียบเทียบโมเดลที่เรียบง่ายมากอยู่ แม้จะไม่ค่อยเด่น ตัวอย่างดูได้ที่ หน้าเปรียบเทียบโมเดลของ OpenRouter
    • สงสัยว่าถ้าเพิ่มคอลัมน์ “provider” หรือก็คือสถานที่ที่มีการเรียก API จริง ลงในตาราง จะช่วยแก้ปัญหานี้ได้ไหม
    • การทำการเปรียบเทียบที่ยุติธรรมคงยากมาก ทางที่ดีที่สุดน่าจะเป็นการแสดง trade-off ของแต่ละเงื่อนไขให้ชัด แล้วให้ผู้ใช้ตัดสินใจเอง แนวคิดแพลตฟอร์มแบบ token exchange ที่ให้ผู้ใช้อัปโหลดความต้องการ แล้วให้บริษัทมาแข่งขันกันเสนอบริการที่ตรงเงื่อนไขก็ฟังดูน่าสนใจ รวมถึงอาจจินตนาการถึงมาร์เก็ตเพลสที่ทุกคนแชร์กำลังประมวลผลของตัวเองได้ด้วย แต่ปัญหาเรื่องการแอบอ้างความสามารถจริงหรือการรั่วไหลของข้อมูลก็เป็นเรื่องที่ต้องมีทางแก้แยกต่างหาก
    • ได้โปรดอย่าให้ความสำคัญกับอันดับ benchmark ไปมากกว่านี้เลย น่าเสียดายที่บรรยากาศยังผลักให้คนหมกมุ่นกับการเปรียบเทียบแบบนี้มากเกินไป
  • เมื่อก่อนเวลาจะหาราคาของโมเดลที่เพิ่งเปิดตัวใหม่ ต้องไล่ดูหน้าประชาสัมพันธ์มากมายจนน่าหงุดหงิด ตอนนี้ดูทั้งหมดได้ใน OpenRouter ในที่เดียวจึงสะดวกมาก
  • ปัญหาหลักคือโทเค็นแตกต่างกันไปตามผู้ให้บริการ/โมเดล ไม่ใช่แค่ในระดับ tokenizer model เท่านั้น แม้แต่ในผู้ให้บริการเดียวกันก็ยังต่างกันมาก
    • เช่น สำหรับอินพุตภาพ gpt-4o-mini ใช้โทเค็นมากกว่า gpt-4 ถึง 10 เท่า
    • output ของ gemini 2.5 pro โดยปกติคิดค่าบริการเป็นโทเค็น แต่ถ้าใช้ structured output จะนับอักขระหนึ่งตัวเป็นหนึ่งโทเค็น
    • ข้อมูลราคาต่อโทเค็นสำคัญก็จริง แต่สิ่งที่ต้องการจริง ๆ คืออยากรู้ว่าคำสั่ง/คำตอบเดียวกันจะมีค่าใช้จ่ายเท่าไรในแต่ละโมเดล เพราะไม่ใช่ทุกโทเค็นจะเท่ากัน
    • มีแผนจะรันการทดลองแบบเดียวกันทุกวัน แล้วเพิ่มค่าใช้จ่ายนั้นเป็นคอลัมน์ในตาราง เช่น อาจวัดจากการป้อนพรอมป์ต์ "สรุปบทความนี้เป็น 200 คำ" กับทุกโมเดลแบบเดียวกัน
    • อยากฟังรายละเอียดเพิ่มเกี่ยวกับคำอธิบายที่ว่า structured output ใน gemini 2.5 pro ใช้วิธีนับแบบอักขระ=โทเค็น ยังไม่ค่อยเข้าใจว่าต่างกันอย่างไร
  • ตอนนี้เว็บล่มอยู่ แต่ก็อยากแนะนำเครื่องคิดราคา LLM ของ Simon Willison ด้วย (llm-prices.com)
  • ถ้ามีงบฮาร์ดแวร์ประมาณ $2500 อยากรู้ว่าสามารถรันโมเดลอะไรแบบโลคัลได้บ้าง ถ้าไม่พอควรมีงบเท่าไร และถ้ามีทูทอเรียลเกี่ยวกับวิธีรันเองบนเครื่องโลคัลก็อยากรู้ด้วย
    • ถ้าสนใจใช้งาน local LLM, ollama.com คือจุดเริ่มต้น จำนวนโหนดสามารถเทียบกับขนาด RAM (GB) ได้ ตัวอย่างเช่นโมเดล Deepseek-r1:7b ต้องการประมาณ 7GB และยิ่ง context window ใหญ่ก็ยิ่งต้องใช้หน่วยความจำมากขึ้น ถ้าจะประกอบเครื่อง AI ด้วยงบ $2500 แนะนำสเปกที่มี unified memory เยอะ เช่น LPDDR5 ลิงก์อ้างอิง: Framework AIMax300
    • เมื่อ 18 เดือนก่อนผมซื้อ Mac Mini M2Pro 32GB มาในราคา $1900 และมันรันโมเดลโลคัลแบบ quantized ขนาด 40B ได้ดีพอสมควร ถ้าโมเดลโลคัลประสิทธิภาพไม่พอ บางครั้งก็ใช้คู่ Gemini 2.5 flash/pro กับ gemini-cli ด้วย ทั้ง commercial API และโมเดลโลคัลต่างก็มีตัวเลือกดี ๆ เยอะ ดังนั้นทางที่ดีที่สุดคือเลือกมาสักอย่างแล้วโฟกัสกับการตั้งระบบให้เสร็จเร็ว
    • ตัวเลือกที่ดีที่สุดคือซื้อการ์ดจอ 3090 มือสอง 2 ใบ แถว ๆ $600 ต่อใบ ตอนนี้ 3090 ก็ยังคุ้มค่าต่อราคามาก
    • Kimi และ deepseek เป็นไม่กี่โมเดลที่เมื่อเทียบกับผู้ให้บริการคลาวด์รายใหญ่แล้ว ช่องว่างด้านประสิทธิภาพไม่ได้มากนัก
    • โมเดลตระกูล ollama บางตัวรันได้สบาย ๆ แค่มี CPU ที่ดีพอ
  • เมื่อก่อนทางเลือกเดียวคือต้องไล่ดูแต่ละเว็บไซต์เพื่อรู้ข้อมูลราคาของผู้ให้บริการแต่ละเจ้า แต่ OpenRouter เป็นทางเลือกที่ดี มีการลิสต์รวมถึงโมเดลเปิดด้วย และช่วยให้พอมองเห็นราคาจริง/ขนาดจริงของโมเดล รวมถึงระดับการอุดหนุนในปัจจุบันได้คร่าว ๆ
    • OpenRouter API มี endpoint สำหรับดูข้อมูลโมเดลและราคา (เอกสาร OpenRouter Model API) ข้อเสียคือให้ข้อมูลผู้ให้บริการเพียงรายเดียวต่อหนึ่งโมเดล สำหรับโมเดลเชิงพาณิชย์ไม่ค่อยมีปัญหา แต่โมเดลโอเพนซอร์สมีความต่างของราคาตามผู้ให้บริการสูงถึง 5–10 เท่า จึงควรใช้เพื่ออ้างอิงเท่านั้น
  • อยากให้มีข้อมูลที่รวมทั้งราคากับ benchmark ทั่วไป เพื่อแสดงว่าโมเดลไหนมี “ความคุ้มค่า (คะแนน benchmark/ต้นทุนต่อโทเค็น)” ดีที่สุด
  • นโยบายราคาของผู้ให้บริการแต่ละเจ้าไม่ได้เป็นแค่การคิดเงินแบบ input/output ธรรมดา แต่ซับซ้อนกว่านั้นมาก
    • ราคาช่วงนอกพีกของ DeepSeek
    • ราคาแบบ batch ของ OpenAI/Anthropic
    • ราคาตาม context window ของ Google/Grok
    • การคิดค่าบริการแยกโทเค็น thinking/non-thinking ของ Qwen
    • ราคาแบบ tier สำหรับ input token ของ Qwen coder
      อ้างอิงโพสต์ที่เกี่ยวข้อง: X.com paradite_