เหตุผลที่ไม่สามารถแนะนำ Grafana ได้อีกต่อไป

(henrikgerdes.me)

22 คะแนน โดย GN⁺ 2025-11-17 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

ชุดผลิตภัณฑ์ Grafana มีแนวโน้ม ยกเลิกหรือเปลี่ยนองค์ประกอบหลักบ่อยในรอบเวลาสั้น ๆ ทำให้โครงสร้างไม่เอื้อต่อการใช้งานระยะยาว
ทุกครั้งที่นำโซลูชันใหม่มาใช้ วิธีคอนฟิก, DSL, Helm chart, Operator ฯลฯ จะเปลี่ยนซ้ำไปมา จนกลายเป็นสภาพแวดล้อมที่ดูแลรักษาอย่างเสถียรได้ยาก
เมื่อเทียบกับระบบนิเวศของ Prometheus Operator ยังมี ความเข้ากันได้ของ CRD ที่ไม่สมบูรณ์ โดย ServiceMonitor และ PodMonitor ใช้ได้ แต่ฟีเจอร์สำคัญอย่าง AlertmanagerConfig ยังมีช่องว่างด้านการรองรับ
Mimir 3.0 บังคับเพิ่มการพึ่งพา Apache Kafka ทำให้ความซับซ้อนของคลัสเตอร์และภาระในการดูแลระบบสูงขึ้นมาก
ทั้ง Grafana Cloud และชุดผลิตภัณฑ์ Mimir·Loki·Grafana โดยรวม ตำแหน่งคอนฟิกและเอนด์พอยต์เปลี่ยนได้ง่าย ทำให้รูปแบบที่สร้างครั้งเดียวแล้วใช้งานยาว ๆ เป็นเรื่องยากซ้ำแล้วซ้ำเล่า

การเปลี่ยนโครงสร้างบ่อยของชุดผลิตภัณฑ์ Grafana

ฟังก์ชันหลักอย่าง Grafana Agent, Flow Mode, OnCall ถูก ยกเลิกหรือแทนที่ภายใน 1–3 ปี ซ้ำแล้วซ้ำอีก
- Grafana UI ที่อิง Angular ถูกเปลี่ยนเป็น React ทำให้แดชบอร์ดเดิมจำนวนมากใช้งานไม่ได้
- Helm chart บางส่วนไม่ได้รับการบำรุงรักษาอีกต่อไป

ความซับซ้อนที่เพิ่มขึ้นจากการนำ Alloy มาใช้

Grafana Alloy ที่ชูจุดขายแบบ all-in-one เข้ามาแทน Agent เดิม แต่ในช่วงแรกมีปัญหาด้านเสถียรภาพ
- ใช้ DSL ของตัวเอง (คล้าย HCL) ทำให้ขาดความต่อเนื่องจากกระบวนการเดิมที่อิง YAML
- เมื่อมี Alloy Operator เพิ่มเข้ามา องค์ประกอบของระบบก็ยิ่งซับซ้อนขึ้น

ความสอดคล้องที่ไม่สมบูรณ์กับระบบนิเวศของ Prometheus Operator

รองรับมาตรฐานมอนิเตอร์ของ K8s อย่าง ServiceMonitor, PodMonitor แต่
- PrometheusRules ต้องมีการตั้งค่าเพิ่มเติม
- AlertmanagerConfig ยังไม่รองรับ
- Mimir ใช้ Alertmanager ของตัวเอง จึงเกิด ความต่างของเวอร์ชันและความไม่เข้ากันในรายละเอียด

การเพิ่มการพึ่งพา Kafka ใน Mimir 3.0

แม้มุ่งเป้าไปที่การขยายระบบได้ดีกว่าเดิม แต่
- มีการ เพิ่ม Kafka เป็นองค์ประกอบบังคับในส่วนสำคัญ ทำให้ความยากในการปฏิบัติการสูงขึ้นมาก
- จากการติดตั้งด้วย Helm เพียงชุดเดียว → กลายเป็นความซับซ้อนที่เพิ่มแบบทวีคูณจากการประสานหลายคอมโพเนนต์

ระบบนิเวศที่ใช้งานอย่างเสถียรได้ยาก

ingestion endpoint ของ Grafana Cloud หายากขึ้นเพราะมีการนำระบบจัดการใหม่มาใช้
รอบการอัปเกรดและยกเลิกขององค์ประกอบหลักเกิดเร็ว จึงไม่เหมาะกับองค์กรที่ต้องการ “ระบบมอนิเตอร์ที่น่าเบื่อแต่เสถียร”
มากกว่าปัญหาของเทคโนโลยีเอง วิธีบริหารผลิตภัณฑ์และความเร็วในการเปลี่ยนแปลง คือปัจจัยหลักที่บั่นทอนความน่าเชื่อถือ

5 ความคิดเห็น

ifmkl 2025-11-18

แดชบอร์ดที่มีมาให้ใน influxdb เองก็พอใช้งานแบบง่าย ๆ ได้เหมือนกัน

dongho42 2025-11-18

ผมเห็นด้วยว่า Grafana ไม่ค่อยดีเท่าไร แต่มีตัวไหนที่พอจะแนะนำได้บ้างไหมที่รองรับหลาย datasource ได้มากพอๆ กับ Grafana?

cysl0 2025-11-18

ก็ไม่ได้มีทางเลือกอื่นที่ชัดเจนเท่าไร

savvykang 2025-11-18

ดูเหมือนว่าแม้แต่ใน Grafana ก็มีคนจำนวนไม่น้อยที่อยากได้เลื่อนตำแหน่งหรือแต่งเรซูเม่ให้ดูดีขึ้นนะ

GN⁺ 2025-11-17

ความคิดเห็นจาก Hacker News

ฉันเองก็กำลังคิดอย่างจริงจังว่าจะ เลิกใช้ Grafana ไปเลยดีไหม ด้วยเหตุผลเดียวกับผู้เขียน
การต้องมาสร้างแดชบอร์ดใหม่ทุกปี รีเซ็ตการแจ้งเตือน และตามฟีเจอร์ใหม่ให้ทันนั้นทำให้เหนื่อยมาก
ที่จริงอยากให้มันแค่แจ้งตอนที่บริการล่มก็พอ และตราบใดที่ data source หรือ metric ไม่เปลี่ยน ก็อยากคงนิยามแดชบอร์ดเดิมไว้ได้ยาว 10 ปี
เมื่อก่อนในแถบด้านข้างมีลิงก์หลักแค่ 4~5 อัน แต่ตอนนี้มีเมนูย่อยซ้อนในเมนูเยอะเกินไป จนหาฟังก์ชันพื้นฐานอย่างแดชบอร์ดหรือการแจ้งเตือนได้ยาก
การต้องเรียนรู้ UI ใหม่ทุกครั้งสำหรับสิ่งที่เปิดดูแค่เดือนละครั้งนั้นไม่มีประสิทธิภาพเอามาก ๆ
ในสถานการณ์ที่อายุการใช้งานของบริการมีแค่ 2~3 ปี การซ้อนผลิตภัณฑ์หลายตัวเข้าไปให้ความรู้สึกว่า สุดท้ายก็มีแต่ ภูเขาหนี้ทางเทคนิค ที่โตขึ้นเรื่อย ๆ
ความจริงที่ว่าทุกไตรมาสต้องเปลี่ยนอะไรชิ้นใหญ่สักอย่างนั้นช่างทรมาน
Mimir เป็นระบบที่ออกแบบมาเพื่อจัดการ metric ในระดับสเกลที่ต่างออกไปโดยสิ้นเชิง
ในระดับนั้น Kafka จำเป็นจริง
แต่ผู้ใช้ส่วนใหญ่ไม่ได้ต้องการ ความสามารถในการขยายระบบ ระดับนั้น
ถ้าไม่ได้รัน Mimir บน Kubernetes cluster เฉพาะทาง ก็ถือว่าออกแบบเกินความจำเป็น
ใช้ Prometheus ไปตรง ๆ จะสมจริงกว่า
- ขอแนะนำ Victoria Metrics
  แม้จะรันในโหมด single instance ก็ทำงานได้ดีอย่างน่าทึ่ง และ ขยายระบบได้ง่ายมาก
  เคยใช้ทั้งในหลายองค์กรและโปรเจกต์ส่วนตัว และก็พอใจเสมอ
- คำพูดที่ฟันธงว่า “ไม่มีโอเพนซอร์สตัวไหนขยายสเกลได้เทียบชั้นกัน” ฟังแล้วน่าสนใจดี
  แต่ Amazon Managed Prometheus ของ AWS นั้นสร้างบน Cortex และ OpenObserve เองก็ใช้งานในระดับเพตะไบต์อยู่แล้ว
- อยากรู้ว่าสำหรับการมอนิเตอร์แอปขนาดเล็ก คนอื่นชอบโซลูชันไหน
  แบบที่เหมาะที่สุดคือดีพลอยง่ายด้วย single binary รองรับ OpenTelemetry และภายหลังก็ย้ายไปผู้ให้บริการ OTEL รายอื่นได้
ถ้าจะสร้างโซลูชันใหม่บน OTEL อยากรู้ว่าตัวไหนดูมีอนาคตที่สุดในฐานะทางเลือกแทน Prometheus/Grafana
- เราเองก็เริ่มจาก kube-prometheus-stack แต่ไม่ชอบ PromQL
  ถ้าจะจัดการ log และ trace ก็ต้องมีคอมโพเนนต์ซับซ้อนเพิ่มอีก
  เลยไปเจอ GreptimeDB ซึ่งรองรับ การจัดการ metric·log·trace แบบรวมศูนย์
  เก็บข้อมูลด้วย OpenTelemetry และแสดงผลด้วย Grafana
  สามารถสร้างแดชบอร์ดด้วย SQL ได้ จึงเข้ากับทักษะของทีมได้ดี
  ด้วยโครงสร้างที่เรียบง่ายจึงทำให้พอใจมากในฐานะ platform engineer
- ขอแนะนำ OpenObserve
  มันถูกสร้างมาเพื่อแก้ความซับซ้อนของ Grafana และ Elastic และสามารถจัดการ log·metric·trace·dashboard·alert ได้ทั้งหมดใน single container
  (ผู้เขียนความเห็นเป็น maintainer ของ OpenObserve)
- ช่วงหลังที่บริษัทกำลังย้ายจาก Grafana ไปเป็น SigNoz
  เป็นโอเพนซอร์ส กำลังพัฒนาอย่างคึกคัก และการสื่อสารของทีมก็ดี
- SigNoz เป็นโอเพนซอร์สแบบ OpenTelemetry-native
  มีผู้ใช้จำนวนมากย้ายมาเพื่อหลีกเลี่ยงความซับซ้อนของ Grafana ที่ต้องจัดการหลายแบ็กเอนด์ด้วยตัวเอง
  (ผู้เขียนความเห็นเป็น maintainer ของ SigNoz)
ไม่เข้าใจว่าทำไมนักพัฒนาต้องเปลี่ยนการตั้งค่าทุกสัปดาห์เพื่อ ไล่ตามเทคโนโลยีใหม่ล่าสุด
ฉันใช้ชุด Grafana + Prometheus มาตั้งแต่ปี 2017 และตอนนี้ก็ยังทำงานได้ดี
อัปเดตเฉพาะเวอร์ชัน LTS ทุก 1~2 ปี
แดชบอร์ดยังสมบูรณ์แบบเหมือนเดิม และไม่มีปัญหาอะไรเลย
สำหรับคนส่วนใหญ่ ชุดนี้ที่ น่าเบื่อแต่เสถียร น่าจะดีที่สุด
- อยากรู้ว่าตอน Angular เลิกซัพพอร์ตแล้วจัดการกันอย่างไร
  อยากถามว่าหรือว่ายังใช้เวอร์ชันเก่าอยู่แบบเดิม
มี ตัวสร้างแดชบอร์ด แบบโอเพนซอร์สที่ใช้แทน Grafana ได้ไหม? ที่บริษัทเราก็ใช้ Grafana กันอย่างกว้างขวาง
- Perses ดูเป็นทางเลือกที่มีอนาคตที่สุด
  หรือจะใช้ Prometheus console template หรือแดชบอร์ดในตัวของ VictoriaMetrics ก็ได้ แต่ความสามารถจะจำกัดกว่ามาก
- ดูเหมือนว่าความไม่พอใจของผู้เขียนจะมุ่งไปที่ผลิตภัณฑ์อื่น ๆ ของบริษัทนั้นมากกว่าตัว Grafana เอง
  ตัว Grafana dashboard เองยังใช้งานได้ค่อนข้างสบายเมื่อจับคู่กับ VictoriaMetrics + ClickHouse
- เมื่อก่อนก่อนยุค Grafana ก็มีทางเลือก FOSS หลายตัว แต่ส่วนใหญ่หายไปหมดแล้ว
  จำได้ลาง ๆ แค่ชื่ออย่าง RRD หรือ Nagios
- OpenSearch Dashboards ก็เป็นอีกทางเลือก แต่ถ้าใช้เพื่อการแสดงผลอย่างเดียว Grafana ก็ยังดีกว่า
- เราแทนที่ Loki stack ทั้งหมดด้วยชุด Graylog + ElasticSearch
การเปลี่ยนแปลงไม่หยุด ของ Grafana กลับทำให้ชินไปเอง
ทุกครั้งที่มี major release แดชบอร์ดจะพังหรือ UI เปลี่ยน แต่ก็ได้แต่คิดว่าเอาเถอะ
ปัญหาจริงคือ PromQL lock-in ของ Prometheus
ถ้าเปลี่ยนชื่อ metric ก็ต้องแก้กฎ การแจ้งเตือน และแดชบอร์ดทั้งหมด
PromQL แทบไม่แจ้ง error นอกจาก syntax error ดังนั้นจึงต้องใช้เครื่องมืออย่าง pint มาช่วยตรวจสอบ
- ปัญหา PromQL เป็นความรับผิดชอบของ Prometheus มากกว่า Grafana
เวลาดีพลอยบนเซิร์ฟเวอร์เดี่ยว มักใช้ Prometheus Pushgateway + Grafana เป็น docker-compose template
มันง่ายและทำงานได้ดี แต่พอปริมาณ metric โตขึ้น ความซับซ้อนก็ระเบิดตามไปด้วย
ถ้า Prometheus ยังคงมี รูปแบบการส่งข้อมูล ที่มีประสิทธิภาพกว่านี้ ปัญหาแบบนี้คงน้อยลง
ถ้ามี binary metric format ที่ compact แทน text format ก็น่าจะรองรับ label ระดับหลายล้านได้สบายกว่านี้
SigNoz เป็นตัวเลือกที่ดีและกำลังพัฒนาอย่างคึกคัก
- ฉันก็เห็นด้วยกับ SigNoz
  เมื่อก่อนเคยจ่ายแพงมากให้กับแพลตฟอร์ม observability บนคลาวด์ แต่ตอนนี้รัน self-hosted SigNoz บนกล่อง Hetzner แล้วจบที่เดือนละ $10
Prometheus และ Grafana ต่างก็พยายามมุ่งไปสู่ full-stack solution และเมื่อ OTEL เข้ามา ภาพรวมก็ยิ่งซับซ้อนขึ้น
- ฉันยังไม่เข้าใจทั้งหมดว่า OTEL เข้าไปอยู่ตรงไหนในโอเพนซอร์สมอนิเตอร์ริงสแตก
  OTEL เป็นโปรโตคอลสำหรับ metric·trace·log แต่ไม่มี DB เดียวที่รองรับทั้งหมดนี้
  ส่วนใหญ่ยังคงใช้การจับคู่ Prometheus (metric) + OpenSearch (log)
  สุดท้ายแล้ว OTEL ก็เหมือนบังคับให้ต้อง เปลี่ยน collector และจัดโครงสร้างใหม่