모니터링 7

[Grafana]pod 생성 시 user provisioning

환경helm 3.1k8s 1.30EKS원하는 것Grafana pod가 처음 생성될 때, user 계정들을 provision 하길 원함생성된 user들을 적절히 그룹화하고 권한 등을 부여하고자 함.문제 상황Grafana community에서는 admin 계정만 provision 가능함.https://github.com/grafana/helm-charts/blob/main/charts/grafana/values.yaml#L482-L491 helm-charts/charts/grafana/values.yaml at main · grafana/helm-chartsContribute to grafana/helm-charts development by creating an account on GitHub.github..

[Loki, K8s] 원인 불명의 Loki - CrashLoopBackOff 문제 해결 (EBS 용량 )

개요3개월 이상 안정적으로 작동하던 Loki pod가 알 수 없는 이유로 CrashLoopBackOff 상태가 됨.수동으로 Pod 삭제, Service enable / disable 등 처리를 했음에도 CrashLoopBackOff 상태에서 벗어나지 못함.에러 문구 확인 결과 loki init 단계에서 실패하는 것으로 판단됨.원인loki에 할당된 PV 가 모두 사용됨.구체적인 원인Kuberenetes Event exporter 설치 후 정상적인 dashboard 작동 위해 loki의 버전을 높임.Loki의 버전업 (2.6.1 -> 2.9.6)에 따라 log retention 의 default 값이 off로 바뀜.구동 이후 약 2개월간의 로그가 누적 저장됨.정기적으로 쿼리가 retention 되지 않아 E..

[모니터링] Docker-loki-plugin 환경에서 log라벨 설정

현재 Docker-compose 기반 서버들의 컨테이너 로깅 아키텍쳐는 다음과 같다.Docker Daemon ( with Docker-loki-plugin) > Loki > Grafanahttps://grafana.com/docs/loki/latest/send-data/docker-driver/configuration/Promtail 을 활용하지 않기에, 기존 k8s 환경에서 Promtail을 이용하던 것과는 다른 방법으로 로그를 파싱해야 함.관련 내용 리서치.Docker 환경에서 Log 라벨 설정1. 환경 설정의 차이 KubernetesDocker-compose컨테이너 로그 수집기Promtail별도로 존재하지 않음아키텍쳐Promtail > Loki > GrafanaDocker Daemon(with do..

카테고리 없음 2024.12.31

[K8s, Grafana] Loki 데이터량 확인 및 유지기간 설정 방법 확인(2.6.1)

Loki(2.6.1) 데이터량 확인 및 유지기간 설정 방법 확인1. 데이터량 확인 방법Prometheus 에서 아래 metric을 쿼리loki_ingester_chunk_stored_bytes_total백분율 등의 형태로도 쿼리 가능.(sum(loki_ingester_chunk_stored_bytes_total) / sum(node_filesystem_size_bytes{mountpoint="/home"}) ) * 1001) 시각화 시안퍼센트 게이지와 disk 크기 총량시계열 그래프텍스트2. 유지기간 설정1) 설정 방법: Loki compactor 설정compactor: index(로그들의 색인 파일)를 압축 / 삭제하는 역할.삭제 설정: retention_enabled: true.default는 fa..

[RKE2] Too many open files 로 발생하는 crashLoopBackOff 에러 해결

Too many open files 로 발생하는 crashLoopBackOff 에러 해결Grafana에서 제공하는 helm chart 기반으로 Promtail 설치했다. Node의 memory 와 cpu 모두 정상임에도 pod가 실행되지 않았다.OS단에서 max_user_instance 를 늘리는 것으로 해결할 수 있다.# 에러 메세지level=error ts=2024-04-11T08:08:45.478913366Z caller=main.go:170 msg="error creating promtail" error="failed to make file target manager: too many open files"해결한 방법OS상에서 max_user_instances를 늘린다.sudo sysctl fs.i..

[모니터링, k8s, Grafana, Prometheus] Prometheus 쿼리에 '$__rate_interval' 이 포함될 때 return 값이 없는 현상

상황Grafana 대시보드에서 Prometheus를 datasource로 사용하는 대시보드에서 metric들을 쿼리할 때, 그래프에 일부 값들이 표현되지 않았다.비교적 짧은 기간(5 ~ 10m) 을 쿼리할 때에만 해당 증상이 나타났다. 긴 기간을 쿼리할 때에는 정상 작동했다.추측했던 원인prometheus 의 버전 문제:[$__rate_interval]을 지원하지 않는 버전이지 않을까 추측함 -> 아니었다.원인Prometheus 의 scrape_interval 값이 grafana의 rate_interval(조회 기간에 따라 자동 생성됨)값에 비해 크다.Grafana 에서 rate_interval % 4가 Prometheus 의 scrape_interval 값 보다 작을 경우, 쿼리에 대한 결과값이 없다...

[k8s, 모니터링] grafana 와 cost-analyzer 의 helm chart 가 app-of-apps 구성에서 오류를 일으키는 현상.

k8s, 모니터링] grafana 와 cost-exploer 의 helm chart 가 app-of-apps 구성에서 오류를 일으키는 현상.환경helm Version:"v3.12.3"EKS 표준 설정 클러스터monitoring-app 이라는 app에 prometheus, grafana 등의 helm chart를 통합 관리. # chart.yamlappVersion: "1.16.0"dependencies:- name: "loki" condition: loki.enabled repository: "https://grafana.github.io/helm-charts" version: "^2.9.0"- name: "promtail" condition: promtail.enabled repository:..

TIL/기타 2024.10.15