2025/01 3

[AI, Kubeflow] Kubeflow bootstrap 소개

1. TL;DR온프레미스 클러스터 환경에 Kubeflow를 설치하려 한다. Kubeflow Bootstrap 이라는 툴을 활용해 설치 및 배포했다.개발 환경RKE2 1.27 (on-premise)ArgoCD 3.X2. 개요Kubeflow 공식문서에서는 두 가지의 설치 방법을 제안한다.Installing Kubeflow1) Standalone Kubeflow Componentskubeflow의 component들 중 필요한 것들만 직접 골라서 설치하는 방법.빠르게 환경을 구성한 후 외부 솔루션과의 차이점을 비교해보는 것이 목적이었기에 선택하지 않음.2) Kubeflow Platform주요 component들을 이미 묶어둔 패키지들. 각 관리형 쿠버네티스별로 다양한 package가 존재한다. 초기에는 dep..

2024년 회고

중력은 지구에서 두 번째로 강한 힘이다. 중력은 죽은 물체를 움직이고, 호기심은 산 물체를 움직인다.- 꿈꾸는 책들의 도시, 발터 뫼르스    삶은 여전히 즐겁고 재미있었다. 쉽지 않은 일들에 도전해 성과를 냈다. 사소하고 작은 행복들도 찾았다.1. 운동1) 파워리프팅목표: 1) 다양한 실전 경험 확보 2) 지속적인 성장 두 번의 풀 리프팅 대회, 한 번의 데드리프트 대회에 참여했다. 대회 환경 자체에 익숙해졌다.  생각만큼 많은 증량을 이루지는 못했다. e1RM은 올랐다. 그러나 실제 대회에선 신경계 피로도 관리에 실패, 제대로 된 퍼포먼스를 보이지는 못했다.  대회 이후로는 셀프 코칭을 시작했다. 스스로 운동하고 자세를 개선하는 법을 익히기 위해서였다. 원포인트 레슨을 들으며 최대한 많은 코치들을 경..

회고 2025.01.15

[Loki, K8s] 원인 불명의 Loki - CrashLoopBackOff 문제 해결 (EBS 용량 )

개요3개월 이상 안정적으로 작동하던 Loki pod가 알 수 없는 이유로 CrashLoopBackOff 상태가 됨.수동으로 Pod 삭제, Service enable / disable 등 처리를 했음에도 CrashLoopBackOff 상태에서 벗어나지 못함.에러 문구 확인 결과 loki init 단계에서 실패하는 것으로 판단됨.원인loki에 할당된 PV 가 모두 사용됨.구체적인 원인Kuberenetes Event exporter 설치 후 정상적인 dashboard 작동 위해 loki의 버전을 높임.Loki의 버전업 (2.6.1 -> 2.9.6)에 따라 log retention 의 default 값이 off로 바뀜.구동 이후 약 2개월간의 로그가 누적 저장됨.정기적으로 쿼리가 retention 되지 않아 E..