Published on2026년 4월 27일AI 조교 기획 및 Ollama를 vLLM으로 전환해 동시 사용자 50명 처리하기Ollama 기반 LLM 서버에서 동시 요청 증가 시 발생하는 성능 병목을 분석하고, vLLM으로 서버를 전환해 동시 사용자 50명 수준까지 안정적으로 처리할 수 있도록 개선한 과정과 결과를 정리했습니다.대표-글LLMvLLMKubernetesInfra
Published on2026년 4월 26일k3s에서 vLLM GPU 워크로드 실행하기Code Place의 AI 조교 기능을 운영 클러스터에서 실행하기 위해 드라이버, NVIDIA runtime, k3s containerd 설정, RuntimeClass, device plugin을 맞춰간 기록입니다.대표-글Kubernetesk3svLLMCUDAInfra