Published on2026년 4월 27일AI 조교 기획 및 Ollama를 vLLM으로 전환해 동시 사용자 50명 처리하기Ollama 기반 LLM 서버에서 동시 요청 증가 시 발생하는 성능 병목을 분석하고, vLLM으로 서버를 전환해 동시 사용자 50명 수준까지 안정적으로 처리할 수 있도록 개선한 과정과 결과를 정리했습니다.대표-글LLMvLLMKubernetesInfra
Published on2025년 4월 15일RAG 파이프라인으로 LLM 환각 현상 완화하기DocDoc에서 의료 논문 기반 답변을 만들며, 질문만 LLM에 전달했을 때 생기는 근거 없는 답변 문제를 RAG와 SSE 스트리밍으로 줄인 기록입니다.RAGLLMPineconeLangChainAI