🤖LLM 서버 운영기

vLLM 배포, 모델 서빙, GPU 최적화

글 3개

RTX 5090에서 vLLM 돌리기: cu130 의존성 지옥 탈출기

RTX 5090에서 vLLM을 실행하려면 CUDA 13.0 wheel이 필요한데, 실제 .so 파일은 cu12 패키지에만 있다. uv와 CUDA 생태계의 충돌을 해결한 삽질기.

vLLM 서버에 Mastra 프레임워크를 연결해서 브라우저 기반 Playground를 만들었다. 멀티턴 대화, GPU 자동 관리, 그리고 공식 문서에 없는 삽질 포인트들.

RTX 5090에서 Qwen3.5-27B를 서빙할 때, AWQ-4bit에서 NVFP4로 모델을 교체하고 CUDA Graph를 활성화해서 ~28 tok/s에서 ~54 tok/s로 2배 속도 향상을 달성한 과정.

Loading…