Loading…
vLLM 배포, 모델 서빙, GPU 최적화
글 3개
기술블로그RTX 5090에서 vLLM을 실행하려면 CUDA 13.0 wheel이 필요한데, 실제 .so 파일은 cu12 패키지에만 있다. uv와 CUDA 생태계의 충돌을 해결한 삽질기.
기술블로그vLLM 서버에 Mastra 프레임워크를 연결해서 브라우저 기반 Playground를 만들었다. 멀티턴 대화, GPU 자동 관리, 그리고 공식 문서에 없는 삽질 포인트들.
기술블로그RTX 5090에서 Qwen3.5-27B를 서빙할 때, AWQ-4bit에서 NVFP4로 모델을 교체하고 CUDA Graph를 활성화해서 ~28 tok/s에서 ~54 tok/s로 2배 속도 향상을 달성한 과정.