자막 파이프라인

음성 인식 + 화자 분리 파이프라인

글 10개

GPU 모델 3개를 하나의 파이프라인에서: subprocess worker 격리 패턴

음성 인식 파이프라인에서 GPU 모델 3개의 의존성 충돌을 해결한 과정. Docker 대신 subprocess + 독립 venv 패턴으로 가볍게 프로세스를 격리하고, stdin/stdout/stderr 파이프로 통신하는 방법을 정리했다.

음성 인식 파이프라인에서 요청마다 GPU 모델을 로드하는 데 30초씩 걸렸다. 모델을 VRAM에 상주시키고 stdin/stdout 시그널 프로토콜로 통신하는 Persistent Worker 패턴과, 이를 HTTP API로 감싸는 과정을 정리했다.

Claude Code CLI를 subprocess로 호출해 ASR 텍스트를 교정하다가 JSON 파싱이 깨졌다. --max-turns와 structured_output 필드에 숨어있던 함정을 기록한다.

subprocess.Popen()의 기본 동작은 메인 프로세스 환경변수를 전부 상속한다. 자격증명 누출과 venv 충돌을 allowlist 패턴으로 해결한 과정.

Forced Aligner가 구두점을 삭제하고 어절을 쪼개 버리면 자막이 엉망이 된다. 원문 텍스트와 토큰을 정렬하는 매핑 알고리즘을 만들고, 한국어 연결어미까지 인식하는 분할 로직을 구현한 과정을 정리했다.

CLI로만 쓰던 자막 생성 파이프라인에 웹 UI를 붙였다. n8n으로 프로토타입을 만들었다가 OOM으로 터지고, 브라우저에서 GPU 서버로 직접 통신하는 구조로 재설계한 과정을 정리했다.

GPU 모델에 의존하는 ML 파이프라인도 대부분의 로직은 GPU 없이 테스트할 수 있다. mock과 fixture를 활용한 3단계 테스트 피라미드 구축기.

Loading…