
블로그
자막 1초의 비밀 — 우리가 측정한 지연
OpenAI Realtime Translate + Socket.IO 중계로 평균 지연 0.8초를 어떻게 맞추는지, 회선 끊김 대응까지.
2026.05.08·5 분 읽기
‘1초 안에 자막이 흐른다’ 는 약속은 마케팅 카피가 아니라 실제 측정값이에요. 발표자의 입에서 LED 스크린에 자막 한 줄이 뜨기까지 평균 0.8 초가 걸려요. 이 값은 매주 운영 중인 TokenPost 행사에서 분 단위로 측정해서 운영자 매뉴얼에 기록돼요.
0.8 초는 어떻게 쪼개지나
- OpenAI Realtime API 가 음성 → 텍스트 → 번역 = 평균 0.55 초
- broadcast 서버 (Node + Socket.IO) 가 행사장 디바이스로 fan-out = 평균 0.15 초
- 관객 휴대폰 / LED 노트북 렌더링 = 평균 0.10 초
회선이 끊기면
행사장 와이파이가 불안정한 경우, 운영자 노트북은 마지막 자막 30 초를 로컬 캐시에 들고 있어요. 회선이 다시 살아나면 백오프 재연결로 자동 복구되고, 끊긴 동안 발화한 한국어는 누락 처리돼요 (자막 큐가 다시 0 부터). 실제 행사에서 회선이 1분 이상 끊긴 사례는 지난 1년에 한 번뿐이었어요.
다음 단계
Deepgram Nova-3 STT + Claude Haiku 번역 조합으로 평균 0.5 초까지 줄이는 실험을 진행 중이에요. 자막을 더 빨리 보내는 건 기술적으로 더 가능하지만, 청중이 인지하는 ‘자연스러움’ 의 임계값이 1 초라서 그 안에서 안정성을 우선해요.
우리 행사에도 자막을 켜볼까요?
첫 행사는 카드 등록 없이 무료.
무료로 시작