TikTok 자막 넣는 방법(2026): 실제로 통하는 3가지 방법

TikTok은 2021년에 자동 캡션을 도입했고, 이후 지원 언어를 꾸준히 넓혀 이제 대부분의 계정에서 사용할 수 있습니다. 깨끗한 영어 음성에서는 잘 작동하지만, 광둥어·표준 중국어, 여러 언어가 섞인 콘텐츠, 또는 배경 음악이 말소리를 덮는 상황에서는 정확도가 떨어집니다. 이 글에서는 TikTok에 자막을 넣는 세 가지 실용적인 방법과 각각이 적합한 상황을 살펴봅니다.

Instagram Reels와 YouTube Shorts에도 동시에 올린다면(대부분의 숏폼 크리에이터가 그렇습니다) 방법 3이 매주 몇 시간을 아껴줍니다 — 글 끝의 크로스플랫폼 섹션을 참고하세요.

TikTok 사양(앱 내 안내로 확인)

TikTok은 제품 사양을 자주 업데이트합니다. 2026년 기준 비교적 안정적인 값은 다음과 같습니다.

설정	일반적인 사양
화면 비율	9:16(세로)
권장 해상도	1080 × 1920
형식	MP4 / MOV
최대 길이	대부분 계정은 최대 10분. 더 긴 형식은 선별적으로 적용
피사체 배치	중앙 배치. 하단 UI 오버레이 영역은 비워 둘 것

긴 콘텐츠를 만들기 전에는 반드시 앱 내 업로드 안내로 확인하세요 — TikTok의 상한은 시간이 지나며 바뀝니다.

TikTok에서 자막이 중요한 이유

업계의 일반적인 관찰에 기반한 세 가지 이유입니다.

대다수 소셜 미디어 사용자는 음소거 상태로 본다. 공공장소·야간의 소셜 미디어 이용은 소리를 끈 채 이뤄진다고 여러 업계 조사가 관찰해 왔습니다. 자막 없음 = 무음 영상 = 메시지 미전달입니다.
자막은 시청 시간을 늘리는 경향이 있다. TikTok의 추천 알고리즘은 완시청률과 시청 시간을 중시하는데, 자막은 둘 다에 기여합니다.
접근성 확보. WHO는 전 세계적으로 10억 명 이상이 어느 정도의 청력 손실을 겪는다고 추정합니다. 자막은 가장 기본적인 접근성 조치입니다.

특히 비영어 크리에이터에게 더욱 그렇습니다. TikTok의 자동 캡션은 영어에서 가장 신뢰할 만하고, 광둥어·표준 중국어·여러 언어가 섞인 음성에서는 정확도가 떨어집니다. 또한 정식·공개되는 맥락에서 구어와 문어의 구분이 중요한 언어에 대해서는 구어를 문어로 변환해 주지 않습니다.

방법 1: TikTok 내장 캡션 기능

가장 빠른 방법입니다. 절충점은 언어에 따라 정확도가 달라지고 스타일 조절이 제한적이라는 점입니다.

캡션의 정확한 메뉴 위치는 TikTok 앱 버전에 따라 다르므로, 그때 에디터에 보이는 것을 사용하세요. 대략적인 흐름은 다음과 같습니다.

TikTok 앱에서 영상 클립을 촬영하거나 업로드한다
"다음"을 눌러 에디터로 들어간다
사이드 도구 모음을 열고 "캡션"을 누른다
TikTok이 음성에서 캡션을 자동 생성한다
캡션의 정확도를 확인하고 텍스트·타이밍을 조정하거나 삭제한다
글꼴·크기·색상·위치를 맞춤 설정한다
미리 보기 후 설명과 해시태그를 추가해 게시한다

이걸로 충분한 경우:

음성이 깨끗한 영어 전용 TikTok
자막 스타일이 우선순위가 아닌 캐주얼한 콘텐츠
속도가 최우선인 경우

이걸로 부족한 경우:

정확도가 떨어지는 비영어 음성(광둥어 / 표준 중국어 / 다국어 혼합)
자막이 비주얼 아이덴티티에 맞아야 하는 브랜드 콘텐츠
Instagram Reels / YouTube Shorts에도 함께 올리는 콘텐츠 — 플랫폼마다 자막을 다시 다는 작업이 두 배가 됩니다

방법 2: 수동 텍스트 오버레이

TikTok 에디터의 "텍스트" 도구로 자막을 한 줄씩 직접 입력하고, 각 텍스트 블록을 끌어 음성에 맞춥니다.

절충점: 스타일을 완전히 제어할 수 있지만 대단히 느립니다. 60초짜리 TikTok에 수동 자막 작업으로 대략 30~45분이 듭니다. 주당 한두 편을 넘기면 확장되지 않습니다.

이 방법이 맞는 경우는 다음뿐입니다.

자막이 짧은 헤드라인(도입부 후크, 마무리 CTA)인 경우
TikTok 캡션 기능으로는 만들 수 없는 맞춤 디자인이 필요한 경우

어떤 주기에서든 콘텐츠 전체에 자막을 넣으려면 방법 1이나 방법 3이 현실적인 선택지입니다.

방법 3: AI로 SRT를 생성한 뒤 에디터로 굽기(비영어 콘텐츠에 권장)

광둥어·표준 중국어·다국어 혼합, 또는 TikTok 자동 캡션이 안정적으로 처리하지 못하는 모든 음성에 대해, 확장되는 워크플로는 다음과 같습니다.

해당 언어를 잘 다루는 AI 전사 도구로 SRT 자막 파일을 생성한다
에디터(CapCut, Premiere Pro, Final Cut Pro, DaVinci Resolve)로 SRT를 영상에 굽는다
자막이 입혀진 MP4를 TikTok에 업로드한다(같은 파일을 Instagram Reels / YouTube Shorts / Facebook Reels에도 재사용)

60초짜리 TikTok 한 편의 처리 시간이 총 5~10분 정도로 줄어듭니다.

도구 추천

광둥어 / 표준 중국어 / 다국어 혼합 콘텐츠에 특화해 만들어진 도구가 Subanana입니다. Subanana는 음성 인식(STT) 모델을 지속적으로 벤치마킹해, 전사할 때마다 소스 언어에서 가장 성능이 좋은 모델을 고릅니다. 중국어의 경우 문어체 출력도 지원합니다(홍콩·대만 콘텐츠는 보통 구어로 전달되지만 화면에서는 문어체가 더 읽기 좋기 때문에 중요합니다).

흐름은 다음과 같습니다.

TikTok 클립을 Subanana에 업로드한다(mp4 / mov / webm / ogg, 유료 요금제는 최대 15GB). 또는 YouTube / Instagram / Facebook 공개 링크를 붙여넣으면, 로컬에 내려받지 않아도 Subanana가 가져와 전사합니다.
소스 언어를 고른다
"자막 생성 시작"을 클릭한다. 1분짜리 클립은 몇 분 안에 완료됩니다.
전사 내용을 검토하고 고유 용어(브랜드명, 슬랭)를 고친다. 광둥어라면 출력 언어 또는 번역 대상 언어로 문어체(書面語)를 고를 수 있습니다.
내보내기 — 에디터로 가져올 SRT 파일, 또는 자막이 구워진 MP4(TikTok에 바로 업로드 가능)로 출력합니다.

Subanana 무료로 사용해 보기 →

— 무료 요금제는 최대 15분 / 3GB 파일을 지원합니다.

크로스플랫폼 팁: 한 번의 자막 작업으로 세 플랫폼

대부분의 숏폼 크리에이터는 TikTok + Instagram Reels + YouTube Shorts에 동시에 게시합니다. 각 플랫폼의 내장 캡션은 서로 분리되어 있어 — TikTok 캡션은 Instagram으로 넘어가지 않고, 그 반대도 마찬가지입니다.

방법 3의 워크플로는 표준적인 크로스플랫폼 방식입니다. AI로 생성한 SRT 하나, 또는 자막이 구워진 MP4 하나가 일관된 자막 스타일로 모든 플랫폼에 나갑니다. 고빈도 크리에이터가 주당 3편 이상의 숏폼을 올리기 시작하면 AI-SRT 워크플로로 수렴하는 이유가 바로 이것입니다.

비교: 각 방법이 적합한 상황

	TikTok 내장 캡션	수동 텍스트 오버레이	AI SRT(방법 3)
60초 영상당 소요 시간	2~3분	30~45분	5~10분
영어 정확도	높음	수동(직접 제어)	높음
광둥어 / 표준 중국어 정확도	제한적	수동	높음(광둥어 전용 도구와 함께)
구어→문어 중국어 출력	❌	수동 재작성	✅(Subanana)
브랜드 전용 자막 스타일	제한적	✅ 완전	✅ 완전(SRT 가져온 뒤 에디터에서)
크로스플랫폼 재사용	❌(플랫폼마다 다시 자막)	수동 재구성	✅ SRT 하나 또는 MP4 하나로 전 플랫폼
이중 언어 자막(예: 중국어 + 영어)	❌	수동	✅(Subanana가 이중 언어 SRT 내보내기)

자주 묻는 질문

TikTok 자동 캡션 기능은 얼마나 정확한가요?

TikTok 캡션은 깨끗한 영어 음성에서 가장 정확합니다. 비영어 언어 지원은 확대되어 왔지만 정확도는 편차가 있습니다 — 특히 광둥어는 역사적으로 더 약한 편이었습니다. 자동 캡션 워크플로를 대규모로 도입하기 전에 대상 언어의 짧은 클립으로 테스트해 보세요.

TikTok을 게시한 뒤에 캡션을 편집할 수 있나요?

TikTok은 게시 후 설명과 일부 메타데이터를 편집할 수 있지만, 캡션 기능은 렌더링된 영상의 일부입니다 — 게시된 TikTok의 캡션을 바꾸려면 삭제하고 다시 업로드해야 합니다. 이를 피하려면 게시 전에 캡션을 확정하세요.

TikTok에 이중 언어 자막을 넣으려면 어떻게 하나요?

TikTok 내장 캡션 기능은 단일 언어만 지원합니다. 이중 언어 TikTok(현지와 해외 시청자를 모두 노리는 홍콩·대만 크리에이터에게 흔합니다)을 만들려면 외부에서 이중 언어 SRT를 생성하세요 — Subanana는 큐마다 원문과 번역 텍스트를 함께 담은 SRT 하나를 내보냅니다. 에디터로 이중 언어 SRT를 영상에 구운 뒤 TikTok에 업로드하세요.

TikTok 웹(데스크톱 브라우저)에서도 자막이 보이나요?

네 — TikTok 내장 기능, 수동 텍스트 오버레이, 구워진 MP4로 넣은 자막은 모두 TikTok 모바일과 웹에서 일관되게 표시됩니다.

Subanana를 쓰려면 소프트웨어를 설치해야 하나요?

아니요. Subanana는 브라우저 기반이라 설치가 필요 없습니다. TikTok 영상 파일을 업로드하거나 공개 TikTok / YouTube / Instagram / Facebook URL을 붙여넣고, 자막을 생성한 뒤 SRT나 구워진 MP4로 내보내면 됩니다.

마치며

음성이 깨끗한 일회성 영어 TikTok이라면 내장 캡션 기능으로 충분하고 빠릅니다. 하지만 비영어 콘텐츠, 브랜드 스타일 자막, 또는 주당 몇 편을 넘는 어떤 주기에서든 AI-SRT 워크플로는 매주 몇 시간을 아껴 주고, 게시하는 모든 플랫폼에서 일관되고 브랜드에 맞는 자막을 만들어 냅니다.

Subanana로 TikTok 자막 생성하기 →