회의 요약에 가장 좋은 LLM: 그 선택을 어떻게 생각할 것인가

AI가 만든 회의 요약을 읽고 "핵심을 통째로 놓쳤다"거나 "아무도 합의하지 않은 액션 아이템을 멋대로 만들어냈다"고 느낀 적이 있다면, 당신은 LLM 적합성 문제에 부딪힌 것입니다. 회의 요약에서는 긴 컨텍스트 처리, 다국어 커버리지, 문장의 질, 지시 이행, 요약 1건당 비용 — 이런 축마다 모델의 강점이 측정 가능할 만큼 다르게 갈립니다. 어느 한 축에서 가장 강한 모델이 모든 축에서 가장 강한 경우는 드뭅니다.

대부분의 회의 전사 도구는 — Otter, Fireflies, Fathom, Descript, Plaud, NotebookLM — 하나의 모델(또는 사용자에게 공개하지 않는 티어 안의 어떤 모델 하나)을 골라 사용자를 거기에 고정합니다. 벤더가 고른 모델이 당신의 회의 유형에 맞지 않으면 요약 품질이 떨어지고, 도구 자체를 갈아타지 않는 한 이를 고칠 방법이 없습니다.

이 글은 그 선택을 어떻게 생각해야 하는지에 관한 글입니다. 솔직히 밝히자면 Subanana를 운영하는 사람은 저입니다. Subanana는 사용자가 요약을 쓸 LLM을 고를 수 있게 해줍니다 — 모델 선택이 사용자에게 보이는 결정으로 드러나는, 우리 제품의 유일한 기능입니다. 이 글의 논지는 당신이 Subanana를 쓰든 안 쓰든 성립합니다. 요점은, 먼저 각 축을 이해한 다음 어떤 도구의 접근 방식이든 그 축에 비추어 평가하라는 것입니다.

요점 (TL;DR)

회의 요약에 "가장 좋은 단 하나의 LLM"은 없습니다. 적합한 모델은 그 회의가 무엇이고 어떤 출력이 필요한지에 따라 달라집니다.
긴 회의(90분 이상)에서는 긴 컨텍스트 모델이 유리합니다. 컨텍스트 윈도 용량은 모델 패밀리마다 실질적인 차이가 있습니다.
진행이 빠른 회의에서는 속도에 최적화된 중위 티어 모델이 유리합니다. 추론의 깊이보다 액션 아이템 추출과 깔끔한 구조화 출력이 더 중요해집니다.
다국어 회의에서는 어떤 단일 "다국어" 모델보다 여러 모델을 함께 쓰는 접근이 유리합니다. 비영어나 혼합 언어 콘텐츠에 맞는 요약 LLM은 영어 전용일 때와 같은 경우가 드뭅니다.
중요도가 높은 커뮤니케이션에서는 문장의 질을 갖춘 프리미엄 티어 플래그십이 유리합니다. 한계 비용 차이는 작고, 출력의 차이는 의미가 있습니다.
일상적인 사내 회의에서는 예산 티어 모델이 유리합니다. 15분짜리 팀 동기화에 플래그십을 투입하면 그 추론의 깊이가 낭비됩니다.

대부분의 사용자에게 현실적인 답은 이것입니다. 중위 티어 모델을 기본값으로 두고, 정말로 중요한 회의에서만 프리미엄으로 바꾸며, 특정 버전 번호에 너무 집착하지 마세요. 티어 구조는 안정적이지만, 각 티어 안의 최전선 모델은 몇 달마다 바뀝니다.

실제로 차이가 나는 축

회의 요약 작업에서 LLM이 의미 있게 갈리는 다섯 가지 축입니다.

컨텍스트 윈도. 한 번에 얼마나 많은 전사 내용을 담을 수 있는가? 30분 회의는 대부분의 모델이 무난하게 처리하지만, 3시간짜리 이사회 회의는 긴 컨텍스트 플래그십과 나머지를 갈라놓습니다.
지시 이행. "결정 사항, 액션 아이템, 후속 작업 순서로"라고 요청했을 때, 모델이 그 구조를 깔끔하게 내놓는가, 아니면 제멋대로 가는가? 지시 이행이 강한 모델은 다시 손볼 필요 없이 후속 워크플로에 바로 넣을 수 있는 요약을 만듭니다.
환각 저항성. 실제로 합의되지 않은 액션 아이템을 모델이 지어내는가? 프리미엄 티어의 추론형 모델은 더 보수적인 경향이 있고, 예산 티어 모델은 압박을 받으면 느슨하게 의역하는 경향이 있습니다.
다국어 처리. 주로 영어로 학습된 모델은 비영어 및 혼합 언어 콘텐츠를 눈에 띄게 못한 요약으로 내놓습니다. 그 격차는 벤더들이 보통 인정하는 것보다 큽니다.
요약 1건당 비용과 지연 시간. 플래그십 티어 모델은 차이를 못 느낄 수도 있는 출력을 위해 중위 티어 모델의 5~10배 비용이 들 수 있습니다. 지연 시간도 비슷하게 차이가 납니다.

이 목록에서 빠진 것을 눈여겨보세요. 종합 "지능" 점수입니다. 공개된 LLM 벤치마크(MMLU, HumanEval 등)는 대체로 회의 요약과는 무관한 종합 과제로 모델 순위를 매깁니다(강조하자면, 회의 요약 과제가 아닙니다). 수학 추론에서 1등을 한 모델이 전략 논의에서 결정 사항을 뽑아내는 데서도 1등이라는 보장은 없습니다. 이 특정 용도에서는 종합 벤치마크를 잡음으로 취급하세요.

대부분의 회의 도구가 고를 수 없게 만드는 이유

주요 회의 도구들이 LLM 선택을 어떻게 다루는지 보세요.

Otter.ai — 요약용 AI는 벤더가 고정, 사용자가 기반 LLM을 고를 수 없음
Fireflies.ai — 요약용 AI는 벤더가 고정, 노출된 전환 스위치 없음
Fathom — 노트용 AI는 벤더가 고정, 사용자 전환 불가
Plaud — 하드웨어 기기가 자체 AI 요약 엔진으로 녹음을 전송, 모델 선택기 없음
NotebookLM (Google) — 구글 자체 모델 생태계에 고정
Descript — 내부 모델 선택은 벤더가 고정, 사용자 선택기 없음

이 고정(lock-in) 패턴은 보편적입니다. 각 벤더는 "그 LLM"이 사실상 하나의 주류 선택지였던 시절에 제품을 설계했고, 멀티 모델 시스템으로 재설계하는 일은 결코 간단하지 않습니다 — 모델마다 다른 API, 모델마다 다른 프롬프트 엔지니어링, 모델마다 다른 비용 추적 인프라가 필요합니다. 대부분의 벤더는 모델 선택이 사용자에게 보이는 차별화 요소로서 그만한 가치가 없다고 판단했습니다. Subanana는 반대로 걸었습니다. 모델 선택은 선택기에 드러낼 만한, 사용자에게 보이는 결정이라는 쪽으로.

Subanana의 접근 방식

Subanana의 회의 요약 기능은 3단계 티어 선택기(프리미엄, 어드밴스드, 스탠다드)를 제시합니다. 각 티어 안에는 서로 다른 패밀리의 여러 최전선 모델이 들어 있습니다. 당신은 티어를 고르거나(선호가 있다면 특정 모델을) 고르고, 그 모델이 요약을 써냅니다.

티어 구조는 안정적이지만, 각 티어 안의 구체적인 모델은 끊임없이 교체됩니다. 새로운 최전선 모델은 네 가지 기준 — 지능, 처리량, 가격, 컨텍스트 윈도 — 에 비추어 평가되고, 동일 티어의 기존 모델을 능가할 때 추가됩니다. 성능이 떨어지는 모델은 빠집니다. 사용자 입장에서는 개별 모델 출시를 일일이 좇지 않아도 티어 선택기가 시간이 지나며 조용히 좋아집니다.

세 가지를 짚어두겠습니다.

벤더 고정이 없습니다. 한 공급자에 묶이지 않습니다. 로스터는 여러 주요 모델 패밀리에 걸쳐 있습니다.
UI에 "Preview" 접미사가 없습니다. 프리뷰 태그가 붙은 모델이 뒤에서 쓰일 수는 있지만, 선택기에는 기본 이름만 표시됩니다 — 라우팅 계층에서 프리뷰와 정식(GA)을 구분하는 인지 부담을 줄이기 위함입니다.
어떤 모델이 없다고 해서 그것이 거부를 뜻하지는 않습니다. 예를 들어 Anthropic의 Claude는 현재 Subanana 메뉴에 없습니다. 이는 네 가지 기준(가격, 접근 제약, 대안 대비 처리량 등)에 비추어 진행되는 상시 평가의 결과이지, 영구적인 배제가 아닙니다. 이런 요인들이 변하면 메뉴도 함께 변합니다.

각 티어 안의 현재 구체적인 버전 이름은 Subanana 앱 안의 모델 선택기를 참고하세요 — 그 메뉴가 살아 있는 사실의 출처이며, 이 블로그 글이 아닙니다.

실전 선택 가이드

대부분의 사용자에게 필요한 틀은 짧습니다.

프리미엄 티어를 고르세요, 다음과 같을 때:

회의가 정말 중요할 때(이사회, 전략 기획, 고객 에스컬레이션, 법적 절차)
회의가 길 때(90분 이상 — 컨텍스트 윈도 용량이 차별화 요소가 됩니다)
출력물이 무거운 사람 손질 없이 임원이나 고객에게 바로 갈 때 — 문장의 질이 결정적입니다

어드밴스드 티어를 고르세요(대부분의 회의에서 기본값), 다음과 같을 때:

일상적인 사내 회의, 영업 통화, 고객 성공 점검, 프로젝트 동기화
최대한의 추론 깊이보다 속도와 깔끔한 구조화 출력이 더 중요할 때
프리미엄 대비 한계 품질 차이가 당신의 용도에서 약 3~5배의 비용 비율만큼의 값어치가 없을 때

스탠다드 티어를 고르세요, 다음과 같을 때:

대량의 일상적 요약(사용자당 하루 여러 회의)
어떤 구조화 요약이라도 없는 것보다 나은 15분짜리 점검
비용에 민감하고, 그 콘텐츠에는 프리미엄의 추론 깊이가 낭비될 때

다국어 또는 혼합 언어 회의의 경우. 기반이 되는 전사 라우팅이 음성-텍스트 변환의 언어 단계를 처리합니다(Subanana는 소스 언어별로 STT 모델을 벤치마크해 80개 이상의 지원 언어에 걸쳐 가장 잘 평가된 모델로 라우팅합니다). 요약 단계에서는 여전히 선택기가 적용됩니다 — 프리미엄이나 어드밴스드 티어를 써보고 당신의 실제 콘텐츠에서 비교하세요. 모든 비영어 콘텐츠에서 이기는 단일 "다국어 전문 LLM" 같은 것은 없습니다. 올바른 선택은 이론이 아니라 실증으로 정해집니다.

두 번 생성해야 할 때

중요도가 높은 요약(이사회 회의록, 법적 브리핑, 고객 에스컬레이션 보고서)에서는 같은 전사 내용을 서로 다른 두 모델에 통과시키는 것이 두 배의 비용을 들일 만한 가치가 있을 수 있습니다. 벤치마크를 돌리는 게 아닙니다 — 당신의 특정 콘텐츠에 대한 한 모델의 사각지대를 헤지하는 것입니다. 더 나은 출력을 고르거나, 양쪽에서 가장 강한 부분을 합치세요.

오늘 기준 이것은 수동 워크플로입니다. 요약을 한 번 돌리고, 선택기에서 LLM을 바꾼 뒤, 다시 돌립니다. 출력을 꼼꼼히 읽을 회의라면 그만한 값어치가 있고, 일상적인 콘텐츠라면 과합니다.

자주 묻는 질문

LLM을 고르는 일이 대부분의 사용자에게는 너무 기술적이지 않나요?

Subanana의 UX는 3단계 티어 선택기(프리미엄 / 어드밴스드 / 스탠다드)를 제시하므로, 특정 모델을 신경 쓰고 싶지 않은 사용자는 티어만 고르고 Subanana가 그 티어에서 현재 가장 잘 평가된 모델 중 하나로 라우팅하도록 맡기면 됩니다. 특정 모델을 중시하는 사용자는 이름으로 고를 수 있습니다. 양쪽 모두를 위한 설계입니다.

"가장 좋은" LLM이 6개월 뒤에 바뀔까요?

거의 확실히 그렇습니다. 로스터는 끊임없이 진화합니다. 안정적인 것은 티어 구조입니다 — "최전선 플래그십 대 중위 티어 대 예산"이라는 구분은 각 티어 안의 구체적 모델이 교체되어도 여전히 유용합니다. 특정 모델 추천은 약속이 아니라 스냅숏으로 받아들이세요.

Claude는 왜 Subanana 메뉴에 없나요?

Subanana의 로스터는 네 가지 기준 — 지능, 처리량, 가격, 컨텍스트 윈도 — 에 비추어 큐레이션됩니다. 특정 날짜에 Claude가 있고 없고는 그 상시 평가의 결과이지, 영구적인 거부가 아닙니다. 가격, 성능, 접근 요인이 변하면 메뉴도 함께 변합니다.

왜 모든 회의 도구가 고를 수 있게 해주지는 않나요?

대부분의 도구는 사실상 하나의 주류 모델 선택지만 있던 시절에 만들어졌습니다 — 제품 표면이 단일 모델을 중심으로 설계된 것입니다. 멀티 모델로 재설계한다는 것은 모델마다 다른 API, 모델별 프롬프트 엔지니어링, 공급자별 비용 추적을 뜻합니다. 대부분의 벤더는 그 엔지니어링 비용이 사용자에게 보이는 차별화에 견줄 만하지 않다고 판단했습니다. Subanana는 반대로 걸었습니다.

스탠다드 티어가 프리미엄보다 정말 나은 회의도 있나요?

네 — 많습니다. 일상적인 진행 상황 보고, 가벼운 브레인스토밍, 짧은 점검. 15분짜리 팀 동기화에 플래그십 티어의 추론을 투입하면 추론의 깊이가 낭비되고, 쓰지도 않을 용량에 비용을 치릅니다. 일상적인 콘텐츠라면 스탠다드 티어가 유용성에서 구별되지 않는 요약을, 그 비용의 일부만으로 만들어냅니다.

도구를 바꿀 때 요약 이력을 다른 도구로 옮길 수 있나요?

네. 요약은 DOCX, PDF, TXT, 마크다운으로 내보낼 수 있습니다 — 다른 어떤 도구로도 가져갈 수 있는 표준 포맷입니다. 깔끔하게 옮겨지지 않는 것은 요약별 모델 메타데이터(어떤 LLM이 언제 어떤 요약을 썼는지)이며, 이는 Subanana 고유입니다. 대부분의 회의 도구도 비슷한 표준 포맷으로 요약을 내보내므로, 요약 내보내기에 드는 이전 비용은 낮습니다.

Subanana는 모델별 정확도 벤치마크를 공개하나요?

모델별 공개 벤치마크는 없습니다. 모델별 성능은 회의 유형, 음질, 언어 혼합, 콘텐츠 영역에 따라 실질적으로 달라지므로, 단일 수치는 오해를 부를 수 있습니다. 이 글 전체를 관통하는 권고는 이것입니다. 당신 자신의 실제 회의에서 테스트하라는 것 — 거기서는 당신의 콘텐츠에 대한 모델의 적합성이 가치를 결정합니다.

방법론 노트

이 글은 특정 벤치마크 보고서가 아니라, 모델 선택을 어떻게 생각할 것인가에 관한 글입니다. 모델별 구체적 성능 수치는 여기에 공개하지 않습니다 — 모델 성능은 버전, 회의 유형, 음성 조건에 따라 달라지고, 어떤 블로그 스냅숏도 따라잡을 수 없는 속도로 갱신되기 때문입니다. "내 회의에 어떤 LLM이 가장 잘 맞는가"를 가리는 올바른 방법은 당신의 실제 콘텐츠에서 테스트하는 것입니다. Subanana 무료 요금제 계정이라면 그 테스트를 바로 지원합니다.

회의 요약에 가장 좋은 LLM: 모델이 고정된 도구가 지는 이유, 그리고 무엇을 골라야 하는가