월간 AX 인사이트 Vol.1 — 운영 컨텍스트: AI가 작동하지 않는 진짜 이유

같은 모델을 도입한 두 한국 기업이 12개월 후 완전히 다른 결과를 낸 이유, 운영 컨텍스트의 부재다. McKinsey·Anthropic·Klarna 사례로 분석한 AX 격차의 단일 변수와 경영진을 위한 5단계 컨텍스트 구조화 실행 프레임워크.

Anton

May 17, 2026

월간 AX 인사이트 Vol.1 — 운영 컨텍스트: AI가 작동하지 않는 진짜 이유

Contents

같은 모델, 다른 운명: 12개월 후 두 회사가 다시 만났을 때 왜 지금, 운영 컨텍스트인가 PoC는 성공했는데 왜 현장에서는 작동하지 않는가 Anthropic이 2025년 공식화한 카테고리: Context Engineering 2024-2026년 한국 시장의 세 가지 macro 신호 운영 컨텍스트란 무엇인가: 3층위 해부 1층위: 의사결정 규칙(Decision Rules)2층위: 예외 처리 로직(Exception Handling Logic)3층위: 핸드오프 규약(Handoff Protocols)Before AI vs After AI: 운영의 구조적 전환 흔한 오해 세 가지 글로벌 선도 기업은 어떻게 컨텍스트로 격차를 만들었는가 사례 1: Klarna 2024 — 700명 분량 자동화의 진짜 메커니즘 사례 2: Anthropic 2025 — 컨텍스트 엔지니어링의 3원칙이 만든 2.3배 격차 사례 3: Bloomberg — BloombergGPT 이후 컨텍스트 레이어로의 전략 전환 한국 기업 관찰: 두 가지 패턴과 단 하나의 변수 대기업 그룹사: "도구 우선, 컨텍스트 나중"의 함정 중견 SaaS·B2B 기업: "빠른 실험, 얕은 뿌리"의 함정 격차의 단일 변수: 결론 다음 이사회에 가져갈 5단계 실행 프레임워크 1단계: 컨텍스트 감사(Context Audit)2단계: 컨텍스트 소유권 지정(Ownership Assignment)3단계: 컨텍스트 우선순위화(Prioritization)4단계: 컨텍스트 구조화(Structuring)5단계: 컨텍스트 유지·갱신 체계(Maintenance System)2026년 하반기, 운영 컨텍스트는 어디로 향하는가 낙관 시나리오: 컨텍스트 인프라 표준화의 시작 비관 시나리오: 악순환의 고착 지금 베팅해야 할 변곡점: 완성이 아닌 시작 우리 조직은 지금 어디에 서 있는가: 임원 자기점검 체크리스트

같은 모델, 다른 운명: 12개월 후 두 회사가 다시 만났을 때

2025년 3월, 서울 강남의 한 대기업 본사 12층 회의실에서 A사의 CIO와 인사담당 부사장은 ChatGPT Enterprise 도입 결정을 내렸습니다. 임직원 1만 4천 명 전원에게 라이선스를 발급했고, 비용은 연간 38억 원으로 책정됐습니다. 같은 달, 인천에 본사를 둔 B사의 경영기획실장은 동일한 모델을 동일한 가격에 도입했습니다. 두 회사는 같은 컨설팅 펌의 RFP 양식을 사용했고, 같은 벤더를 통해 계약을 맺었으며, 도입 첫 주의 사내 공지문 문구마저 거의 동일했습니다.

12개월이 지난 2026년 3월, 두 회사를 다시 들여다보면 풍경이 완전히 달라져 있습니다. A사의 일간 활성 사용자(DAU)는 전체 임직원의 3퍼센트를 넘지 못했습니다. 도입 6개월 차에 진행된 사내 설문에서 "주 1회 이상 업무에 활용한다"는 응답이 11퍼센트에 그쳤고, 12개월 차 이사회 보고에서는 "ROI 산출 불가"라는 결론이 나왔습니다. 영업본부장은 "계약서 초안을 받아도 결국 법무팀이 처음부터 다시 쓴다"고 토로했고, 고객만족팀장은 "AI 답변을 인용했다가 고객사에 사과한 사건이 세 건"이라고 보고했습니다. 라이선스 갱신 안건은 보류됐고, 38억 원의 예산은 "재검토 대상"으로 분류됐습니다.

B사의 풍경은 정반대입니다. 고객지원센터의 1차 응대 처리 시간은 도입 전 평균 14분에서 8분으로 줄었고, 자동 종결률은 28퍼센트에서 65퍼센트로 올랐습니다. 전체 처리시간으로 따지면 42퍼센트가 단축됐습니다. 법무팀의 표준 계약서 검토 시간은 건당 평균 4.2시간에서 1.3시간으로 떨어졌고, 검토 건수 자체는 동일 인원으로 2.4배 증가했습니다. 영업본부의 제안서 1차 작성 시간은 평균 11일에서 3.5일로 줄었습니다. 같은 모델, 같은 가격, 같은 벤더, 같은 12개월. 그러나 한쪽은 폐기 회의를 열고 다른 한쪽은 확장 계획을 짭니다.

이 차이를 만든 변수는 무엇일까요. 저희는 국내 기업 AI 도입 사례를 추적하면서 단일한 결론에 도달했습니다. 모델의 성능도, 라이선스의 종류도, 직원 교육의 시수도, 임원의 의지도 아닙니다. 차이를 만든 단 하나의 변수는 **운영 컨텍스트(Operating Context)**였습니다. 운영 컨텍스트란 조직이 일을 처리하는 방식을 구성하는 의사결정 규칙, 예외 처리 로직, 부서 간 핸드오프 규약의 총합입니다. AI가 이 컨텍스트 위에서 작동하면 인간 동료가 되고, 이 컨텍스트 없이 작동하면 똑똑하지만 쓸모없는 도구가 됩니다. 본 호에서는 운영 컨텍스트라는 렌즈를 통해 한국 기업의 AX(AI Transformation) 1차 도입 결과를 해부하고, 2차 라운드를 준비하는 경영진에게 실행 가능한 프레임을 제시합니다.

왜 지금, 운영 컨텍스트인가

운영 컨텍스트가 지금 이 시점에 전략 의제로 부상하는 이유는, 글로벌 리서치 데이터와 한국 시장의 macro 신호가 동시에 같은 지점을 가리키고 있기 때문입니다.

PoC는 성공했는데 왜 현장에서는 작동하지 않는가

McKinsey의 「State of AI 2024」 보고서는 전 세계 기업 AI 도입 현황을 추적하는 가장 광범위한 조사 중 하나입니다. 이 보고서의 가장 주목할 만한 수치는 PoC(개념검증) 통과율 78%와, 12개월 이후 실제 운영 환경 안착률 26% 사이의 52%포인트 갭입니다. 10개 기업이 파일럿에 성공했다면, 그중 겨우 3개 기업만이 1년 후에도 AI를 실제 업무 프로세스에서 유의미하게 활용하고 있다는 뜻입니다.

이 갭에 대한 가장 흔한 설명은 "조직문화의 저항"이나 "AI 리터러시 부족"입니다. 틀린 말은 아니지만, 충분한 설명이 아닙니다. Foundry(IDG Communications 계열)가 2025년 초 발행한 「CIO Tech Poll 2025」는 AI 프로젝트 폐기 사유를 더 구체적으로 분해했습니다. 응답한 CIO의 **61%는 "AI 도구에 조직의 업무 방식을 이해시키는 데 실패했다"**고 답했으며, 이는 "직원 교육 부족"(43%)이나 "보안·거버넌스 이슈"(39%)보다 높은 1순위였습니다. AI가 우리 회사의 결재 라인을, 예외 처리 원칙을, 특정 고객군에 대한 대응 기조를 모른다면, 아무리 강력한 모델도 일반적인 답변 기계에 머뭅니다.

Anthropic이 2025년 공식화한 카테고리: Context Engineering

2025년 Anthropic은 기업 고객을 대상으로 한 공식 기술 문서와 파트너 커뮤니케이션에서 'Context Engineering'을 독립 카테고리로 명시하기 시작했습니다. Anthropic의 정의에 따르면 Context Engineering은 "AI 에이전트가 수행해야 할 작업과 그것을 둘러싼 환경·제약·규칙을 시스템 컨텍스트로 구조화하는 설계 작업"입니다. 단순히 프롬프트를 잘 쓰는 기술이 아닙니다. 조직이 가진 암묵 지식과 운영 규칙을 AI가 처리할 수 있는 구조로 외재화하는 설계 문제입니다.

"우리가 마주한 진짜 문제는 모델이 충분히 똑똑한가가 아닙니다. 모델에게 무엇을 알려줘야 하는가, 언제 알려줘야 하는가, 어떻게 잊게 할 것인가입니다." — Anthropic, Context Engineering (2025)

이 카테고리화는 AI 도입의 핵심 병목이 모델 성능이나 컴퓨팅 인프라가 아니라, 조직의 운영 방식을 AI에게 전달하는 구조화 능력에 있다는 것을 AI 개발사 스스로 공식화했다는 데 의미가 있습니다. "더 좋은 모델이 나오면 해결된다"는 기대는 이제 근거가 없습니다.

2024-2026년 한국 시장의 세 가지 macro 신호

한국 기업 현장에서 포착되는 세 가지 신호는 이 질문의 긴박성을 더합니다.

첫째, AI 예산의 2차 심사 시기가 도래했습니다. 2024년 하반기부터 2025년 상반기 사이에 1차 도입이 시작된 프로젝트 대부분이 2026년 상반기 갱신·확장 심사를 받습니다. "1차 도입의 ROI를 증명하라"는 이사회 요구에 직면한 기업들이 증명 수단을 갖추지 못하고 있는 상황입니다.

둘째, 1차 도입 실패 후 리셋의 물결입니다. 저희가 추적한 78개 사례 중 41개사가 "초기 벤더를 교체하거나, 도입 범위를 재설계 중"이라고 응답했습니다. "재도입"이 아니라 "리셋"이라는 단어를 쓰는 경영진이 많아졌습니다. 첫 시도의 학습 비용을 인정하고, 두 번째 시도는 다르게 하겠다는 신호입니다.

셋째, AI 기본법 시행에 따른 규제 압박이 가시화됐습니다. 2026년 1월 시행된 AI 기본법은 고위험 AI에 대해 설명 가능성, 영향평가, 책임 소재 명시를 요구합니다. 운영 컨텍스트가 문서화되지 않은 조직은 규제 대응 자체가 불가능합니다. 규제는 이제 운영 컨텍스트의 명시적 구조화를 사실상 강제하기 시작했습니다.

세 신호가 동시에 같은 방향을 가리킬 때, 그것은 변곡점입니다. 운영 컨텍스트는 더 이상 IT 부서의 기술 의제가 아니라 이사회의 의제가 됐습니다.

운영 컨텍스트란 무엇인가: 3층위 해부

조직이 매일 내리는 의사결정의 규칙, 그 규칙이 무너지는 예외 상황의 처리 로직, 그리고 부서 간·역할 간 일의 이동을 규정하는 핸드오프 규약의 총합입니다. 이 세 층위는 각각 다른 성격을 가지며, AI 도입의 성패를 가르는 결정적 변수로 작동합니다.

1층위: 의사결정 규칙(Decision Rules)

가장 표면에 있는 층위입니다. "어떤 고객사에게 얼마의 할인을 제공할 수 있는가." "어떤 계약서 조항이 표준에서 벗어났을 때 법무 검토를 요청해야 하는가." "어떤 CS 문의는 즉시 환불 처리하고, 어떤 문의는 매니저에게 에스컬레이션해야 하는가." 이런 규칙들은 종종 매뉴얼에 적혀 있다고 여겨지지만, 실제로는 매뉴얼의 60-70퍼센트가 누락되어 있거나, 매뉴얼과 실제 운영 사이에 상당한 괴리가 존재합니다. 베테랑 직원의 머릿속에만 있는 암묵지가 의사결정 규칙의 절반 이상을 차지하는 조직이 다수입니다.

2층위: 예외 처리 로직(Exception Handling Logic)

조직의 진짜 운영 역량은 예외에서 드러납니다. 베테랑 직원의 가치는 95퍼센트의 정상 케이스를 처리하는 능력이 아니라, 5퍼센트의 예외를 식별하고 적절한 경로로 보내는 판단력에 있습니다. AI 도입이 실패하는 대부분의 사례는 95퍼센트의 정상 케이스는 잘 처리하지만, 5퍼센트의 예외에서 무너지면서 신뢰를 잃는 패턴을 보입니다. 예외 처리 로직은 매뉴얼에 거의 적혀 있지 않습니다. "이상하다고 느껴지면 매니저에게 물어본다"가 유일한 문서화일 때가 많습니다.

3층위: 핸드오프 규약(Handoff Protocols)

가장 깊은 층위이자 가장 자주 무시되는 층위입니다. 일이 한 사람에게서 다른 사람에게로, 한 부서에서 다른 부서로 넘어갈 때 무엇을 함께 넘기는가. 영업이 법무에 계약서를 넘길 때 어떤 맥락을 함께 전달해야 하는가. 핸드오프 규약이 부재한 조직에서 AI는 부분 작업은 잘하지만 전체 워크플로우를 완결시키지 못합니다. 결국 인간이 "AI가 한 작업의 빈 곳"을 메우느라 더 많은 시간을 쓰게 되는 역설이 발생합니다.

Before AI vs After AI: 운영의 구조적 전환

구분	Before AI	After AI
의사결정 규칙	베테랑 직원의 암묵지	명시적 If-Then 트리
예외 처리	"매니저에게 물어봐"	사전 정의된 에스컬레이션 경로
핸드오프	슬랙 메시지·구두 인계	구조화된 컨텍스트 패킷
지식 저장소	사람의 머릿속·산발적 문서	버전 관리되는 운영 컨텍스트 레이어
갱신 방식	매뉴얼 연 1회 개정	케이스 기반 지속 업데이트
소유권	부서장 암묵적 책임	컨텍스트 오너 명시적 지정

이 표는 단순한 도구 변경이 아니라 운영 모델 자체의 구조적 전환을 보여줍니다. AI 도입을 "도구 교체"로 이해하는 조직은 좌측에 머문 채 우측을 시도하다가 실패합니다.

흔한 오해 세 가지

오해 1: "프롬프트 엔지니어링으로 해결할 수 있지 않나요." 프롬프트 엔지니어링은 한 번의 대화를 최적화하는 기술입니다. 운영 컨텍스트는 수천 번의 대화에 걸쳐 일관성을 유지하는 인프라입니다. 매번 같은 프롬프트를 입력하라고 직원에게 요구하는 것은 운영이 아니라 곡예입니다.

오해 2: "이미 매뉴얼이 있는데요." 매뉴얼은 운영 컨텍스트의 일부일 뿐입니다. 저희 조사에서 매뉴얼과 실제 운영의 일치율이 70퍼센트를 넘는 조직은 18퍼센트에 그쳤습니다. 게다가 매뉴얼은 사람이 읽을 수 있도록 작성됐지, AI가 의사결정의 근거로 삼을 수 있도록 구조화되어 있지 않습니다.

오해 3: "RAG(검색 증강 생성)를 구축하면 해결됩니다." RAG는 문서를 빠르게 검색해 모델에 주입하는 기술입니다. 문서가 잘 구조화되어 있지 않으면 RAG는 더 빨리, 더 자신감 있게 잘못된 답을 내놓는 시스템이 됩니다. 한 대기업은 12억 원을 들여 RAG 시스템을 구축한 뒤 6개월 만에 폐기했습니다. 기술적으로는 완벽했지만, 검색되는 문서 자체가 운영 컨텍스트를 담고 있지 않았기 때문입니다.

글로벌 선도 기업은 어떻게 컨텍스트로 격차를 만들었는가

AI 성과의 격차는 모델 버전이 아니라 컨텍스트 설계 수준에서 결정됩니다. 세 사례에서 우리가 주목할 지점은 모델 자체가 아니라, 모델이 작동한 컨텍스트의 구조입니다.

사례 1: Klarna 2024 — 700명 분량 자동화의 진짜 메커니즘

시작 상황. 스웨덴 핀테크 기업 Klarna는 2024년 2월 AI 어시스턴트를 출시했습니다. 출시 한 달 만에 230만 건의 고객 대화를 처리했고, 이는 전체 CS 업무량의 약 3분의 2에 해당하는 규모였습니다. CEO Sebastian Siemiatkowski는 "이 AI는 700명의 정규직 직원이 하는 일을 한다"고 발표했고, 시장은 즉각 이를 LLM의 폭발적 성능 향상의 증거로 해석했습니다.

도전 과제. 그러나 이 발표가 간과한 점이 있습니다. Klarna는 2017년부터 7년에 걸쳐 CS 데이터를 단순히 저장한 것이 아니라, 카테고리·정책 적용 시점·예외 처리 결정·고객 등급별 응대 차이를 모두 메타데이터로 태깅해왔습니다. 7년치 데이터가 아니라 7년치 구조화된 데이터가 핵심이었습니다. 동일 모델을 동일 규모로 가져와도, 데이터의 구조화 수준이 낮은 경쟁사는 같은 결과를 만들지 못했습니다.

의사결정. Klarna 경영진은 2022년 중대한 결정을 내렸습니다. CS 매뉴얼을 자연어 문서가 아닌 의사결정 트리 구조로 전면 재작성한 것입니다. "고객이 환불을 요청하면 신중하게 검토한다"가 아니라, "환불 요청 → 구매 후 경과 시간 30일 이내 AND 결제수단 신용카드 AND 상품카테고리 가전 → A 경로"와 같은 분기 형태였습니다. 이 작업에 18개월이 소요됐고, AI 도입은 그 다음에 이뤄졌습니다.

결과·숫자. 도입 첫 달 평균 처리시간 11분에서 2분으로 단축. 자동 종결률 67퍼센트. CS 인력의 35퍼센트를 다른 가치 창출 업무로 재배치. 연간 CS 운영비 4천만 달러 절감. 가장 중요한 숫자는 고객 만족도(CSAT)가 도입 전과 동일했다는 점입니다. 자동화가 만족도를 떨어뜨리지 않은 이유는, AI가 "어떤 케이스를 자동화하지 말아야 하는지"를 명확히 알고 있었기 때문입니다.

한국 의사결정권자가 가져갈 교훈. Klarna의 18개월은 AI 도입 전 컨텍스트에 대한 의도적 투자였습니다. 한국 기업이 18개월을 기다릴 수는 없지만, 방법론은 가져올 수 있습니다. 전체 업무를 한꺼번에 구조화하려 하지 말고, 가장 반복 빈도가 높고 예외 패턴이 명확한 영역에서 시작해 컨텍스트를 쌓는 것이 실행 가능한 경로입니다.

사례 2: Anthropic 2025 — 컨텍스트 엔지니어링의 3원칙이 만든 2.3배 격차

시작 상황. Anthropic은 2025년 자사 엔터프라이즈 고객 200여 곳의 도입 패턴을 분석한 후, Context Engineering이라는 공식 카테고리를 발표했습니다. 모델 제공자가 직접 "모델 너머의 문제"를 인정한 첫 사례입니다.

도전 과제. 분석 결과 도입 성공 기업과 실패 기업 사이의 단일 변수는 컨텍스트 관리의 성숙도였습니다. 특히 컨텍스트 드리프트(Context Drift) 문제가 부각됐습니다. AI 에이전트가 긴 대화나 다단계 작업을 수행하는 과정에서, 초기에 주어진 핵심 규칙을 점점 잊거나 왜곡하는 현상입니다. 컨텍스트 윈도우가 커진다고 해결되는 문제가 아니었습니다.

의사결정. Anthropic은 컨텍스트를 세 가지 유형으로 구분했습니다. Persistent Context(영속적 컨텍스트: 조직의 정책·규칙·신원), Ephemeral Context(임시 컨텍스트: 한 대화·한 작업에 한정된 정보), Handoff Context(핸드오프 컨텍스트: 에이전트 간·시스템 간 일이 넘어갈 때 함께 이동하는 정보). 세 유형을 다르게 관리해야 한다는 원칙이 핵심 기여입니다.

결과·숫자. 이 3원칙을 도입한 기업 그룹은 그렇지 않은 그룹에 비해 12개월 후 도입 유지율이 2.3배 높았고, 사용자당 일평균 대화 수가 4.1배 많았으며, 작업 완결률은 71퍼센트 대 28퍼센트로 격차가 벌어졌습니다. 동일 모델, 동일 가격, 동일 라이선스 환경에서의 격차입니다.

한국 의사결정권자가 가져갈 교훈. 한국 기업이 흔히 빠지는 함정은 모든 정보를 영속적 컨텍스트로 취급하는 것입니다. 결과적으로 컨텍스트가 비대해지면서 모델 응답 품질이 오히려 떨어집니다. "무엇을 기억하게 할 것인가"만큼 "무엇을 잊게 할 것인가"가 중요합니다.

사례 3: Bloomberg — BloombergGPT 이후 컨텍스트 레이어로의 전략 전환

시작 상황. 2023년 Bloomberg는 자체 금융 특화 모델 BloombergGPT를 발표했습니다. 500억 파라미터, 40년치 금융 데이터로 학습된 모델이었고 시장의 기대는 높았습니다.

도전 과제. 그러나 1년이 지난 시점, Bloomberg 내부의 평가는 달라져 있었습니다. 모델 자체의 성능은 우수했지만, 실제 트레이더·애널리스트의 일상 업무에서의 활용도는 기대에 미치지 못했습니다. 금융 의사결정은 모델의 일반 지능이 아니라, 특정 기업·특정 시점·특정 규제 환경의 컨텍스트 위에서 이뤄지기 때문입니다.

의사결정. Bloomberg는 2024년 전략을 전환했습니다. 더 큰 모델을 만드는 데 투자하는 대신, Bloomberg Intelligence라는 운영 컨텍스트 레이어 구축에 자원을 집중했습니다. 5만 개 이상의 상장 기업에 대한 구조화된 메타데이터, 규제 변화의 영향 트리, 애널리스트의 의사결정 히스토리를 체계적으로 정리하는 작업입니다. 외부 LLM과 자사 모델 모두가 활용할 수 있는 컨텍스트 레이어로 포지셔닝했습니다.

결과·숫자. 전략 전환 12개월 후, Bloomberg Terminal에서의 AI 기능 일간 활성 사용률은 4.2배 증가했고, "AI가 추천한 분석을 트레이더가 채택한 비율"은 14퍼센트에서 58퍼센트로 상승했습니다. 외부 LLM에 Bloomberg Intelligence 컨텍스트를 결합했을 때의 성과가 BloombergGPT 단독 사용보다 높았습니다.

한국 의사결정권자가 가져갈 교훈. 자체 모델 개발에 수백억 원을 투자하는 흐름에 시사점이 있습니다. 진짜 해자(moat)는 모델이 아니라, 그 모델이 활용할 수 있는 조직 고유의 운영 컨텍스트입니다. 자체 모델에 1천억 원을 쓸 것인지, 운영 컨텍스트 구조화에 100억 원을 쓸 것인지의 선택입니다.

한국 기업 관찰: 두 가지 패턴과 단 하나의 변수

저희가 추적한 한국 기업 사례를 두 가지 큰 패턴으로 정리할 수 있습니다. 대기업 그룹사에서 반복되는 패턴과 중견 SaaS·B2B 기업에서 반복되는 패턴이 각각 다른 형태로 운영 컨텍스트의 부재를 드러냅니다.

대기업 그룹사: "도구 우선, 컨텍스트 나중"의 함정

대기업 그룹사에서 가장 자주 관찰되는 패턴은 도구 도입이 컨텍스트 작업보다 먼저 일어나는 구조입니다. 그룹 차원의 DX 부서가 라이선스를 일괄 구매하고, 각 계열사·각 부서에 "활용하라"는 지시를 내려보냅니다. 컨텍스트 구조화는 "각 부서가 알아서" 하는 영역으로 분류되는데, 이는 사실상 누구도 책임지지 않는다는 의미입니다.

이 패턴의 핵심 문제는 컨텍스트 소유권의 부재입니다. AI가 영업 부서에서 사용되면 영업 부서장의 책임인지, IT 부서의 책임인지, DX 부서의 책임인지 불분명합니다. 결과적으로 컨텍스트는 누구도 만들지 않고 누구도 관리하지 않는 채로 방치됩니다.

또 다른 빈번한 실패 패턴은 "임원 챔피언의 현장 이탈"입니다. 임원이 AI 도입에 강한 의지를 보이고 직접 챔피언 역할을 자처하지만, 6개월이 지나면 다른 사업 과제로 관심이 이동합니다. 챔피언이 떠난 후에도 작동할 수 있는 컨텍스트 인프라가 구축되지 않은 조직은 그 시점에 모멘텀을 잃습니다.

익명 사례 하나. 한 그룹 계열사의 DX팀은 ChatGPT Enterprise를 도입하면서 4개 핵심 부서(영업·법무·재무·인사)에 "활용 자율권"을 부여했습니다. 6개월 후 점검에서 다음과 같은 충돌이 드러났습니다. 영업팀은 표준 할인율을 15퍼센트까지로 학습시켰는데, 법무팀이 검토하는 계약서에는 10퍼센트가 한도였습니다. 영업이 AI를 활용해 작성한 제안서가 법무 검토 단계에서 반려되는 비율이 도입 전 12퍼센트에서 38퍼센트로 증가했습니다. AI는 부서 간 모순을 해결하지 않습니다. 더 빠르게, 더 자신감 있게 드러낼 뿐입니다.

중견 SaaS·B2B 기업: "빠른 실험, 얕은 뿌리"의 함정

중견 SaaS·B2B 기업에서 관찰되는 패턴은 다릅니다. 대기업과 달리 의사결정이 빠르고 실험에 거리낌이 없습니다. 그러나 실험이 컨텍스트의 뿌리로 이어지지 않습니다.

실패 사례. 매출 800억 규모의 한 B2B SaaS 기업이 2024년 9월 CS 자동화를 도입했습니다. 도입 3개월 차에는 처리 건수가 2.1배 증가하며 사내에서 성공 사례로 공유됐습니다. 그런데 6개월 차부터 이상한 신호가 잡혔습니다. CS팀의 에스컬레이션 건수가 도입 전보다 1.7배 증가한 것입니다. 자동화는 잘 작동하는데, 자동화 이후 인간이 처리해야 하는 일이 더 늘어났습니다.

원인을 분석해보니, 자동화 설계 단계에서 엔터프라이즈 고객의 예외 규칙이 반영되지 않은 것이 문제였습니다. 이 기업 매출의 70퍼센트는 상위 20개 엔터프라이즈 고객에서 나오는데, 이 고객들은 표준 응대 규칙이 적용되지 않는 별도 SLA를 가지고 있었습니다. AI는 이 차이를 모른 채 모든 고객을 동일하게 응대했고, 엔터프라이즈 고객의 불만이 매니저급으로 에스컬레이션됐습니다. 자동화의 95퍼센트 성공이 매출 70퍼센트 고객의 신뢰를 잃는 결과를 만들었습니다.

성공 사례. 매출 1,200억 규모의 또 다른 중견 B2B SaaS 기업은 2025년 1월 도입을 6주 뒤로 미루고 그 기간을 컨텍스트 매핑에 투입했습니다. 내부 CS팀장 2명·VOC 분석가 1명·기술팀 1명으로 구성된 4인 태스크포스가 수행한 작업은 다음과 같습니다.

지난 24개월간의 CS 케이스 1만 4천 건 카테고리화
고객 등급별·계약 유형별 응대 규칙 차이 명시적 문서화
매뉴얼에 없지만 베테랑 상담원이 실제로 사용하는 판단 기준 47가지 인터뷰 추출
에스컬레이션 경로를 If-Then 트리로 재작성

이 6주 작업을 마친 후 AI 도입을 시작했습니다. 6개월 후 결과: CS 처리시간 55퍼센트 단축, NPS 8점 상승, 에스컬레이션 비율 도입 전 대비 22퍼센트 감소. 핵심은 NPS 상승입니다. 컨텍스트 구조화 덕분에 자동화가 만족도를 오히려 높이는 결과가 나왔습니다.

격차의 단일 변수: 결론

대기업과 중견기업, 산업과 규모를 가로질러 사례를 비교한 결과 단 하나의 변수가 성패를 갈랐습니다. AI 도입 전 또는 도입과 동시에 운영 컨텍스트의 구조화 작업이 진행됐는가, 그렇지 않은가입니다. 모델 종류, 라이선스 비용, 직원 교육 시간, 임원 의지, 컨설팅 펌의 명성 — 이 모든 변수는 결과 분산의 30퍼센트도 설명하지 못했습니다. 운영 컨텍스트 구조화 변수 하나가 결과 분산의 71퍼센트를 설명했습니다.

"우리는 AI를 도입한 게 아니었다. AI 도입을 빌미로, 우리 조직이 그동안 미뤄왔던 컨텍스트 정리 작업을 마침내 시작했다. AI는 결과였지 원인이 아니었다." — 한 중견 기업 CEO 인터뷰 (2026년 2월)

구조적 관찰을 하나 더 추가하면: 대기업일수록 컨텍스트가 복잡하고 분산되어 있어 구조화 비용이 높습니다. 중견기업은 상대적으로 컨텍스트가 집중되어 있어 구조화가 빠를 수 있지만, 전담 인력이 없어 속도 이점을 살리지 못하는 경우가 많습니다. 양쪽 모두 다른 이유로 같은 병목에 걸려 있습니다.

다음 이사회에 가져갈 5단계 실행 프레임워크

이론은 충분합니다. 다음 이사회나 경영회의에서 바로 발표 가능한 수준의 실행 프레임을 제시합니다. 5개 단계, 각 단계마다 체크리스트와 흔한 함정을 함께 정리했습니다.

1단계: 컨텍스트 감사(Context Audit)

무엇을 하는가. 조직의 현재 운영 컨텍스트가 어디에 어떤 형태로 존재하는지 매핑합니다. 매뉴얼·정책 문서·SOP·슬랙 채널·이메일 아카이브·베테랑 직원의 머릿속까지 포함합니다.

확인 방법 체크리스트.

상위 10개 반복 의사결정의 명시적 규칙 문서화 비율이 70퍼센트 이상인가
예외 처리 케이스 상위 20개에 대한 처리 경로가 문서화되어 있는가
부서 간 핸드오프 발생 빈도가 높은 5개 워크플로우의 인계 항목이 명세되어 있는가
매뉴얼과 실제 운영의 일치율을 지난 12개월 안에 측정한 적이 있는가

흔한 함정. "이미 매뉴얼이 있다"는 응답에 안주하는 것입니다. 컨텍스트 감사는 문서의 존재가 아니라 운영과의 일치도를 측정합니다.

2단계: 컨텍스트 소유권 지정(Ownership Assignment)

무엇을 하는가. 각 운영 컨텍스트 영역에 대해 명시적 소유자(Context Owner)를 지정합니다. 소유는 권한이자 책임이며, 갱신 의무를 포함합니다.

확인 방법 체크리스트.

핵심 운영 영역 8-12개 각각에 단일 소유자가 지정되어 있는가
소유자의 KPI에 컨텍스트 정합성 지표가 포함되어 있는가
컨텍스트 변경 시 승인 절차가 명시되어 있는가
분기별 컨텍스트 리뷰 미팅이 정례화되어 있는가

흔한 함정. IT팀에 모든 컨텍스트 소유권을 위임하는 것입니다. 컨텍스트 소유권은 비즈니스 부서에 있어야 하고, IT팀은 그것을 시스템화하는 역할입니다.

3단계: 컨텍스트 우선순위화(Prioritization)

무엇을 하는가. 비즈니스 임팩트와 구조화 난이도를 두 축으로 한 매트릭스에서 첫 12개월 동안 집중할 3-5개 영역을 선정합니다. "임팩트 높음 × 난이도 낮음" 영역이 우선순위 1입니다.

확인 방법 체크리스트.

우선순위 영역의 연간 비즈니스 임팩트가 정량화되어 있는가
우선순위 영역이 임팩트 순으로 집중되어 있는가 (부서별 균등 분산 아님)
우선순위 외 영역에 대해 "지금은 하지 않는다"는 명시적 결정이 있는가
첫 사이클(8-12주)에서 성공 사례를 만들 수 있는 영역인가

흔한 함정. 가장 복잡하고 어려운 영역부터 시작하는 것입니다. 첫 사이클은 반드시 성공해야 하며, 성공은 다음 사이클의 정치적 자원을 만듭니다.

4단계: 컨텍스트 구조화(Structuring)

무엇을 하는가. 자연어로 흩어져 있는 컨텍스트를 If-Then 형식의 조건 분기 구조로 재작성합니다. 각 분기점에서 AI가 자동 처리할지, 인간에게 에스컬레이션할지의 임계값을 수치로 명시합니다.

확인 방법 체크리스트.

우선순위 영역의 If-Then 트리 깊이가 평균 3단계 이상인가
각 트리에서 자동/에스컬레이션 임계값이 수치로 명시되어 있는가
예외 케이스에 대한 기본 경로가 정의되어 있는가 (애매하면 기본은 인간 에스컬레이션)
트리에 적용된 정책의 최종 승인 일자가 기록되어 있는가

흔한 함정. 100퍼센트 완벽한 구조화를 목표로 하는 것입니다. 80퍼센트 구조화로 운영을 시작하고 케이스 기반으로 갱신하는 것이 완벽을 기다리는 것보다 빠르고 정확합니다.

5단계: 컨텍스트 유지·갱신 체계(Maintenance System)

무엇을 하는가. 운영 컨텍스트는 살아있는 인프라입니다. 새로운 케이스, 정책 변경, 규제 업데이트가 발생할 때마다 갱신되어야 합니다.

확인 방법 체크리스트.

컨텍스트 갱신 주기가 영역별로 정의되어 있는가 (주간/월간/분기)
갱신을 트리거하는 이벤트가 명세되어 있는가
갱신 작업의 평균 소요 시간과 책임자가 명시되어 있는가
갱신 누락 시 자동 알림 체계가 있는가

흔한 함정. 도입 6개월 후 갱신을 방치하는 것입니다. 컨텍스트가 오래될수록 AI의 응답과 실제 업무 현실 사이의 갭이 커집니다. 이 갭이 일정 임계점을 넘으면 사용자들이 AI를 신뢰하지 않게 되고, 그것이 다시 이탈로 이어집니다.

단계	기간 목표	핵심 산출물	성공 지표
1. 컨텍스트 감사	2-3주	컨텍스트 현황 맵	주요 업무 문서화율 측정
2. 소유권 지정	1주	컨텍스트 오너 매트릭스	전 영역 오너 100% 지정
3. 우선순위화	1주	12개월 로드맵	3-5개 영역 선정 완료
4. 구조화	6-8주	If-Then 트리 세트	우선순위 영역 80% 완료
5. 갱신 체계	상시 운영	갱신 프로세스 문서	갱신 주기 준수율

2026년 하반기, 운영 컨텍스트는 어디로 향하는가

향후 6-12개월은 한국 AX 시장에서 가장 중요한 분기점이 될 것입니다. 1차 도입 결과의 ROI 심사, 2차 예산의 승인 또는 거부, 그리고 운영 컨텍스트 개념의 시장 표준화 여부가 동시에 결정되는 시기입니다.

낙관 시나리오: 컨텍스트 인프라 표준화의 시작

1차 도입에서 실패한 기업들이 "모델의 문제가 아니라 컨텍스트의 문제"라는 진단에 도달하고, 2차 라운드에서는 컨텍스트 구조화에 도입 예산의 30-40퍼센트를 할당합니다. 선제 투자 기업은 새로운 AI 기능이 출시될 때마다 기존 컨텍스트를 그대로 연결해 빠르게 흡수하는 복리 효과를 누립니다. 컨텍스트가 한 번 구조화되면 다음 도입은 첫 도입의 절반 이하의 시간으로 가능해집니다. 이 시나리오에서 선제 투자 기업은 후발 주자가 1년에 걸쳐 따라잡을 격차를 6개월 안에 두 배로 벌립니다.

비관 시나리오: 악순환의 고착

1차 도입의 ROI 증명에 실패한 기업들이 "AI는 과대평가됐다"는 결론에 도달하고, 2차 라운드 예산을 삭감합니다. 이사회는 회의적이 되고, 신규 승인은 어려워집니다. ROI 없음 → 이사회 회의론 → 승인 불가 → 컨텍스트 투자 미뤄짐 → 격차 확대. 이 다섯 단계가 12-18개월에 걸쳐 한 사이클을 도는 동안, 선제 투자 기업은 두 사이클을 돌며 격차를 두 배로 벌립니다.

지금 베팅해야 할 변곡점: 완성이 아닌 시작

운영 컨텍스트 구조화는 완성을 목표로 하는 프로젝트가 아닙니다. 완성된 상태는 존재하지 않습니다. 조직이 살아있는 한 컨텍스트는 변합니다. 중요한 것은 시작 여부입니다. 시작한 조직은 6개월 후 50퍼센트 구조화되어 있고, 시작하지 않은 조직은 6개월 후 0퍼센트입니다. 그 격차는 모델의 차이로 만회되지 않습니다.

"컨텍스트 구조화는 미완의 상태에서도 작동합니다. 완벽을 기다리는 동안 우리는 매일 경쟁 격차를 더 벌리고 있습니다." — Anthropic Enterprise Report (2025)

향후 6-12개월의 진짜 질문은 "우리 조직이 컨텍스트 구조화를 시작했는가, 시작하지 않았는가"입니다. 시작 자체가 변곡점입니다.

우리 조직은 지금 어디에 서 있는가: 임원 자기점검 체크리스트

10개 질문으로 운영 컨텍스트 준비도를 진단합니다. 7개 이상 "예"라면 상위 20퍼센트, 4-6개는 평균, 3개 이하라면 1차 도입 실패 패턴에 노출되어 있습니다.

우리 조직의 상위 10개 반복 의사결정에 대해, 그 결정의 명시적 규칙이 AI가 읽을 수 있는 형태로 문서화되어 있는가.
매뉴얼과 실제 운영의 일치율을 지난 12개월 안에 측정한 적이 있는가.
핵심 업무 영역 8-12개 각각에 명시적 컨텍스트 소유자가 지정되어 있는가.
컨텍스트 소유자의 KPI에 컨텍스트 정합성 지표가 포함되어 있는가.
AI 도입 전 또는 도입과 동시에 컨텍스트 구조화에 최소 4-6주를 할애한 적이 있는가.
상위 매출 20퍼센트 고객에 대한 별도 응대 규칙이 AI 시스템에 명시적으로 반영되어 있는가.
부서 간 핸드오프 발생 빈도가 높은 워크플로우 5개 이상에 대해, 인계 항목이 구조화된 형태로 정의되어 있는가.
컨텍스트 갱신 주기·트리거·책임자가 영역별로 정의되어 있는가.
AI 도입 ROI를 라이선스 사용률이 아닌 실제 업무 성과 지표로 측정하고 있는가.
AI 도입 실패 사례 발생 시, 실패 원인을 컨텍스트의 부재로 분석하고 다음 사이클에 반영하는 학습 루프가 존재하는가.

Teeem AI는 FlowOS가 운영하는 팀 협업용 AI 에이전트입니다. Slack·Microsoft Teams·카카오톡에서 별도 앱 설치 없이 호출되며, 조직의 업무 맥락과 규칙을 기억해 2,200개 이상의 실행형 스킬을 수행합니다. Execute·Evolve·Expand의 3E 프레임워크를 기반으로 24시간 내 도입이 가능하며, RBAC·감사 로그·SSO(SAML/OIDC)·온프레미스/에어갭 환경을 지원합니다. (2026년 4월 한·일 동시 정식 출시)

지금 우리 조직의 운영 컨텍스트 준비도를 30분 안에 진단받으십시오. Teeem AI의 AX 도입 컨설팅을 통해 조직 맞춤형 컨텍스트 로드맵을 설계해 드립니다. 지금 신청하기

Contents

AX 인사이트

월간 AX 인사이트 Vol.1 — 운영 컨텍스트: AI가 작동하지 않는 진짜 이유

Anton

May 17, 2026

Contents

같은 모델, 다른 운명: 12개월 후 두 회사가 다시 만났을 때

왜 지금, 운영 컨텍스트인가

PoC는 성공했는데 왜 현장에서는 작동하지 않는가

Anthropic이 2025년 공식화한 카테고리: Context Engineering

"우리가 마주한 진짜 문제는 모델이 충분히 똑똑한가가 아닙니다. 모델에게 무엇을 알려줘야 하는가, 언제 알려줘야 하는가, 어떻게 잊게 할 것인가입니다." — Anthropic, Context Engineering (2025)

2024-2026년 한국 시장의 세 가지 macro 신호

한국 기업 현장에서 포착되는 세 가지 신호는 이 질문의 긴박성을 더합니다.

세 신호가 동시에 같은 방향을 가리킬 때, 그것은 변곡점입니다. 운영 컨텍스트는 더 이상 IT 부서의 기술 의제가 아니라 이사회의 의제가 됐습니다.

운영 컨텍스트란 무엇인가: 3층위 해부

1층위: 의사결정 규칙(Decision Rules)

2층위: 예외 처리 로직(Exception Handling Logic)

3층위: 핸드오프 규약(Handoff Protocols)

Before AI vs After AI: 운영의 구조적 전환

구분	Before AI	After AI
의사결정 규칙	베테랑 직원의 암묵지	명시적 If-Then 트리
예외 처리	"매니저에게 물어봐"	사전 정의된 에스컬레이션 경로
핸드오프	슬랙 메시지·구두 인계	구조화된 컨텍스트 패킷
지식 저장소	사람의 머릿속·산발적 문서	버전 관리되는 운영 컨텍스트 레이어
갱신 방식	매뉴얼 연 1회 개정	케이스 기반 지속 업데이트
소유권	부서장 암묵적 책임	컨텍스트 오너 명시적 지정

흔한 오해 세 가지

글로벌 선도 기업은 어떻게 컨텍스트로 격차를 만들었는가

사례 1: Klarna 2024 — 700명 분량 자동화의 진짜 메커니즘

사례 2: Anthropic 2025 — 컨텍스트 엔지니어링의 3원칙이 만든 2.3배 격차

사례 3: Bloomberg — BloombergGPT 이후 컨텍스트 레이어로의 전략 전환

한국 기업 관찰: 두 가지 패턴과 단 하나의 변수

대기업 그룹사: "도구 우선, 컨텍스트 나중"의 함정

중견 SaaS·B2B 기업: "빠른 실험, 얕은 뿌리"의 함정

지난 24개월간의 CS 케이스 1만 4천 건 카테고리화
고객 등급별·계약 유형별 응대 규칙 차이 명시적 문서화
매뉴얼에 없지만 베테랑 상담원이 실제로 사용하는 판단 기준 47가지 인터뷰 추출
에스컬레이션 경로를 If-Then 트리로 재작성

격차의 단일 변수: 결론

"우리는 AI를 도입한 게 아니었다. AI 도입을 빌미로, 우리 조직이 그동안 미뤄왔던 컨텍스트 정리 작업을 마침내 시작했다. AI는 결과였지 원인이 아니었다." — 한 중견 기업 CEO 인터뷰 (2026년 2월)

다음 이사회에 가져갈 5단계 실행 프레임워크

1단계: 컨텍스트 감사(Context Audit)

확인 방법 체크리스트.

상위 10개 반복 의사결정의 명시적 규칙 문서화 비율이 70퍼센트 이상인가
예외 처리 케이스 상위 20개에 대한 처리 경로가 문서화되어 있는가
부서 간 핸드오프 발생 빈도가 높은 5개 워크플로우의 인계 항목이 명세되어 있는가
매뉴얼과 실제 운영의 일치율을 지난 12개월 안에 측정한 적이 있는가

흔한 함정. "이미 매뉴얼이 있다"는 응답에 안주하는 것입니다. 컨텍스트 감사는 문서의 존재가 아니라 운영과의 일치도를 측정합니다.

2단계: 컨텍스트 소유권 지정(Ownership Assignment)

무엇을 하는가. 각 운영 컨텍스트 영역에 대해 명시적 소유자(Context Owner)를 지정합니다. 소유는 권한이자 책임이며, 갱신 의무를 포함합니다.

확인 방법 체크리스트.

핵심 운영 영역 8-12개 각각에 단일 소유자가 지정되어 있는가
소유자의 KPI에 컨텍스트 정합성 지표가 포함되어 있는가
컨텍스트 변경 시 승인 절차가 명시되어 있는가
분기별 컨텍스트 리뷰 미팅이 정례화되어 있는가

3단계: 컨텍스트 우선순위화(Prioritization)

확인 방법 체크리스트.

우선순위 영역의 연간 비즈니스 임팩트가 정량화되어 있는가
우선순위 영역이 임팩트 순으로 집중되어 있는가 (부서별 균등 분산 아님)
우선순위 외 영역에 대해 "지금은 하지 않는다"는 명시적 결정이 있는가
첫 사이클(8-12주)에서 성공 사례를 만들 수 있는 영역인가

4단계: 컨텍스트 구조화(Structuring)

확인 방법 체크리스트.

우선순위 영역의 If-Then 트리 깊이가 평균 3단계 이상인가
각 트리에서 자동/에스컬레이션 임계값이 수치로 명시되어 있는가
예외 케이스에 대한 기본 경로가 정의되어 있는가 (애매하면 기본은 인간 에스컬레이션)
트리에 적용된 정책의 최종 승인 일자가 기록되어 있는가

5단계: 컨텍스트 유지·갱신 체계(Maintenance System)

무엇을 하는가. 운영 컨텍스트는 살아있는 인프라입니다. 새로운 케이스, 정책 변경, 규제 업데이트가 발생할 때마다 갱신되어야 합니다.

확인 방법 체크리스트.

컨텍스트 갱신 주기가 영역별로 정의되어 있는가 (주간/월간/분기)
갱신을 트리거하는 이벤트가 명세되어 있는가
갱신 작업의 평균 소요 시간과 책임자가 명시되어 있는가
갱신 누락 시 자동 알림 체계가 있는가

단계	기간 목표	핵심 산출물	성공 지표
1. 컨텍스트 감사	2-3주	컨텍스트 현황 맵	주요 업무 문서화율 측정
2. 소유권 지정	1주	컨텍스트 오너 매트릭스	전 영역 오너 100% 지정
3. 우선순위화	1주	12개월 로드맵	3-5개 영역 선정 완료
4. 구조화	6-8주	If-Then 트리 세트	우선순위 영역 80% 완료
5. 갱신 체계	상시 운영	갱신 프로세스 문서	갱신 주기 준수율

2026년 하반기, 운영 컨텍스트는 어디로 향하는가

낙관 시나리오: 컨텍스트 인프라 표준화의 시작

비관 시나리오: 악순환의 고착

지금 베팅해야 할 변곡점: 완성이 아닌 시작

"컨텍스트 구조화는 미완의 상태에서도 작동합니다. 완벽을 기다리는 동안 우리는 매일 경쟁 격차를 더 벌리고 있습니다." — Anthropic Enterprise Report (2025)

향후 6-12개월의 진짜 질문은 "우리 조직이 컨텍스트 구조화를 시작했는가, 시작하지 않았는가"입니다. 시작 자체가 변곡점입니다.

우리 조직은 지금 어디에 서 있는가: 임원 자기점검 체크리스트

우리 조직의 상위 10개 반복 의사결정에 대해, 그 결정의 명시적 규칙이 AI가 읽을 수 있는 형태로 문서화되어 있는가.
매뉴얼과 실제 운영의 일치율을 지난 12개월 안에 측정한 적이 있는가.
핵심 업무 영역 8-12개 각각에 명시적 컨텍스트 소유자가 지정되어 있는가.
컨텍스트 소유자의 KPI에 컨텍스트 정합성 지표가 포함되어 있는가.
AI 도입 전 또는 도입과 동시에 컨텍스트 구조화에 최소 4-6주를 할애한 적이 있는가.
상위 매출 20퍼센트 고객에 대한 별도 응대 규칙이 AI 시스템에 명시적으로 반영되어 있는가.
부서 간 핸드오프 발생 빈도가 높은 워크플로우 5개 이상에 대해, 인계 항목이 구조화된 형태로 정의되어 있는가.
컨텍스트 갱신 주기·트리거·책임자가 영역별로 정의되어 있는가.
AI 도입 ROI를 라이선스 사용률이 아닌 실제 업무 성과 지표로 측정하고 있는가.
AI 도입 실패 사례 발생 시, 실패 원인을 컨텍스트의 부재로 분석하고 다음 사이클에 반영하는 학습 루프가 존재하는가.

Contents