단계별 로드맵

두 단계로 나누어 진행한다.
Phase 1: CS 관리자 사이트 — 자료/답변 수집 + AI 추천 답변 (상담사 보조)
Phase 2: CS 상담 챗봇 — 고객이 직접 챗봇과 대화 (완전 자동화 + 에스컬레이션)
Phase 1에서 쌓인 자료·표준 답변·피드백이 Phase 2의 품질을 결정한다.

1. 비전과 목표

비전

NotebookLM 수준의 답변 품질을 가진, 자사 솔루션 전문 고객상담 AI. 상담사를 대체하기 전에 먼저 상담사를 강화하고, 검증된 자산이 충분히 쌓인 뒤 고객에게 직접 노출한다.

목표

구분	목표
사업	반복 문의 자동화로 상담 비용 절감, 24/7 응답 채널 확보
품질	출처 인용이 포함된 정확·일관된 답변, 잘못된 안내 제로 지향
안전	추측 금지 — 모호하면 "모름" 후 상담사 에스컬레이션
자산화	상담사 채택/수정 피드백을 표준 답변으로 환류하는 선순환

비목표 (Non-goals)

Phase 1에서 고객 직접 노출 안 함 (상담사 보조에 한정)
일반 잡담/범용 어시스턴트 아님 (자사 솔루션 도메인 한정)
MVP에서 동영상·대용량 비동기 인덱싱 미포함 (Phase 2 조건부)

2. 현재 상태

항목	상태
단계	기획·설계 문서 작성 (개발 착수 전)
산출물	CLAUDE.md, TECH-STACK.md, WBS.md, 본 로드맵
코드	`malgn-helper` / `-admin` / `-api` 디렉토리 비어 있음
다음 액션	미결 결정(§9) 확정 → Phase 1 인프라(1.1) 착수

기준일: 2026-05-18. 진행 시 본 표를 갱신한다.

3. 타임라인

실제 일정은 인원·미결 결정 확정 후 산정. 아래는 상대적 마일스톤 스캐폴드.

Phase 1  ─────────────────────────────────────────────▶
  M1 인프라 Ready ─ M2 자료/표준답변 수집 ─ M3 검색 동작 ─ M4 AI 추천 GA
                                                          │
                                          (운영하며 자산 축적·미커버 분석)
                                                          ▼
Phase 2                                  ───────────────────────────────▶
        M5 챗봇 Alpha(내부) ─ M6 챗봇 Beta(제한 고객) ─ M7 챗봇 GA

마일스톤	정의	선행
M1 인프라 Ready	1.1~1.3 완료 (인프라·데이터모델·인증)	—
M2 자료/표준답변 수집	1.4~1.5 완료	M1
M3 검색 동작	1.6~1.7 완료 (인덱싱·하이브리드 검색)	M2
M4 AI 추천 GA	1.8~1.10 완료, Phase 1 완료 기준 충족	M3
M5 챗봇 Alpha	2.1~2.3 완료 (내부 테스트)	M4 + 자산 축적
M6 챗봇 Beta	2.4~2.6 완료 (제한 고객)	M5
M7 챗봇 GA	2.8 완료, 필요 시 2.7 포함	M6

M4 → M5 사이에 Phase 1을 실제 운영하며 자산을 쌓는 기간을 반드시 둔다. 자산 부족 상태로 챗봇을 노출하지 않는다.

4. 주요 에픽

에픽	설명	Phase
E1. 기반 인프라	Cloudflare/Aurora/OpenSearch/AI Gateway 셋업 + 데이터 모델 + 인증	P1
E2. 지식 수집	자료 업로드·Q&A 임포트·표준 답변 관리	P1
E3. 검색·인덱싱	동기 인덱싱 + BM25·k-NN 하이브리드 + 표준답변 우선 매칭	P1
E4. AI 추천 답변	추천 파이프라인 + 출처 인용 + 상담사 채택/수정/거절	P1
E5. 피드백 선순환	채택 → 표준답변 후보화, 미커버 질문 분석	P1→P2
E6. 사용자 챗봇	챗 UI·세션·스트리밍·신뢰도 가드	P2
E7. 에스컬레이션	"모름" 분기 → 티켓 → 관리자 큐 → 채널 연동	P2
E8. 안전·품질	PII/금칙어/환각 가드, 응답 평가, A/B	P2
E9. 운영·관측	비용·지표·알람, 인덱싱 확장(Queue)	P1→P2

5. 우선순위

원칙: 정확성·안전 > 자산 축적 > 자동화 범위 확대.

순위	항목	근거
P0	E1 인프라, E3 검색, E4 AI 추천	Phase 1 핵심 가치. 없으면 제품 성립 안 됨
P0	출처 인용 / "모름" 정책	잘못된 안내 방지 — 타협 불가 요구사항
P1	E2 지식 수집, E5 피드백 루프	답변 품질과 자산 축적의 토대
P1	E7 에스컬레이션	챗봇 안전판. Phase 2 필수
P2	E8 안전·품질 고도화, E9 관측	운영 성숙도. 점진 강화
P3	2.7 인덱싱 확장(Queue)	동영상/대용량 도입 시에만

Phase 1 — CS 관리자 사이트 + AI 추천 답변

목표: 상담사가 들어온 문의에 답변할 때, AI가 출처가 명확한 추천 답변을 제시한다. 상담사는 추천을 채택/수정/거절하고, 그 결과가 다시 학습 자산으로 쌓인다.

1.1 인프라·기반 작업

Cloudflare 계정 환경 분리 (dev / staging / prod)
malgn-helper-api 초기화 (Hono on Workers)
malgn-helper-admin 초기화 (Nuxt 3 on Pages)
Hyperdrive 바인딩 → Aurora MySQL 연결
R2 버킷 생성 (원본 파일용)
OpenSearch 도메인 프로비저닝 + 접근 정책
AI Gateway 설정 + Anthropic API 키 연결
시크릿/환경변수 정리 (Workers Secrets, Pages env)

1.2 데이터 모델 (Aurora)

users (관리자/상담사)
documents (원본 자료 메타데이터, R2 키 참조)
chunks (청크 본문 + OpenSearch 도큐먼트 id)
standard_answers (표준 답변 본문, 분류, 상태)
inquiries (들어온 문의)
ai_suggestions (문의별 AI 추천 답변, 출처, 신뢰도)
agent_responses (상담사 최종 답변, 채택/수정 여부, 피드백)
마이그레이션 도구 선정·도입

1.3 인증·권한

관리자 로그인 (사내 SSO / 자체 계정 중 결정)
역할 분리: admin(자료/표준답변 관리), agent(상담)
API 토큰/세션 처리

1.4 자료 수집 기능 (관리자)

매뉴얼/문서 업로드 UI (PDF, DOCX, 텍스트 등)
기존 Q&A 일괄 가져오기 (CSV/엑셀)
자료 목록·검색·태그
자료 삭제·버전 관리(최소한 갱신 시 재인덱싱)

1.5 표준 답변 관리

표준 답변 작성 화면 (질문 패턴 + 답변 본문 + 출처 링크)
검토·승인 워크플로 (draft → review → published)
분류·태그
비활성화/만료 처리

1.6 인덱싱 파이프라인 (동기 / MVP)

텍스트 추출기 (PDF → 텍스트)
청킹 로직 (크기/오버랩 파라미터화)
임베딩 생성 (모델 선정 필요)
OpenSearch upsert (BM25 필드 + 벡터 필드)
재인덱싱 트리거 (자료/표준 답변 갱신 시)
인덱싱 상태 표시 (관리자 화면)

1.7 검색

BM25 쿼리 빌더
k-NN 벡터 검색
하이브리드 결합 (RRF 또는 가중치 합산)
표준 답변 우선 매칭 로직
결과 디버깅 뷰 (관리자가 검색 결과/스코어 확인)

1.8 AI 추천 답변 (핵심 기능)

문의 입력 화면 (상담사가 받은 질문을 붙여 넣음)
파이프라인: 표준 답변 매칭 → 하이브리드 검색 → Claude 호출
출처 인용을 응답에 포함 (필수)
신뢰도/근거 수준 표시
상담사 액션: 채택 / 수정 후 사용 / 거절(이유)
채택/수정 결과 저장 → 학습 자산화

1.9 피드백 루프

자주 채택된 답변 → 표준 답변 후보로 자동 추천
거절 사유 통계 (자료 부족? 답변 부정확? 정책 위반?)
미커버 질문 목록 (검색 hit 낮음 / 신뢰도 낮음)

1.10 운영

AI Gateway 사용량/비용 대시보드
LLM 호출 로깅 (요청·응답·토큰)
에러 알림 (인덱싱 실패, LLM 실패)

Phase 1 완료 기준: 상담사가 관리자 사이트에서 문의를 받아 AI 추천 답변을 보고 채택/수정해 응답을 보낼 수 있다. 자료·표준 답변·피드백이 DB에 쌓이고 있다.

Phase 2 — CS 상담 챗봇 (고객 직접 대화)

목표: 고객이 malgn-helper 챗봇과 직접 대화한다. Phase 1에서 검증된 자료·표준 답변·답변 정책을 그대로 활용하되, "모르면 모른다" 원칙으로 상담사에게 안전하게 넘긴다.

2.1 사용자 프론트엔드 (`malgn-helper`)

Nuxt 3 초기화 및 Cloudflare Pages 배포
챗 UI (스트리밍, 마크다운, 출처 카드)
세션 유지 / 익명 여부 정책
모바일 반응형

2.2 챗 세션·메시지

chat_sessions, chat_messages 테이블
세션 컨텍스트 관리 (최근 N턴)
사용자 메타데이터(있다면) 연동

2.3 챗봇 답변 파이프라인

표준 답변 매칭 → hit 시 즉시 반환 (Phase 1 자산 재사용)
하이브리드 검색 → 컨텍스트 구성
Claude 스트리밍 응답 + 출처 인용
프롬프트 캐싱(시스템 프롬프트, 표준 답변 카탈로그)
신뢰도 가드: 근거 부족 / 모호 → "모름" 응답으로 분기

2.4 에스컬레이션

"상담사 연결" 버튼/플로우
에스컬레이션 티켓 생성 → 관리자 큐
채널 결정 (인앱 / 이메일 / Slack)
SLA·우선순위 정책

2.5 관리자 측 확장

챗 로그 열람·검색
에스컬레이션 큐 처리 화면
챗봇 미커버 질문 자동 수집 → 표준 답변 후보화 (Phase 1 루프 확장)
챗봇 응답 품질 리뷰 (샘플링)

2.6 안전·품질

금칙어/PII 필터
환각 가드 (출처 없는 응답 차단 정책)
응답 평가(좋아요/싫어요) 수집
A/B (프롬프트/검색 파라미터)

2.7 인덱싱 확장 (필요 시)

동영상 자료 도입 → Queue + Indexer Worker 비동기 파이프라인 추가
대용량 PDF 분할 처리
인덱싱 진행률·재시도 UI

2.8 운영·관측

챗 응답 시간/실패율 지표
비용 모니터링 (토큰·임베딩·OpenSearch)
알람 (응답 실패, 에스컬레이션 적체)

Phase 2 완료 기준: 고객이 챗봇과 대화해 답변을 받거나, 모호한 경우 상담사 에스컬레이션으로 안전하게 빠진다. Phase 1의 피드백 루프가 챗봇 데이터까지 자연스럽게 확장되어 있다.

6. 성공지표 (KPI)

Phase 1

지표	정의	목표(초기)
추천 채택률	상담사가 AI 추천을 (수정 포함) 사용한 비율	≥ 60%
무수정 채택률	수정 없이 그대로 채택한 비율	≥ 30%
인용 정확도	추천 답변의 출처가 실제 근거와 일치하는 비율	≥ 95%
잘못된 안내	사실과 다른 답변 발생 건수	0건 지향
응답 생성 시간	문의 입력 → 추천 표시 (p95)	≤ 8초
자산 축적	표준 답변 수 / 커버된 질문 유형	지속 증가

Phase 2

지표	정의	목표(초기)
자동 응답 해결률	에스컬레이션 없이 종료된 대화 비율	≥ 50%
에스컬레이션 정확도	"모름" 분기가 실제로 답할 수 없던 경우 비율	≥ 90%
사용자 만족	응답 좋아요 비율	≥ 80%
환각 발생	출처 없는 단정적 답변 건수	0건 지향
챗 응답 지연	첫 토큰까지 시간 (p95)	≤ 3초
비용/대화	대화당 LLM+검색 비용	예산 내 유지

7. 의존성과 리스크

의존성

의존	영향
외부 AWS (Aurora, OpenSearch) ↔ Cloudflare 네트워크	지연·연결 안정성. Hyperdrive·접근정책 선검증 필요
미결 결정(§9)	임베딩/ORM/인증 미확정 시 1.2·1.6·1.3 착수 불가
초기 자료 품질·분량	빈약하면 추천 품질 미달 → Phase 2 진입 지연
AI Gateway / Anthropic 가용성·쿼터	추천·챗 전 기능의 단일 의존점
Phase 1 운영 자산	Phase 2 챗봇 품질의 전제 (M4→M5 게이트)

리스크

리스크	영향	완화
한국어 검색 품질 미달	추천 정확도 저하	임베딩 모델 비교 PoC, BM25 가중·형태소 분석 검토
환각/잘못된 안내	신뢰 훼손, 사업 리스크	출처 없는 답변 차단, "모름" 분기, 상담사 검토 게이트
동기 인덱싱 한계	대용량/동영상에서 Worker 타임아웃	텍스트 한정 운영, 한도 초과 시 Queue 도입(2.7)
자산 부족 상태 챗봇 노출	낮은 해결률·불만	M4→M5 자산 축적 게이트 강제
비용 초과	운영비 부담	AI Gateway 캐싱·rate limit, 비용 대시보드·알람
표준답변 노후화	잘못된 안내	만료·검토 워크플로(1.5), 주기적 리뷰

8. 거버넌스 / 운영

단계 게이트: 각 마일스톤은 완료 기준 충족 시에만 다음 단계로. 특히 M4→M5는 자산 축적 검증 필수.
품질 리뷰: 주기적 답변 샘플링 리뷰(인용 정확도·잘못된 안내)로 KPI 추적.
문서 동기화: 범위/아키텍처 변경 시 CLAUDE.md·TECH-STACK.md·WBS.md와 본 문서 동시 갱신.

9. 미결 결정 (양 단계 공통)

항목	필요 시점
임베딩 모델 (Anthropic / OpenAI / 한국어 특화 오픈모델)	1.6 인덱싱 전
ORM/마이그레이션 도구	1.2 데이터 모델 전
인증 방식 (관리자, 사용자 각각)	1.3 인증 전
에스컬레이션 채널 표준 (인앱/이메일/Slack/티켓)	2.4 에스컬레이션 전
관측 스택 (로그·메트릭·알람)	1.10 운영 전