기존 RAG는 “질문과 비슷한 문서 조각(chunk)을 찾아 LLM에 붙인다”는 단순하고 강력한 공식을 기반으로 빠르게 확산했습니다. 그런데 실무에서 조금만 복잡한 질문을 던지면, 예상보다 자주 벽에 부딪힙니다. 문서 전체의 흐름(글로벌 맥락) 과 개체들 사이의 복잡한 관계가 핵심인 질문일수록, “유사한 chunk 몇 개”만으로는 답이 흔들리기 때문입니다. 그렇다면 왜 이 한계를 넘어설 새로운 접근이 필요할까요?
RAG가 자주 실패하는 지점: “비슷한 문장”은 찾아도 “전체 구조”는 못 찾는다
전통적인 RAG 파이프라인은 대개 다음처럼 동작합니다.
1) 문서를 일정 길이로 쪼갠다 (chunking)
2) chunk를 임베딩해 벡터 DB에 저장한다
3) 질문도 임베딩해 top-k chunk를 검색한다
4) 검색 결과를 컨텍스트로 LLM이 답을 생성한다
이 방식은 단일 사실 확인, 특정 문단 기반 Q&A에는 매우 강합니다. 하지만 다음 유형에서 구조적 한계가 드러납니다.
글로벌 맥락이 필요한 질문
- “지난 1년간 우리 조직의 AI 전략이 어떻게 바뀌었지?”
- “전체 프로젝트 흐름을 한 장으로 정리해 줘.”
- 이런 질문은 특정 chunk가 아니라, 여러 문서·여러 시점의 정보를 연결해 서사(narrative) 로 만들어야 합니다.
관계(relationship)가 핵심인 질문
- “A팀과 B팀의 의존 관계가 왜 생겼고, 언제부터 강화됐지?”
- “이 규제 조항이 어떤 정책/기관/판례와 연결돼 있지?”
- 벡터 검색은 ‘문장 유사도’엔 강하지만, ‘관계망’을 직접 모델링하지 않기 때문에 multi-hop(여러 단계를 건너는) 추론이 빈번히 무너집니다.
스케일이 커질수록 생기는 상위 개념의 실종
- 데이터가 커질수록 top-k chunk는 “정답의 일부 단서”만 가져오고, 전체 그림은 오히려 더 흐려집니다.
- 결국 RAG는 “문서 묶음”을 다루는 데는 익숙하지만, “지식 구조”를 다루는 데는 취약합니다.
