2025 최신 Agentic RAG 기술과 평가 기준, Databricks 실제 사례는 무엇일까?

2025년, AI 기술은 우리의 상상을 뛰어넘는 수준에 도달했습니다. 특히 RAG(Retrieval-Augmented Generation) 기술의 진화는 놀라운 속도로 이뤄지고 있습니다. 그 중심에는 ‘Agentic RAG’라는 혁신적인 접근법이 자리 잡고 있습니다. 이 기술은 단순한 정보 검색과 생성을 넘어, 복잡한 문제를 스스로 구조화하고 해결하는 능력을 보여주고 있습니다.

Agentic RAG의 핵심은 ‘계획-검색-정제-평가’의 사이클을 끊임없이 반복하는 데 있습니다. 이 과정을 통해 AI는 마치 숙련된 전문가처럼 문제를 세분화하고, 필요한 정보를 정확히 찾아내며, 최적의 해답을 도출해냅니다.

예를 들어, 사용자가 “이번 달 예산 지출 현황을 분석해줘”라고 요청했다고 가정해봅시다. Agentic RAG 시스템은 다음과 같은 단계를 거칩니다:

쿼리 분석: “은행 명세서를 기반으로 한 지출 패턴 분석”으로 쿼리를 재구성합니다.
다단계 검색: 내부 데이터베이스, 금융 API, 사용자의 실시간 거래 내역 등 다양한 소스에서 정보를 수집합니다.
결과 재정렬: 고도화된 임베딩 모델을 사용해 가장 관련성 높은 정보를 선별합니다.
응답 생성: 수집된 정보를 바탕으로 상세한 예산 분석 리포트를 작성합니다.
품질 평가: 생성된 리포트의 정확성과 완결성을 검증하고, 필요시 프로세스를 재실행합니다.

이러한 Agentic RAG의 능력은 단순한 질의응답을 넘어 복잡한 업무 처리에도 적용되고 있습니다. 예를 들어, Databricks에서는 이 기술을 활용해 SQL 파이프라인 디버깅과 같은 고도의 기술적 작업을 자동화하는 데 성공했습니다.

더 나아가, RAG 기술은 교육 분야에서도 혁신을 일으키고 있습니다. NotebookLM, AI Studio, LearnLM과 같은 도구들이 등장하면서, 학생들은 개인화된 학습 경험을 누릴 수 있게 되었습니다. 이 도구들은 신뢰할 수 있는 학술 자료만을 참조하여 홀루시네이션(hallucination) 문제를 최소화하고, 학생 개개인의 질문에 맞춤형 답변을 제공합니다.

Agentic RAG의 발전은 여기서 그치지 않습니다. 최근에는 컴퓨터 비전 기술과의 결합을 통해 이미지나 비디오 기반의 질의응답까지 가능해졌습니다. “이 사진 속 제품이 이번 달 예산에 포함됐나요?”와 같은 복합적인 질문에도 정확한 답변을 제공할 수 있게 된 것입니다.

2025년 현재, Agentic RAG는 AI의 새로운 지평을 열어가고 있습니다. 복잡한 문제를 스스로 해결하는 이 기술의 발전은 우리의 일상과 업무 방식을 근본적으로 변화시킬 것입니다. 앞으로 Agentic RAG가 어디까지 발전할지, 그리고 우리 사회에 어떤 영향을 미칠지 주목해야 할 때입니다.

Agentic RAG의 순환 과정: 계획, 검색, 정제, 평가의 반복

Agentic RAG의 뒷면에는 인간을 닮은 계획-실행-검토-보완의 순환 과정이 숨어 있습니다. 단순한 데이터 검색이 아닌, 꼬리에 꼬리를 무는 진화형 판정 방식이 기술의 게임 체인저가 된 비밀은 바로 이 반복적인 프로세스에 있습니다.

1. 계획 단계: 전략적 쿼리 설계

Agentic RAG는 사용자의 질문을 단순히 받아들이는 것이 아니라, 최적의 검색 전략을 수립합니다. 예를 들어, “이번 달 예산 초과 항목은?” 이라는 질문을 받으면:

예산 데이터 소스 식별
지출 내역 검색 방법 결정
초과 기준 설정

이러한 세부 계획을 통해 RAG 시스템은 보다 정확하고 효율적인 검색을 수행할 수 있습니다.

2. 검색 단계: 다중 소스 활용

계획에 따라 다양한 데이터 소스에서 정보를 수집합니다:

내부 데이터베이스
외부 API (예: 실시간 금융 데이터)
사용자 제공 문서

이 과정에서 RAG 시스템은 단순히 키워드 매칭을 넘어, 의미론적 유사성을 고려한 고급 검색 기법을 사용합니다.

3. 정제 단계: 컨텍스트 최적화

수집된 정보는 그대로 사용되지 않습니다. Agentic RAG는 다음과 같은 방법으로 데이터를 정제합니다:

관련성 점수 부여: 각 정보의 질문 관련성을 수치화
중복 제거: 유사한 정보를 통합하여 노이즈 감소
시간적 정렬: 최신 정보에 가중치 부여

이 과정을 통해 RAG 시스템은 가장 적절한 컨텍스트만을 선별하여 다음 단계로 전달합니다.

4. 평가 단계: 품질 검증 및 피드백

생성된 응답은 즉시 사용자에게 전달되지 않습니다. Agentic RAG는 다음과 같은 기준으로 응답을 평가합니다:

기반성: 제공된 정보 범위 내에서 답변했는가?
완결성: 질문의 모든 측면을 다루었는가?
일관성: 내부 모순은 없는가?

만약 이 평가에서 미흡한 점이 발견되면, RAG 시스템은 처음부터 프로세스를 재시작합니다. 이때 이전 시도의 결과를 학습하여 더 나은 계획을 수립합니다.

진화하는 RAG: 끊임없는 자기 개선

이러한 순환 과정은 단순한 반복이 아닙니다. 매 사이클마다 RAG 시스템은:

성공적인 검색 패턴을 학습
효과적인 정제 기법을 발견
평가 기준을 미세 조정

결과적으로, Agentic RAG는 사용할수록 더 똑똑해지는 자기 진화형 시스템으로 발전합니다. 이것이 바로 RAG 기술이 단순한 검색 도구를 넘어 진정한 의미의 인공지능으로 거듭나게 된 비결입니다.

문서 한 줄도 놓치지 않는다: RAG 평가 프레임워크의 모든 것

Microsoft가 제시한 새로운 RAG 평가 기준은 ‘정확성’과 ‘포괄성’ 사이의 완벽한 균형을 꿈꿉니다. ‘기반성(groundedness)’이 보장되지 않으면, AI도 재시험을 치러야 한다면? 평가의 엄격함이 RAG를 한 뼘 더 성장시킵니다.

RAG 평가의 3대 핵심 지표

Microsoft Azure AI는 RAG 시스템의 성능을 정밀하게 측정하기 위해 3가지 핵심 지표를 제안했습니다. 이 지표들은 RAG의 각 단계를 세밀하게 평가하여 시스템의 전반적인 품질을 보장합니다.

문서 관련성: 검색된 문서가 사용자의 질문과 얼마나 관련이 있는지 평가합니다. 이는 RAG의 첫 단계인 검색 과정의 정확도를 측정하는 중요한 지표입니다.
기반성(Groundedness): 생성된 응답이 검색된 문서의 내용에만 기반하고 있는지 확인합니다. 이는 AI가 ‘환각’을 일으키지 않고 신뢰할 수 있는 정보만을 제공하는지 검증하는 핵심 지표입니다.
응답 완결성: 생성된 답변이 사용자의 질문에 대해 필요한 모든 정보를 포함하고 있는지 평가합니다. 이는 RAG 시스템이 누락 없이 포괄적인 답변을 제공하는지 확인하는 지표입니다.

정밀도와 재현율의 균형: 기반성 vs 완결성

RAG 평가 프레임워크에서 가장 흥미로운 부분은 ‘기반성’과 ‘완결성’ 사이의 균형입니다. 이 두 지표는 각각 정밀도(precision)와 재현율(recall)을 대표합니다.

2025 최신 Agentic RAG 기술과 평가 기준, Databricks 실제 사례는 무엇일까?