어떻게 Claude의 Dynamic Workflows로 심층 연구를 수행할 것인가

十四君

特邀专栏作者

2026-06-09 03:00

이 기사는 약 5098자로, 전체를 읽는 데 약 8분이 소요됩니다

AI 시대에 인간이 해야 할 심층 연구란 무엇이며, AI와의 협력 및 보완 관계를 어떻게 구축할 것인가

AI 요약

펼치기

핵심 관점: Claude Code의 Dynamic Workflows(동적 워크플로우)는 6가지 구조화된 스케줄링 패턴(라우팅, 병렬, 대립 검증 등)을 내장하여 AI 연구 프로세스를 '지능형 대화'에서 '자동화된 연구 프레임워크'로 업그레이드합니다. 이는 전통적인 AI 조사에서 발생하는 목표 이탈, 조기 중단, 컨텍스트 오염 등의 핵심 결함을 효과적으로 해결하지만, 인간의 심층 연구를 완전히 대체하려면 검증 메커니즘, 학제적 사고 및 극한의 정보 압축 측면에서 지속적인 개선이 필요합니다.
핵심 요소:
1. 동적 워크플로우의 핵심은 AI가 작업 실행 전에 워크플로우를 자동으로 설계하는 데 있으며, 문제 분해, 신뢰도 평가, 교차 검증 및 목표 지향적 출력 등의 단계를 포함하여 기존 기술이 가진 수렴 및 의사 결정 지향성 부족을 보완합니다.
2. 6가지 모드는 라우팅(정밀 할당), 분할 병합(병렬 가속), 대립 검증(자체 평가 편향 제거), 생성 필터링(다양성 최적화), 토너먼트(경쟁 정렬) 및 루프(적응형 반복)를 포함하며, 복잡한 연구 스케줄링을 포괄합니다.
3. 대립 검증 모드는 구조적으로 AI가 사용자에게迎合하는 '확증 편향'을 제거합니다. 독립적인 에이전트가 반박식으로 결론을 검증하지만, 검증자가 워크플로우를 잘못된 방향으로 이끄는 것을 방지하기 위해 주관적 의견이 아닌 재현 가능한 사실에 기반해야 합니다.
4. 저자가 자체 개발한 deep-research 시스템과 비교할 때, 공식 워크플로우는 문제 분해, 정보 신뢰도 평가, 투표 기반 교차 검증 및 항상 원래 목표를 중심으로 한 출력 등의 기능을 추가로 제공하여 불필요한 대화 횟수를 크게 줄입니다(10여 회에서 3-4회로 압축).
5. AI에는 여전히 세 가지 주요 한계가 있습니다: 블록체인 기술 등 최첨단 분야에서 기본적으로 체인 상의 사실 데이터가 아닌 지연된 공식 문서에 의존합니다. 학제적 심층 사고가 부족하여 주류 사고 모델이 새로운 주제를 다루기 어렵습니다. 솔루션 검증은 비용과 메커니즘 간의 균형을 고려해야 하며, 이는 범용성과 모순됩니다.
6. 극한의 정보 압축은 대상 독자의 배경에 대한 정확한 이해에 의존합니다. AI는 '의인화된 쉬운 표현'과 '정제된 전문적 요약' 사이를 자동으로 전환하기 어려우며, 이는 인간 연구자가 대체할 수 없는 영역입니다.

3년 동안 AI를 활용한 업계 연구에 완전히 의존하게 되었고, 이를 위해 정보의 선별, 정리, 연결, 검증, 축적을 처리하는 일련의 스킬과 보조 시스템을 구축했습니다.

이번 주에 Claude Code의 동적 워크플로우를 깊이 경험하고 나서야 "사람은 큰 시대의 흐름과 싸우지 말라"는 말의 진정한 의미를 깨달았습니다.

다시 한번 생각해봅니다: AI 시대에 인간이 해야 할 진정한 깊이 있는 연구는 무엇이며, AI와의 협업 및 상호 보완 관계는 어떻게 구축해야 할까요?

1. 조사의 함정에서부터

기술 조사는 사실 함정으로 가득한 일입니다 (사람이든 AI든 마찬가지로). 조사를 시작하면 방대한 정보를 접하게 되고, 정보와 의견이 늘어날수록 결론은 더 모호해지기 때문입니다. 따라서 항상 원래 목표로 돌아가는 것을 명심해야 합니다.

그동안 AI가 부족했던 점도 바로 여기에 있습니다. 주의력과 연관성 측면에서 볼 때, AI는 현재의 정보량에 더 얽매이기 쉽고, 진정으로 가치 있는 경계를 넘나드는 연관성 찾기에 취약합니다.

물론 AI가 뛰어난 점은 실행력입니다. 에이전트 형태로 단계별로 검색하고, 정리하고, 요약하며 세부 사항의 누수를 완벽히 방지할 수 있습니다.

지난 반년 동안 외부에 공개적으로 글을 많이 발행하지는 않았지만, 업계의 주요 전장들을 거의 빠짐없이 주시하고 연구해왔습니다. 그리고 이러한 입력과 출력을 뒷받침해준 것은 바로 제 나름의 딥 리서치 시스템이었습니다.

지난주 Claude Code에 Dynamic Workflows 기능이 출시된 것을 보고, 한번 겨뤄보고 싶었습니다. 기본 기능만으로도 제 시스템을 완전히 능가할 수 있을지 말이죠.

2. Dynamic Workflows란 무엇인가

Dynamic Workflows(동적 워크플로우)의 핵심 아이디어는 다음과 같습니다: 작업을 실행하기 전에, AI가 먼저 해당 작업에 어떤 워크플로우를 사용할지 자동으로 설계한 다음 실행을 시작하는 것입니다.

이는 우리가 이전에 사용하던 "계획 모드"나 "스킬"과는 근본적으로 다릅니다. 계획 모드는 작업을 더 세분화하지만 반드시 합리적인 워크플로우를 따르는 것은 아니며, 프롬프트 지시에 따라 검증 지표가 추가될 수 있습니다 (연구에 있어 매우 중요). 마찬가지로 프롬프트가 있을 때만 특정 하네스 규칙을 더 잘 설정할 수 있습니다.

하지만 동적 워크플로우는 검증 로직, 결과 수렴, 대항 검증 등을 자동으로 구성해줍니다.

실행 방법은 매우 간단합니다. cc에서 /deep-research 을 입력한 후 조사 템플릿과 시작 자료를 제공하면 됩니다. 동적 워크플로우 기능만单独 사용하려면 프롬프트를 주거나 'ultracode'라고 직접 말하면 됩니다. 사용하기 전에 주의할 점은 토큰 소모량이 평소의 수십 배에 달한다는 것입니다.

3. 내장된 6가지 워크플로우 모드

동적 워크플로우의 기반은 공식적으로 정리된 6가지 핵심 스케줄링 모드입니다. 이것이 일반 대화/에이전트/스킬보다 더 강력한 이유입니다.

사실 이 6가지 모드 뒤에는 두 가지 핵심 문제만 있습니다: 작업을 어떻게 나눌 것인가? 결과를 어떻게 합칠 것인가? 6가지로 나눈 것은 본질적으로 이 두 가지의 순열 조합입니다.

3.1 라우팅 모드 (Classify-And-Act)

먼저 하나의 에이전트가 작업 유형을 식별한 다음, 작업을 가장 적합한 전문 에이전트에게 분배합니다. 핵심 로직은 라우팅 선택 로직이며, 병렬 또는 반복이 아닙니다. 하나의 작업은 하나의 경로만 따르며, 다른 경로는 전혀 실행되지 않습니다.

예를 들어, 세 가지 사전 설정된 서브 에이전트 역할을 만들 수 있습니다: 데이터를 엄격히 검증하는 분석 에이전트, 글쓰기에 능숙한 출력 에이전트, 허점을專門 찾는 챌린지 에이전트. 라우팅 계층은 현재 하위 작업을 누가 처리할지 판단하여 하나의 에이전트가 모든 것을 처리하지 않도록 합니다.

이 모드의 가치는 정확성과 효율성에 있습니다. 각 에이전트의 프롬프트는 다른 목표에 방해받지 않고 고도로 독립적일 수 있어 수직적 깊이 있는 탐색이 가능합니다. 토큰 소모가 가장 적고 응답 속도가 가장 빠릅니다. 책임 범위가 매우 명확합니다.

단점도 명확합니다. 경계가 모호한 작업(예: "기술 문제이면서 계정 문제인 경우")에 대한 처리 능력이 약합니다.

3.2 분할 병합 (Fan-out & Merge)

제가 가장 자주 사용하는 모드이기도 합니다. 핵심 로직은 병렬 + 병합입니다. 작업을 N개의 독립적인 하위 작업으로 나누어 동시에 실행하고, 모두 완료되면 통합 병합합니다.

장점은 속도와 격리입니다. 총 소요 시간은 가장 오래 걸리는 하위 작업에 가까우며, 모든 하위 작업의 합이 아닙니다. 각 하위 작업은 독립적인 컨텍스트를 가지므로 서로 간섭하지 않으며, 특정 하위 작업의 노이즈가 다른 하위 작업을 오염시키지 않습니다.

약점은 토큰 비용이 직렬 처리의 N배라는 점과 병합 계층(Synthesize) 자체의 어려움입니다. N개의 구조가 일치하지 않는 출력을 어떻게 융합할지는 설계 과제입니다. 하위 작업 분할이 잘못되면 누락 또는 중복 커버리지가 발생할 수 있습니다.

3.3 대항 검증 (Adversarial Verification)

핵심 로직은 검증입니다. 동일한 결론에 대해 여러 에이전트가 "반박" 관점에서 도전하고, 과반수 득표 시에만 통과합니다.

장점은 Verifier가 Worker의 사고 과정을 모르고 결과만 보기 때문에, "모델이 자신이 작성한 코드를 검사하도록 하는" 경우의 자기 평가 편향을 구조적으로 제거한다는 점입니다.

이 모드는 오랫동안 저를 괴롭혀 온 문제를 해결해줍니다. 우리는 종종 AI와 구어체로 대화하지만, AI는 여러분의 기대에 부응하는 방향으로 답변하려는 경향이 있어 "확증 편향"이 발생하기 쉽습니다. 대항 검증을 통해 AI가 반례를 찾도록 강제하고, 여러분의 생각에迎合하지 않고 데이터와 실험을 기반으로 검증하도록 합니다.

하지만 검증 과정에서 Verifier가 잘못된 판단을 내리면 Worker를 오도하여 Verifier에 맞추도록 할 수 있습니다. 따라서 의견보다는 재현 가능한 사실을 기반으로 하는 것이優位입니다.

농담 삼아 말하자면, AI에게 문제를 찾으라고 하면 끝없이 문제를 찾아낼 수 있으므로, 문제를 찾는 범위를 제한해야 합니다.

3.4 생성 및 필터링 (Generate & Filter)

핵심 로직은 발산 후 수렴입니다. 일부러 과도한 후보를 생성한 다음, 루브릭을 사용하여精华만 남기고 신뢰도가 높은 결과만 출력합니다.

하나의 에이전트가 "그럭저럭 괜찮은" 답변을 출력하게 하는 것보다, 열 개를 생성하게 한 다음 검증 계층으로筛选하는 것이 낫습니다. 따라서 장점은 다양성입니다. 여러 Generator가 다양한 전략과 프롬프트를 사용하여 인간이 미처 예상하지 못한 해결책을 만들어낼 수 있으며, 필터링 단계를 통해 최종 출력 품질이高度 집중됩니다.

약점은 Filter의 루브릭 품질이 최종 효과를 직접 결정한다는 점입니다. 루브릭 설계가 잘못되면 전체 프로세스가 무용지물이 됩니다.

적합한 시나리오는 정답을 사전에 알 수 없는 경우, 여러 가능성 중에서 최선을 선택해야 하는 경우, 다양성에 대한 명확한 요구가 있는 경우입니다.

Fanout-And-Synthesize와는 표면적으로만 유사합니다: 둘 다 "다중 병렬 → 단일 출력"이므로 가장 혼동하기 쉽습니다.

핵심 차이는 의도에 있습니다. Fanout의 각 경로는 작업의 다른 부분을 처리하며 결과는 상호 보완적이므로 병합 시 모든 경로가 기여합니다. 반면 Generate-And-Filter의 각 경로는 동일한 작업을 처리하며 결과는 경쟁적이므로 병합 시 대부분이 폐기됩니다. 전자는 "퍼즐 맞추기"이고 후자는 "미인 선발 대회"입니다.

3.5 토너먼트 모드 (Tournament)

핵심 로직은 경쟁淘汰입니다. N개의 에이전트가 각자 독립적으로 동일한 작업을 수행하고, 쌍별(pairwise) 비교를 통해 라운드별로淘汰하여 최종적으로 최적의 해결책을 선택합니다.

이것은 제가 예전에 수동으로 했던 방식입니다. 동일한 코드 변경 사항에 대해 두세 가지 버전을 실행하고 AI가 어떤 것이 더 나은지 비교하도록 했습니다. 이제 워크플로우 내에서 직접编排할 수 있습니다.

장점은 판단의 안정성입니다. 쌍별 비교("A와 B 중 무엇이 더 나은가?")는 절대 평가("A에게 점수 매기기")보다 훨씬 안정적인데, 이는 평가 기준의 변동 문제를 제거하기 때문입니다. 여러 라운드의 경쟁을 거치면서 최종 승자의 신뢰도가 높아집니다.

Generate-And-Filter와도 표면적으로 유사합니다: 둘 다 여러 후보 중에서 최선을 선택합니다. 핵심 차이는 선택 메커니즘에 있습니다. Tournament는 pairwise judge를 사용하여 쌍별로 비교하는 "후보자 간 경쟁" 방식입니다. 루브릭이 계량화하기 어렵고 판단이 본질적으로 상대적일 때 더 신뢰할 수 있습니다.

3.6 루프 모드 (Loop)

핵심 로직은 적응형 반복입니다. 계속 시도하고, 장애물에 부딪히면 오류 정보를 수집하고, 컨텍스트를 보충한 후, 수용 조건이 충족될 때까지 다시 시도합니다.

본질적으로 AI의 무작위성에 대항하는 것입니다: 여러 번 시도하면 결국 더 나은 결과가 나올 것입니다. 하지만 더成熟된 접근 방식은 대항 검증과 결합하여 매 루프가 단순한 무작위성에 의존하지 않고 더 많은 정보를 가지고 실행되도록 하는 것입니다.

장점은 작업량을 알 수 없는 작업에 대한 처리 능력입니다. 다른 다섯 가지 모드는 작업 경계가 명확하다고 가정하는 반면, Loop Until Done은 "몇 라운드가 필요할지 모르는" 상황을 처리할 수 있는 유일한 모드입니다.

약점은 잠재적인 통제 불능 위험입니다. 중지 조건 설계가 잘못되면 무한 루프에 빠질 수 있습니다. 각 라운드의 에이전트는 완전히 새로운 컨텍스트를 가지므로 (명시적으로 파일에 기록하지 않는 한) 라운드 간 상태를 축적할 수 없습니다.

4. 제 스킬과 공식 워크플로우의 대결

동적 워크플로우가 나오기 전에, 저는专门으로 제 나름의 딥 리서치 시스템을 설계했습니다. 그 스킬의 로직은 대략 다음과 같습니다:

간단한 정보만 제공 (예: 특정 프로젝트에 새로운 기능이 추가됨)
AI가 모든 관련 자료를 검색하도록 함: 공식 문서, 소스 코드, 시장 여론
정보를 의미 있는 요약으로 압축
여러 에이전트 역할이 대항 분석을 수행하고 보고서 생성
자동 중복 제거 (다중 에이전트 컨텐츠 중복률이 높기 때문)

한동안 사용해보니 꽤 괜찮았습니다. 하지만 근본적인 결함이 하나 있었습니다: 목표 지향적인 수렴이 부족하다는 점입니다.

게다가 다섯 번째 단계인 중복 제거가 있더라도, 가치 있는 정보가 종종 삭제되곤 했습니다. 중복 제거를 하지 않으면 스킬이 수천 단어의 장문을 만들어내 정보는 풍부하지만 "이 일이 당신과 무슨 관련이 있으며, 어떻게 해야 하는지"를 직접 알려주지 못하는 경우가 많았습니다.

하지만 연구는 "의사 결정"을 위해 봉사하는 것입니다. 이것이 바로 많은 스킬이 연구 자체에만 머물러 80점이지만

Odaily 공식 커뮤니티에 가입하세요