AI가 어떻게 스마트 계약 보안을 강화하는가? 범용 모델에서 삼중 감사 모델까지의 실천 사례 공유

星球君的朋友们

Odaily资深作者

2026-04-14 16:26

이 기사는 약 6255자로, 전체를 읽는 데 약 9분이 소요됩니다

Web3 프로젝트 보안에 대한 완전한 보장 체계 구축.

AI 요약

펼치기

핵심 관점: 현재 AI는 스마트 계약 감사에서 명확한 능력 경계를 가지고 있으며, 알려진 취약점 패턴 스캔에 능숙하지만, 크로스-컨트랙트 상호작용과 복잡한 비즈니스 로직에 의존하는 심층 취약점을 처리하기는 어렵습니다. 따라서 Beosin은 "Skill 강화 AI 기초 검사 + 전문가 심층 감사 + 형식적 검증"의 삼중 상호 보완 감사 모델을 구축했습니다.
핵심 요소:
1. 범용 AI 모델은 표준 토큰 계약을 감사할 때 코드 규범 문제는 식별할 수 있지만, 비즈니스 문맥이 부족하여 USDT 유형 계약의 owner 발행권과 같은 의도된 설계를 고위험 취약점으로 오판합니다.
2. 복잡한 DeFi 프로토콜(예: IPC Protocol)을 감사할 때, AI는 크로스-컴포넌트 상태 경로를 이해해야 하는 심층 취약점(예: 서명 재사용, 특정 상태 재진입)에 대한 커버리지가 낮고, 오탐률이 높습니다.
3. Beosin은 전용 Skill 지식 베이스를 구축하여 감사 전문가의 경험을 구조화하여 AI에 주입함으로써, 테스트에서 복잡한 계약의 고위험 취약점 커버리지를 11%에서 44%로 향상시키고, 오탐률을 55%에서 약 30%로 낮췄습니다.
4. AI 기초 검사는 프로젝트 백서와 결합하여 일관성 검증을 수행할 수 있으며, 설계 의도가 불분명하여 발생하는 오탐을 효과적으로 줄이고, 코드 구현과 문서 약속 사이의 편차를 발견할 수 있습니다.
5. 전문가 감사는 프로토콜 수준의 심층 이해와 새로운 공격 패턴 식별을 담당하며, 형식적 검증은 핵심 비즈니스 로직에 수학적 확정성 보장을 제공합니다. 이 세 가지가 협력하여 완전한 보안 체계를 구축합니다.

원문 출처: Beosin

최근 몇 년간 GPT-4, Claude, Gemini 등 대규모 언어 모델(LLM)은 상당한 코드 이해 능력을 갖추게 되어 Solidity, Rust, Go 등 스마트 컨트랙트 언어를 비교적 잘 읽을 수 있고, 재진입 공격, 정수 오버플로우 등 명확한 코드 특징을 가진 고전적인 취약점도 식별할 수 있게 되었습니다. 이로 인해 업계는 다음과 같은 질문을 던지기 시작했습니다: 대규모 모델을 활용하여 인력 보조는 물론, 심지어 인력을 대체하여 컨트랙트 감사를 수행할 수 있을까?

범용 모델은 특정 프로젝트의 비즈니스 로직에 대한 이해가 부족하기 때문에, 복잡한 DeFi 프로토콜을 마주할 때 오탐률이 높으며, 여러 컨트랙트 간 상호작용이나 경제 모델을 종합적으로 고려해야 발견할 수 있는 취약점을 놓치기 쉽습니다. 이후 업계에서는 'Skill' 메커니즘을 추가하는 방안을 제안했습니다. 즉, 범용 대규모 모델을 기반으로 스마트 컨트랙트 보안에 특화된 지식 베이스, 탐지 규칙, 비즈니스 컨텍스트를 주입하여 모델이 감사 시 더 명확한 판단 근거를 갖추고, 단순히 범용 능력만으로 코드에 문제가 있는지 판단하지 않도록 하는 것입니다.

Skill 강화를 추가하더라도, AI 감사는 여전히 명확한 적용 범위를 가지고 있습니다. AI는 알려진 취약점 패턴 스캔과 코드 규범 검사에 능숙하지만, 전체 프로토콜 설계, 여러 컨트랙트 간 상호작용 로직 또는 경제 모델을 깊이 이해해야 하는 복잡한 취약점에 대해서는 여전히 효과적으로 처리하기 어렵습니다. 이러한 유형의 문제는 여전히 경험이 풍부한 감사 전문가가 담당해야 하며, 복잡한 계산 로직이 관련된 시나리오에서는 형식적 검증을 도입하여 더 강력한 보장을 제공해야 합니다. 이러한 배경에서 Beosin은 Skill 강화 AI 기초 검사 + 인력 심층 감사 + 형식적 검증의 삼중 감사 모델을 구축했습니다. 이 세 가지는 각각 초점을 달리하며 상호 보완합니다.

1. 범용 AI 모델의 감사 능력 한계: 통제된 비교 테스트와 사례 분석

본문은 이미 인력 감사를 완료한 프로젝트 라이브러리에서 복잡도 차이가 큰 두 가지 유형의 컨트랙트를 테스트 사례로 선정했습니다: 하나는 로직이 비교적 독립적이고 기능 경계가 명확한 단순 컨트랙트로, 이 유형의 프로젝트는 일반적으로 AI 감사 도구의 훈련 데이터가 가장 풍부하고 이론적으로 가장 유리한 시나리오입니다; 다른 하나는 여러 컨트랙트 상호작용, 복잡한 상태 기계 또는 여러 프로토콜 간 의존성을 포함하는 복잡한 컨트랙트로, 이는 업계에서 'AI가 인력 감사를 대체할 수 있는가'를 논할 때 가장 자주 언급되는 고위험 시나리오입니다.

비교 시, 우리는 완전히 동일한 코드베이스를 사용하여 먼저 AI가 독립적으로 감사를 실행하게 한 후, 보고서를 생성하고 인력 감사 보고서와 항목별로 대조했습니다. 두 보고서의 산출 과정은 완전히 서로 간섭하지 않았습니다. 인력 감사원이 보고서를 작성할 때 AI 결과를 전혀 알지 못하여 상호 영향을 피했습니다. 마지막으로, 우리는 다음 네 가지 차원에서 결과를 분석했습니다:

사례 A · 표준 토큰 컨트랙트 (BSC-USDT / BEP20USDT.sol)

첫 번째 테스트 그룹에서는 Solidity 0.5.16으로 작성된 표준 BEP-20 토큰 컨트랙트를 선택했습니다. 이 컨트랙트의 로직은 상대적으로 독립적이고 기능 경계가 매우 명확하며, 어떤 여러 컨트랙트 간 상호작용도 포함하지 않으며, 주요 보안 위험은 일반적이고 알려진 취약점 패턴에 집중되어 있습니다. 이 유형의 컨트랙트는 현재 이론적으로 AI 감사가 가장 유리한 시나리오입니다. 훈련 데이터에는 이러한 표준 토큰 컨트랙트가 매우 많으며, 규칙적인 취약점 특징도 비교적 명확합니다.

AI는 총 6개의 경고(2개 고위험, 1개 중위험, 3개 저위험/권고)를 출력했으며, 수량 측면에서 상당히 많았습니다. 저위험 및 권고 항목은 기본적으로 정확했으며, Solidity 버전이 너무 오래됨, 상태 변수 노출 방식 등 일반적인 코드 규범 문제를 다루어 일정한 참고 가치가 있었습니다. 그러나 AI가 출력한 두 개의 '고위험' 항목은 모두 오판으로 판명되었습니다. AI는 owner의 발행 권한과 권한 집중을 고위험 취약점으로 표시했습니다. 실제로 중앙화 스테이블코인(USDT 유형)의 경우, owner가 발행 권한을 갖는 것은 의도된 설계이며, 위험 평가는 다중 서명 제어, 권한 거버넌스 메커니즘 및 컨트랙트 업그레이드 전략을 종합적으로 고려하여 판단해야 합니다. 이러한 권한 구조의 합리성은 근본적으로 프로젝트의 비즈니스 모델에 달려 있으며 코드 자체에 달려 있지 않습니다. AI는 이 수준의 컨텍스트가 부족하여 패턴 매칭에 기반한 판단만 할 수 있습니다.

이 테스트 사례는 AI가 권한 구조를 식별할 수는 있지만, 비즈니스 컨텍스트와 결합하여 권한이 합리적인지 판단할 수 없음을 보여줍니다. 따라서 USDT 유형 컨트랙트의 owner 발행 권한을 직접 '고위험 취약점'으로 표시했는데, 이는 비즈니스 실제 로직에서 벗어난 전형적인 오판입니다. 이러한 오탐은 프로젝트 측이 실제 위험을 판단하는 데 방해가 될 수 있습니다.

사례 B · 복잡한 비즈니스 컨트랙트 (IPC Protocol / 2025-02-recall)

두 번째 테스트 그룹에서는 Code4rena 플랫폼의 공개 보고서 중 IPC Protocol 프로젝트를 선택했습니다(보고서 링크: code4rena.com/reports/2025-02-recall). 이 프로젝트에는 Gateway, SubnetActor, Diamond 프록시 패턴 등 여러 상호 의존적인 핵심 구성 요소가 포함되어 있으며, 보안성은 프로토콜 전체 아키텍처와 여러 구성 요소 간 상호작용 로직에 대한 깊은 이해에 크게 의존합니다. 이는 DeFi 생태계에서 고가치 공격이 발생하는 전형적인 시나리오입니다. 아래는 AI 감사 결과입니다:

복잡한 컨트랙트에 대해, AI 감사는 총 3개의 고위험, 6개의 중위험 경고를 산출했으며, 출력량 측면에서 뒤떨어지지 않았습니다. 그러나 상당 비율이 감사원에 의해 오탐으로 판정되었습니다. AI는 컨텍스트가 부족한 코드 조각에 대해 잘못된 위험 판단을 내렸습니다. 동시에, 감사원이 확인한 9개의 High 등급 취약점 중 AI는 단 1개 항목만 완전히 커버했으며, 다른 2개 항목은 발견되었지만 등급이 현저히 낮게 평가되었습니다(실제로는 High인데 AI 보고서에서는 Medium으로 표시). 나머지 6개 항목은 완전히 발견되지 않았습니다. 4개의 Medium 등급 취약점 중 AI는 1개 항목을 커버했고, 3개 항목은 완전히 누락되었습니다.

이러한 취약점의 공통점은 다음과 같습니다: 단일 함수에 대한 패턴 매칭이 아닌, 프로토콜의 여러 구성 요소 간 상태 전환 경로에 대한 완전한 추론에 의존한다는 점입니다. 인력 감사 보고서의 H-01(서명 재사용)을 예로 들면, 취약점의 악용 경로는 다중 서명 검증의 설계 의도, 공격자가 어떻게 반복 서명 집합을 구성하는지, 그리고 이 행위가 어떻게 가중치 임계값을 우회하는지를 이해해야 합니다. H-06(leave() 함수 재진입 공격)도 마찬가지입니다: 이 취약점은 서브넷 부트스트랩 임계 상태에서만 존재하며, 스테이킹 흐름, 부트스트랩 트리거 조건 및 외부 호출 타이밍 세 가지 간의 교차 의존성을 이해해야 합니다. 이와 유사한 심층 로직 취약점은 AI의 경고 목록에 전혀 기록되지 않았습니다.

이 결과는 복잡한 컨트랙트 감사에서 다음과 같은 점을 보여줍니다: AI의 감사 능력은 지역적 코드의 패턴 인식에 있지만, 프로토콜 수준의 취약점은 전체 비즈니스 로직에 대한 이해 편차가 존재할 수 있습니다. 취약점의 트리거 조건이 여러 컨트랙트, 여러 상태, 여러 호출 계층에 걸쳐 있을 때, AI의 현재 추론 능력은 이를 효과적으로 커버할 수 없습니다.

두 사례를 종합해 보면, AI 감사는 가치가 없는 것이 아닙니다. 알려진 취약점 패턴 커버리지, 코드 규범 검사, 그리고 부분적인 독립적 시각의 발견에서 실질적인 기여를 합니다. 그러나 그 가치의 경계는 매우 명확합니다: 기초 스캔으로 활용될 수는 있지만, 직접적인 보안 결론으로 삼을 수는 없습니다. 복잡한 프로토콜의 경우, AI 보고서에만 의존하여 보안 판단을 내리면 위험도가 높은 취약점을 놓칠 뿐만 아니라, 대량의 저품질 경고로 인해 팀의 많은 검토 시간이 소모될 수 있습니다. 이것이 바로 Beosin이 전용 Skill 지식 베이스를 구축하고, 감사 프로세스에 삼중 감사 모델 메커니즘을 도입한 핵심 이유입니다.

2. 전용 Skill 지식 베이스: AI 기초 검사 품질 향상을 위한 공학적 경로

AI 감사를 기초 검사 감사 프로세스에 통합하려면, 실제 DeFi 프로토콜 감사 시 오탐률과 누락률이 높은 문제를 해결해야 합니다. 권한 관리, AMM 유동성 메커니즘, 크로스체인 브릿지의 메시지 검증, 또는 대출 프로토콜의 청산 로직 등 어떤 것이든, AI는 현재 코드 표면의 특징에 기반한 단순 매칭만 할 수 있으며, 구체적인 비즈니스 시나리오와 공격/방어 로직을 결합하여 특정 코드에 실제로 문제가 있는지 판단하기는 매우 어렵습니다. 이 문제를 해결하는 핵심은 감사 전문가들이 다년간 축적한 경험을 구조화된 방식으로 AI의 판단 과정에 주입하여, 어느 정도의 비즈니스 이해 능력을 갖추게 하는 것입니다.

그러나 명확히 해야 할 점은, Skill 강화를 도입하더라도 AI의 감사 내 역할은 변하지 않을 것이라는 점입니다. 여러 컨트랙트 간 상호작용, 경제 모델 분석 및 새로운 공격 기법이 관련된 복잡한 문제에 대해서는 인력 감사가 여전히 대체 불가능합니다. Skill의 역할은 AI가 처리할 수 있는 범위 내에서(예: 일반적인 취약점 패턴 식별 및 제한적인 비즈니스 로직 이해) 예비 스캔의 품질을 실제로 유용한 수준으로 끌어올려, 인력 감사에 더 가치 있는 예비 결과를 제공하고, 반복적으로 식별해야 하는 무효한 경고를 양산하지 않는 것입니다.

2.1 감사 실전에서 추출: Skill 규칙 구축 메커니즘

Beosin의 Skill 지식 베이스는 4000개 이상의 완료된 인력 감사 스마트 컨트랙트 프로젝트에서 비롯되었으며, 감사 전문가들이 대량의 귀납, 요약, 그리고 항목별 추출 및 검증을 거쳐 정리했습니다. 각 규칙의 형성은 취약점 발견부터 규칙 구현까지의 전 과정을 완전히 거쳤습니다: 감사사가 실제 프로젝트에서 보안 문제를 발견한 후, 공격 경로를 완전히 재구성하고 근본 원인을 심층 분석하며, 수정 방안이 효과적인지 검증한 후, 이 일련의 공격/방어 인식을 컨텍스트 판단 조건을 포함한 규칙 항목으로 정리하여 Skill 라이브러리에 포함시켜 이후 감사에 활용합니다.

다음은 Skill 라이브러리의 규칙 샘플 중 하나로, 취약점 패턴, 공격 경로, 근본 원인 및 수정 권고 네 가지 차원의 구조를 포함합니다:

[Beosin-AMM_Skill-1] 유동성 추가 감지가 전송 순서를 통해 우회됨

취약점 패턴: 컨트랙트는 Pair의 WBNB 잔액이 준비금을 초과하는지 확인(balanceOf >= reserve + required)하여 유동성 추가 작업인지 판단합니다. 이 감지는 WBNB가 토큰보다 먼저 Pair에 도착한다는 가정에 의존하지만, Router의 addLiquidityETH 함수는 고정적으로 ERC-20 토큰을 먼저 전송한 후 WETH를 전송하며, addLiquidity 함수의 전송 순서는 매개변수 순서에 의해 결정됩니다.

공격 경로: 공격자는 addLiquidityETH(토큰이 고정적으로 먼저 전송됨)를 사용하거나, addLiquidity(Token, WBNB, ...)를 호출하여 Token이 WBNB보다 먼저 Pair로 전송되도록 하면 됩니다. 감지 시점에 WBNB는 아직 도착하지 않아 balanceOf == reserve 상태가 되어, 감지 함수는 false를 반환하여 "유동성

안전

Odaily 공식 커뮤니티에 가입하세요