龙虾关键11问：最通俗易懂的OpenClaw原理拆解

Odaily资深编辑

2026-03-11 09:50

이 기사는 약 8093자로, 전체를 읽는 데 약 12분이 소요됩니다

대형 언어 모델이 어떻게 '기억'을 '가장'하는지, 도구 호출의 본질은 무엇인지, 하위 에이전트가 어떻게 연산력을 절약하는지, 심박 메커니즘이 AI가 능동적으로 일하는 법을 어떻게 가르치는지, 그리고 왜 보안 문제를 진지하게 다뤄야 하는지.

AI 요약

펼치기

핵심 관점: 이 글은 OpenClaw를 예로 들어, AI 에이전트의 핵심 작동 원리를 쉽고 깊이 있게 분석합니다. '쉘' 프레임워크가 어떻게 대형 언어 모델에 기억, 도구 호출, 능동적 실행 등의 능력을 부여하는지 밝히며, 강력한 기능과 함께 따라오는 상당한 보안 위험을 강조합니다.
핵심 요소:
1. 대형 모델의 본질은 확률적 예측기로, 기억과 지각이 없습니다. OpenClaw는 매번 상호작용 시 설정, 기록, 도구 결과를 포함한 초장기 프롬프트를 연결하여 '기억'을 모방합니다.
2. 도구 호출은 프레임워크와 모델의 '이중주'입니다: 모델은 약속된 형식으로 텍스트 명령을 출력하고, 로컬에서 실행되는 OpenClaw 프로그램이 이를 인식하여 구체적인 작업을 실행한 후 결과를 모델에 피드백합니다.
3. 컨텍스트 창 제한에 대응하기 위해 OpenClaw는 하위 에이전트 메커니즘을 도입하여 복잡한 작업을 분할 실행하고, 요약 결과만 메인 에이전트에 반환하여 토큰을 절약하고 효율성을 높입니다.
4. 심박 메커니즘은 에이전트가 주기적으로 능동적으로 작업을 확인하고 실행할 수 있게 하며, '알람 설정'식 대기와 결합되어 수동적 응답에서 능동적 작업으로의 전환을 실현합니다.
5. OpenClaw는 로컬에서 높은 권한을 가지며, 통제 불능(예: 명령 무시 및 이메일 삭제)과 프롬프트 인젝션(사용자 입력과 악성 입력을 구분할 수 없음) 등의 보안 위험이 존재합니다. 물리적 격리 배포를 권장합니다.
6. OpenClaw는 최근 30일 동안 OpenRouter에서 8.69조 토큰을 소모했으며, 고강도 사용자의 월간 비용은 약 70만 원(약 7천 위안)에 달할 수 있습니다. 높은 비용은 매번 상호작용 시 방대한 컨텍스트 프롬프트를 처리해야 하기 때문입니다.

원본 영상 출처 | Youtuber:Hung-yi Lee

정리 | Odaily Suzz

랍스터가 너무 핫하다.

전국적인 학습 열풍 속에서, AI(심지어 인터넷)를 접해본 적 없는 대부분의 초보 사용자들이 FOMO 학습, 설치 및 체험을 하고 있다.

이미 많은 실용적인 튜토리얼을 보셨을 테지만, 최근 유튜브에서 뜨거운 반응을 얻고 있는 이 영상은 내가 본 것 중 가장 쉽게 이해할 수 있는 AI 에이전트 원리 설명으로, 그는 인간을 비유체로 삼아 "할머니도 이해할 수 있는 언어"로 우리가 자연스럽게 궁금해할 이 문제들을 상세히 소개한다: AI 기억력의 형성, 돈이 많이 드는 이유, 도구 호출의 구현과 프로세스, 대랍스터가 소랍스터를 낳는 필요성과 경계, 능동적으로 일하는 설계, 가장 중요한 안전한 사용.

어쩌면 누군가는 이미 출혈하는 지갑을 뒤로 한 채 친구들에게 자랑하며 당신의 랍스터의 뛰어난 지능을 자랑하고 있을지도 모르지만, 만약 이게 도대체 어떻게 작동하는지 물어본다면, Hung-yi Lee의 영상을 바탕으로 정리한 이 핵심 11가지 질문을 보면, 당신도 (잘) 대답할 수 있을 것이다.

1. 뇌의 진실: 검은 상자 속에 사는 "문자 이어 말하기 전문가"

OpenClaw(소랍스터)가 정말 무엇을 하는지 이해하려면, 먼저 대다수 사람들이 AI에 대해 가진 환상을 깨야 한다.

많은 사람들이 처음 AI와 채팅할 때, 강한 착각을 느낀다: 맞은편에 자신을 진정으로 이해하는 누군가가 앉아 있다고. 그것은 당신이 지난번 무슨 이야기를 했는지 기억하고, 주제를 이어갈 수 있으며, 심지어 자신만의 선호도와 태도를 가진 것처럼 보인다. 그러나 진실은 이렇게 낭만적이지 않다.

OpenClaw 뒤에 연결된 그 대형 모델—Claude, GPT, DeepSeek 중 무엇이든—본질적으로는 확률 예측기다. 그들의 모든 능력은 극도로 단순한 한 가지 일로 요약할 수 있다: 앞의 한 줄의 문자를 주면, 다음에 가장 가능성 높은 글자를 예측하는 것. 마치 엄청나게 뛰어난 "문자 이어 말하기" 플레이어처럼, 당신이 시작을 주면 매우 자연스럽게 이어갈 수 있고, 너무 유창해서 당신이 그것이 "당신을 이해한다"고 느끼게 만든다.

하지만 사실 그것은 아무것도 이해하지 못한다. 그것은 눈이 없어 당신의 화면에 어떤 소프트웨어가 열려 있는지 볼 수 없다; 귀가 없어 주변 환경을 들을 수 없다; 달력이 없어 오늘이 무슨 요일인지 모른다; 가장 중요한 것은, 기억이 없다는 것이다—매번 새로운 요청은 그것에게 "인생의 첫 번째"이며, 3초 전에 방금 당신에게 말한 것을 전혀 기억하지 못한다. 그것은 완전히 밀폐된 검은 상자 속에 살며, 유일한 입력은 문자이고, 유일한 출력도 문자다.

그래서 OpenClaw의 가치가 바로 여기에 있다: 그것은 대형 모델 자체가 아니라, 대형 모델 바깥에 씌워진 그 "껍질"이다. 그것은 문자 이어 말하기만 할 줄 아는 예측기를, 당신을 기억하고, 손으로 일을 하고, 심지어 능동적으로 할 일을 찾는 "디지털 직원"으로 변신시키는 책임을 진다. OpenClaw의 창립자 Peter Steinberger도 스스로 말했듯이, 소랍스터는 단지 껍질일 뿐이고, 진짜 일을 하는 것은 당신이 연결한 대형 모델이다. 하지만 바로 이 껍질이 당신의 AI 경험이 "챗봇과 어색하게 대화하기"인지, 아니면 "진정한 개인 비서를 가지는 것"인지를 결정한다.

Q1: 모델 자체는 "심각한 기억 상실증"을 앓고 있어, 매번 요청을 처리할 때마다 처음부터 시작한다. 그런데 어떻게 "지난번 무슨 이야기를 했는지 기억"하고, "자신이 어떤 역할을 해야 하는지 알" 수 있을까?

OpenClaw는 뒤에서 엄청난 양의 "쪽지 전달" 작업을 한다.

매번 당신의 메시지를 모델에 보내기 전에, OpenClaw는 먼저 백그라운드에서 조용히 큰 프로젝트를 완료한다—모델이 "알아야 할" 모든 정보를 하나의 거대한 프롬프트로 조합하여, 한꺼번에 모델에 쑤셔 넣는 것이다.

이 프롬프트에는 무엇이 있을까? 먼저 OpenClaw 작업 공간의 "영혼 삼종 세트"—AGENTS.md, SOUL.md, USER.md 세 개 파일로, 이 소랍스터가 누구인지, 성격은 무엇인지, 주인은 누구인지, 주인은 어떤 선호도와 작업 습관을 가지고 있는지 적혀 있다. 그리고 당신과 그것 사이의 모든 대화 기록이, 한 글자도 빠짐없이 뒤에 첨부된다. 여기에 그것이 이전에 호출했던 도구들이 반환한 결과, 현재 날짜 시간 등의 환경 정보도 더해진다.

모델은 길이가 수만 자에 달할 수도 있는 이 텍스트 더미를 다 읽은 후에야, 비로소 "자신이 누구인지, 이전에 당신과 무슨 이야기를 했는지 생각해낸다." 그리고 이 모든 컨텍스트를 바탕으로, 다음 답변을 예측한다.

다시 말해, 모델의 "기억"은 사실 속임수다—매번 처음부터 전체 채팅 기록을 다시 읽는 방식으로 "기억 효과"를 가장하는 것이다. 마치 기억 상실증 환자가 매번 만나기 전에 일기장을 첫 페이지부터 마지막 페이지까지 읽어내려가서, 당신과 대화할 때는 모든 것을 기억하는 것처럼 보이지만, 사실 그는 매번 당신을 다시 만나는 것이다.

OpenClaw는 한 걸음 더 나아간다: 그것은 지속적인 "장기 기억" 시스템을 가지고 있어, 중요한 정보를 작업 공간의 파일에 기록한다. 이렇게 하면 대화 기록이 삭제되더라도, 그 핵심 정보는 사라지지 않는다. 당신이 항저우에 산다고 언급했으면, 다음에 그것은 자동으로 지역 AI 행사를 추천해줄지도 모른다—그것이 "기억해서"가 아니라, 이 정보가 파일에 기록되어 다음번 프롬프트 조합 시 포함되기 때문이다.

Q2: 왜 소랍스터를 키우는 게 이렇게 돈이 많이 들까?

위의 프롬프트 메커니즘을 이해하면, 많은 사용자들을 골치 아프게 하는 이 문제를 이해할 수 있다.

매번 상호작용할 때, 모델이 처리하는 것은 당신이 방금 보낸 그 한 마디뿐이 아니다. 그것은 영혼 설정 수천 자, 전체 대화 기록, 모든 도구 출력 결과를 포함한 전체 프롬프트를 처리해야 한다. 이 내용들은 토큰 단위로 요금이 청구되며, 하나의 토큰은 대략 한 개의 한자 또는 반 개의 영어 단어에 해당한다.

당신이 "안녕" 한 마디만 보냈다 하더라도, OpenClaw는 이미 뒤에서 5000 토큰의 프롬프트를 조립했을 수 있다. 왜냐하면 모든 배경 설정 파일을 가져와야 하기 때문이다. 당신이 이 "안녕"에 실제로 지불하는 비용은 2개 토큰의 처리비가 아니라, 5000개 토큰의 처리비다.

그리고 잊지 말아야 할 것은, OpenClaw에는 심박 메커니즘이 있어, 수십 초마다 자동으로 모델을 찔러본다는 점이다. 당신이 아무 말도 하지 않아도, 토큰은 계속 소모된다. 통계에 따르면, OpenClaw는 최근 30일 동안 OpenRouter에서의 호출량이 세계 1위로, 총 8.69조 개의 토큰을 소모했다. 중증 사용자는 한 달에 약 1억 토큰이 필요하며, 비용은 약 70만 원 정도다. 심지어 소랍스터가 통제 불능 상태에 빠져, 단숨에 수억 토큰을 태워 수만 원의 청구서를 만들어낸 사례도 있다.

매번 상호작용은 모델에게 "소설 전체를 다시 읽게" 하는 것과 같다. 이것이 랍스터 키우기가 돈이 많이 드는 근본적인 이유다.

2. 몸과 도구: "말만 할 줄 아는" 모델이 어떻게 "손을 움직이게" 할까?

일반적인 챗봇, 예를 들어 웹 버전 ChatGPT는 본질적으로 "입 대신 말해주는 존재"다. 당신이 "이 PDF를 내 이메일로 보내줘"라고 물으면, 그것은 단지 작업 단계를 알려줄 뿐, 스스로 할 수는 없다. 당신이 바탕화면의 파일을 정리해 달라고 하면, 그것은 단지 튜토리얼을 줄 뿐이다. 그것은 말만 하고, 손을 쓰지 않는다.

OpenClaw와 그들의 본질적인 차이는 바로 여기에 있다. 커뮤니티에서 가장 널리 퍼진 말을 빌리자면: ChatGPT는 군사고, 계획만 내놓는다; OpenClaw는 공병대, 직접 실행한다. 당신이 "MIT 파이썬 강좌를 다운로드해줘"라고 말하면, 일반 AI는 링크를 줄 것이고, OpenClaw는 자동으로 브라우저를 열고, 리소스를 찾고, 다운로드하고, 당신의 바탕화면에 놓을 것이다.

하지만 여기 바로잡아야 할 중요한 인식이 있다: 모델 자체는 컴퓨터를 조종하는 능력을 진정으로 얻은 것이 아니다. 그것은 여전히 문자만 출력할 수 있다. 진짜 마법은 OpenClaw라는 "껍질" 위에서 일어난다.

Q3: 대형 언어 모델은 분명히 문자만 출력할 수 있는데, "도구 호출"은 도대체 어떻게 구현되는 걸까?

대형 언어 모델은 도구를 직접 호출할 수 있는 능력이 전혀 없다. 파일을 읽을 수 없고, 요청을 보낼 수 없고, 브라우저를 조종할 수 없다—그것이 할 수 있는 일은 단 한 가지다: 한 줄의 문자를 출력하는 것. 소위 "도구 호출"은 본질적으로 모델과 프레임워크가 협력하여 벌이는 쌍팔년도 희극이다.

구체적으로 말하자면, OpenClaw는 프롬프트에서 미리 모델에게 다음과 같이 알려준다: "당신이 어떤 동작을 실행해야 할 때는, 다음 형식에 따라 특수 텍스트를 출력하세요." 이 형식은 일반적으로 구조화된 문자열, 예를 들어 Tool Call 표시가 포함된 JSON으로, 어떤 도구를 호출할지, 어떤 매개변수를 전달할지 명시한다.

모델은 그렇게 한다—그것이 "지금 파일을 읽어야 한다"고 판단할 때, 그것은 실제로 읽는 것이 아니라, 출력에 다음과 같은 문장을 쓴다:

[Tool Call] Read("/Users/당신/Desktop/report.txt")

이것은 마법 같은 것 하나 없이 순수한 텍스트 한 줄일 뿐이다.

그러면 OpenClaw는 바깥에서 모델의 모든 출력을 주시한다. 출력에 이 특정 형식의 문자열이 포함되어 있는 것을 감지하면, 그것은 알게 된다: "아, 모델이 Read 도구를 사용하고 싶어 하는구나." 그러면 OpenClaw는 스스로 이 작업을 실행한다—운영체제 인터페이스를 호출하여, 파일 내용을 읽는다—그리고 결과를 새로운 텍스트로 프롬프트에 다시 집어넣어, 모델이 계속 처리하도록 한다.

전체 과정에서, 모델 자체는 도구가 실제로 실행되었는지, 실행 결과가 무엇인지 전혀 모른다. 그것은 단지 "형식에 맞는 말을 한 것"일 뿐이고, 다음 대화 차례에서 결과를 보길 기다린다. 모든 힘든 일은 당신 컴퓨터에서 실행되는 OpenClaw 프로그램이 뒤에서 처리한다.

이것이 OpenClaw를 "껍질"이라고 말하는 이유다—모델은 뇌고, OpenClaw는 손발이다. 뇌가 "저 컵을 가져와야겠다"고 말하면, 손이 뻗어 가져오고, 촉감을 뇌에 피드백한다. 뇌 자체는 결코 컵을 만져본 적이 없다.

Q4: 구체적으로 OpenClaw에서, 한 번의 완전한 도구 호출 프로세스는 어떤 모습일까?

실제 시나리오로 전체 프로세스를 따라가 보자. 당신이 Feishu에서 당신의 소랍스터에게 말한다고 가정하자: "바탕화면의 report.txt 파일을 읽어서 요약해줘."

첫 번째 단계, OpenClaw는 당신의 메시지를 모델에 보내기 전에, 이미 프롬프트에 "도구 사용 설명서" 한 부를 쑤셔 넣는다. 이 설명서는 구조화된 형식으로 모델에게 알려준다: 당신은 다음과 같은 도구를 사용할 수 있고, 각 도구는 어떤 매개변수가 필요하며, 어떤 결과를 반환할지. 예를 들어 Read 도구는 파일을 읽을 수 있고, Shell 도구는 명령줄 명령을 실행할 수 있으며, Browser 도구는 브라우저를 조종할 수 있다.

두 번째 단계,