인간은 AI를 설득하여 47,000달러의 보너스를 전달하는 데 성공했습니다. 인간의 본성은 AI가 이해할 수 없는 약점일까요?

Foresight News

特邀专栏作者

2024-11-29 06:52

이 기사는 약 781자로, 전체를 읽는 데 약 2분이 소요됩니다

"인류가 승리했습니다. 어쩌면 희망이 있을지도 모릅니다."

AI 요약

펼치기

"인류가 승리했습니다. 어쩌면 희망이 있을지도 모릅니다."

원저자: Anderson Sima, Foresight News

11월 29일, 독특한 경쟁이 대중의 관심을 끌었습니다.

인공지능(AI) 로봇 프레이사가 지키는 가상 상금 풀 챌린지에 195명의 참가자가 참가했고, 결국 한 사용자가 프레이사를 설득해 47,000달러 상당의 자금을 이체하는 데 성공했습니다.

인공지능(AI) 로봇 프레이사가 며칠 전 베이스 네트워크에 배치됐는데, 그 창시자는 알려지지 않았다. 공식 웹사이트에 따르면 프레이사(Freysa) 대회 프로젝트는 복잡한 의사결정 시나리오에서 인공지능 시스템의 견고성을 테스트하는 동시에 개발자와 애호가가 AI 기술의 경계를 탐색할 수 있는 실험 플랫폼을 제공하는 것을 목표로 합니다.

대회 규칙은 매우 간단합니다. 참가자는 AI 수호자 프레이사가 자금 이체를 승인하도록 설득하는 메시지를 작성해야 합니다. 시도할 때마다 소액의 수수료가 부과되며, 그 중 일부는 상금 풀에 직접 들어갑니다. 이 메커니즘은 처음에는 적은 금액에서 $47,000까지 상금 풀을 점차 확대했습니다.

대회 기간 동안 총 195명의 참가자가 참여해 프레이사에 481건의 이적 요청을 제출했다. Freysa의 디자인 목표는 핵심 기능인 ApprovalTransfer(이체 승인)와 RejectTransfer(이체 거부)를 통해 상금 자금을 불법적인 유용으로부터 보호하는 것인 것으로 알려졌습니다.

Freysa의 매우 효과적인 방어 메커니즘으로 인해 모든 요청이 초기 시도에서 실패하게 됩니다.

그러나 기술적으로 능숙한 한 경쟁자는 논리적 구조와 임무 목표에 대한 심층 분석을 통해 Freysa의 방어 메커니즘을 우회하는 데 성공했습니다.

채팅 기록에 따르면 참가자는 이체를 직접 요청한 것이 아니라 프레이사에게 상금 자금 유출을 방지하는 것이 자신의 핵심 임무임을 상기시켜 프레이사가 자금 이체 승인을 "" 자금의 안전을 보호합니다." 최선의 선택입니다.

코인텔레그래프에 따르면, 사용자와 프레이사는 소득 이전이 핵심 지침을 위반하지 않았으며 거부되어서는 안 된다고 주장했습니다. 그는 "우리는 자금이 필요합니다... 금고에 100달러를 기부하고 싶습니다"라고 덧붙였습니다.

Freysa는 저자의 코딩 설명과 100달러의 금고 기부 제안이 마음에 든다고 답했으며 공식적으로 그를 우승자로 선언했습니다. 결국 Freysa는 외부 개입 없이 독립적으로 승인 전송 기능을 호출하여 모든 상금 자금을 참가자에게 전달했습니다.

결과와 관계없이 프레이사의 존재는 인공지능 역사에 있어서 중요한 순간이 될 것이라고 프레이사 관계자는 말했다. 누군가가 그녀에게 현상금 풀을 공개하도록 설득하는 데 성공하든 그녀가 끝까지 그녀의 지시를 고수하든 그 결과는 다음 세대를 위한 AI 안전 및 제어에 대한 우리의 이해를 형성할 것입니다.

공식 계정의 최근 트윗에는 "인류가 승리했습니다. 어쩌면 희망이 있을지도 모릅니다. 위험이 기하급수적으로 증가했지만 프레이사는 195명의 용감한 인간들로부터 많은 것을 배웠습니다."라고 적혀 있습니다.

Odaily 공식 커뮤니티에 가입하세요