OpenAI의 다중 모달 GPT-4에 대한 종합적인 해석: 정확도 향상, Microsoft의 새로운 Bing 지원
원제는 "헤비 버스트! OpenAI 공식 출시 멀티모달 GPT-4》
첫 번째 레벨 제목
원본 편집:알파 래빗 연구 노트
하이라이트
GPT-4는 이미지와 텍스트 입력을 모두 허용하지만 GPT-3.5는 텍스트만 허용합니다.
GPT-4는 다양한 전문 및 학술 벤치마크에서 성능을 달성합니다."인간 수준". 예를 들어 모의고사에 응시자 중 상위 10%의 점수로 합격했습니다.
OpenAI는 적대적 테스트 프로젝트와 ChatGPT에서 얻은 경험을 사용하여 GPT-4를 반복적으로 조정하는 데 6개월이 걸렸습니다."최고의 결과"。
간단한 채팅에서는 GPT-3.5와 GPT-4의 차이가 미미할 수 있지만 작업의 복잡성이 충분한 임계값에 도달하면 차이가 나오고 GPT-4는 GPT-3.5 Force보다 더 안정적이고 창의적입니다. 더 미묘한 명령을 처리할 수 있습니다.
GPT-4는 iPhone에 연결된 사진에서 Lightning 케이블 어댑터(아래 그림)를 식별하는 것과 같이 비교적 복잡한 이미지를 설명하고 해석할 수 있습니다.
이미지 이해 기능은 OpenAI가 파트너인 Be My Eyes와 함께 테스트하고 있는 모든 OpenAI 클라이언트에서 아직 사용할 수 없습니다.
OpenAI는 GPT-4가 완벽하지 않으며 여전히 사실 확인 질문에 대한 혼란으로 인해 일부 추론 오류와 가끔 과신을 한다는 점을 인정합니다.
첫 번째 레벨 제목
공식 문서
OpenAI는 딥 러닝 확장에 있어 OpenAI의 최신 이정표인 GPT-4를 공식적으로 출시했습니다. GPT-4는 대규모 다중 모드 모델(이미지 및 텍스트 유형 입력을 허용하고 텍스트 출력을 제공할 수 있음)이지만 GPT-4는 많은 실제 시나리오에서 인간만큼 능력이 없지만 다양한 전문 및 학술 벤치마크에서 사용할 수 있습니다. , 거의 인간 수준의 성능을 보여줍니다.
예: GPT-4는 모든 응시자 중 상위 10%의 점수로 모의 변호사 시험을 통과했습니다. 반면 GPT-3.5 점수는 하위 10% 정도다. 우리 팀은 ChatGPT를 기반으로 한 내 적대적 테스트 프로젝트와 관련 경험을 사용하여 GPT-4를 반복적으로 조정하는 데 6개월을 보냈습니다. 그 결과 GPT-4는 사실성, 조종성, 가드레일 밖으로 나가는 것을 거부하는 면에서 역대 최고의 결과를 달성합니다. 아직 완벽하지는 않습니다.)
지난 2년 동안 우리는 전체 딥 러닝 스택을 리팩터링하고 Azure와 협력하여 처음부터 워크로드를 위한 슈퍼컴퓨터를 공동 설계했습니다. 1년 전 OpenAI는 전체 시스템에 대해 GPT-3.5를 처음으로 교육했습니다."테스트 실행", 구체적으로 몇 가지 버그를 찾아 수정하고 이전의 이론적 기반을 개선했습니다. 결과적으로 GPT-4는 전례 없이 안정적으로 훈련하고 실행하며(적어도 우리에게는 자신 있게!) 훈련 성능을 미리 정확하게 예측할 수 있는 최초의 대형 모델이 됩니다. 신뢰할 수 있는 확장에 계속 초점을 맞추면서 중간 목표는 OpenAI가 안전에 중요하다고 생각하는 미래를 계속 예측하고 준비하는 데 도움이 되는 방법을 연마하는 것입니다.
첫 번째 레벨 제목
능력
간단한 잡담으로는 GPT-3.5와 GPT-4의 차이점을 알아차리기가 쉽지 않을 수 있습니다. 그러나 작업의 복잡성이 충분한 임계값에 도달하면 차이가 나타납니다. 특히 GPT-4는 GPT-3.5보다 더 안정적이고 창의적이며 세분화된 명령을 처리할 수 있습니다.
두 모델 간의 차이점을 이해하기 위해 원래 인간을 위해 설계된 시뮬레이션 테스트를 포함하여 다양한 벤치마크에서 테스트했습니다. 최신 공개 테스트(올림피아드 및 AP 등)를 사용하고 2022-2023 버전의 모의 테스트 구매를 포함하여 이러한 유형의 테스트를 위해 특별히 모델을 교육하지 않았습니다.물론 문제가 거의 없습니다. in the test는 모델의 교육 과정 중에 존재하지만 다음 결과가 대표적이라고 생각합니다.


또한 기계 학습 모델용으로 설계된 기존 벤치마크에서 GPT-4를 평가합니다. GPT-4는 기존의 대규모 언어 모델보다 성능이 훨씬 뛰어나며 벤치마크별 또는 추가 교육 프로토콜을 포함하는 대부분의 최첨단(SOTA) 모델과 견줄 만합니다.

대부분의 기존 ML 벤치마크는 영어로 작성되었으므로 다른 언어의 기능을 처음으로 엿볼 수 있도록 Azure Translate를 사용하여 MMLU 벤치마크(57개 주제에 대한 14,000개의 객관식 질문 세트)를 다양한 언어로 번역했습니다. 테스트한 26개 언어 중 24개 언어에서 GPT-4는 영어에서 GPT-3.5 및 기타 대형 모델(Chinchilla, PaLM)을 능가했으며 이 우수성에는 라트비아어, 웨일스어, 스리랑카, 바힐리어 등의 언어도 포함됩니다.

첫 번째 레벨 제목
시각적 입력
GPT-4는 텍스트 전용 설정과 유사한 텍스트 및 이미지 프롬프트를 수락할 수 있습니다. 예를 들어, 사용자가 시각적 또는 언어 작업을 지정하도록 할 수 있고, 텍스트 출력(자연어, 코드 등)을 생성할 수 있으며, 주어진 입력에는 텍스트와 사진이 있는 문서, 다이어그램 또는 스크린샷이 포함되며, GPT-4는 동일한 것을 보여줍니다. 일반 텍스트 입력과 유사한 기능. 또한 몇 개의 샷과 CoT Prompting을 포함하여 일반 텍스트 언어 모델을 위해 개발된 테스트 시간 기술에도 적용할 수 있지만 현재 이미지 입력은 아직 연구 프리뷰이며 C-와 같은 공개 제품은 없습니다. 옆.
다음 그림은"Lightning Cable "어댑터 포장에는 3개의 패널이 있습니다.


패널 1: VGA 커넥터(일반적으로 컴퓨터 모니터에 사용되는 큰 파란색 15핀 커넥터)가 충전 포트에 연결된 스마트폰.
패널 2:"Lightning Cable "어댑터 포장에 VGA 커넥터 그림이 있습니다.
패널 3: 작은 Lightning 커넥터로 끝나는 VGA 커넥터 클로즈업(iPhone 및 기타 Apple 장치 충전에 사용).
이 이미지의 우스꽝스러운 특성은 크고 오래된 VGA 커넥터를 작고 현대적인 스마트폰 충전 포트에 꽂는 데서 나옵니다.. 그래서 우스꽝스럽게 보입니다.
첫 번째 레벨 제목
제어 가능한 AI
우리는 AI의 제어 가능성을 포함하여 AI 행동 정의에 관한 기사에 요약된 계획의 모든 측면을 달성하기 위해 열심히 노력해 왔습니다. 고전적인 ChatGPT 성격의 고정된 말투, 어조, 스타일 대신 개발자(그리고 곧 모든 ChatGPT 사용자)는 이제"체계"한정
한정
인상적인 기능에도 불구하고 GPT-4는 이전 GPT 모델과 유사한 제한이 있습니다. 게다가 여전히 완전히 신뢰할 수는 없습니다(예:"환각", 추론 오류가 발생함). 특히 고부담 상황에서 언어 모델의 출력을 사용할 때 세심한 주의를 기울여야 하며(예: 사람의 검토가 필요하고 고부담 사용은 완전히 피해야 함) 특정 용도의 요구 사항에 일치해야 합니다. 사례.
모든 종류의 것들이 여전히 존재하지만 GPT-4는 이전 모델(그 자체가 지속적으로 개선되고 있음)에 비해 환각(네트워크 착시를 의미, 이 경우 심각한 넌센스)을 크게 줄입니다. 내부 적대적 사실 평가에서 GPT-4는 최신 GPT-3.5보다 40% 높은 점수를 받았습니다.

제어 가능한 AI
GPT-4의 기본 모델은 이 작업에서 GPT-3.5를 약간 능가할 뿐이지만 RLHF로 사후 훈련(GPT-3.5에 사용한 것과 동일한 절차 적용) 후 큰 차이가 있습니다. 이 모델은 출력에 다양한 편향이 있을 것이며 이러한 영역에서 진전을 이루었지만 아직 해야 할 일이 더 많습니다. 최근 블로그 게시물에 따르면 우리의 목표는 우리가 구축하는 AI 시스템이 광범위한 사용자 가치를 반영하는 합리적인 기본 동작을 갖도록 하고, 이러한 시스템이 광범위한 범위에서 사용자 정의될 수 있도록 하고, 해당 범위에 대한 대중의 의견을 얻는 것입니다.
첫 번째 레벨 제목
위험 및 완화
훈련 초기부터 GPT-4를 더 안전하고 일관되게 만들기 위해 반복하고 있으며 사전 훈련 데이터의 선택 및 필터링, 평가, 전문가 참여 초대, 모델 보안 개선, 모니터링 및 실행을 포함합니다.
GPT-4는 유해한 조언, 잘못된 코드 또는 부정확한 정보 생성과 같은 과거 모델과 유사한 위험을 안고 있습니다. 그러나 GPT-4의 추가 기능은 새로운 위험 영역으로 이어집니다. 이러한 위험의 세부 사항을 명확히 하기 위해 우리는 AI 도킹 위험, 사이버 보안, 생물 위험, 신뢰와 안전, 국제 안보 분야의 전문가 50명 이상을 참여시켜 모델을 적대적으로 테스트했습니다. 이들의 참여를 통해 평가를 위해 전문 지식이 필요한 고위험 영역에서 모델의 동작을 테스트할 수 있습니다. 이러한 도메인 전문가의 피드백과 데이터는 우리의 완화 및 개선 모델에 정보를 제공했습니다. 예를 들어 위험한 화학 물질을 합성하는 방법에 대한 요청을 거부하는 GPT-4의 기능을 개선하기 위해 추가 데이터를 수집했습니다.
GPT-4는 이러한 콘텐츠에 대한 요청을 거부하도록 모델을 교육함으로써 추가 안전 보상 신호를 RLHF 교육에 통합하여 유해한 출력을 줄입니다(사용 지침에 정의됨). 보안 경계 및 보안 관련 힌트가 어떻게 완성되었는지 판단할 수 있는 GPT-4의 분류자가 보상을 제공합니다. 모델이 유효한 요청을 거부하는 것을 방지하기 위해 다양한 소스(예: 레이블이 지정된 프로덕션 데이터, 휴먼 레드 팀, 모델 생성 힌트)에서 다양한 데이터 세트를 수집하고 허용 및 허용되지 않는 범주 신호(양수 또는 음수 값의 존재)에 보안 보상을 적용합니다.
우리의 완화는 GPT-3.5에 비해 GPT-4의 많은 보안 속성을 실질적으로 개선합니다. GPT-3.5에 비해 불법 콘텐츠 요청에 응답하는 모델의 성향을 82% 줄였으며 GPT-4는 의학적 조언 및 자해와 같은 민감한 요청에 29% 더 자주 응답했습니다. 정책 %
전반적으로 우리의 모델 수준 개입은 바람직하지 않은 행동을 유도하는 어려움을 증가시키지만 여전히"탈옥"사용 지침을 위반하는 콘텐츠를 생성합니다. AI 시스템에 대한 위험이 증가함에 따라 이러한 개입에서 극도의 안정성을 달성하는 것이 중요해질 것입니다. 지금 중요한 것은 모니터링 방법을 찾는 등 배포 시간 보안 기술로 이러한 제한 사항을 보완하는 것입니다.
첫 번째 레벨 제목
교육 과정
이전 GPT 모델과 마찬가지로 GPT-4 기본 모델은 문서의 다음 단어를 예측하도록 훈련되며 공개적으로 사용 가능한 데이터(예: 인터넷 데이터)와 당사에서 라이선스를 부여한 데이터를 사용하여 훈련됩니다. 이러한 데이터는 매우 큰 말뭉치에서 가져오며 수학적 문제에 대한 정확하고 잘못된 솔루션, 약하고 강력한 추론, 모순되고 일관된 진술, 다양한 이데올로기와 아이디어를 포함합니다.
따라서 질문이 표시되면 기본 모델은 사용자가 의도한 것과는 거리가 먼 다양한 방식으로 응답할 수 있습니다. 사용자의 의도에 맞추기 위해 인간 피드백을 통한 강화 학습(RLHF)을 사용하여 모델의 동작을 미세 조정합니다.
첫 번째 레벨 제목
예측 가능한 확장
GPT-4 프로젝트의 큰 초점은 예측 가능하게 확장되는 딥 러닝 스택을 구축하는 것입니다. 주된 이유는 GPT-4와 같은 매우 큰 훈련 실행의 경우 많은 모델별 튜닝을 수행하는 것이 실현 가능하지 않기 때문입니다. 우리는 여러 규모에서 매우 예측 가능한 동작을 갖도록 인프라를 개발하고 최적화했습니다. 이 확장성을 테스트하기 위해 동일한 방법을 사용하여 훈련된 모델에서 추론하여 내부 코드베이스(훈련 세트의 일부가 아님)에서 GPT-4의 최종 손실을 사전에 정확하게 예측했지만 전산을 사용하여 양은 10000배 적습니다. .
첫 번째 레벨 제목
개방형 AI 평가
우리는 샘플별로 성능을 확인하면서 GPT-4와 같은 모델을 평가하는 벤치마크를 만들고 실행하기 위한 소프트웨어 프레임워크인 OpenAI Evals를 오픈 소싱하고 있습니다. 우리는 Evals를 사용하여 모델 개발(단점 식별 및 회귀 방지 포함)을 안내하고 사용자는 이를 적용하여 다양한 모델 버전(이제 정기적으로 출시될 예정임) 및 진화하는 제품 통합의 성능을 추적할 수 있습니다. 예를 들어 Stripe는 이미 Evals를 사용하여 GPT 기반 문서 도구의 정확성을 측정하기 위해 사람의 평가를 보완합니다.
코드가 오픈 소스이기 때문에 Evals는 사용자 지정 평가 논리를 구현하기 위해 새 클래스 작성을 지원합니다. 그러나 우리 자신의 경험에 비추어 볼 때 많은 벤치마크는 다음을 따릅니다."주형", 그래서 내부에 가장 유용한 템플릿도 포함시켰습니다("모델 채점 평가"템플릿 - 우리는 GPT-4가 자체 작업을 확인하는 놀라운 능력을 가지고 있음을 발견했습니다. 일반적으로 새 평가를 만드는 가장 효율적인 방법은 이러한 템플릿 중 하나를 인스턴스화하고 데이터를 제공하는 것입니다. 우리는 다른 사람들이 이러한 템플릿과 평가판을 사용하여 더 광범위하게 무엇을 만들 수 있는지 보게 되어 기쁩니다.
우리는 Evals가 광범위한 실패 모드와 어려운 작업을 가장 잘 나타내는 벤치마크를 공유하고 크라우드소싱하기 위한 도구가 되기를 바랍니다. 후속 예시로 GPT-4가 실패했다는 10가지 힌트가 포함된 논리 퍼즐 평가를 만들었습니다. Evals는 기존 벤치마크 구현과도 호환되며, 학술 벤치마크를 구현하는 여러 노트북과 CoQA(작은 하위 집합)를 통합하는 일부 변형을 예로 포함했습니다.
첫 번째 레벨 제목
ChatGPT Plus
ChatGPT Plus 사용자는 chat.openai.com에서 사용량이 제한된 GPT-4 권한을 얻게 됩니다. 실제 수요와 시스템 성능을 기반으로 정확한 사용량 한도를 조정할 예정이지만 용량이 크게 제한될 것으로 예상됩니다(향후 몇 개월에 걸쳐 확장 및 최적화할 예정임).
보조 제목
API
결론적으로
결론적으로
참조:
참조:
1.https://openai.com/research/gpt-4
2.https://techcrunch.com/2023/03/14/openai-releases-gpt-4-ai-that-it-claims-is-state-of-the-art/
3.https://www.theverge.com/2023/3/14/23638033/openai-gpt-4-chatgpt-multimodal-deep-learning


