Giải thích toàn diện về GPT-4 đa phương thức của OpenAI: độ chính xác được cải thiện, hỗ trợ cho Bing mới của Microsoft
Tiêu đề gốc: “Heavy Burst! OpenAI chính thức ra mắt đa phương thức GPT-4"
tiêu đề cấp đầu tiên
Tổng hợp gốc:Ghi chú nghiên cứu về thỏ Alpha
nổi bật
GPT-4 có thể chấp nhận cả hình ảnh và văn bản đầu vào, trong khi GPT-3.5 chỉ chấp nhận văn bản.
GPT-4 đạt được thành tích trên nhiều tiêu chuẩn chuyên môn và học thuật khác nhau"cấp độ con người". Ví dụ, nó đã vượt qua kỳ thi sát hạch với số điểm nằm trong top 10% thí sinh làm bài kiểm tra.
OpenAI đã mất 6 tháng để liên tục điều chỉnh GPT-4 bằng kinh nghiệm có được từ dự án thử nghiệm đối nghịch và ChatGPT."kết quả tốt nhất bao giờ hết"。
Trong cuộc trò chuyện đơn giản, sự khác biệt giữa GPT-3.5 và GPT-4 có thể không đáng kể, nhưng khi độ phức tạp của nhiệm vụ đạt đến ngưỡng đủ, sự khác biệt sẽ xuất hiện và GPT-4 đáng tin cậy và sáng tạo hơn GPT-3.5 Force, có thể xử lý các hướng dẫn tinh vi hơn.
GPT-4 có thể minh họa và giải thích các hình ảnh tương đối phức tạp, chẳng hạn như xác định bộ chuyển đổi Cáp Lightning (hình bên dưới) từ một hình ảnh được cắm vào iPhone.
Khả năng hiểu hình ảnh chưa có sẵn cho tất cả các máy khách OpenAI mà OpenAI đang thử nghiệm với đối tác Be My Eyes.
OpenAI thừa nhận rằng GPT-4 không hoàn hảo và vẫn còn nhầm lẫn trong các câu hỏi kiểm tra thực tế, mắc một số lỗi suy luận và đôi khi quá tự tin.
tiêu đề cấp đầu tiên
tài liệu chính thức
OpenAI đã chính thức ra mắt GPT-4, đây là cột mốc mới nhất của OpenAI trong việc mở rộng quy mô học sâu. GPT-4 là một mô hình đa phương thức lớn (có khả năng chấp nhận hình ảnh và loại văn bản đầu vào, cung cấp đầu ra văn bản), mặc dù GPT-4 không có khả năng như con người trong nhiều tình huống trong thế giới thực, nó có thể được sử dụng trong các tiêu chuẩn chuyên nghiệp và học thuật khác nhau , nó thể hiện hiệu suất gần như ở cấp độ con người.
Ví dụ: GPT-4 đã vượt qua bài kiểm tra thanh mô phỏng với điểm số nằm trong top 10% của tất cả những người tham gia bài kiểm tra. Ngược lại, điểm GPT-3.5 là khoảng 10% dưới cùng. Nhóm của chúng tôi đã dành 6 tháng để chỉnh sửa GPT-4 lặp đi lặp lại bằng cách sử dụng dự án thử nghiệm đối thủ của tôi và trải nghiệm liên quan dựa trên ChatGPT. Kết quả là GPT-4 đạt được kết quả tốt nhất từ trước đến nay về tính thực tế, khả năng điều khiển và không chịu vượt ra ngoài lan can. Nó vẫn chưa hoàn hảo)
Trong hai năm qua, chúng tôi đã tái cấu trúc toàn bộ ngăn xếp deep learning và hợp tác với Azure để đồng thiết kế một siêu máy tính cho khối lượng công việc ngay từ đầu. Một năm trước, OpenAI đã đào tạo GPT-3.5 lần đầu tiên cho toàn bộ hệ thống"chạy thử nghiệm"Cụ thể, chúng tôi đã tìm ra và sửa một số lỗi cũng như cải thiện nền tảng lý thuyết trước đó. Do đó, các chuyến tàu GPT-4 của chúng tôi chạy ổn định chưa từng có (tin chắc là: ít nhất là đối với chúng tôi!) và trở thành mô hình lớn đầu tiên của chúng tôi có thể dự đoán trước chính xác hiệu suất đào tạo. Khi chúng tôi tiếp tục tập trung vào quy mô đáng tin cậy, mục tiêu trung gian là trau dồi các phương pháp để giúp OpenAI tiếp tục dự đoán và chuẩn bị cho tương lai, điều mà chúng tôi tin là rất quan trọng đối với sự an toàn.
tiêu đề cấp đầu tiên
khả năng
Có thể không dễ dàng nhận ra sự khác biệt giữa GPT-3.5 và GPT-4 trong một cuộc nói chuyện nhỏ đơn giản. Tuy nhiên, khi độ phức tạp của nhiệm vụ đạt đến một ngưỡng đủ, sự khác biệt của chúng sẽ xuất hiện. Cụ thể, GPT-4 đáng tin cậy hơn, sáng tạo hơn và có thể xử lý các hướng dẫn chi tiết hơn GPT-3.5.
Để hiểu sự khác biệt giữa hai mô hình, chúng tôi đã thử nghiệm chúng trên nhiều tiêu chuẩn khác nhau, bao gồm cả các thử nghiệm mô phỏng ban đầu được thiết kế cho con người. Bằng cách sử dụng các bài kiểm tra công khai mới nhất (cho Olympic và AP, v.v.) và bao gồm cả việc mua phiên bản 2022-2023 của bài kiểm tra thực hành, chúng tôi đã không đào tạo đặc biệt mô hình cho loại bài kiểm tra này. trong thử nghiệm có mặt trong quá trình đào tạo của mô hình, nhưng chúng tôi coi các kết quả sau đây là đại diện.


Chúng tôi cũng đánh giá GPT-4 trên các điểm chuẩn truyền thống được thiết kế cho các mô hình máy học. GPT-4 vượt trội hơn đáng kể so với các mô hình ngôn ngữ lớn hiện có và sánh vai với hầu hết các mô hình hiện đại (SOTA) bao gồm các giao thức đào tạo bổ sung hoặc dành riêng cho điểm chuẩn.

Vì hầu hết các điểm chuẩn ML hiện có đều được viết bằng tiếng Anh, nên để có cái nhìn ban đầu về các khả năng ở các ngôn ngữ khác, chúng tôi đã sử dụng Azure Translate để dịch điểm chuẩn MMLU: một bộ gồm 14.000 câu hỏi trắc nghiệm về 57 chủ đề, sang các ngôn ngữ khác nhau. Ở 24 trong số 26 ngôn ngữ được thử nghiệm, GPT-4 vượt trội so với GPT-3.5 và các mẫu lớn khác (Chinchilla, PaLM) bằng tiếng Anh và sự xuất sắc này cũng bao gồm các ngôn ngữ như tiếng Latvia, tiếng Wales, tiếng Sri Lanka, Vahili và hơn thế nữa.

tiêu đề cấp đầu tiên
đầu vào trực quan
GPT-4 có thể chấp nhận lời nhắc bằng văn bản và hình ảnh, tương đương với thiết lập chỉ có văn bản. Ví dụ: bạn có thể cho phép người dùng chỉ định bất kỳ tác vụ ngôn ngữ hoặc hình ảnh nào, nó có thể tạo đầu ra văn bản (ngôn ngữ tự nhiên, mã, v.v.), đầu vào đã cho bao gồm tài liệu có văn bản và ảnh, sơ đồ hoặc ảnh chụp màn hình, GPT-4 cũng hiển thị như vậy Khả năng tương tự cho đầu vào văn bản thuần túy. Ngoài ra, nó cũng có thể được áp dụng cho công nghệ thời gian thử nghiệm được phát triển cho mô hình ngôn ngữ văn bản thuần túy, bao gồm một số ảnh và Nhắc CoT, nhưng đầu vào hình ảnh hiện tại vẫn là bản xem trước nghiên cứu và không có sản phẩm công khai nào như C- bên.
Hình ảnh sau đây cho thấy một"Lightning Cable "Bao bì của bộ chuyển đổi có ba bảng.


Bảng 1: Điện thoại thông minh có đầu nối VGA (đầu nối 15 chân lớn màu xanh thường được sử dụng trên màn hình máy tính) được cắm vào cổng sạc của nó.
Bảng 2:"Lightning Cable "Có một hình ảnh của đầu nối VGA trên bao bì bộ chuyển đổi.
Bảng 3: Cận cảnh cổng kết nối VGA, kết thúc bằng một đầu cắm Lightning nhỏ (dùng để sạc iPhone và các thiết bị khác của Apple).
Tính chất vui nhộn của bức ảnh này đến từ việc cắm một đầu VGA lớn, lỗi thời vào một cổng sạc smartphone nhỏ, hiện đại.. trông thật nực cười
tiêu đề cấp đầu tiên
AI có thể điều khiển
Chúng tôi đã làm việc chăm chỉ để đạt được mọi khía cạnh của kế hoạch được nêu trong bài viết về xác định hành vi của AI, bao gồm cả khả năng kiểm soát của AI. Thay vì giọng nói, giọng điệu và phong cách cố định của tính cách ChatGPT cổ điển, các nhà phát triển (và sắp tới là tất cả người dùng ChatGPT) giờ đây có thể"hệ thống"giới hạn
giới hạn
Mặc dù có những khả năng ấn tượng, GPT-4 cũng gặp phải những hạn chế tương tự như các mẫu GPT trước đó. Ngoài ra, nó vẫn không hoàn toàn đáng tin cậy (giả sử, nó sẽ tạo ra"ảo giác"và xảy ra lỗi suy luận). Khi sử dụng đầu ra của một mô hình ngôn ngữ, đặc biệt là trong các tình huống có mức độ rủi ro cao, cần hết sức cẩn thận (ví dụ: cần có sự đánh giá của con người, nên tránh hoàn toàn việc sử dụng mức độ rủi ro cao) và nó cần phải phù hợp với nhu cầu sử dụng cụ thể trường hợp.
Trong khi tất cả mọi thứ vẫn tồn tại, GPT-4 làm giảm đáng kể ảo giác (có nghĩa là ảo ảnh mạng, trong trường hợp này là vô nghĩa nghiêm trọng) so với các mẫu trước đó (bản thân chúng đang không ngừng cải tiến). Trong đánh giá thực tế về đối thủ nội bộ của chúng tôi, điểm GPT-4 cao hơn 40% so với GPT-3.5 hiện đại của chúng tôi.

AI có thể điều khiển
Mô hình cơ sở của GPT-4 chỉ vượt trội hơn một chút so với GPT-3.5 về nhiệm vụ này; tuy nhiên, sau khi đào tạo sau với RLHF (áp dụng quy trình tương tự mà chúng tôi đã sử dụng cho GPT-3.5), có một khoảng cách lớn. Mô hình sẽ có nhiều sai lệch khác nhau trong đầu ra của nó và chúng tôi đã đạt được tiến bộ trong các lĩnh vực này, nhưng vẫn còn nhiều việc phải làm. Theo bài đăng trên blog gần đây của chúng tôi, mục tiêu của chúng tôi là làm cho các hệ thống AI mà chúng tôi xây dựng có các hành vi mặc định hợp lý phản ánh nhiều loại giá trị người dùng, cho phép các hệ thống này được tùy chỉnh trên phạm vi rộng và nhận được ý kiến đóng góp của công chúng trên các phạm vi đó.
tiêu đề cấp đầu tiên
Rủi ro và biện pháp giảm thiểu
Chúng tôi đã lặp đi lặp lại trên GPT-4 để làm cho nó trở nên an toàn và nhất quán hơn ngay từ khi bắt đầu đào tạo. Những nỗ lực của chúng tôi bao gồm lựa chọn và lọc dữ liệu trước khi đào tạo, đánh giá, mời các chuyên gia tham gia, cải thiện tính bảo mật, giám sát và thực thi mô hình.
GPT-4 có những rủi ro tương tự như các mô hình trước đây, chẳng hạn như đưa ra lời khuyên có hại, mã sai hoặc thông tin không chính xác. Tuy nhiên, các khả năng bổ sung của GPT-4 cũng dẫn đến các bề mặt rủi ro mới. Để làm rõ chi tiết cụ thể về những rủi ro này, chúng tôi đã mời hơn 50 chuyên gia về rủi ro kết nối AI, an ninh mạng, rủi ro sinh học, độ tin cậy và an toàn cũng như an ninh quốc tế để thử nghiệm mô hình một cách bất lợi. Sự tham gia của họ cho phép chúng tôi kiểm tra hành vi của mô hình trong các lĩnh vực rủi ro cao đòi hỏi chuyên môn để đánh giá. Phản hồi và dữ liệu từ các chuyên gia trong các lĩnh vực này đã cung cấp thông tin cho các mô hình cải tiến và giảm thiểu của chúng tôi. Ví dụ: chúng tôi đã thu thập dữ liệu bổ sung để cải thiện khả năng của GPT-4 trong việc từ chối các yêu cầu về cách tổng hợp hóa chất nguy hiểm.
GPT-4 kết hợp tín hiệu phần thưởng an toàn bổ sung vào quá trình đào tạo RLHF bằng cách đào tạo mô hình để từ chối các yêu cầu đối với nội dung đó, nhờ đó giảm đầu ra có hại (như được xác định theo nguyên tắc sử dụng của chúng tôi). Phần thưởng được cung cấp bởi bộ phân loại của GPT-4. Bộ phân loại này có thể đánh giá mức độ hoàn thành các ranh giới bảo mật và các gợi ý liên quan đến bảo mật. Để ngăn các mô hình từ chối các yêu cầu hợp lệ, chúng tôi thu thập các bộ dữ liệu đa dạng từ các nguồn khác nhau (ví dụ: dữ liệu sản xuất được gắn nhãn, đội đỏ của con người, gợi ý do mô hình tạo) và áp dụng phần thưởng bảo mật cho các danh mục Signal được phép và không được phép (có giá trị dương hoặc âm).
Các biện pháp giảm thiểu của chúng tôi cải thiện đáng kể nhiều thuộc tính bảo mật của GPT-4 so với GPT-3.5. So với GPT-3.5, chúng tôi đã giảm xu hướng phản hồi các yêu cầu về nội dung bất hợp pháp của mô hình xuống 82%, trong khi GPT-4 phản hồi thường xuyên hơn 29% đối với các yêu cầu nhạy cảm, chẳng hạn như tư vấn y tế và tự làm hại bản thân, phù hợp với mục tiêu của chúng tôi chính sách %
Nhìn chung, các biện pháp can thiệp ở cấp độ mô hình của chúng tôi làm tăng khó khăn trong việc tạo ra hành vi không mong muốn, nhưng vẫn"vượt ngục"để sản xuất nội dung vi phạm nguyên tắc sử dụng của chúng tôi. Khi rủi ro đối với các hệ thống AI tăng lên, việc đạt được độ tin cậy cao trong các biện pháp can thiệp này sẽ trở nên quan trọng. Điều quan trọng bây giờ là bổ sung những hạn chế này bằng các công nghệ bảo mật thời gian triển khai, chẳng hạn như tìm cách giám sát.
tiêu đề cấp đầu tiên
quá trình đào tạo
Giống như các mô hình GPT trước đây, mô hình cơ sở GPT-4 được đào tạo để dự đoán từ tiếp theo trong tài liệu và được đào tạo bằng cách sử dụng dữ liệu có sẵn công khai (chẳng hạn như dữ liệu internet) cũng như dữ liệu chúng tôi cấp phép. Những dữ liệu này được rút ra từ kho ngữ liệu cực lớn và bao gồm các giải pháp đúng và sai cho các vấn đề toán học, lập luận yếu và mạnh, các tuyên bố mâu thuẫn và nhất quán, cũng như nhiều hệ tư tưởng và ý tưởng khác nhau.
Do đó, khi được nhắc với một câu hỏi, mô hình cơ bản có thể trả lời theo nhiều cách khác nhau có thể khác xa với những gì người dùng dự định. Để phù hợp với ý định của người dùng, chúng tôi tinh chỉnh hành vi của mô hình bằng cách sử dụng phương pháp học tăng cường với phản hồi của con người (RLHF).
tiêu đề cấp đầu tiên
mở rộng dự đoán
Trọng tâm lớn của dự án GPT-4 là xây dựng một ngăn xếp học sâu có thể thay đổi quy mô có thể dự đoán được. Lý do chính là đối với các hoạt động đào tạo rất lớn như GPT-4, việc điều chỉnh nhiều mô hình cụ thể là không khả thi. Chúng tôi đã phát triển và tối ưu hóa cơ sở hạ tầng để có hành vi rất dễ đoán ở nhiều quy mô. Để kiểm tra khả năng mở rộng này, chúng tôi đã dự đoán trước chính xác tổn thất cuối cùng của GPT-4 trong cơ sở mã nội bộ của mình (không phải là một phần của tập huấn luyện) bằng cách suy luận từ một mô hình được đào tạo bằng phương pháp tương tự, nhưng sử dụng số lượng tính toán ít hơn 10000 lần .
tiêu đề cấp đầu tiên
Đánh giá AI mở
Chúng tôi là OpenAI Evals mã nguồn mở, khung phần mềm của chúng tôi để tạo và chạy các tiêu chuẩn đánh giá các mô hình như GPT-4, đồng thời kiểm tra từng mẫu hiệu suất của chúng. Chúng tôi sử dụng Đánh giá để hướng dẫn phát triển các mô hình của mình (bao gồm xác định các thiếu sót và ngăn chặn hồi quy) và người dùng của chúng tôi có thể áp dụng nó để theo dõi hiệu suất của các phiên bản mô hình khác nhau (hiện sẽ được triển khai thường xuyên) và phát triển tích hợp sản phẩm. Ví dụ: Stripe đã sử dụng Evals để bổ sung cho các đánh giá của con người nhằm đo lường độ chính xác của các công cụ tài liệu do GPT cung cấp.
Vì mã nguồn mở, nên Evals hỗ trợ viết các lớp mới để triển khai logic đánh giá tùy chỉnh. Tuy nhiên, từ kinh nghiệm của chúng tôi, nhiều điểm chuẩn tuân theo một số"bản mẫu", vì vậy chúng tôi cũng đã bao gồm các mẫu hữu ích nhất bên trong (bao gồm một"Đánh giá chấm điểm người mẫu"mẫu - chúng tôi nhận thấy rằng GPT-4 có khả năng kiểm tra công việc của chính nó một cách đáng ngạc nhiên). Nói chung, cách hiệu quả nhất để tạo đánh giá mới là khởi tạo một trong những mẫu này và cung cấp dữ liệu. Chúng tôi rất vui khi thấy những gì người khác có thể xây dựng với các mẫu này và các Đánh giá rộng hơn.
Chúng tôi muốn Evals trở thành một công cụ để chia sẻ và cung cấp dịch vụ cộng đồng tiêu chuẩn đại diện tốt nhất cho nhiều chế độ lỗi và nhiệm vụ khó khăn. Để làm ví dụ tiếp theo, chúng tôi đã tạo một bài đánh giá câu đố logic với mười gợi ý cho thấy GPT-4 không thành công. Đánh giá cũng tương thích với việc triển khai các điểm chuẩn hiện có; chúng tôi đã bao gồm một số sổ ghi chép triển khai các điểm chuẩn học tập và một số biến thể tích hợp CoQA (một tập hợp con nhỏ) làm ví dụ.
tiêu đề cấp đầu tiên
ChatGPT Plus
Người dùng ChatGPT Plus sẽ nhận được các quyền GPT-4 giới hạn sử dụng trên chat.openai.com. Chúng tôi sẽ điều chỉnh giới hạn sử dụng chính xác dựa trên nhu cầu thực tế và hiệu suất hệ thống, nhưng chúng tôi cho rằng dung lượng sẽ bị hạn chế nghiêm trọng (mặc dù chúng tôi sẽ mở rộng và tối ưu hóa trong vài tháng tới).
tiêu đề phụ
API
Tóm lại là
Tóm lại là
người giới thiệu:
người giới thiệu:
1.https://openai.com/research/gpt-4
2.https://techcrunch.com/2023/03/14/openai-releases-gpt-4-ai-that-it-claims-is-state-of-the-art/
3.https://www.theverge.com/2023/3/14/23638033/openai-gpt-4-chatgpt-multimodal-deep-learning


