全面解讀OpenAI推出的多模態GPT-4:準確性提高,支持微軟新款必應
一級標題
一級標題
原文編譯:阿法兔研究筆記
亮點
GPT-4 可以接受圖像和文本輸入,而GPT-3.5 只接受文本。
GPT-4 在各種專業和學術基准上的表現達到"人類水平"。例如,它通過了模擬的律師考試,分數約為應試者的前10% 。
OpenAI 花了6 個月的時間,利用從對抗性測試項目以及ChatGPT 中獲得的經驗,反複調整GPT-4 ,結果在事實性、可引導性和可控制方面取得了"史上最佳結果"。
在簡單的聊天中,GPT-3.5 和GPT-4 之間的區別可能微不足道,但是當任務的複雜性達到足夠的閾值時,區別就出來了,GPT-4 比GPT-3.5 更可靠,更有創造力,能夠處理更細微的指令。
GPT-4 能對相對複雜的圖像進行說明和解釋,比如說,從插入iPhone 的圖片中識別出一個Lightning Cable 適配器(下文有圖片)。
圖像理解能力還沒有向所有OpenAI 的客戶開發,OpenAI 正在與合作夥伴Be My Eyes 進行測試。
一級標題
一級標題
官宣文檔
OpenAI 已經正式推出GPT-4 ,這也是OpenAI 在擴大深度學習方面的最新里程碑。 GPT-4 是大型的多模態模型(能夠接受圖像和文本類型的輸入,給出文本輸出),儘管GPT-4 在許多現實世界的場景中能力不如人類,但它可以在各種專業和學術基准上,表現出近似人類水平的性能。
例如:GPT-4 通過了模擬的律師考試,分數約為全部應試者的前10% 。而相比之下,GPT-3.5 的分數大約是後10% 。我們團隊花了6 個月的時間,利用我對抗性測試項目以及基於ChatGPT 的相關經驗,反復對GPT-4 進行調整。結果是,GPT-4 在事實性(factuality)、可引導性(steerability)和拒絕超範圍解答(非合規)問題(refusing to go outside of guardrails.)方面取得了有史以來最好的結果(儘管它還不夠完美)
在過去兩年裡,我們重構了整個深度學習堆棧,並與Azure 合作,為工作負荷從頭開始,共同設計了一台超級計算機。一年前,OpenAI 訓練了GPT-3.5 ,作為整個系統的首次"試運行"能力
一級標題
能力
在簡單閒聊時,也許不太好發現GPT-3.5 和GPT-4 之間的區別。但是,當任務的複雜性達到足夠的閾值時,它們的區別就出來了。具體來說,GPT-4 比GPT-3.5 更可靠,更有創造力,能夠處理更細微的指令。
為了理解這兩個模型之間的差異,我們在各種不同的基准上進行了測試,包括模擬最開始那些為人類設計的考試。通過使用最新的公開測試(就奧數和AP 等等考試)還包括購買2022-2023 年版的練習考試來進行,我們沒有為這類考試給模型做專門的培訓,當然,考試中存在很少的問題是模型在訓練過程中存在的,但我們認為下列結果是有代表性的。


我們還在為機器學習模型設計的傳統基准上,對GPT-4 進行了評估。 GPT-4 大大超過現有的大語言模型,與多數最先進的(SOTA)模型並駕齊驅,這些模型包括針對基準的製作或額外的訓練協議。

一級標題

一級標題
視覺輸入
GPT-4 可以接受文本和圖像的提示語(prompt),這與純文本設置平行。比如說,可以讓用戶指定任何視覺或語言任務,它可以生成文本輸出(自然語言、代碼等),給定的輸入包括帶有文字和照片的文件、圖表或屏幕截圖,GPT-4 表現出與純文本輸入類似的能力。此外,還可以應用在為純文本語言模型開發的測試時間技術,包括少數幾個鏡頭和CoT 的Prompting,不過目前圖像輸入仍然屬於研究方面預覽,沒有像C 端公開產品。
下列圖片顯示了一個"Lightning Cable "適配器的包裝,有三個面板。


面板1 :一個帶有VGA 接口(通常用於電腦顯示器的大型藍色15 針接口)的智能手機插在其充電端口。
面板2 :"Lightning Cable "適配器的包裝上有一張VGA 接口的圖片。
面板3 :VGA 連接器的特寫,末端是一個小的Lightning 連接器(用於為iPhone 和其他蘋果設備充電)。
一級標題
一級標題
可控制的AI
我們一直在努力實現關於定義AI 行為那篇文章中,所概述的計劃的每個方面,包括AI 的可控制性。與經典的ChatGPT 個性的固定言語、語氣和風格不同,開發者(很快就是所有的ChatGPT 用戶)現在可以通過在"局限性"局限性
局限性
儘管能力驚人,不過,GPT-4 仍存在與早期GPT 模型類似的限制。最重要的是,它仍然不是完全可靠的(比如說,它會對事實產生"幻覺",並出現推理錯誤)。在使用語言模型的輸出時,特別是在高風險的情況下,應該非常小心謹慎,比如說:需要人類審查,完全避免高風險的使用)以及需要與特定的使用案例的需求相匹配。
儘管各類情況仍然存在,但相較於以前的模型(這些模型本身也在不斷改進),GPT-4 大大減少了hallucinations(意思是網絡錯覺,這裡指的是一本正經的胡說八道)。在我們內部的對抗性事實性評估中,GPT-4 的得分比我們最新推出的GPT-3.5 高40% 。

可控制的AI
一級標題
一級標題
風險和緩解措施
我們一直在對GPT-4 進行迭代,使其從訓練開始就更加安全,保持一致性,我們所做的努力包括預訓練數據的選擇和過濾、評估,邀請專家參與,對模型安全改進、監測,以及執行。
GPT-4 與過去的模型會存在類似風險,如生產有害的建議、錯誤代碼或不准確的信息。然而,GPT-4 的額外能力還導致了新的風險面。為了明確這些風險的具體情況,我們聘請了50 多位來自人工智能對接風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家對該模型進行對抗性測試。他們的參與,使我們能夠測試模型在高風險領域的行為,這些領域需要專業知識來評估。來自這些領域專家的反饋和數據,為我們緩解和改進模型提供了依據。比如說,我們已經收集了額外的數據,以提高GPT-4 拒絕有關如何合成危險化學品的請求的能力。
GPT-4 在RLHF 訓練中加入了一個額外的安全獎勵信號,通過訓練模型來拒絕對此類內容的請求,從而減少有害產出(由我們的使用指南定義)。獎勵是由GPT-4 的分類器提供的,它能夠判斷安全邊界和安全相關提示的完成方式。為了防止模型拒絕有效的請求,我們從不同的來源(例如,標記的生產數據,人類的紅隊,模型生成的提示)收集多樣化的數據集,並在允許和不允許的類別上應用安全獎勵信號(存在正值或負值)。
與GPT-3.5 相比,我們的緩解措施大大改善了GPT-4 的許多安全性能。與GPT-3.5 相比,我們將模型對非法內容的請求的響應傾向,降低了82% ,而GPT-4 對敏感請求(如醫療建議和自我傷害)的響應符合我們的政策的頻率提高了29 %
總的來說,我們的模型級幹預措施增加了誘發不良行為的難度,但仍然存在"越獄"一級標題
一級標題
訓練過程
和之前的GPT 模型一樣,GPT-4 基礎模型的訓練是為了預測文檔中的下一個單詞,並使用公開的數據(如互聯網數據)以及我們授權的數據進行訓練。這些數據是來自於極大規模的語料庫,包括數學問題的正確和錯誤的解決方案,弱的和強的推理,自相矛盾的和一致的聲明,以及種類繁多的意識形態和想法。
一級標題
一級標題
可預測的擴展
一級標題
一級標題
開放式人工智能評估
我們正在開源OpenAI Evals,這是我們的軟件框架,用於創建和運行評估GPT-4 等模型的基準,同時逐個樣本檢查其性能。我們使用Evals 來指導我們模型的開發(包括識別缺點和防止退步),我們的用戶可以應用它來跟踪不同模型版本(現在將定期推出)和不斷發展的產品集成的性能。例如,Stripe 已經使用Evals 來補充他們的人工評估,以衡量他們的GPT 驅動的文檔工具的準確性。
因為代碼都是開源的,Evals 支持編寫新的類來實現自定義的評估邏輯。然而,根據我們自己的經驗,許多基準都遵循一些"模板"中的一個,所以我們也包括了內部最有用的模板(包括一個"模型分級Evals"的模板--我們發現GPT-4 有令人驚訝的能力來檢查自己的工作)。一般來說,建立一個新的評估的最有效方法是將這些模板中的一個實例化,並提供數據。我們很高興看到其他人能用這些模板和Evals 更廣泛地建立什麼。
一級標題
一級標題
ChatGPT Plus
參考文獻:
二級標題
API
結論
結論
參考文獻:
參考文獻:
1.https://openai.com/research/gpt-4
2.https://techcrunch.com/2023/03/14/openai-releases-gpt-4-ai-that-it-claims-is-state-of-the-art/
3.https://www.theverge.com/2023/3/14/23638033/openai-gpt-4-chatgpt-multimodal-deep-learning


