BTC
ETH
HTX
SOL
BNB
View Market
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt

OpenAI のマルチモーダル GPT-4 の包括的な解釈: 精度の向上、Microsoft の新しい Bing のサポート

星球君的朋友们
Odaily资深作者
2023-03-15 07:24
この記事は約5096文字で、全文を読むには約8分かかります
OpenAI GPT-4 の無敵性と制限を解釈します。
AI要約
展開
OpenAI GPT-4 の無敵性と制限を解釈します。

原題:『ヘビーバースト! OpenAI がマルチモーダル GPT-4 を正式に発表

最初のレベルのタイトル

オリジナルの編集:アルファウサギの研究ノート

ハイライト

GPT-4 は画像とテキストの両方の入力を受け入れることができますが、GPT-3.5 はテキストのみを受け入れます。

GPT-4 は、さまざまな専門的および学術的なベンチマークでパフォーマンスを達成します"人間レベル"。たとえば、司法試験模擬試験では受験者の上位 10% の得点で合格しました。

OpenAI は、敵対的テスト プロジェクトと ChatGPT から得た経験を使用して GPT-4 を繰り返し調整するのに 6 か月かかりました。"これまでで最高の結果"。

単純なチャットでは、GPT-3.5 と GPT-4 の違いはわずかかもしれませんが、タスクの複雑さが十分なしきい値に達すると、違いが現れ、GPT-4 は GPT-3.5 Force よりも信頼性と創造性が高くなります。より微妙な指示を処理できるようになります。

GPT-4 は、iPhone に接続されている画像から Lightning ケーブル アダプタ (下の図) を識別するなど、比較的複雑な画像を図解して解釈することができます。

画像理解機能はまだすべての OpenAI クライアントで利用できるわけではなく、OpenAI はパートナーである Be My Eyes とテスト中です。

OpenAI は、GPT-4 が完璧ではなく、依然として事実確認の質問で混乱が生じ、いくつかの推論上の誤りや時折の自信過剰に悩まされていることを認めています。

最初のレベルのタイトル

公式文書

OpenAI は、深層学習のスケーリングにおける OpenAI の最新のマイルストーンである GPT-4 を正式にリリースしました。 GPT-4 は大規模なマルチモーダル モデル (画像およびテキスト タイプの入力を受け入れ、テキスト出力が可能) ですが、現実世界の多くのシナリオでは人間ほどの能力はありませんが、さまざまな専門的および学術的なベンチマークで使用できます。 、人間レベルに近いパフォーマンスを発揮します。

例: GPT-4 は、全受験者の上位 10% のスコアで模擬司法試験に合格しました。対照的に、GPT-3.5 スコアは下位 10% 程度です。私たちのチームは、私の敵対的テスト プロジェクトと ChatGPT に基づく関連経験を使用して、GPT-4 を繰り返し微調整するのに 6 か月を費やしました。その結果、GPT-4 は事実性、操縦性、ガードレールの外側への飛び出しの拒否の点でこれまでで最高の結果を達成しました。まだ完璧ではありません)

過去 2 年間にわたり、私たちはディープ ラーニング スタック全体をリファクタリングし、Azure と提携してワークロードに合わせたスーパーコンピューターをゼロから共同設計しました。 1 年前、OpenAI はシステム全体に対して初めて GPT-3.5 をトレーニングしました"テスト走行"具体的には、いくつかのバグを見つけて修正し、以前の理論的基盤を改善しました。その結果、私たちの GPT-4 は、前例のないほど安定してトレーニング、実行され (少なくとも私たちにとっては自信を持って!)、トレーニング パフォーマンスを事前に正確に予測できる最初の大型モデルとなりました。私たちは信頼性の高いスケーリングに引き続き重点を置き、中間目標は、OpenAI が安全性にとって重要であると考えている将来を予測して準備し続けるのに役立つ方法を磨き上げることです。

最初のレベルのタイトル

能力

単純な世間話では GPT-3.5 と GPT-4 の違いを見つけるのは簡単ではないかもしれません。ただし、タスクの複雑さが十分なしきい値に達すると、両者の違いが現れます。具体的には、GPT-4 は GPT-3.5 よりも信頼性が高く、創造性が高く、よりきめの細かい命令を処理できます。

2 つのモデルの違いを理解するために、もともと人間用に設計されたテストのシミュレーションを含む、さまざまなベンチマークでモデルをテストしました。最新の公開テスト (オリンピックや AP など) を使用し、2022 ~ 2023 年バージョンの練習テストの購入を含めることにより、このタイプのテスト用にモデルを特別にトレーニングしていません。もちろん、問題はほとんどありません。テストの結果はモデルのトレーニング プロセス中に存在しますが、次の結果は代表的なものであると考えられます。

また、機械学習モデル用に設計された従来のベンチマークでも GPT-4 を評価します。 GPT-4 は既存の大規模言語モデルを大幅に上回り、ベンチマーク固有または追加のトレーニング プロトコルを含むほとんどの最先端 (SOTA) モデルと互角です。

既存の ML ベンチマークのほとんどは英語で書かれているため、他の言語の機能を最初に垣間見るために、Azure Translate を使用して MMLU ベンチマーク (57 トピックにわたる 14,000 の多肢選択式質問のセット) をさまざまな言語に翻訳しました。テストされた 26 言語のうち 24 言語において、英語では GPT-4 が GPT-3.5 や他の大規模モデル (チンチラ、PaLM) を上回り、この優秀さにはラトビア語、ウェールズ語、スリランカ語、バヒリ語などの言語も含まれています。

最初のレベルのタイトル

視覚的な入力

GPT-4 はテキストと画像のプロンプトを受け入れることができ、これはテキストのみのセットアップと同様です。たとえば、ユーザーに視覚的タスクや言語タスクを指定させたり、テキスト出力 (自然言語、コードなど) を生成したりできます。指定された入力にはテキストと写真、図やスクリーンショットを含むドキュメントが含まれます。GPT-4 は同じことを示します。プレーンテキスト入力に対する同様の機能。さらに、数ショットや CoT プロンプティングなど、プレーンテキスト言語モデル用に開発されたテスト時間技術にも適用できますが、現在の画像入力はまだ研究プレビューであり、C-側。

次の図は、"Lightning Cable "アダプターのパッケージには 3 つのパネルがあります。

パネル 1: VGA コネクタ (通常、コンピュータのモニタで使用される大きな青い 15 ピン コネクタ) が充電ポートに接続されたスマートフォン。

パネル 2:"Lightning Cable "アダプターのパッケージには VGA コネクタの写真があります。

パネル 3: 小さな Lightning コネクタ (iPhone やその他の Apple デバイスの充電に使用) で終わる VGA コネクタの拡大図。

この画像の陽気な性質は、大型の時代遅れの VGA コネクタを、小型の最新のスマートフォンの充電ポートに接続したところから来ています。したがって、ばかげているように見えます。

最初のレベルのタイトル

制御可能なAI

私たちは、AI の制御性を含め、AI の動作の定義に関する記事で概説された計画のあらゆる側面を達成するために懸命に取り組んできました。従来の ChatGPT パーソナリティの固定された話し方、口調、スタイルの代わりに、開発者 (そして間もなくすべての ChatGPT ユーザー) は、次のことを行うことができるようになりました。"システム"制限

制限

GPT-4 には、その優れた機能にもかかわらず、以前の GPT モデルと同様の制限があります。その上、まだ完全に信頼できるわけではありません (たとえば、"幻覚"となり、推論エラーが発生します)。言語モデルの出力を使用する場合、特に一か八かの状況で使用する場合は、細心の注意を払う必要があり (例: 人間によるレビューが必要、一か八かの使用は完全に避けるべき)、特定の用途のニーズに合わせる必要があります。場合。

あらゆる種類のものが依然として存在しますが、GPT-4 は、以前のモデル (それ自体は常に改善されています) と比較して、幻覚 (ネットワークの錯覚を意味し、この場合は重大なナンセンスを意味します) を大幅に減少させます。当社の内部敵対的事実評価では、GPT-4 は最先端の GPT-3.5 よりも 40% 高いスコアを獲得しました。

制御可能なAI

GPT-4 の基本モデルは、このタスクに関して GPT-3.5 よりわずかに優れているだけですが、RLHF によるポストトレーニング (GPT-3.5 で使用したのと同じ手順を適用) の後では、大きなギャップがあります。モデルの出力にはさまざまなバイアスがあり、これらの分野では進歩しましたが、やるべきことはまだあります。私たちの最近のブログ投稿によると、私たちの目標は、私たちが構築する AI システムに、幅広いユーザーの価値観を反映する賢明なデフォルト動作を持たせ、これらのシステムを広範囲にわたってカスタマイズできるようにし、それらの範囲について一般の意見を得ることができるようにすることです。

最初のレベルのタイトル

リスクと軽減策

私たちは、トレーニングの開始時から GPT-4 をより安全で一貫性のあるものにするために、GPT-4 を反復してきました。その取り組みには、トレーニング前データの選択とフィルタリング、評価、専門家への参加の招待、モデルのセキュリティの向上、モニタリング、実行が含まれます。

GPT-4 には、有害なアドバイス、間違ったコード、不正確な情報が生成されるなど、過去のモデルと同様のリスクが伴います。ただし、GPT-4 の追加機能は、新たなリスク面にもつながります。これらのリスクの詳細を明らかにするために、AI ドッキング リスク、サイバーセキュリティ、バイオリスク、信頼と安全、国際セキュリティの専門家 50 人以上を参加させて、モデルを敵対的にテストしました。彼らの参加により、評価に専門知識が必要な高リスク領域でモデルの動作をテストできるようになります。これらの分野の専門家からのフィードバックとデータは、私たちの軽減および改善モデルに影響を与えました。たとえば、危険な化学物質の合成方法に関する要求を拒否する GPT-4 の機能を向上させるために、追加のデータを収集しました。

GPT-4 は、そのようなコンテンツのリクエストを拒否するようにモデルをトレーニングすることにより、追加の安全報酬信号を RLHF トレーニングに組み込み、それによって有害な出力を削減します (使用ガイドラインで定義されているように)。報酬は、セキュリティ境界とセキュリティ関連のヒントがどのように完成するかを判断できる GPT-4 の分類器によって提供されます。モデルが有効なリクエストを拒否するのを防ぐために、さまざまなソースから多様なデータセット (ラベル付けされた本番データ、人間のレッドチーム、モデルが生成したヒントなど) を収集し、許可および許可されていないカテゴリーのシグナル (正または負の値の存在) にセキュリティ報酬を適用します。

私たちの緩和策により、GPT-3.5 と比較して GPT-4 のセキュリティ特性の多くが大幅に改善されます。 GPT-3.5 と比較して、モデルが違法コンテンツのリクエストに応答する傾向が 82% 減少しましたが、GPT-4 は、医学的アドバイスや自傷行為などの機密性の高いリクエストに対して 29% 多く応答しました。ポリシー%

全体として、私たちのモデルレベルの介入は、望ましくない行動を誘発することの困難さを高めますが、それでも"脱獄"当社の利用ガイドラインに違反するコンテンツを作成すること。 AI システムに対するリスクが増大するにつれて、これらの介入において極めて高い信頼性を達成することが重要になります。現在重要なのは、監視方法を見つけるなど、導入時のセキュリティ技術でこれらの制限を補うことです。

最初のレベルのタイトル

トレーニングプロセス

以前の GPT モデルと同様に、GPT-4 基本モデルは文書内の次の単語を予測するようにトレーニングされ、公開されているデータ (インターネット データなど) と当社がライセンスを取得したデータを使用してトレーニングされます。これらのデータは、非常に大規模なコーパスから抽出されており、数学的問題に対する正しい解決策と誤った解決策、弱い推論と強力な推論、矛盾する記述と一貫した記述、およびさまざまなイデオロギーやアイデアが含まれます。

したがって、質問を求められた場合、基礎となるモデルは、ユーザーの意図とはかけ離れたさまざまな方法で応答する可能性があります。ユーザーの意図に合わせるために、ヒューマン フィードバックによる強化学習 (RLHF) を使用してモデルの動作を微調整します。

最初のレベルのタイトル

予測可能な拡大

GPT-4 プロジェクトの大きな焦点は、予測どおりに拡張できる深層学習スタックを構築することです。主な理由は、GPT-4 のような非常に大規模なトレーニング実行の場合、モデル固有のチューニングを大量に実行するのは現実的ではないことです。私たちは、複数のスケールで非常に予測可能な動作を実現するインフラストラクチャを開発および最適化しました。このスケーラビリティをテストするために、同じ方法を使用してトレーニングされたモデルから推論することによって (トレーニング セットの一部ではない) 内部コードベースでの GPT-4 の最終的な損失を事前に正確に予測しましたが、その量は 10,000 分の 1 です。 。

最初のレベルのタイトル

オープンAI評価

当社は、GPT-4 などのモデルを評価し、サンプルごとにパフォーマンスをチェックするベンチマークを作成および実行するためのソフトウェア フレームワークである OpenAI Evals をオープンソース化しています。当社は Evals を使用してモデルの開発をガイドし (欠点の特定やリグレッションの防止など)、ユーザーはこれを適用して、さまざまなモデル バージョン (定期的に展開される予定) や進化する製品統合のパフォーマンスを追跡できます。たとえば、Stripe はすでに Evals を使用して人間による評価を補完し、GPT を利用したドキュメント ツールの精度を測定しています。

コードはオープンソースであるため、Evals はカスタム評価ロジックを実装するための新しいクラスの作成をサポートします。ただし、私たち自身の経験から言えば、多くのベンチマークはいくつかのベンチマークに従っています。"テンプレート"、そのため、最も便利なテンプレートも含めました ("モデルのグレーディング評価"テンプレート - GPT-4 には、自身の動作をチェックする驚くべき機能があることがわかりました)。一般に、新しい評価を作成する最も効率的な方法は、これらのテンプレートの 1 つをインスタンス化してデータを提供することです。私たちは、他の人がこれらのテンプレートと Eval を使用してより広範に何を構築できるかを見ることに興奮しています。

私たちは、Evals を、幅広い障害モードや困難なタスクを最もよく表すベンチマークを共有およびクラウドソーシングするためのツールにしたいと考えています。フォローアップの例として、GPT-4 が失敗したという 10 個のヒントを含む論理パズル評価を作成しました。 Evals は、既存のベンチマークの実装とも互換性があります。例として、アカデミック ベンチマークを実装するいくつかのノートブックと、CoQA (小さなサブセット) を統合するいくつかのバリエーションが含まれています。

最初のレベルのタイトル

ChatGPT Plus

ChatGPT Plus ユーザーは、chat.openai.com で使用量制限付きの GPT-4 権限を取得します。実際の需要とシステム パフォーマンスに基づいて正確な使用量の上限を調整しますが、容量は大幅に制限されることが予想されます (ただし、今後数か月かけて拡張および最適化する予定です)。

副題

API

結論は

結論は

参考文献:

参考文献:

1.https://openai.com/research/gpt-4 

2.https://techcrunch.com/2023/03/14/openai-releases-gpt-4-ai-that-it-claims-is-state-of-the-art/

3.https://www.theverge.com/2023/3/14/23638033/openai-gpt-4-chatgpt-multimodal-deep-learning


AI
安全性
テクノロジー
Odaily公式コミュニティへの参加を歓迎します
購読グループ
https://t.me/Odaily_News
チャットグループ
https://t.me/Odaily_CryptoPunk
公式アカウント
https://twitter.com/OdailyChina
チャットグループ
https://t.me/Odaily_CryptoPunk
検索
記事目次
Odailyプラネットデイリーアプリをダウンロード
一部の人々にまずWeb3.0を理解させよう
IOS
Android