OpenAI、オーディオ、ビジュアル、テキストにわたるリアルタイム推論を可能にするアップデートをリリース
2024-10-02 11:34:49
Odaily スタージャーナルによると OpenAI は、AI モデルがより適切に会話を行い、画像認識機能を向上させるために、10 月にモデルに 4 つの更新を加えました。最初のメジャー アップデートはリアルタイム API です。これにより、開発者は 1 つのプロンプトを使用して AI 生成の音声アプリケーションを作成でき、ChatGPT の高度な音声モードと同様の自然な会話が可能になります。以前は、開発者はこれらのエクスペリエンスを作成するために複数のモデルを「つなぎ合わせる」必要がありました。多くの場合、音声入力は、応答を受信する前に完全にアップロードして処理する必要があるため、Voice-to-Talk 会話などのリアルタイム アプリケーションでは遅延が長くなります。 Realtime API のストリーミング機能を使用すると、開発者は音声アシスタントと同じように、瞬時に自然な対話を実現できるようになります。この API は 2024 年 5 月にリリースされた GPT-4 上で実行され、オーディオ、ビジュアル、テキストにわたる推論をリアルタイムで実行できます。別のアップデートには、開発者向けの微調整ツールが含まれており、画像やテキストの入力から生成される AI 応答を改善できるようになります。画像ベースのスピナーにより、人工知能が画像をより深く理解できるようになり、視覚的な検索とオブジェクト検出の機能が強化されます。このプロセスには、トレーニングに対する良い反応と悪い反応の例を提供する人間からのフィードバックが含まれます。 OpenAI は、音声と視覚の更新に加えて、「モデル蒸留」と「ヒント キャッシュ」も導入しています。これにより、小さなモデルが大きなモデルから学習できるようになり、処理されたテキストを再利用することで開発コストと時間が削減されます。ロイター通信によると、OpenAIは来年の売上高が2024年の予想37億ドルから116億ドルに増加すると予想している。 (コインテレグラフ)
Odailyプラネットデイリーアプリをダウンロード
一部の人々にまずWeb3.0を理解させよう
