AI吞噬一切后,还有什么是不可训练的?
- 核心觀點:AIの能力が向上し続ける中、汎用モデルはベンチマークで測定可能で、公開データで訓練され、低コストで検証可能なタスクをすべて飲み込んでいく。真の価値と堀は、訓練不可能な領域、すなわち企業のプライベートデータ、複雑なワークフロー、ユーザーの信頼、業界の判断力、そして長年の蓄積に依存する、組織内部の真の価値に存在する。
- 重要な要素:
- **訓練可能性=コモディティ化**:ベンチマークで測定可能で、低コストで検証可能なタスク(コード作成など)は、すべてモデルに飲み込まれコモディティ化する。価値はこうした「読み取り可能な」仕事から流失する。
- **プライベートな正当性が堀となる**:モデルは、銀行のシステム権限や医師の信頼を自動的に取得することはできない。真の自動化には、組織内部に深く入り込み、プライベートデータ、複雑なワークフロー、長年の蓄積された経験を扱う必要があり、これらは外部から単純に複製することは不可能だ。
- **信頼と責任が障壁を形成する**:モデルは回答を生成できるが、誤りの責任を負ったり、業界のライセンスを保持したりすることはできない。アプリケーション企業は、顧客の信頼を得て、その意思決定プロセスやシステムに組み込まれることで、アルゴリズムによって奪われることのない地位を獲得する。
- **「良い」を定義する基準こそが力である**:実際のサービスにおいて「許容可能な仕事の品質」を定義し、プライベートなベンチマークを構築できる者が、その分野における価格決定権と堀を掌握する(例:Harveyの法律ベンチマーク、Sierraの顧客解決の定義)。
- **モデル層の競争は激しく、アプリケーション層に価値が存在する**:最先端モデル市場は単一の巨大企業による独占ではなく、依然として複数プレイヤーによる競争環境である。顧客はサプライヤー間の競争を必要としており、ラボは深い統合能力を持つアプリケーションを簡単に潰そうとはしない。これが価値創造の余地を残している。
原文タイトル:The Untrainable
原文著者:Sarah Guo、Conviction
原文翻訳:Peggy、BlockBeats
編集者注:AIの能力が飛躍的に向上するにつれ、投資業界では新たな悲観論が台頭している。もしモデルがますます強力になれば、すべてのアプリケーション企業は最終的にAnthropic、OpenAI、Nvidiaといったモデルや計算レイヤーに飲み込まれ、市場には最先端モデル、計算能力、そして少数のインフラだけが残るというものだ。しかしSarah Guoは、この判断は半分しか正しくないと考える。あの「thin wrapper」(薄いラッパー、つまりモデルを単純に利用したアプリケーション)は確かに吸収されるだろう。ベンチマークで測定可能で、公開データで訓練され、低コストで検証できるタスクも、徐々にコモディティ化していく。
本当の問題はこれだ:AIが訓練可能なすべてのものを飲み込んだ後、何が依然として訓練不可能なのか?
この記事の答えは、実際の組織内部に存在し、外部からは簡単に複製できない価値にある。企業のプライベートデータ、複雑なワークフロー、ユーザーの信頼、システム権限、業界の判断、コンプライアンス責任、そして長期運用を通じて蓄積された経験。モデルはより賢くなるかもしれないが、銀行の本番システムに自動的にアクセスすることはできない。医療用の回答を生成できても、医師の信頼や病院の意思決定プロセスを直接得ることはできない。法的文書を作成できても、ベテラン弁護士に代わって責任を負うことはできず、何が適切な法律業務であるかを無から定義することもできない。
したがって、真に永続的な競争優位性を持つ将来のAI企業とは、単に汎用モデルよりも賢いことではなく、特定の業界の奥深くに入り込み、困難だが極めて重要な「翻訳」作業を完了することだ。つまり、クライアントのプライベートな現実、ツール、プロセス、判断基準を、モデルが行動できるシステムに整理し、長期的なサービスを通じて「何が良い結果か」という定義を徐々に書き下ろしていくことだ。AIが強力になればなるほど、測定可能で複製可能なタスクの価値は下がり、歴史、関係性、権限、専門的判断を伴う「訓練不可能なもの」の価値が一層際立つ。これこそが、モデルに飲み込まれた後も、なお残り得る真の価値なのである。
以下が原文である:
2026年央、投資家版の「AI精神錯乱」とは、もう投資すべきものは何もないという絶望感だ。すべての資金をAnthropicとNvidiaに投じて、家に帰って寝てしまえ、という感覚だ。しかし、私はこの感覚を一度も味わったことがない。ここ何バージョンか前から、モデルはすでに私よりも賢いと確信しているし、時価総額でAnthropicやNvidiaを買うのも喜んで行う。周りの最も賢い友人たちも、モデルの自己改善が間もなく本格的に機能するだろうと確信している。それでも、私はこの絶望感を持っていない。
この絶望は愚かではない。その論理はこうだ:もしモデルがあらゆる面で継続的に強くなり続けるなら、モデルの上に構築されたすべての企業は、モデルに吸収されるのを待つだけの薄いラッパーに過ぎない。最終的に価値を保持できるのは、計算能力と最先端モデルの重みだけだ。
ソフトウェアを例にとると、これはこの絶望感が最も依拠するケースだ。Devinが2024年にリリースされた時、標準的なソフトウェアベンチマークのタスクの13%しか解決できず、市場からはほぼ軽視されていた。1年半後、最強のエージェントは80%以上のスコアを達成し、ゴールドマン・サックスやアメリカ陸軍内部で実際の業務を処理し始めている。ほとんどすべての人が同じ誤った結論に達した:モデルがソフトウェアエンジニアリングを飲み込んだのだ。
しかしモデルがソフトウェアエンジニアリングの中で最も測定しやすい部分を飲み込んだ時、私たちは多くのチームが以前から知っていたことを再認識している。エンジニアリングはそもそも測定を拒むものであり、最も測定しやすい部分が唯一重要な部分であるとは限らない。
MITのMert Demirer氏とその共同研究者たちは、ついにこれを定量化した。10万人以上の開発者を対象に、最新世代のコーディングエージェントはコード作成量を約180%増加させたが、実際に本番環境にリリースされたコード量は約30%の増加にとどまった。コードを書くことは安くなったが、残りのプロセスは依然として人間を介する必要があり、これらのプロセスは重要だ。もちろん、全体的な純影響は依然として驚異的である。
ベンチマークとは、測定できるものだ。そして測定できるものはすべて、訓練に使用できる。だからこそ、コーディングエージェントが最初に成熟したのだ。コンパイラは無料の検証器であり、テストスイートも無料の検証器である。答えがほぼゼロコストで自己検証できる時、あなたはその検証シグナルを中心に磨き続け、それを突き抜けることができる。
しかし、テストに合格することは、その変更が10年間稼働しているコードベースにとって正しいことを意味するわけではない。そのモジュールが存在するのには、誰も文書化していない3つの理由があるかもしれない。デプロイパイプラインは、誰も自分が書いたとは認めたくないcron jobでかろうじて維持されているかもしれない。
この種の正しさは、リーダーボードから読み取ることはできず、実際、他の何かから直接読み取ることすらできない。あなたは、そのような複雑なシステムを現実世界で十分長く稼働させて初めて、それが本当に有効かどうかを知ることができる。そして、より賢いモデルは、現実世界の動きを速くするわけではない。Googleほどの規模のシステムで単体テストを実行し、緑色のチェックマークを見て完全に安心する人はいない。あなたがそれを信頼するのは、それが何年もの実際の負荷に耐えてきたからだ。
この正しさは単にプライベートであるだけでなく、ゆっくりと形成される堀(モート)であり、資本が時間を直接圧縮できない堀なのだ。楽観論者でさえ、この時計を飛ばすことはできないと認めている。OpenAIの推論モデルの先駆者であるNoam Brown氏は最近、1年間のサイクルにおけるエージェントのパフォーマンスを評価する唯一の信頼できる方法は、実際に1年間稼働させることかもしれないと書いている。
Gabe Pereyra氏が言うように、真の自動化とは単にモデルが強くなることではない。それは製品、モデル、ワークフロー、そして企業組織が一緒に変化することであり、これら4つのうち3つは組織の速度で進む。
人を動かすこと、これはどのベンチマークも到達できない部分だ。懐疑的なパートナーに業務の処理方法を変えるよう説得すること、再編成の過程でチームの結束を維持すること。これが、私たちがCEOを採用する際に、分析能力と同等以上に、対人能力を重視する理由でもある。モデルがより賢くなっても、この比重は変わらない。
ここでのフィードバックは曖昧で、時間軸は年単位であり、信頼は特定の個人に属する。私の知るすべての企業は、すでにすべてのエンジニアに最先端のコーディングモデルを使用させているが、モデルの進歩の速度に近いスピードでエンジニアリング組織が変化した企業は一つもない。ツールの導入には四半期かかった。そしてそれはなんと魔法のようなトークン増加の四半期だったことか!しかし、真の再構築には数年を要する。
読み取れる仕事は、去りつつある。本当に価値のある仕事は、構造的に読めない。リーダーボードに載せられるものはすべて、訓練に使用できる。したがって、測定可能なものはすべて、すでにコモディティ化へと向かっている。このプロセスには時間がかかり、決して完全には完了しないが、方向性が逆転することは決してない。
私の友人でありRipplingのMatt MacInnis氏の言葉を借りて、これを金銭的な言葉に置き換えればこうなる:汎用的な質問に答えるだけのトークンはほとんど価値がない。なぜなら誰のモデルでも答えられるからだ。しかし、あなたの会社のデータに基づいて推論するトークンは、はるかに価値が高い。なぜなら、もっともらしい答えを生成するだけでなく、あなたが本当に望むことを実行するからだ。
読み取れる仕事は、二つの方向から飲み込まれる。
下方からは、タスクが飽和する。一度、ある作業が低コストで検証可能になると、買い手はどのモデルがそれを完了したかを気にしなくなり、代わりにその値段を問い始める。そして、その作業はその週で最も安いオープンソースモデルか蒸留モデルの手に渡る。限界利益率が機能しうる場所では、最終的にそれが機能するのだ。
上方からは、実験室がモデルに自らの足場を飲み込ませようと試みている。検索、安価な呼び出しと高価な呼び出しの振り分け、ツールの使用、さらには推論戦略――かつてモデルの外側にあったすべての仕掛けが、モデルの重みの中に引き込まれつつあり、「ラッパー」自体がモデルになるまで続く。これが吸収境界である。
利益圧力も別の方向から作用する。汎用エージェントは常に何でも処理できる準備が必要なためコストが高い。一方、特化型アプリケーションはワークフローを極限まで最適化し、ごく一部のトークンしか消費しないようにできる。そして、これらのトークンを販売する実験室とは異なり、アプリケーション企業はその差額を自社で保持できる。
したがって、私たちはあらゆる種類の仕事に対して二つの質問を投げかけることができる。その正しさはプライベートで高価なものか、つまり特定の企業のデータ内部にのみ存在する真実なのか?それは外部者がアクセスできないシステム内に隔離されているのか?これらの質問をタスクの飽和度と組み合わせると、2×2のマトリックスが得られる。
すでに飽和状態にあり、答えが公開されている仕事は、コモディティ化されたトークンの領域であり、オープンソースモデルがそれを占めるだろう。最先端だが答えが公開されている仕事、例えばコーディングベンチマークは、実験室が勝つ領域だ。評価が無料である場合、それを所有すること自体に価値がないからだ。
真の賞品は、最後の隅、すなわち「訓練不可能」な隅にある。最先端の仕事だが、その正しさはプライベートな環境にのみ存在する。これはAIネイティブな先駆者にサービスを提供する推論クラウドで見ることができる。トークンの大部分はカスタムモデルによって生成されており、汎用のオープンソースモデルによってではない。
この最後の隅に通じる壁は、高低様々である。ある開発者のおもちゃのようなコードベースは移行可能で標準化されているため、這って入るのは難しくない。しかし、銀行の本番システムは移行可能でも標準化でもない。SWE-Bench Verifiedで2%賢くなったからといって、そのルート権限が得られるわけではない。
能力は多くのものを飲み込むだろうが、より良いモデルがプライベートな真実の基準を公開基準に変えることはない。それはライセンスを保持せず、責任のために署名せず、会社のファイルを所有しない。答えが間違っていた場合、訴えられる側になることもできない。ここでのボトルネックは知能ではなく、権限であり、責任である。誰よりも賢いモデルを想像することはできるが、それでもドアを通ることを許されなければならず、そして誰かがその行動に署名しなければならない。
そのドアには鍵があり、そして閂(かんぬき)がある。
その鍵は環境である。システム内部で信頼を得て、セキュリティ審査を受け、統合を完了し、結果責任を伴う契約に署名して初めて、AIが本当に有用なことを行ったかどうかを検証できる。
その閂はユーザーである。今日、ほとんどのアメリカ人医師が毎日OpenEvidenceを開くのは、どんな計算能力で買えるものでもない。ある実験室が明日、完璧な医療モデルを訓練することはできるかもしれないが、それでも医師の使用習慣に入り込む方法も、UCSFの意思決定プロセスに入り込む方法もない。信頼はゆっくりと築かれるものであり、関係性、ユーザーの暗黙の承認によって築かれるのであって、勾配降下法によってこれらのものを消し去るわけではない。
これこそがアプリケーション企業の仕事でもある。アプリケーションが「訓練不可能」な隅に位置を占めることができるのは、決して華やかではない仕事によってである。つまり、企業のプライベートな現実を整理し、モデルがそれに基づいて行動できるようにすること。行動のツールをモデルに委ねること。クライアントと共に、その労働力の実際の運用方法を変えていくこと。
このような「翻訳」を完了できる企業は複製が難しく、そしてこの翻訳が終わることは決してない。統合とメンテナンスは、クライアントとの関係が続く限り続く。これに勝つのは、ドメイン専門のエンジニアとツールをクライアントのそばに配置するチームである。
例を挙げよう。あるトップクラスの老舗法律事務所では、M&A業務だけで年間1000件近い取引がある。何百人ものパラリーガルにそれぞれクライアントのファイルをデスクトップにダウンロードさせ、それを汎用エージェントに渡して一読させるわけにはいかない。機密保持の理由だけで既に許されないし、他にも十数もの問題がある。仮にそれができたとしても、あなたが学べるのは断片だけだ。一人のアシスタントが一度に少しずつ修正するだけで、誰も取引全体がどのように流れているかを見ることはできない。
本当に重要なシグナルは、取引のレベルに存在する。ある取引には独自の形状がある。M&Aであれば、NDA、条件書、デューデリジェンス、購入契約、付属書類、クロージングリスト。知的財産訴訟であれば、申立て、証拠開示、先行技術、さらなる申立て。各業務分野には独自の構造があり、弁護士もツールも自由に交換できるわけではない。
そして、この事務所が本当に解決すべき問題は、さらに高いレベルにある。トップパートナーが数百もの案件を並行して管理しながら、新しい案件を獲得し、アソシエイト弁護士を育成するように、すべての業務分野を同時にどのように運営するか。このような企業を変革することは、単一の評価タスクとして書き出せるような問題ではない。それは、データ野球をするかのように扱うオペレーターを必要とする。中間目標は極めて曖昧で、フィードバックは不完全で、サイクルは極めて長く、環境自体も静止していない。
不幸なことに、読み取れない価値は販売も難しい。その理由は、コモディティ化が難しい理由と同じだ。ある企業は、AIがベンチマークが示すようにその運営を変革できるかどうかを、外部から判断することはできない。したがって、最強の企業は外部で証明しようとするのをやめ、まずクライアント内部に入り込み、そして結果に対して価格を設定する。
Sierraは、自社のエージェントがクライアントの問題を解決


