AI大モデルにラベル付けする地方の若者たち

区块律动BlockBeats

特邀专栏作者

2026-04-07 10:20

この記事は約4567文字で、全文を読むには約7分かかります

技術革命の背景には、常に安価な労働力の大規模な消耗がある。

AI要約

展開

核心的な視点：本記事は、人工知能産業の繁栄の裏側で、データアノテーション業界が「搾取工場」としての残酷な現実を明らかにし、中国の中西部の地方都市から世界的な範囲にわたる底辺労働者が、技術革命の中で疎外され、搾取され、最終的にはAIに取って代わられる困難に直面している様子を描いている。
重要な要素：
1. 産業転移と雇用の現実：山西省大同市など中西部の都市がデータアノテーション基地へと変貌し、数万人の地元雇用を創出しているが、仕事の本質は反復的で高圧的な出来高払い労働であり、従事者の多くは実体経済で活路を見出せない若者や女性である。
2. 労働強度と報酬の不均衡：データアノテーションの単価は過去数年で90％以上暴落し、0.1元強から数分の1元にまで下落。労働者はわずかな収入を維持するため高強度の労働を強いられ、厳格なデジタル管理と高い精度要求に耐えている。
3. 感情労働の疎外：RLHF（人間によるフィードバック強化学習）の段階では、底辺のアノテーターが複雑な人間の感情を数値化して採点し、AIの「共感力」を訓練する必要がある。しかし彼ら自身は機械的な判断の中で感情が枯渇し、認知的に空洞化していく。
4. 知識階層の「折り畳み」：高い参入障壁を持つ「AI論理訓練士」などの職位は有名大学の修士を惹きつけるが、その仕事も同様に不確実性と非人間的な管理に満ちており、底辺のアノテーターと共にアルゴリズムシステム内で交換可能な「歯車」と化している。
5. 搾取構造と価値の剥奪：業界は逆ピラミッド型のアウトソーシング構造を呈しており、テック大手は「クラウド領主」として大部分の価値を収奪する。何層もの中間搾取を経て、末端労働者の手に渡る報酬は極めて低く、「データと血汗のベルトコンベア」を形成している。
6. 技術による逆襲の危機：AI自動アノテーション技術は千倍の効率で人手に取って代わりつつあり、大手企業のアウトソーシング投入は断崖式に減少している。自らAIを「育てて」きたアノテーター集団は、自分たちが生み出した怪物によって淘汰される究極のジレンマに直面している。

原文著者：Sleepy.md

かつて石炭で半ばを支えた都市、山西省大同市は、今や全身の煤塵を払い落とし、鋭いツルハシに持ち替えて、もう一つの無形の鉱山に向かって力強く打ち下ろしている。

平城区金貿国際センターのオフィスビルには、もはや昇降機も石炭運搬車もない。代わりに、何千もの隙間なく並んだコンピューターデスクがある。上海潤迅雲中声谷ビッグデータスマートサービス基地は数フロアを丸ごと占拠し、数千人のヘッドセットを着けた若い従業員たちが、画面を見つめ、クリックし、ドラッグし、枠で囲んでいる。

公式データによると、2025年11月現在、大同市では74万5千台のサーバーが稼働し、69社のコールセンター・データアノテーション企業を誘致、3万人以上に地元での雇用を創出し、生産額は7億5千万元に達した。このデジタル鉱山では、従事者の94％が地元戸籍の保有者だ。

大同だけではない。国家データ局が指定した初回のデータアノテーション基地リストには、山西省永和県、貴州省畢節市、雲南省蒙自市など中西部の県や都市が名を連ねている。永和県のデータアノテーション基地では、従業員の80％が女性だ。彼女たちの多くは農村出身のママ、あるいは適切な仕事が見つからない帰郷した若者である。

百年前、イギリスのマンチェスターの紡績工場には、土地を失った農民たちが溢れていた。そして今日、これらの辺境の県や都市のコンピューター画面の前には、実体経済の中で居場所を見つけられない若者たちが座り詰めている。

彼らは、極めて未来的でありながら、同時に極めて原始的出来高払い仕事に従事している。それは、遠く北京、深圳、シリコンバレーにいるAI巨人たちのために、大規模言語モデルに必要な「データの飼料」を生産する仕事だ。

誰もこれに問題があるとは思っていない。

黄土高原の新しい流れ作業ライン

データアノテーションの本質は、機械に世界を認識させることだ。

自動運転は信号機と歩行者を認識する必要があり、大規模言語モデルは何が猫で何が犬かを区別する必要がある。機械自体には常識がないため、人間がまず画像上に枠を描き、「これは歩行者だ」と教えてやらなければならない。何千万枚もの画像を「飲み込んだ」後、初めて機械は自分で認識することを学ぶのだ。

この仕事に高学歴は必要ない。必要なのは忍耐力と、絶え間なくクリックできる人差し指だけだ。

2017年の黄金時代には、単純な2D枠の単価は1角（約0.1元）以上にもなり、5角（約0.5元）の高値を提示する会社さえあった。手の速いアノテーターは、一日十数時間働いて500～600元を稼ぐことができた。県や地方都市では、これは間違いなく高給で体裁の良い仕事だった。

しかし、大規模言語モデルの進化に伴い、この流れ作業ラインの残酷な側面が現れ始めた。

2023年までに、単純な画像アノテーションの単価は3～4分（約0.03～0.04元）に叩き落とされ、下落率は90％を超えた。より難易度の高い3Dポイントクラウド図（密集した点で構成され、何倍にも拡大しなければ端が見えない画像）であっても、アノテーターは三次元空間に長さ、幅、高さ、偏角を含む立体枠を引き、車両や歩行者にぴったりと合わせて囲まなければならない。そして、そのような複雑な3D枠の単価も、わずか5分（約0.05元）に過ぎない。

単価暴落の直接的な結果は、労働強度の劇的な増加だ。月に2000～3000元という最低限の給料にしがみつくために、アノテーターたちは絶え間なく、自分の手の速さを向上させ続けなければならない。

これは決して楽なホワイトカラー仕事ではない。多くのアノテーション基地では、管理が息苦しいほど厳しく、勤務中の電話応答は禁止され、携帯電話はロッカーに鍵をかけて保管しなければならない。システムは各従業員のマウスの軌跡と停止時間を正確に記録し、3分以上停止すると、バックエンドからの警告が鞭のように飛んでくる。

さらに人を精神的に追い詰めるのは、許容誤差率だ。業界の合格ラインは通常95％以上で、98％～99％を要求する会社さえある。これは、100個の枠を引いて、たった2つ間違えただけで、画像全体が差し戻され、修正を求められることを意味する。

動画はフレームが連続しており、車線変更する車両は遮られることがある。アノテーターは連想を働かせて、それらを一つ一つ見つけ出さなければならない。3Dポイントクラウド図では、10個以上の点を持つ物体は、すべて枠を描かなければならない。複雑な駐車スペースのプロジェクトでは、線が長すぎた、見落としたなど、品質検査では常に問題点を指摘される。一枚の画像が4、5回差し戻されるのは日常茶飯事だ。結局のところ、一時間かけて手にしたのはわずか数角（数円）に過ぎない。

湖南省のあるアノテーターがSNSに自分の精算書を投稿した。一日働いて、700個以上の枠を引き、単価4分（約0.04元）、総収入は30.2元だった。

これは極度に分裂した光景だ。

一方では、華やかな発表会で、AGIが如何に人類を解放するかを語るハイテク業界の大物たちがいる。もう一方では、黄土高原や西南の山間部の県や都市で、若者たちが毎日8時間から10時間、画面を死んだように見つめ、機械的に枠を引き、数千、数万と引き続け、夜の夢の中でも指が空中で車線を描いている。

かつて誰かがこう言った。人工知能の外見は轟音を立てて通り過ぎる高級車だが、ドアを開けると、中には100人の人間が自転車に乗り、歯を食いしばって必死にペダルを漕いでいるのだ、と。

誰もこれに問題があるとは思っていない。

機械に「愛し方を」教える出来高払い労働者

画像認識のボトルネックが突破されると、大規模言語モデルはより深い進化を迎えた。人間のように思考し、会話し、さらには「共感」を示すことを学ぶ必要があるのだ。

これが、大規模言語モデル訓練の中で最も核心的で、かつ最も高価な環——RLHF（人間のフィードバックに基づく強化学習）を生み出した。

簡単に言えば、実際の人間がAIが生成した回答に採点を行い、どの回答がより良く、より人間の価値観や感情の嗜好に合致しているかを教えることだ。

ChatGPTが「人間らしく」見えるのは、その背後に無数のRLHFアノテーターが「授業」をしているからに他ならない。

クラウドソーシングプラットフォームでは、この種のアノテーションタスクは往々にして明確に価格表示されている：単品3～7元。アノテーターは、AIの回答に対して極めて主観的な感情採点を行い、その回答が「温かい」か、「共感がある」か、「ユーザーの感情に配慮している」かを判断しなければならない。

現実の泥沼の中で疲れ果て、自分の感情さえ顧みる暇もない、月給2000～3000元の底辺労働者が、システムの中でAIの感情コーチ兼価値観審判を務めなければならないのだ。

彼らは、温かさ、共感といった極めて複雑で微妙な人間の感情を、無理やり粉々に砕き、1から5までの冷たい点数に定量化しなければならない。もし彼らの採点がシステムが設定した標準答案と一致しなければ、正答率が基準に達していないと判定され、元々わずかな出来高給からさらに減額される。

これは一種の認知の空疎化だ。人間の複雑で奥深い感情、道徳、憐憫は、強引にアルゴリズムの漏斗に引きずり込まれている。冷たい定量化と標準化の目盛りの中で、それらは最後の温もりまで絞り取られる。画面の中のサイバー巨獣が詩を書き、曲を作り、気遣いの言葉をかけ、さらには感傷的な皮を被ることを学んだと驚嘆する時、画面の外では、かつて生き生きとしていた人間たちが、日々の機械的な判断の中で、感情のない採点マシンへと退化している。

これはサプライチェーン全体の中で最も秘匿された側面であり、どんな資金調達ニュースや技術白書にも決して登場しない。

誰もこれに問題があるとは思っていない。

985大学院卒と地方都市の若者

底辺の枠引き作業はAIのキャタピラに押し潰されつつあり、このサイバー流れ作業ラインは上方に蔓延し始め、より高次な知的労働を貪り始めている。

大規模言語モデルの食欲は変わった。単純な常識を噛み砕くことには満足せず、人間の専門知識と高度な論理を貪り食う必要があるのだ。

主要な求人プラットフォームでは、「大規模言語モデル論理推論アノテーション」「AI人文訓練士」といった特殊なアルバイト募集が頻繁に点滅し始めた。このアルバイトのハードルは極めて高く、往々にして「985/211大学院卒以上」を要求し、法律、医学、哲学、文学などの専門分野に及ぶ。

多くの有名大学院生が惹きつけられ、これらの大手企業の外注グループに殺到した。しかし、彼らはすぐに、これが決して楽な知的体操などではなく、精神的拷問であることに気づく。

正式に受注する前に、彼らは数十ページに及ぶ採点次元と評価基準の文書を読み、2～3回の試行アノテーションを行わなければならない。基準に達した後、正式なアノテーションにおいて、正答率が平均を下回れば、資格を失い、グループチャットから追い出される。

最も息苦しいのは、これらの基準が決して固定されていないことだ。類似の問題と回答に対して、同じ思考方法で採点しても、結果は全く逆になり得る。これは、永遠に終わらず、しかも全く標準答案のない試験問題を解いているようなものだ。自己努力や学習によって正答率を向上させることはできず、ただその場で脳力と体力を消耗しながら回り続けるしかない。

これが大規模言語モデル時代の新型搾取——階層の折り畳みだ。

かつて障壁を打ち破り、上昇するための黄金の階段と見なされていた知識は、今やアルゴリズムに捧げられる、より複雑に咀嚼されるデジタルの飼料と化した。アルゴリズムとシステムの絶対的な権力の前で、象牙の塔の985大学院卒と黄土高原の地方都市の若者は、最も奇怪な「異なる道を辿って同じ場所に至る」を迎えた。

彼らは共に底知れぬサイバー鉱山に転落し、光環を剥奪され、差異を均され、すべてがベルトコンベア上の安価でいつでも交換可能な歯車へと化した。

国外でも同じだ。2024年、アップル社はサンディエゴの121人からなるAI音声アノテーションチームを直接切り捨てた。これらの従業員はSiriの多言語処理能力の改善を担当しており、彼らは自分たちが大手企業のコアビジネスの縁に立っていると思っていたが、一瞬で失業の深淵に墜ちた。

ハイテク巨人たちの目には、県や都市の枠引きおばさんであろうと、名門校卒の論理訓練士であろうと、本質的にはいつでも交換可能な「消耗品」でしかない。

誰もこれに問題があるとは思っていない。

兆元のバベルの塔、数分の血と汗で積み上げる

中国信息通信研究院（CAICT）が発表したデータによると、2023年の中国データアノテーション市場規模は60.8億元に達し、2025年には200～300億元に達すると予測されている。予測によれば、2030年までに、世界のデータアノテーション・サービス市場の売上高は1171億元まで急増する見込みだ。

これらの数字の背後には、OpenAI、マイクロソフト、バイトダンスなどのハイテク巨人たちの、動かせば数千億、数兆ドルに及ぶ時価総額の狂宴がある。

しかし、この天から降って湧いたような富は、実際にAIを「飼育」している人々には流れていない。

中国のデータアノテーション業界は、典型的な逆ピラミッド型の外注構造を示している。最上層は、核心アルゴリズムをがっちり握りしめるハイテク巨人たち。第二層は、大型データサービスサプライヤー。第三層は、各地に広がるデータアノテーション基地と中小外注会社。最下層こそが、出来高給を受け取る「泥まみれ」のアノテーターたちだ。

外注の各層は、それぞれが容赦なく利益をかすめ取る。大手企業が叩き出す単価が5角（約0.5元）でも、層を重ねる剥ぎ取りを経て、県や都市のアノテーターの手に落ちるのは、5分（約0.05元）にも満たないかもしれない。

ギリシャの元財務大臣ヤニス・バルファキスは、著書『テクノ封建主義』の中で、極めて透徹した見解を投げかけた：今日のハイテク巨人たちは、もはや伝統的な意味での資本家ではなく、「クラウド領主」（Cloudalists）である、と。

彼らが所有するのは工場や機械ではなく、アルゴリズム、プラットフォーム、計算力——これらはサイバー時代のデジタル領土だ。この新しい封建的システムにおいて、ユーザーは消費者ではなくデジタル小作人であり、私たちがソーシャルメディアで行う毎回の「いいね！」、コメント、閲覧は、すべて無料でクラウド領主にデータを献上していることになる。

そして、地方市場に分布するデータアノテーターたちは、このシステムの中で最下層のデジタル農奴だ。彼らはデータを生産するだけでなく、膨大な生データを洗浄、分類、採点し、大規模言語モデルが消化できる高品質な飼料へと変換しなければならない。

これは秘やかな認知の囲い込み運動だ。19世紀イギリスの囲い込み運動が農民を紡績工場に追いやったように、今日のAIの波

テクノロジー

Odaily公式コミュニティへの参加を歓迎します