Tony Wang7 分で読めますReddit が 2026 年に未認証 JSON をブロックした理由(そして今も Reddit データを取得する方法)
Reddit は 2026 年に未認証の .json エンドポイントを廃止しました(現在は 403)。その理由(AI データのライセンスとボット)と、今 Reddit データを取得する方法を解説します。
長年、Reddit から構造化データを取り出す最も簡単な方法は、誰もが知っている裏ワザでした。任意の Reddit URL に .json を付けるだけで、きれいな JSON が返ってくる。API キーも、OAuth も、アカウントも不要です。これが大半のオープンソース Reddit スクレイパー、研究用スクリプト、ボット、データパイプラインを静かに支えてきました。
その扉は今、閉じられました。2026 年 5 月 28 日、Reddit は r/modnews に Protecting communities from scrapers and platform abuse を投稿し、未認証の .json アクセスを停止すると発表しました。数日のうちに、リクエストは 403 Forbidden を返すようになりました。猶予期間はありません。スクレイパーが「まだ動いている」のに何も返さないなら、原因はこれです。
この記事では、Reddit がなぜそうしたのか(答えはほとんど AI とお金です)、そして 2026 年に今も Reddit データを取得できるコンプライアンスに沿った方法を解説します。
実際に壊れたもの
Reddit 自身の言葉を借りれば、「未認証 JSON アクセスの廃止: 未認証の .json エンドポイントも停止します。これらのエンドポイントは、説明責任を伴わずに Reddit をスクレイピングするために使われ得ます。ログイン済みおよび認証済みのアクセスは影響を受けません。」
つまり:
- 匿名の
.jsonリクエストは現在 403 を返します。https://www.reddit.com/r/<sub>/top.jsonなどは、認証なしではデータを返さなくなりました。 - 多くのツールで静かに失敗します。 多くのスクレイパーは 403(あるいは空のレスポンスやリダイレクト)を受け取りながら「成功した」ように見えるため、エラーを大声で出すのではなく、パイプラインが静かに沈黙します。
- 認証済みアクセスは引き続き機能します。 ログイン済みのセッションと公式 OAuth API は影響を受けません。それがこの変更の主眼そのものです。
- 次は RSS です。 同じ投稿で Reddit は RSS を「スクレイピングのもう一つの一般的な経路」と呼んでおり、フィード経由のアクセスも警告対象になっています。
Reddit がこうした理由
技術的な変更は小さなものです。その背後にある動機こそ、より大きな物語です。そして確かに、それは主に AI チャットボットとボットのトラフィックに関わっています。
Reddit のデータは AI の金鉱に、そして商品になった
Reddit は 20 年分の本物の人間の質問・回答・意見です。これはまさに大規模言語モデルを有用にするテキストであり、AI の回答で最も多く引用される情報源の一つです。それが明白になると、Reddit は自らのアーカイブをライセンス商品へと変えました:
- Google との年間約 $60M のライセンス契約(2024 年 2 月)。Reddit データで Gemini を学習させるためのものです。
- OpenAI とのライセンス契約(2024 年 5 月)。ChatGPT 向けです。
- 2024 年のデータライセンス収益は約 $130M。Reddit の総収益のおよそ 10% にあたります。
データそのものが商品であるなら、.json を付けるだけの無料エンドポイントは「漏れ口」です。誰でも、とりわけ AI 企業が同じデータをタダで持ち出せてしまい、有料契約の価値を切り崩していました。
AI ボットが「説明責任を伴わず」タダで持ち出していた
ここは多くの人の直感が正しい部分です。AI 学習用クローラーと、回答時に Reddit のスレッドを取得するライブの「グラウンディング」エージェント(assistant 群)の爆発的な増加が、身元を必要としない当のエンドポイントに対して膨大な自動トラフィックを生み出しました。Reddit の言い回しはそれを直接名指ししています。「大規模なスクレイピング、スパムネットワーク、エージェントによるアカウント作成、自動化された悪用」。未認証の .json 経路は、そのすべての匿名の表玄関でした。レート制限も課金も BAN もできるキーがないまま、データが持ち出されていたのです。
そこで Reddit は法廷で行動に出た
.json の停止は、より広いキャンペーンの技術的な半分にすぎません:
- Reddit は Anthropic を提訴(2025 年 6 月)し、そのボットが Reddit を 10 万回以上クロールし、ライセンスを断った後に
robots.txtを無視したと主張しています。 - 続いて Reddit は Perplexity と 3 社のスクレイピング企業(SerpApi、Oxylabs、AWM Proxy)を提訴しました(2025 年 10 月)。
- Reddit は AI スクレイピングへの懸念から、Internet Archive の Wayback Machine をブロックしました(2025 年 8 月)。
匿名の .json を断つことは、「ライセンスを取るか、持ち出さないか」をプロトコルのレベルで強制する手段なのです。
より大きな「閉じていくウェブ」の一部
Reddit は、より広い潮流の最も目立つ例です。AI がウェブデータを商業的に価値あるものにしたことで、開かれていて匿名で .json を付けるだけのウェブが閉じつつあります。各サイトはデータをゲートで囲んで収益化し、Cloudflare は今や多くの顧客に対してデフォルトで AI クローラーをブロックし、「ペイ・パー・クロール(pay-per-crawl)」が現実になりつつあります。気軽な匿名での公開データアクセスの時代は終わりを迎えています。
あなたのスクレイパーが今 403 になる理由(認証情報のせいではありません)
これに直面したチームは、認証かレート制限のバグだと思い込みます。たいていはそうではありません。Reddit の 2026 年の取り締まりは、次の手段にも依拠しています:
- TLS フィンガープリンティング — 汎用クライアント(
requests、wget、デフォルトのcurl)は TLS ハンドシェイクで識別され、ヘッダーが完璧でもブロックされます。 - IP レピュテーション — データセンターやクラウドの IP(GitHub Actions、Vercel、よくあるホスト)は強くフラグ付けされます。同じリクエストでも、住宅用(residential)ブラウザからは通り、サーバーからは 403 になることがよくあります。
- 匿名のフォールバックがない — これらをすべて吸収していた
.json経路はもうありません。
だからこそ「User-Agent を足す」「レートを下げる」では解決しなくなったのです。ブロックはリクエストのレートではなく、アクセスポリシーとフィンガープリントの層で行われています。
2026 年に Reddit データを取得する方法(コンプライアンスに沿った選択肢)
無料の匿名経路は終わりましたが、公開された Reddit データは今も認められた経路を通じて到達可能です。おすすめ順に紹介します:
1. 公式の Reddit Data API / Devvit
Reddit は開発者を、認証済みの Data API(OAuth)と Devvit 開発者プラットフォームへ誘導しています。これが認められた経路です:
- 非商用利用は無料で、上限は約 100 requests/minute です。
- 商用アクセスは 1,000 リクエストあたり約 $0.24、エンタープライズ契約は 年間約 $12,000 からです。
アプリを登録でき、OAuth の手順を踏め、用途が Reddit の規約に合致する場合に最適です。
2. 認証済み / セッションベースのアクセス
ログイン済みのブラウザセッション(cookie、Playwright 経由の本物のブラウザ)は今も機能します。認証済みアクセスが影響を受けないからです。小規模で慎重なジョブには使えますが、脆弱です(セッションは期限切れになり、フィンガープリントはフラグ付けされます)。そしてメンテナンスと利用規約上のリスクはすべて自分持ちになります。
3. マネージドな Reddit API(Crawlora)
認証、プロキシ、フィンガープリントを自分で維持したくない、あるいは Reddit が規則を変えるたびにスクレイパーを書き直したくないなら、マネージド API がそれを肩代わりします。Crawlora の Reddit API は、検索・投稿・コメントスレッド・サブレディットのフィードを単一のキーから正規化済み JSON で返し、Reddit が締め付けを強めてもアクセス経路を維持します:
curl -G "https://api.crawlora.net/api/v1/reddit/subreddit/webdev/posts" \
-H "x-api-key: $CRAWLORA_API_KEY" \
--data-urlencode "sort=hot" \
--data-urlencode "limit=25"
import requests
resp = requests.get(
"https://api.crawlora.net/api/v1/reddit/search",
headers={"x-api-key": "YOUR_API_KEY"},
params={"q": "web scraping", "sort": "top", "limit": 25},
)
for post in resp.json()["data"]["posts"]:
print(post["score"], post["subreddit"], post["title"])
投稿・コメント・フィードをきれいな JSON として受け取れ、Reddit の変更を追いかけ続けなくて済むようになります。それが、あなたが手に入れる取引です。
コンプライアンスに関する注意
Reddit の更新された Data API 規約と Rule 8 は、自動化された悪用と無許可のスクレイピングを明示的に対象に含めるようになり、2026 年 5 月の変更で Reddit の立場は明確になりました。どの経路を選ぶにせよ:
- 公開された投稿・コメント・サブレディットのみを収集し、非公開・隔離(quarantined)・個人のデータは決して扱わないこと。
- ユーザー名とコメント本文は個人データ(GDPR/CCPA)として扱うこと。保存する情報を最小限にし、特に AI 学習用途では適法な根拠を持つこと。
- 公式 API、もしくはライセンス済み/マネージドな経路を優先し、商用や AI 用途の前に Reddit の規約と現地の法律を確認すること。
これは法的助言ではありません。公開データと個人データの区別の詳細は 2026 年に web スクレイピングは合法か? を参照してください。
出典
この記事の位置づけ
.json を付けるだけの時代は終わりましたが、Reddit はコミュニティ調査、ブランドや製品のセンチメント、そして AI のためのグラウンディングデータにとって、今なお最も豊かな情報源の一つです。実践的な手順(検索・投稿・コメント・サブレディットのフィード・ページネーション)については 2026 年に Reddit をスクレイピングする方法 を参照してください。スレッドを検索(retrieval)パイプラインやエージェントに流し込むには、MCP インテグレーション と AI エージェント向け web データのワークフローをご覧ください。
まずは無料でお試しを: Playground でエンドポイントを試し、API ドキュメントでスキーマを読み、料金ページでクレジット消費を確認してください。
よくある質問
Reddit はなぜ未認証の .json エンドポイントをブロックしたのですか?
2026 年 5 月 28 日、Reddit は「説明責任を伴わない」スクレイピングを止め、ボットやエージェントによる悪用を抑えるために、未認証の .json アクセスを廃止すると発表しました。より大きな理由は商業的なものです。Reddit のデータは今や AI 学習用のライセンス資産であり(2024 年には Google と OpenAI との契約で約 $130M の価値)、無料の .json 経路は誰でも、とりわけ AI 企業がそのデータを対価を払わずに持ち出すことを許していました。
Reddit の .json URL は 2026 年でもまだ機能しますか?
いいえ。2026 年 5 月下旬以降、Reddit URL に .json を付けると、未認証リクエストには 403 Forbidden が返されます。ログイン済みのセッションと公式 OAuth API は今も機能しており、Reddit は次に閉じる可能性のある対象として RSS に言及しています。
User-Agent を付けても Reddit スクレイパーが 403 になるのはなぜですか?
ブロックがもはやレートやヘッダーの問題ではないからです。Reddit は TLS フィンガープリンティングと IP レピュテーションのチェックを使っており、汎用クライアント(requests、wget、デフォルトの curl)やデータセンター・クラウドの IP は、有効な User-Agent があっても 403 になります。これらを吸収していた匿名の .json フォールバックはもうありません。
今、Reddit データを取得する公式の方法は何ですか?
Reddit の認証済み Data API(OAuth)と Devvit 開発者プラットフォームです。非商用利用は約 100 requests/minute で無料です。商用アクセスは 1,000 リクエストあたり約 $0.24 で、エンタープライズ契約は年間約 $12,000 から始まります。
2026 年に Reddit のスクレイピングは合法ですか、許可されていますか?
Reddit の更新された Rule 8 と Data API 規約は無許可のスクレイピングを制限しています。公開データは一般にアクセス可能ですが、公開コンテンツのみを収集し、ユーザー名やコメントは個人データとして扱い、公式 API またはライセンス済み/マネージドな経路を優先してください。商用や AI 用途の前に Reddit の規約と現地の法律を確認してください。これは法的助言ではありません。
スクレイパーを維持せずに Reddit データを取得し続けるにはどうすればよいですか?
Crawlora のようなマネージド API は、Reddit の検索・投稿・コメントスレッド・サブレディットのフィードを単一のキーから正規化済み JSON で返し、Reddit が締め付けを強めてもアクセス経路を維持します。これにより、認証・プロキシ・フィンガープリンティング・度重なる動作停止を避けられます。