Tony Wang7 Min. LesezeitWarum Reddit 2026 unauthentifiziertes JSON blockiert hat (und wie du trotzdem an Reddit-Daten kommst)
Reddit hat 2026 die unauthentifizierten .json-Endpoints abgeschaltet (jetzt 403). Warum das passiert ist — AI-Datenlizenzierung und Bots — und wie du jetzt an Reddit-Daten kommst.
Jahrelang war der einfachste Weg, strukturierte Daten aus Reddit zu holen, ein Trick, den jeder kannte: Hänge .json an eine beliebige Reddit-URL an und bekomme sauberes JSON zurück — kein API-Key, kein OAuth, kein Account. Das trieb still und leise die meisten Open-Source-Reddit-Scraper, Forschungsskripte, Bots und Datenpipelines an.
Diese Tür ist jetzt zu. Am 28. Mai 2026 veröffentlichte Reddit Protecting communities from scrapers and platform abuse in r/modnews und kündigte an, den unauthentifizierten .json-Zugriff abzuschalten. Innerhalb weniger Tage kamen Requests mit 403 Forbidden zurück — ohne Übergangsfrist. Wenn dein Scraper "noch läuft", aber nichts mehr liefert, ist das der Grund.
Dieser Beitrag erklärt, warum Reddit das getan hat — die Antwort dreht sich größtenteils um AI und Geld — und zeigt die regelkonformen Wege, 2026 trotzdem an Reddit-Daten zu kommen.
Was tatsächlich kaputtgegangen ist
In Reddits eigenen Worten: "Deprecating unauthenticated JSON access: We'll also be shutting down unauthenticated .json endpoints. These endpoints can be used to scrape Reddit without accountability. Logged-in and authenticated access won't be impacted."
Also:
- Anonyme
.json-Requests liefern jetzt 403.https://www.reddit.com/r/<sub>/top.jsonund Konsorten geben ohne Authentifizierung keine Daten mehr zurück. - Es scheitert in vielen Tools lautlos. Viele Scraper bekommen einen 403 (oder eine leere/Redirect-Antwort), wirken aber, als wären sie "erfolgreich" — also gehen Pipelines still vom Netz, statt laut zu erroren.
- Authentifizierter Zugriff funktioniert weiterhin. Eingeloggte Sessions und die offizielle OAuth-API sind nicht betroffen — genau das ist der Sinn der Änderung.
- RSS ist als Nächstes dran. Im selben Beitrag nannte Reddit RSS "another common surface for scraping", also steht auch der feed-basierte Zugriff unter Beobachtung.
Warum Reddit das getan hat
Die technische Änderung ist klein. Die Motivation dahinter ist die größere Geschichte — und ja, es geht hauptsächlich um AI-Chatbots und Bot-Traffic.
Reddits Daten wurden zur AI-Goldgrube — und zum Produkt
Reddit sind zwei Jahrzehnte echte menschliche Fragen, Antworten und Meinungen — genau der Text, der große Sprachmodelle nützlich macht, und eine der meistzitierten Quellen in AI-Antworten. Als das offensichtlich wurde, machte Reddit aus seinem Archiv ein lizenziertes Produkt:
- Ein Lizenzdeal mit Google über ~$60M/Jahr (Februar 2024), um Gemini auf Reddit-Daten zu trainieren.
- Ein Lizenzdeal mit OpenAI (Mai 2024) für ChatGPT.
- ~$130M an Datenlizenz-Umsatz im Jahr 2024 — grob 10 % von Reddits Gesamtumsatz.
Wenn die Daten das Produkt sind, ist der kostenlose .json-Endpoint zum Anhängen ein Leck: Er ließ jeden — besonders AI-Firmen — dieselben Daten umsonst abgreifen und unterbot damit die bezahlten Deals.
AI-Bots holten sich die Daten kostenlos — "ohne Verantwortlichkeit"
Das ist der Teil, bei dem die meisten ihr Bauchgefühl richtig liegen. Die Explosion an AI-Training-Crawlern und live "groundenden" Agents (Assistenten, die zur Antwortzeit Reddit-Threads abrufen) erzeugte enormen automatisierten Traffic gegen genau die Endpoints, die keine Identität verlangten. Reddit benennt es in seiner Formulierung direkt: "large-scale scraping, spam networks, agentic account creation, and automated abuse." Die unauthentifizierte .json-Route war die anonyme Vordertür für all das — Daten, die abgegriffen wurden, ohne dass es einen Key gab, über den man hätte raten, abrechnen oder sperren können.
Also begann Reddit, durchzusetzen — vor Gericht
.json abzuwürgen ist die technische Hälfte einer breiteren Kampagne:
- Reddit verklagte Anthropic (Juni 2025) und behauptete, dessen Bots hätten Reddit mehr als 100.000 Mal gecrawlt und die
robots.txtumgangen, nachdem sie eine Lizenzierung abgelehnt hatten. - Reddit verklagte dann Perplexity und drei Scraping-Firmen — SerpApi, Oxylabs und AWM Proxy (Oktober 2025).
- Reddit blockierte die Wayback Machine des Internet Archive (August 2025) wegen Bedenken bezüglich AI-Scraping.
Den anonymen .json-Zugriff abzuschneiden ist die Art, wie man "lizenzier es oder nimm es nicht" auf Protokollebene durchsetzt.
Es ist Teil des größeren "sich schließenden Webs"
Reddit ist das prominenteste Beispiel für einen breiteren Wandel: Seit AI Web-Daten kommerziell wertvoll gemacht hat, schließt sich das offene, anonyme .json-zum-Anhängen-Web. Sites riegeln Daten ab und monetarisieren sie, Cloudflare blockiert für viele Kunden inzwischen standardmäßig AI-Crawler, und "Pay-per-Crawl" wird real. Die Ära des beiläufigen anonymen Zugriffs auf öffentliche Daten geht zu Ende.
Warum dein Scraper jetzt 403 bekommt (es liegt nicht an deinen Credentials)
Teams, die darauf stoßen, vermuten einen Auth- oder Rate-Limit-Bug. Meistens ist es das nicht. Reddits Durchsetzung 2026 stützt sich auch auf:
- TLS-Fingerprinting — generische Clients (
requests,wget, Standard-curl) werden an ihrem TLS-Handshake erkannt und blockiert, selbst mit perfekten Headern. - IP-Reputation — Datacenter- und Cloud-IPs (GitHub Actions, Vercel, gängige Hoster) sind stark geflaggt; derselbe Request funktioniert oft aus einem Residential-Browser und liefert vom Server einen 403.
- Kein anonymer Fallback — der
.json-Pfad, der das früher alles abgefangen hat, ist weg.
Deshalb behebt "füg einen User-Agent hinzu" oder "drossle die Rate" es nicht mehr — die Blockade liegt auf der Ebene der Zugriffsrichtlinie und des Fingerprints, nicht bei der Request-Rate.
Wie du 2026 an Reddit-Daten kommst (regelkonforme Optionen)
Der kostenlose anonyme Weg ist vorbei, aber öffentliche Reddit-Daten sind weiterhin über sanktionierte Routen erreichbar. Nach Rang geordnet:
1. Die offizielle Reddit Data API / Devvit
Reddit verweist Entwickler auf seine authentifizierte Data API (OAuth) und die Entwicklerplattform Devvit — der sanktionierte Weg:
- Kostenlos für nicht-kommerzielle Nutzung, gedeckelt bei ~100 requests/minute.
- Kommerzieller Zugriff kostet etwa $0.24 pro 1.000 Requests; Enterprise-Vereinbarungen starten bei rund $12,000/Jahr.
Am besten, wenn du eine App registrieren kannst, den OAuth-Tanz mitmachst und deine Nutzung zu Reddits Bedingungen passt.
2. Authentifizierter / sessionbasierter Zugriff
Eine eingeloggte Browser-Session (Cookies, ein echter Browser via Playwright) funktioniert weiterhin, weil authentifizierter Zugriff nicht betroffen ist. Das ist für kleine, sorgfältige Jobs machbar — aber es ist fragil (Sessions laufen ab, Fingerprints werden geflaggt), und du trägst die gesamte Wartung und das Risiko bezüglich der Terms of Service.
3. Eine Managed Reddit API (Crawlora)
Wenn du strukturierte Reddit-Daten willst, ohne Auth, Proxies und Fingerprints zu pflegen — oder deinen Scraper jedes Mal neu zu schreiben, wenn Reddit die Regeln ändert — übernimmt eine Managed API das für dich. Crawloras Reddit API gibt normalisiertes JSON für Suche, Posts, Kommentar-Threads und Subreddit-Feeds über einen einzigen Key zurück und hält den Zugriffsweg am Laufen, während Reddit ihn enger zieht:
curl -G "https://api.crawlora.net/api/v1/reddit/subreddit/webdev/posts" \
-H "x-api-key: $CRAWLORA_API_KEY" \
--data-urlencode "sort=hot" \
--data-urlencode "limit=25"
import requests
resp = requests.get(
"https://api.crawlora.net/api/v1/reddit/search",
headers={"x-api-key": "YOUR_API_KEY"},
params={"q": "web scraping", "sort": "top", "limit": 25},
)
for post in resp.json()["data"]["posts"]:
print(post["score"], post["subreddit"], post["title"])
Du bekommst Posts, Kommentare und Feeds als sauberes JSON und hörst auf, Reddits Änderungen hinterherzulaufen — das ist der Deal, den du kaufst.
Ein Hinweis zur Compliance
Reddits aktualisierte Data API Terms und Rule 8 decken jetzt ausdrücklich automatisierten Missbrauch und unautorisiertes Scraping ab, und die Änderung vom Mai 2026 macht Reddits Haltung klar. Welchen Weg du auch wählst:
- Sammle nur öffentliche Posts, Kommentare und Subreddits — niemals private, in Quarantäne befindliche oder personenbezogene Daten.
- Behandle Benutzernamen und Kommentartexte als personenbezogene Daten (DSGVO/CCPA) — minimiere, was du speicherst, und sorge für eine Rechtsgrundlage, besonders bei Nutzung fürs AI-Training.
- Bevorzuge die offizielle API oder einen lizenzierten/Managed-Weg und prüfe Reddits Bedingungen sowie dein lokales Recht vor kommerzieller oder AI-Nutzung.
Das ist keine Rechtsberatung — siehe Ist Web Scraping 2026 legal? für die Details zu öffentlichen vs. personenbezogenen Daten.
Quellen
Wo das hineinpasst
Die Ära des .json-Anhängens ist vorbei, aber Reddit bleibt eine der reichhaltigsten Quellen für Community-Recherche, Marken- und Produkt-Sentiment sowie Grounding-Daten für AI. Für das praktische How-to (Suche, Posts, Kommentare, Subreddit-Feeds, Pagination) siehe wie man 2026 Reddit scrapt; um Threads in eine Retrieval-Pipeline oder einen Agent einzuspeisen, siehe die MCP-Integration und den Workflow AI-Agent-Web-Daten.
Probier es zuerst kostenlos aus: Teste den Endpoint im Playground, lies das Schema in den API-Docs und sieh dir die Credit-Kosten auf der Preisseite an.
Häufig gestellte Fragen
Warum hat Reddit die unauthentifizierten .json-Endpoints blockiert?
Am 28. Mai 2026 kündigte Reddit an, den unauthentifizierten .json-Zugriff abzuschalten, um Scraping 'ohne Verantwortlichkeit' zu stoppen und Bot- sowie Agentic-Missbrauch einzudämmen. Der größere Treiber ist kommerziell: Reddits Daten sind jetzt ein lizenziertes Asset fürs AI-Training (Deals mit Google und OpenAI im Wert von ~$130M im Jahr 2024), und der kostenlose .json-Pfad ließ jeden — besonders AI-Firmen — diese Daten abgreifen, ohne zu bezahlen.
Funktionieren Reddit-.json-URLs 2026 noch?
Nein. Seit Ende Mai 2026 liefert das Anhängen von .json an eine Reddit-URL bei unauthentifizierten Requests 403 Forbidden. Eingeloggte Sessions und die offizielle OAuth-API funktionieren weiterhin, und Reddit hat RSS als nächste Schnittstelle markiert, die es schließen könnte.
Warum bekommt mein Reddit-Scraper selbst mit User-Agent einen 403?
Weil die Blockade nicht mehr an Rate oder Headern liegt. Reddit nutzt TLS-Fingerprinting und IP-Reputation-Checks, sodass generische Clients (requests, wget, Standard-curl) sowie Datacenter- oder Cloud-IPs selbst mit gültigem User-Agent einen 403 bekommen. Der anonyme .json-Fallback, der das früher abgefangen hat, ist weg.
Was ist jetzt der offizielle Weg, an Reddit-Daten zu kommen?
Reddits authentifizierte Data API (OAuth) und die Entwicklerplattform Devvit. Sie ist kostenlos für nicht-kommerzielle Nutzung bei etwa 100 requests/minute; kommerzieller Zugriff kostet grob $0.24 pro 1.000 Requests, mit Enterprise-Vereinbarungen ab rund $12,000/Jahr.
Ist Reddit-Scraping 2026 legal oder erlaubt?
Reddits aktualisierte Rule 8 und Data API Terms schränken unautorisiertes Scraping ein. Öffentliche Daten sind in der Regel zugänglich, aber sammle nur öffentliche Inhalte, behandle Benutzernamen und Kommentare als personenbezogene Daten und bevorzuge die offizielle API oder einen lizenzierten/Managed-Weg — prüfe Reddits Bedingungen und dein lokales Recht vor kommerzieller oder AI-Nutzung. Das ist keine Rechtsberatung.
Wie komme ich trotzdem an Reddit-Daten, ohne einen Scraper zu pflegen?
Eine Managed API wie Crawlora gibt normalisiertes JSON für Reddit-Suche, Posts, Kommentar-Threads und Subreddit-Feeds über einen einzigen Key zurück und hält den Zugriffsweg am Laufen, während Reddit ihn enger zieht — so vermeidest du Auth, Proxies, Fingerprinting und ständige Ausfälle.