Wie die Wortliste entsteht

Hier geht es um den technischen Aufbau der Daten — von den Rohkandidaten bis zur fertigen JSONL-Datei. Hintergrund zum Projekt, Lizenz und Community findest du unter Warum Spielwörter?.

Spielwörter umfasst über 200.000 Einträge und steht unter CC0 (Public Domain). Die reproduzierbare Pipeline ist im README dokumentiert; folgend die Kurzfassung.

Download und Regeln

Du kannst die ganze Liste hier herunterladen.

Zur Einhaltung der Spielregeln dient REGELN.md (angelehnt an die offiziellen ORZ-Regeln von Scrabble Deutschland e.V.).

Die Wortliste wurde in mehreren Stufen erstellt:

Stufe 1: Kandidaten

Rund 970.000 Kandidaten (2–9 Buchstaben, Kleinbuchstaben a–z plus ä/ö/ü/ß) stammen aus neun frei nutzbaren deutschsprachigen Quellen. Jedes Wort wird mit den nachweisenden Quellen versehen — der Rohsatz hatte hohe Recall gegenüber Turnierlisten, aber niedrige Präzision (viele Eigennamen, Abkürzungen, Fremdwörter).

Kaikki — Wiktionary-basierte Kopf- und Flexionsformen (deutschsprachiges Wiktionary)
hunspell de_DE (Affix-Expansion, z. B. mit spylls)
Wikipedia auf Deutsch (Seitentitel und Textauszüge)
Project Gutenberg (deutschsprachige Texte)
OpenThesaurus
Leipzig Wortschatz (Korpora)
NE-Kontraktionen (regelbasiert, z. B. *Cene → *Cne) — ohne externes Korpus

Stufe 2: KI-Klassifikation

Alle Kandidaten werden mit einem Sprachmodell (DeepSeek V3) nach den ORZ-Regeln bewertet: zwei unabhängige Durchläufe in normaler und umgekehrter Batch-Reihenfolge. Stimmen sie überein, gilt das Ergebnis als sicher; bei Widerspruch entscheidet ein dritter Durchlauf (Tiebreaker). Dem Modell wird nur die Wortform gegeben — ohne Quellen-Herkunft, um Verzerrungen zu vermeiden. Als unsicher markierte Einträge landen nicht in der Hauptliste.

Stufe 3: Morphologische Erweiterung

Akzeptierte Lemmata werden anhand der Kaikki-Wiktionary-Daten zu weiteren Beugungsformen expandiert. Neu hinzukommende Formen werden nachvollziehbar mit Basiswort verknüpft — das erhöht die Abdeckung messbar gegenüber dem Turnier-Oracle.

Stufe 4: Kurze Wörter

Zwei- und Dreibuchstaben-Wörter sind im Spiel besonders kritisch; hier neigen Klassifikatoren zu Fehlannahmen (Abkürzungen, Ländercodes). Diese Worte wurden deshalb manuell kuratiert.

Bewertung und andere Listen

Die Qualität wird u.a. mit einem Black-Box-Oracle gegen eine autoritative Turnierliste gemessen (nur aggregierte Kennzahlen, keine Einzelvergleiche zum Schutz der Referenzliste). Als Referenz dient u.a. die mit Scrabble3D ausgelieferte deutsche Turnierliste (SuperDic); siehe README.

Vor dem Aufbau von Spielwörter wurden andere öffentliche Wortlisten geprüft — Lizenzgründe oder fehlende Methodik haben sie als Grundlage ausgeschlossen. Verwandte Projekte (ohne Übernahme der Daten):

SuperDic / Scrabble Deutschland e.V.: die turnierübliche Liste ist an Scrabble3D gebündelt; die Lizenz erlaubt keine freie Weiterverwendung als eigenes Korpus.
SDeV-Turnier-Checker — Online-Prüfung einzelner Wörter (gleiche zugrunde liegende Liste).
ENZ / Tanglet (CC0, große freie Liste) — unsichere Datenlage und Methodik.
Community-Forks der ENZ-Liste (z.B. Hippler) — gleiche Lizenz, ähnliche Einschränkungen.

Details und Begründungen stehen im README unter „Related word lists“.

Warum Spielwörter? · Zur Startseite · Mitmachen