Wie die Wortliste entsteht
Hier geht es um den technischen Aufbau der Daten — von den Rohkandidaten bis zur fertigen JSONL-Datei. Hintergrund zum Projekt, Lizenz und Community findest du unter Warum Spielwörter?.
Spielwörter umfasst über 200.000 Einträge und steht unter CC0 (Public Domain). Die reproduzierbare Pipeline ist im README dokumentiert; folgend die Kurzfassung.
Download und Regeln
Du kannst die ganze Liste hier herunterladen.
Zur Einhaltung der Spielregeln dient REGELN.md (angelehnt an die offiziellen ORZ-Regeln von Scrabble Deutschland e.V.).
Die Wortliste wurde in mehreren Stufen erstellt:
Stufe 1: Kandidaten
Rund 970.000 Kandidaten (2–9 Buchstaben, Kleinbuchstaben a–z plus ä/ö/ü/ß) stammen aus neun frei nutzbaren deutschsprachigen Quellen. Jedes Wort wird mit den nachweisenden Quellen versehen — der Rohsatz hatte hohe Recall gegenüber Turnierlisten, aber niedrige Präzision (viele Eigennamen, Abkürzungen, Fremdwörter).
- Kaikki — Wiktionary-basierte Kopf- und Flexionsformen (deutschsprachiges Wiktionary)
- hunspell de_DE (Affix-Expansion, z. B. mit spylls)
- Wikipedia auf Deutsch (Seitentitel und Textauszüge)
- Project Gutenberg (deutschsprachige Texte)
- OpenThesaurus
- Leipzig Wortschatz (Korpora)
- NE-Kontraktionen (regelbasiert, z. B.
*Cene → *Cne) — ohne externes Korpus
Stufe 2: KI-Klassifikation
Alle Kandidaten werden mit einem Sprachmodell (DeepSeek V3) nach den ORZ-Regeln bewertet: zwei unabhängige Durchläufe in normaler und umgekehrter Batch-Reihenfolge. Stimmen sie überein, gilt das Ergebnis als sicher; bei Widerspruch entscheidet ein dritter Durchlauf (Tiebreaker). Dem Modell wird nur die Wortform gegeben — ohne Quellen-Herkunft, um Verzerrungen zu vermeiden. Als unsicher markierte Einträge landen nicht in der Hauptliste.
Stufe 3: Morphologische Erweiterung
Akzeptierte Lemmata werden anhand der Kaikki-Wiktionary-Daten zu weiteren Beugungsformen expandiert. Neu hinzukommende Formen werden nachvollziehbar mit Basiswort verknüpft — das erhöht die Abdeckung messbar gegenüber dem Turnier-Oracle.
Stufe 4: Kurze Wörter
Zwei- und Dreibuchstaben-Wörter sind im Spiel besonders kritisch; hier neigen Klassifikatoren zu Fehlannahmen (Abkürzungen, Ländercodes). Diese Worte wurden deshalb manuell kuratiert.
Bewertung und andere Listen
Die Qualität wird u.a. mit einem Black-Box-Oracle gegen eine autoritative Turnierliste gemessen (nur aggregierte Kennzahlen, keine Einzelvergleiche zum Schutz der Referenzliste). Als Referenz dient u.a. die mit Scrabble3D ausgelieferte deutsche Turnierliste (SuperDic); siehe README.
Vor dem Aufbau von Spielwörter wurden andere öffentliche Wortlisten geprüft — Lizenzgründe oder fehlende Methodik haben sie als Grundlage ausgeschlossen. Verwandte Projekte (ohne Übernahme der Daten):
- SuperDic / Scrabble Deutschland e.V.: die turnierübliche Liste ist an Scrabble3D gebündelt; die Lizenz erlaubt keine freie Weiterverwendung als eigenes Korpus.
- SDeV-Turnier-Checker — Online-Prüfung einzelner Wörter (gleiche zugrunde liegende Liste).
- ENZ / Tanglet (CC0, große freie Liste) — unsichere Datenlage und Methodik.
- Community-Forks der ENZ-Liste (z.B. Hippler) — gleiche Lizenz, ähnliche Einschränkungen.
Details und Begründungen stehen im README unter „Related word lists“.