wissen.de Artikel

Von der Straße ins Wörterbuch

“Simsen, “Ceranfeld, “Beamer, “Jobrotation und “Verlinkung: Längst sind solche Neukreationen in unseren täglichen Sprachgebrauch eingegangen. Unser Wortschatz verändert sich ständig und passt sich flexibel den neuesten Entwicklungen in allen Lebensbereichen an. Das ist bekannt. Aber wie werden neue Wörter entdeckt und welche Kriterien entscheiden darüber, ob sie Einzug ins Wörterbuch halten? Das neue Wörterbuch WAHRIG Die deutsche Rechtschreibung gibt darauf eine zeitgemäße und innovative Antwort. Es basiert auf dem neu entwickelten WAHRIG Textkorpus digital, einer etwa 500 Millionen Wörter umfassenden digitalen Text-Datenbank. Darin werden Texte und Wörter aus Zeitungsartikeln in einem computergesteuerten Verfahren aufbereitet, analysiert und statistisch ausgewertet. Parallel dazu durchlaufen die Wörter noch verschiedene digitale Filter erst dann entscheiden die Wörterbuch-Redakteure über einen Neueintrag.

Auf der Suche nach Wort-Neuschöpfungen

Aktuelle Magazine wie “Der Spiegel” prägen unseren Sprachgebrauch und dienen daher als Quelle bei der Suche nach Neologismen (neuen Wörtern).
dpa

Das Herzstück der computergesteuerten Wort- und Textanalyse ist das WAHRIG Textkorpus digital. Es wurde vomn der WAHRIG-Redaktion des Bertelsmann Lexikon Instituts in Zusammenarbeit mit Manfred Pinkal, Professor für Computerlinguistik an der Universität des Saarlandes, und der CLT Sprachtechnologie GmbH entwickelt. Basis des Textkorpus sind Texte repräsentativer Zeitungen und Zeitschriften aus Deutschland, Österreich und der Schweiz, u.a. Süddeutsche Zeitung, Der Spiegel, Neue Zürcher Zeitung, Der Standard, Spektrum der Wissenschaft und Berliner Zeitung.

Die einzelnen Wörter werden herausgefiltert und mit den entsprechenden Textbelegen in dem Sammelwerk namens WAHRIG Textkorpus digital hinterlegt. Zurzeit enthält das Archiv rund 500 Millionen Wörter und Wortbelege. Mittels moderner Computerlinguistik werden die Texte und Wörter aufbereitet und analysiert. Daraus entstehen Wortfrequenzlisten, die die Wörter nach der Häufigkeit ihres Vorkommens aufführen.

In einem nächsten Schritt gleicht die Wahrig-Redaktion diese Wortfrequenzlisten mit der Stichwortauswahl des Wörterbuchs ab fehlende oder neu entstandene Wörter sowie veraltete und daher überflüssige Begriffe werden somit erkannt und entweder ergänzt oder gestrichen. Auf diese Weise konnten im aktuell erschienenen Wahrig. Die deutsche Rechtschreibung über 1000 neue Wörter aufgenommen werden wie z.B. “risikofreudig“, “Stammzellen“ oder “Verlinkung“.