Kolik slov má čeština a jak to víme?

Otázka na počet slov v českém jazyce je fascinující, ale odpověď na ni je překvapivě složitá. Neexistuje jedno jediné číslo, které by naši zvědavost definitivně uspokojilo. Proč? Protože záleží na tom, co přesně považujeme za slovo a jakou metodu počítání zvolíme.

Jiný výsledek dostaneme, když budeme počítat pouze slovníková hesla, jiný při započítání všech tvarů slov, odborných termínů, nářečních výrazů, slangismů nebo historických slov. Pojďme se podívat, proč je počet slov v češtině tak těžké určit.

Co je to „slovo“ a proč na tom záleží?

Než začneme cokoliv počítat, musíme si ujasnit základní otázku: co je vlastně slovo?

Na první pohled se to zdá jednoduché, jenže opak je pravdou. Považujeme tvary pes, psa, psovi, psem a psech za jedno slovo, nebo za pět různých slov? V lingvistice se rozlišuje mezi slovním tvarem a lemmatem.

Slovní tvar je konkrétní podoba slova v textu. Lemma je základní slovníkový tvar, například 1. pád jednotného čísla u podstatných jmen nebo infinitiv u sloves. Většina odhadů se proto snaží počítat právě lemata.

Další otázkou jsou složená slova, například dlouhohrající nebo životabudič. Jsou to samostatná slova? A co zkratky jako ČR, NATO nebo OSN? Máme započítat i historismy, archaismy, odborné termíny, neologismy, slangové výrazy nebo nářeční slova?

Právě definice toho, co všechno do slovní zásoby zahrneme, zásadně ovlivňuje konečný výsledek.

Jak se slova počítají: slovníky a korpusy

K určování velikosti slovní zásoby se používají hlavně dva zdroje: slovníky a jazykové korpusy.

1. Slovníky

Tradičním zdrojem jsou velké výkladové slovníky. Ty obsahují seznam hesel, tedy základních slovníkových podob slov. Pro češtinu jsou důležité především dva rozsáhlé slovníkové projekty.

Příruční slovník jazyka českého vznikal v letech 1935 až 1957 a bývá uváděn jako nejrozsáhlejší výkladový slovník češtiny. Obsahuje přibližně 250 000 hesel a zachycuje zejména jazyk první poloviny 20. století. Slovník spisovného jazyka českého vycházel v letech 1960 až 1971 a obsahuje zhruba 192 000 hesel. Zaměřuje se především na spisovnou vrstvu češtiny.

Slovníky ale mají svá omezení. Jsou vždy do určité míry zastaralé, protože jazyk se mění rychleji, než je možné slovníky aktualizovat. Nezachycují všechna slangová slova, nářeční výrazy, aktuální novotvary ani úzce specializovanou odbornou terminologii.

2. Jazykové korpusy

Modernějším přístupem je práce s jazykovými korpusy. Korpus je rozsáhlá elektronická databáze textů, která ukazuje, jak se jazyk skutečně používá. Obsahuje například knihy, noviny, časopisy, odborné texty, internetové články nebo přepisy mluveného jazyka.

Nejvýznamnějším projektem tohoto typu u nás je Český národní korpus. Korpusy umožňují sledovat nejen jednotlivá slova, ale i jejich tvary, četnost, kontext a vývoj v čase. V korpusovém vyhledávání se běžně pracuje právě s rozdílem mezi konkrétním slovním tvarem a lemmatem.

Analýza korpusů ukazuje, že počet různých slovních tvarů v češtině může dosahovat mnoha milionů. Počet lemmat je nižší, ale i tak může výrazně přesahovat počet hesel v tištěných slovnících. Korpus totiž zachytí i slova, která jsou nová, okrajová, odborná, nářeční nebo se vyskytují jen velmi vzácně.

Proč je určení počtu slov tak obtížné?

Cesta k jednomu přesnému číslu je plná problémů.

Prvním z nich je hranice mezi češtinou a cizím jazykem. Máme počítat slova jako víkend, manažer, selfie nebo podcast, když jsou přejatá z angličtiny, ale v češtině se běžně používají?

Další otázkou jsou vlastní jména. Patří do slovní zásoby jména jako Petr, Praha, Vltava nebo Sněžka? Ve většině odhadů se vlastní jména do celkového počtu běžných slov nezahrnují, i když jsou samozřejmě součástí jazyka.

Velkým problémem je také odborná terminologie. Jen medicína, chemie, právo, informatika nebo biologie mají desetitisíce specializovaných výrazů. Pokud bychom je započítali všechny, celkový počet slov by výrazně narostl.

A nakonec je tu samotná dynamika jazyka. Každý rok vznikají nová slova a jiná zanikají. Slovní zásoba není uzavřený seznam, ale živý systém, který se neustále mění.

Kolik slov tedy čeština má?

Přesné číslo neexistuje. Rozumný odhad ale říká, že pokud bychom zahrnuli spisovná slova, část odborné terminologie, nářeční výrazy, slang, historická slova a novotvary, mohla by se celková slovní zásoba češtiny pohybovat přibližně ve stovkách tisíc slov.

Často se uvádí rozmezí kolem 300 000 až 500 000 lemmat, ale je potřeba ho brát jako orientační odhad, ne jako pevně daný údaj. Záleží totiž na tom, co přesně počítáme.

Ještě zajímavější je rozdíl mezi celkovou slovní zásobou jazyka a slovní zásobou jednotlivého člověka.

Aktivní slovní zásoba zahrnuje slova, která běžně používáme. U dospělého člověka se často odhaduje na několik tisíc až nižší desítky tisíc slov.

Pasivní slovní zásoba je mnohem širší. Patří do ní slova, kterým rozumíme, ale sami je běžně nepoužíváme. Ta může být několikanásobně větší než slovní zásoba aktivní.