Otázka na počet slov v českém jazyce je fascinující, ale odpověď na ni je překvapivě složitá. Neexistuje jedno jediné číslo, které by uspokojilo naši zvědavost. Proč? Protože výsledek závisí na tom, co přesně počítáme a jakou metodu k tomu zvolíme. Pojďme se ponořit do světa lingvistiky a zjistit, jak se odborníci snaží tuto hádanku rozluštit.
Co je to ‚slovo‘ a proč je definice klíčová?
Než začneme cokoliv počítat, musíme si ujasnit základní pojem: co je to vlastně „slovo“? Na první pohled se to zdá jednoduché, ale opak je pravdou.
Považujeme tvary pes, psa, psovi a psech za jedno slovo, nebo za čtyři různá? V lingvistice se rozlišuje mezi slovním tvarem (konkrétní podoba slova v textu) a lemmatem (základním, slovníkovým tvarem, např. infinitiv u sloves nebo 1. pád jednotného čísla u podstatných jmen). Většina odhadů se snaží spočítat právě lemata.
Další otázkou jsou slova složená jako dlouhohrající nebo životabudič. Jsou to plnohodnotná slova? A co zkratky jako ČR nebo NATO? Máme započítat i historismy a archaismy, které už dnes téměř nikdo nepoužívá? A co novotvary (neologismy), slangové výrazy nebo úzce specializovaná odborná terminologie?
Právě definice toho, co všechno do naší „hromádky“ slov zahrneme, zásadně ovlivňuje konečný součet.
Metody počítání slov: Slovníky vs. korpusy
K určení velikosti slovní zásoby se používají především dva hlavní nástroje: slovníky a jazykové korpusy.
1. Slovníky
Tradičním zdrojem jsou velké výkladové slovníky. Ty obsahují seznam hesel (lemat) a jejich definic. Pro češtinu jsou klíčové dva monumentální projekty:
- Příruční slovník jazyka českého (PSJČ): Vznikal v letech 1935–1957 a obsahuje přibližně 250 000 hesel. Je to nejrozsáhlejší slovník češtiny, který zachycuje jazyk první poloviny 20. století.
- Slovník spisovného jazyka českého (SSJČ): Byl vydán v letech 1960–1971 a má zhruba 192 000 hesel. Jak název napovídá, zaměřuje se primárně na spisovnou vrstvu jazyka.
Slovníky mají však svá omezení. Jsou vždy do jisté míry zastaralé, protože jazyk se vyvíjí rychleji, než je možné slovníky aktualizovat. Nezahrnují mnoho slangových výrazů, nářečí, neologismů a úzce specializovaných termínů.
2. Jazykové korpusy
Modernějším přístupem je analýza jazykových korpusů. Korpus je obrovská, elektronicky zpracovaná databáze textů (knih, novin, časopisů, webových stránek), která ukazuje, jak se jazyk reálně používá. Nejvýznamnějším projektem v této oblasti je Český národní korpus (ČNK).
Korpusy umožňují identifikovat všechna slova, která se v textech skutečně vyskytují. Analýza korpusů ukazuje, že počet různých slovních tvarů v češtině dosahuje mnoha milionů. Počet lemmat je sice nižší, ale i tak výrazně převyšuje čísla z tištěných slovníků, protože korpusy zachycují i slova, která by se do slovníku nikdy nedostala. Velikost slovní zásoby zjištěná z korpusu navíc neustále roste s tím, jak se korpus rozšiřuje o nové texty.
Problémy a úskalí při určování velikosti slovní zásoby
Jak jsme již naznačili, cesta k finálnímu číslu je plná překážek:
- Hranice jazyka: Kde končí čeština a začíná cizí jazyk? Máme počítat slova jako víkend, manažer nebo selfie, která jsme přejali z angličtiny?
- Vlastní jména: Patří do slovní zásoby jména jako Petr, Praha nebo Vltava? Většinou se do celkového počtu nezahrnují.
- Odborná terminologie: Jen v medicíně, právu nebo chemii existují desetitisíce specifických termínů. Máme je všechny započítat do obecné slovní zásoby?
- Dynamika jazyka: Každý den vznikají nová slova (např. v oblasti technologií) a jiná zanikají. Slovní zásoba není statický celek, ale živý, neustále se měnící organismus.
Odhady počtu slov v češtině a jejich interpretace
I přes všechna úskalí existují kvalifikované odhady. Lingvisté se shodují, že celkový počet slov (lemat) v češtině, pokud bychom zahrnuli spisovný jazyk, nářečí, slang, odborné termíny i historická slova, se pohybuje někde mezi 300 000 a 500 000. Některé odvážnější odhady míří ještě výše.
Pro srovnání je dobré si uvědomit rozdíl mezi celkovou slovní zásobou jazyka a individuální slovní zásobou mluvčího:
- Aktivní slovní zásoba (slova, která běžně používáme) se u průměrného dospělého člověka odhaduje na 3 000 až 10 000 slov.
- Pasivní slovní zásoba (slova, kterým rozumíme, ale aktivně je nepoužíváme) je mnohem větší, obvykle mezi 30 000 a 50 000 slovy.