Stematizace

Stematizace (anglicky stemming) je nalezení kmene slova (nepřesně a úžeji taky kořene). Algoritmus se nazývá stemmer. V praxi se stematizace používá například ve vyhledávačích, kde dovoluje vyhledávat bez ohledu na konkrétní tvar.

Při stematizaci se odstraní morfologické koncovky a případně předpony, např. ne-. Aby vyhledávání fungovalo správně, musí se zpracovat nejen slova v dokumentech, ale stejným způsobem i slova v dotazu.

Podobnou operaci lemmatizace provádí lemmatizátor – tato operace vrací základní tvar slova (tj. lemma) místo kmene.

Algoritmus stematizace je závislý na jazyku. Základem metody v češtině je seznam možných koncovek a jejich odstraňování.


From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Tubidy