Korpus

Korpus (latinan sanasta corpus, kokoelma tai kirjaimellisesti 'keho') on kielitieteen alalla käytetty, tarkoin määrätty ja koottu joukko kirjoitetun kielen tekstejä (tekstikorpus) tai puhutun kielen nauhoitteita (puhekorpus), jotka on poimittu aidoista teksteistä ja tilanteista. Niitä käytetään kieltä koskevien hypoteesien testaamiseen yhdestä tai useammasta kielestä tai joistakin niiden ominaisuuksista.[1][2]

Korpuksia voidaan käyttää tietokoneella. Korpus on siis sähköinen varasto tekstejä tai nauhoitteita. Korpuksia käytetään, kun tutkitaan ilmaisujen käyttöä, lasketaan niiden yleisyyksiä tai arvioidaan tutkimusoletuksia. Kun kielitieteilijä haluaa selvittää jonkin sanan tai rakenteen käyttäytymistä, hän voi hakea korpuksesta sanan esiintymismuotoja, sen naapurisanoja ja hyviä esimerkkejä sanan käytöstä. Korpuksia voidaan käyttää myös muihin kielentutkimuksen kannalta olennaisiin tarkoituksiin. Suurin osa maailman korpuksista on tekstikorpuksia, vaikka kielitieteen perinteessä puhuttua kieltä pidetään usein kirjoitettua alkuperäisempänä.[2]

Korpustutkimuksessa tarkastelun kohteina voivat olla esimerkiksi seuraavanlaiset kysymykset:

  1. kuinka usein sana esiintyy tekstissä, (frekvenssi eli taajuus)?
  2. missä yhteydessä se esiintyy tai mitkä sanat tai fraasit esiintyvät usein sen lähellä, (konkordanssi)?[3]
  3. mitä sanaa tai fraasia yhdellä kielellä käytetään yleisimmin toisen kielen sanan tai fraasin vastineena?

Korpusten sisältö ei välttämättä sovi täsmälleen kaikkeen kielitieteen tutkimukseen. Sähköisten aineistojen merkitys kielen tutkimisessa vahvistuu jatkuvasti.[2]

  1. Antti Arppe: Korpukset ja kieli (Powerpoint) ling.helsinki.fi. Arkistoitu 17.7.2007. Viitattu 31.12.2008.
  2. a b c Korpukset ja kielen tutkiminen Kotimaisten kielten keskus. Viitattu 15.12.2023.
  3. Mikko Lounela: Konkordanssi UNIXin alkeet ja tekstikorpusten tietojenkäsittely. KIT. Arkistoitu 11.6.2007. Viitattu 04.12.2009.

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Tubidy