La linguistique de corpus est une branche de la linguistique qui étudie le langage à travers des exemples contenus dans des textes réels. En particulier elle se propose d'extraire d'un corpus les connaissances linguistiques essentielles à l’enseignement des langues et à l'élaboration des dictionnaires.
La linguistique de corpus situe la signification dans le discours et dans l'interaction entre les gens plutôt que dans l'esprit des locuteurs. En effet le sens des mots est déterminé par le contexte dans lequel ils sont employés. Aujourd'hui la création de ces corpus linguistiques est possible grâce au processus automatique c'est-à-dire grâce à l'emploi d'outils statistiques et de programmes informatiques qui rendent le travail humain beaucoup plus facile.
Concernant la valeur de l'annotation de corpus, il existe deux points de vue différents, l'un de John Sinclair, qui préfère l'annotation minimale afin que les textes puissent parler pour "eux-mêmes"[1], l'autre de l'équipe Survey of English Usage qui préconise l'annotation comme une compréhension linguistique plus efficace.