Le plongement lexical ou plongement sémantique (« word embedding » en anglais) est une méthode d'apprentissage d'une représentation de mots sous forme de vecteurs, utilisée notamment en traitement automatique des langues.
Cette technique permet de représenter chaque mot d'un dictionnaire par un vecteur de nombres réels, autrement dit une liste de nombre. Les vecteurs des mots ont tous la même longueur et encodent le sens des mots d'un point de vue de similarité d'utilisation. Plus des mots peuvent être utilisées dans le même contexte (l'un à la place de l'autre dans une phrase) et plus leurs vecteurs sont proches. Par exemple, on pourrait s'attendre à ce que les mots « chien » et « chat » soient représentés par des vecteurs relativement proches. Cette technique est basée sur l'hypothèse (dite « de Harris » ou distributional hypothesis[1],[2]) qui veut que les mots apparaissant dans des contextes similaires ont des significations apparentées. La similarité entre des vecteurs peut être défini comme la distance dans l'espace vectoriel où sont définis ces vecteurs ou comme l'angle entre ces vecteurs.
La technique des plongements lexicaux diminue la dimension (la taille) de la représentation des mots en comparaison d'un modèle vectoriel par exemple, facilitant ainsi les tâches d'apprentissage impliquant ces mots, puisque moins soumis au fléau de la dimension.