Un processador d'aprenentatge profund (amb acrònim DLP), o un accelerador d'aprenentatge profund, és un circuit electrònic dissenyat per a algorismes d'aprenentatge profund, normalment amb memòria de dades separada i una arquitectura de conjunt d'instruccions dedicada. Els processadors d'aprenentatge profund van des de dispositius mòbils, com les unitats de processament neuronal (NPU) als telèfons mòbils Huawei,[1] fins a servidors de computació al núvol com les unitats de processament de tensors (TPU) a Google Cloud Platform.[2]
L'objectiu dels DLP és proporcionar una eficiència i un rendiment més alts per als algorismes d'aprenentatge profund que les unitats de processament central general (CPU) i les unitats de processament gràfic (GPU). La majoria dels DLP utilitzen un gran nombre de components informàtics per aprofitar un paral·lelisme a nivell de dades elevat, una memòria intermèdia/memòria relativament més gran al xip per aprofitar els patrons de reutilització de dades i operadors d'amplada de dades limitada per a la resistència a errors de l'aprenentatge profund. Els processadors d'aprenentatge profund es diferencien dels acceleradors d'IA perquè estan especialitzats per executar algorismes d'aprenentatge, mentre que els acceleradors d'IA solen estar més especialitzats per a la inferència. Tanmateix, els dos termes (DLP vs accelerador AI) no s'utilitzen amb rigor i sovint hi ha una superposició entre els dos.