Scale-invariant feature transform (engl., „skaleninvariante Merkmalstransformation“, kurz SIFT) ist ein Algorithmus zur Detektion und Beschreibung lokaler Merkmale in Bildern. Der Detektor und die Merkmalsbeschreibungen sind, in gewissen Grenzen, invariant gegenüber Koordinatentransformationen wie Translation, Rotation und Skalierung. Sie sind außerdem robust gegen Beleuchtungsvariation, Bildrauschen und geringere geometrische Deformation höherer Ordnung, wie sie zum Beispiel durch projektive Abbildung eines Objekts von verschiedenen Standpunkten im Raum entstehen. Ursprünglich für die Objekterkennung entwickelt, kommt der Algorithmus mittlerweile in weiteren Gebieten der Bildverarbeitung zum Einsatz. Darunter z. B. die Bildregistrierung bzw. das Erstellen von Panoramabildern aus Einzelaufnahmen (Stitching), Objektverfolgung in Videos, Navigation von Robotern oder Gestenerkennung.
Der Algorithmus wurde im Jahre 1999 von David G. Lowe veröffentlicht und gilt als Referenzverfahren in seinem Einsatzgebiet. Die University of British Columbia hatte an dem Algorithmus ein US-Patent inne.[1] Die grundlegenden Konzepte von SIFT finden sich in verschiedenen Weiterentwicklungen anderer Autoren wieder. Dabei konnte der Berechnungsaufwand reduziert und die Robustheit von Detektor und Merkmalsbeschreibungen verbessert werden (z. B. SURF, Affine-SIFT, PCA-SIFT).