Transformació de característiques d'escala invariant
La transformació de característiques d'escala invariant (SIFT) és un algorisme de visió per ordinador per detectar, descriure i combinar característiques locals en imatges, inventat per David Lowe el 1999. Les aplicacions inclouen reconeixement d'objectes, mapes i navegació robòtica, costura d'imatges, modelatge 3D, reconeixement de gestos, seguiment de vídeo, identificació individual de la fauna i moviment de coincidències.[1]
Els punts clau SIFT dels objectes s'extreuen primer d'un conjunt d'imatges de referència i s'emmagatzemen en una base de dades. Un objecte es reconeix en una imatge nova comparant individualment cada característica de la imatge nova amb aquesta base de dades i trobant característiques de concordança candidates basades en la distància euclidiana dels seus vectors de característica. A partir del conjunt complet de coincidències, s'identifiquen subconjunts de punts clau que coincideixen amb l'objecte i la seva ubicació, escala i orientació a la nova imatge per filtrar les bones coincidències. La determinació de clústers consistents es realitza ràpidament utilitzant una implementació eficient de taula hash de la transformada de Hough generalitzada. Cada grup de 3 o més característiques que coincideixen amb un objecte i la seva posició està subjecte a una verificació més detallada del model i, posteriorment, es descarten els valors atípics. Finalment, es calcula la probabilitat que un conjunt particular de característiques indiqui la presència d'un objecte, donada la precisió de l'ajust i el nombre de possibles coincidències falses. Les coincidències d'objectes que superen totes aquestes proves es poden identificar com a correctes amb alta confiança.[2]
Visió general
[modifica]Per a qualsevol objecte d'una imatge, es poden extreure punts interessants de l'objecte per proporcionar una "descripció de la característica" de l'objecte. Aquesta descripció, extreta d'una imatge d'entrenament, es pot utilitzar per identificar l'objecte quan s'intenta localitzar l'objecte en una imatge de prova que conté molts altres objectes. Per realitzar un reconeixement fiable, és important que les característiques extretes de la imatge d'entrenament siguin detectables fins i tot amb canvis d'escala de la imatge, soroll i il·luminació. Aquests punts normalment es troben en regions de gran contrast de la imatge, com ara les vores d'un objecte.[3]
SIFT pot identificar objectes de manera robusta fins i tot entre desordres i sota oclusió parcial, perquè el descriptor de la característica SIFT és invariant a l'escala uniforme, l'orientació, els canvis d'il·luminació i parcialment invariant a la distorsió afina. Aquesta secció resumeix l'algoritme SIFT original i esmenta algunes tècniques competidores disponibles per al reconeixement d'objectes sota desordre i oclusió parcial.
Problema | Tècnica | Avantatge |
---|---|---|
localització de claus / escala / rotació | Diferència de gaussians / piràmide escala-espai / assignació d'orientació | precisió, estabilitat, escala i invariància rotacional |
distorsió geomètrica | desenfocament / remuestreig dels plans d'orientació de la imatge local | invariància afí |
indexació i concordança | veí més proper / Best Bin Primera cerca | Eficiència/velocitat |
Identificació del clúster | Votació Hough Transform | models de poses fiables |
Verificació del model / detecció de valors atípics | Mínims quadrats lineals | millor tolerància a errors amb menys coincidències |
Acceptació de la hipòtesi | Anàlisi de probabilitat bayesiana | fiabilitat |
Tipus de característiques
[modifica]La detecció i descripció de les característiques de la imatge local pot ajudar en el reconeixement d'objectes. Les característiques SIFT són locals i es basen en l'aparença de l'objecte en punts d'interès particulars, i són invariants a l'escala i la rotació de la imatge. També són robusts als canvis d'il·luminació, soroll i canvis menors de punt de vista. A més d'aquestes propietats, són molt distintives, relativament fàcils d'extreure i permeten la identificació correcta d'objectes amb poca probabilitat de desajustament. Són relativament fàcils de comparar amb una base de dades (gran) de característiques locals, però, tanmateix, l'alta dimensionalitat pot ser un problema i, en general, s'utilitzen algorismes probabilistes com ara arbres kd amb la millor cerca de primer bin. La descripció de l'objecte per conjunt de característiques SIFT també és robusta a l'oclusió parcial; tan sols 3 característiques SIFT d'un objecte són suficients per calcular la seva ubicació i posada. El reconeixement es pot realitzar en temps proper al real, almenys per a bases de dades petites i en maquinari informàtic modern.[4]
Referències
[modifica]- ↑ «Scale-Invariant Feature Transform» (en anglès). https://www.baeldung.com.+[Consulta: 12 agost 2023].
- ↑ Burger, Wilhelm; Burge, Mark J. Scale-Invariant Feature Transform (SIFT) (en anglès). Londres: Springer, 2016, p. 609–664. DOI 10.1007/978-1-4471-6684-9_25. ISBN 978-1-4471-6684-9.
- ↑ «[https://inst.eecs.berkeley.edu/~ee225b/sp14/StudentPresentations/SIFT.pdf Scale Invariant Feature Transform by David Lowe]» (en anglès). https://inst.eecs.berkeley.ed.+[Consulta: 12 agost 2023].
- ↑ Tyagi, Deepanshu. «Introduction to SIFT( Scale Invariant Feature Transform)» (en anglès), 07-04-2020. [Consulta: 12 agost 2023].