Usuari:Alnecaor/proves/Histograma de gradients orientats
Aquesta és una pàgina de proves de Alnecaor. Es troba en subpàgines de la mateixa pàgina d'usuari. Serveix per a fer proves o desar provisionalment pàgines que estan sent desenvolupades per l'usuari. No és un article enciclopèdic. També podeu crear la vostra pàgina de proves.
Vegeu Viquipèdia:Sobre les proves per a més informació, i altres subpàgines d'aquest usuari |
Histograma de gradients orientats ( HOG ) són descriptors de característiques utilitzats en la visió per computador i processament d'imatges amb el propòsit de detectar objectes. La tècnica compta amb les aparicions de l'orientació del gradient en porcions localitzades d'una imatge . Aquest mètode és similar als: Edge Orientation Histograms ,descriptors de Scale-invariant feature transfrom(SIFT) i al Shape context, però es diferencia en què es calcula sobre una reixeta densa de caselles uniformement espaiats s’utilitza superposició de normalització i contrast local per millorar la precisió .
Navneet Dalal i Bill Triggs , els investigadors de l'Institut Nacional Francès per a la Recerca en Informàtica i Automàtica ( INRIA ) , descriuen per primera vegada el histograma de descriptors gradient orientades en el seu article CVPR juny de 2005 . En aquest treball es van centrar el seu algorisme en el problema de la detecció de vianants en imatges estàtiques , encara que des de llavors es van expandir les seves proves per incloure la detecció humana en el cinema i de vídeo, així com a una varietat d'animals i vehicles comuns en les imatges estàtiques .
Teoria
[modifica]La idea essencial darrere de l'histograma de descriptors de gradients orientats és que l'aparença i forma de l'objecte local dins d'una imatge pot ser descrit per la distribució dels gradients d'intensitat o edge directions. L'aplicació d'aquests descriptors pot aconseguir dividir la imatge en petites regions connectades , anomenades caselles , i per a cada casella de la compilació d'un histogram of gradient directions o edge directions per als píxels dins de la casella. La combinació d'aquests histogrames representa el descriptor . Per a una major precisió , els histogrames locals poden ser de contrast normalitzat mitjançant el càlcul d'una mesura de la intensitat a través d'una regió més gran de la imatge , anomenada bloc , i a continuació, utilitzant aquest valor per normalitzar totes les caselles dins del bloc . Aquesta normalització es tradueix en una millor invariància als canvis d'il · luminació o ombra .
El descriptor HOG manté alguns avantatges sobre altres mètodes de descriptor . Atès que el descriptor HOG opera a les caselles localitzades , el mètode és manté invariant a transformacions geomètriques i fotomètriques , a excepció de l'orientació a objectes . Aquests canvis només apareixerien en regions espacials més grans . D'altra banda , com van descobrir Dalal i Triggs ,el mostreig espacial gruixut(coarse spatial sampling), mostreig d’orientació fina(‘fine orientation sampling’) , i una forta normalització fotomètrica local permet ignora el moviment vianant sempre que mantinguin una posició més o menys vertical . El descriptor de HOG és per tant particularment adequat per a la detecció humana en imatges .[1]
Aplicació del Algorisme
[modifica]Càlcul del gradient
[modifica]El primer pas de càlcul en molts detectors de característiques en l'imatge es fer un pre-processament, per assegurar un color normalitzat i els valors de gamma. Com Dalal i Triggs, aquest pas pot ser omès en el descriptor HOG. El pre-processament de la imatge proporciona així un petit impacte en el rendiment. En el seu lloc, el primer pas de càlcul és el càlcul dels valors de gradient. El mètode més comú és simplement aplicar la màscara de derivada discreta l'1-D en una o amdbues de les direccions, hortizontal i vertical. Específicament, aquest mètode requereix el filtratge de les dades de color o la intensitat de la imatge amb els següents filtres:
Dalal i Triggs van provar altres màscares, més complexes, com les màscares de Sobel 3x3 (operador de Sobel) o màscares diagonals, però aquestes màscares en general van mostrar un pitjor rendiment en els experiments de detecció d'imatges humanes. També van experimentar amb Gaussian smoothing abans d'aplicar la màscara de derivada, però igualment van trobar que l'omissió de qualsevol suavització funcionar millor en la pràctica.[2]
Binning Orientació
[modifica]El segon pas de càlcul consisteix en la creació dels histogrames de cada casella. Cada píxel dins la casella emet un vot ponderat per a un histograma orientat a canal sobre la base dels valors trobats en el càlcul del gradient. Les caselles mateixes poden ser o bé rectangular o en forma radial, i els canals d'histograma estan distribuïts de manera uniforme sobre 0-180 graus o de 0 a 360 graus, depenent de si el gradient és "sense signe" o "amb signe". Dalal i Triggs van trobar que els gradients sense signe utilitzats en conjunt amb 9 canals histograma milloren els resultats en els seus experiments de detecció d’humans. Pel que fa al pes vot, la contribució del píxel o bé pot ser la pròpia magnitud del gradient, o alguna funció de la magnitud, en proves actualsla magnitud del gradient generalment produeix els millors resultats. Altres opcions per al pes del vot podrien incloure el quadrat o l'arrel quadrada de la magnitud del gradient o una versió retallada de la magnitud.[3]
Blocs descriptors
[modifica]Per tal de tenir en compte els canvis en la il · luminació i el contrast , els punts forts del gradient ha de ser normalitzat a nivell local , el que requereix l'agrupació de les caselles més grans , en blocs espacialment connectats . El descriptor de HOG és llavors el vector de histogrames de caselles normalitzat de totes les regions de bloc. Aquests blocs normalment es superposen , el que significa que cada casella contribueix més d'una vegada al descriptor final . Hi ha dos blocs geometrics existents: blocs rectangulars R- HOG i blocs circulars C - HOG. Els Blocs R- HOG són generalment reixetes quadrades , representats per tres paràmetres : el nombre de caselles per bloc , el nombre de píxels per casella , i el nombre de canals per histograma de casella. En l'experiment de detecció humana Dalal i Triggs , van trobar que els paràmetres òptims eren blocs de caselles de 3x3, caselles de 6x6 amb 9 canals d’histograma. D'altra banda , van trobar que una certa millora en el rendiment podia ser obtinguda mitjançant l'aplicació d'una finestra espacial Gaussiana dins de cada bloc abans de la tabulació de vots dels pixels a cada casella. Els blocs de R- HOG són bastant similars als descriptors scale-invariant feature transform (SIFT) , però, malgrat la seva obtenció similar ,els blocs de R- HOG es calculen en quadrícula denses en una escala única sense alineació i orientació , mentre que els descriptors SIFT es calculen en escala invariant en punts de la imatge clau i es fan girar per alinear l'orientació. A més, els blocs de R- HOG s'utilitzen en combinació per codificar la informació de forma espacial , mentre que els descriptors SIFT s'utilitzen sols .
Els blocs de C-HOG es poden trobar en dues variants : els que tenen una casella , casella central única i aquells amb una casella central angularment dividida . A més , aquests blocs de C - HOG poden ser descrits amb quatre paràmetres : el nombre d'intervals angulars i radials , el radi del bin del centre , i el factor d'expansió per al radi de bins radials addicionals . Dalal i Triggs van trobar que les dues variants principals proporcionen un rendiment igual , i que dos bins radials amb quatre cubs angulars , un centre de ràdio de 4 píxels , i un factor d'expansió de 2 proporcionen el millor rendiment en la seva experimentació . La ponderació gaussiana no proporciona cap benefici quan s'usa en conjunció amb els blocs de C - HOG .[4]
Bloc de normalització
[modifica]Dalal i Triggs van explorar quatre mètodes diferents per a la normalització de blocs. Sigui v el vector no normalitzat que conté tots els histogrames de un bloc determinat, \ | v \ | _k sigui la seva k-norma per a k = {1,2} i(simbol raro buscarlo) és una petita constant (el valor exacte no és important ). A continuació, el factor de normalització pot ser un dels següents:
- L2-norm:
L2-HYS: L2-norma a seguir per la retallada (que limita els valors màxims de v a 0,2) i renormalitzada com en:
- L1-norm:
- L1-sqrt:
A més, l'esquema de L2-Hys es pot calcular prenent en primer lloc la norma L2-, retallan el resultat, i després renormalitzant. En els seus experiments, Dalal i Triggs troben que els esquemes de L1-L2-sqrt Hys, L2-norm ofereixen un rendiment similar, mentre que la norma L1 ofereix un rendiment una mica menys fiable, però, els quatre mètodes mostra una millora molt significativa respecte a les dades no normalitzades.[5]
Classificador SVM
[modifica]L'últim pas en el reconeixement d'objectes utilitzant el histograma de descriptors orientats a gradient és alimentar els descriptors en algun sistema de reconeixement basat en l'aprenentatge supervisat. El Support Vector Machine és un classificador binari que busca un hiperplà òptim com una funció de decisio. Un cop entrenat amb les imatges que contenen algun objecte en particular, el classificador SVM pot prendre decisions pel que fa a la presència d'un objecte, com un ésser humà, en les imatges de prova addicionals. En les proves de reconeixement humà Dalal i Triggs, van utilitzar el paquet de programari SVMLight[6] de lliure disposició conjuntament amb els seus descriptors HOG per trobar figures humanes en imatges de prova.
Proves
[modifica]Un major desenvolupament
[modifica]Vegeu també
[modifica]- Corner detection
- Pedestrian detection
- Feature (computer vision)
- Feature detection (computer vision)
- Feature extraction
- Interest point detection
- Object recognition
- Scale-invariant feature transfrom
Referències
[modifica]- ↑ «Histogrames dels gradients orientats per a la detecció humana, pg. 2».
- ↑ «Histogrames dels gradients orientats per a la detecció humana, pg. 4».
- ↑ «Histogrames dels gradients orientats per a la detecció humana, pg. 5».
- ↑ «Histogrames dels gradients orientats per a la detecció humana, pg. 6».
- ↑ «Histogrames dels gradients orientats per a la detecció humana, pg. 6».
- ↑ «SVMlight es una implementació de Support Vector Machines (SVMs) en C».
Enllaços externs
[modifica]- http://www.mathworks.com/matlabcentral/fileexchange/33863 Una implementació de Matlab (archiu mex)
- http://www.cs.cmu.edu/~yke/pcasift/ - Codi de PCA-SIFT Detecció d'Objectes
- http://lear.inrialpes.fr/software/ - Kit d'eines de programari per a la detecció d'objectes HOG (Pàgina web de l'equip de recerca)
- http://www.navneetdalal.com/software/ - Kit d'eines de programari per a la detecció d'objectes HOG (Navneet pàgina Dalal)
- http://pascal.inrialpes.fr/data/human/ - INRIA conjunt de imatges d'humans
- http://cbcl.mit.edu/software-datasets/PedestrianData.html - MIT Conjunt d'imatge de vianants