Vés al contingut

Xarxes neuronals convolucionals basades en regions

De la Viquipèdia, l'enciclopèdia lliure
3 filtres (=nuclis, neurones) a la primera capa d'una xarxa neuronal artificial convolucional interpretant una imatge. (Una xarxa real en té moltes més).

Les xarxes neuronals convolucionals basades en regions (amb acrònim anglès R-CNN) són una família de models d'aprenentatge automàtic per a la visió per ordinador i específicament la detecció d'objectes.[1]

L'objectiu original de R-CNN era prendre una imatge d'entrada i produir un conjunt de quadres delimitadors com a sortida, on cada quadre delimitador conté un objecte i també la categoria (per exemple, cotxe o vianant) de l'objecte. Més recentment, R-CNN s'ha ampliat per realitzar altres tasques de visió per ordinador. A continuació es cobreixen algunes de les versions de R-CNN que s'han desenvolupat.

  • Novembre de 2013: R-CNN. Donada una imatge d'entrada, R-CNN comença aplicant un mecanisme anomenat Cerca selectiva per extreure regions d'interès (ROI), on cada ROI és un rectangle que pot representar el límit d'un objecte a la imatge. Depenent de l'escenari, pot haver-hi fins a dos mil ROI. Després d'això, cada ROI s'alimenta a través d'una xarxa neuronal per produir funcions de sortida. Per a les característiques de sortida de cada ROI, s'utilitza una col·lecció de classificadors de màquines de vector de suport per determinar quin tipus d'objecte (si n'hi ha) conté dins del ROI.
  • Abril de 2015: Fast R-CNN. Mentre que l'R-CNN original va calcular de manera independent les característiques de la xarxa neuronal en cadascuna de les dues mil regions d'interès, Fast R-CNN executa la xarxa neuronal una vegada a tota la imatge. Al final de la xarxa hi ha un mètode nou anomenat ROIPooling, que talla cada ROI del tensor de sortida de la xarxa, el remodela i el classifica. Com a la R-CNN original, la Fast R-CNN utilitza la cerca selectiva per generar les seves propostes de regió.
  • Juny 2015: Faster R-CNN. Mentre que Fast R-CNN va utilitzar la cerca selectiva per generar ROI, Faster R-CNN integra la generació de ROI a la pròpia xarxa neuronal.
  • Març de 2017: Mask R-CNN. Mentre que les versions anteriors de R-CNN es van centrar en la detecció d'objectes, Mask R-CNN afegeix la segmentació d'instàncies. Mask R-CNN també va substituir ROIPooling per un nou mètode anomenat ROIAlign, que pot representar fraccions d'un píxel.
  • Juny de 2019: Mesh R-CNN afegeix la possibilitat de generar una malla 3D a partir d'una imatge 2D.

Les xarxes neuronals convolucionals basades en regions s'han utilitzat per rastrejar objectes des d'una càmera muntada en drons,[2] localitzar text en una imatge[3] i permetre la detecció d'objectes a Google Lens.[4] Mask R-CNN serveix com una de les set tasques del MLPerf Training Benchmark, que és una competició per accelerar l'entrenament de les xarxes neuronals.[5]

Referències

[modifica]