Vés al contingut

Tipus de xarxes neuronals artificials

De la Viquipèdia, l'enciclopèdia lliure
Neurona artificial formada per dendrites, axó i funció llindar

Hi ha molts tipus de xarxes neuronals artificials (ANN). Les xarxes neuronals artificials són models computacionals inspirats en xarxes neuronals biològiques i s'utilitzen per aproximar funcions que generalment són desconegudes. En particular, s'inspiren en el comportament de les neurones i els senyals elèctrics que transmeten entre l'entrada (com ara els ulls o les terminacions nervioses de la mà), el processament i la sortida del cervell (com la reacció a la llum, el tacte o la calor)). La manera com les neurones es comuniquen semànticament és una àrea d'investigació en curs. La majoria de xarxes neuronals artificials només tenen una certa semblança amb els seus homòlegs biològics més complexos, però són molt efectives en les tasques previstes (per exemple, classificació o segmentació).[1]

Algunes xarxes neuronals artificials són sistemes adaptatius i s'utilitzen per exemple per modelar poblacions i entorns, que canvien constantment.

Les xarxes neuronals poden ser de maquinari (les neurones estan representades per components físics) o de programari (models informàtics) i poden utilitzar una varietat de topologies i algorismes d'aprenentatge.[2]

Directa (feedforward)

[modifica]

La xarxa neuronal feedforward va ser la primera i la més senzilla. En aquesta xarxa, la informació només es mou des de la capa d'entrada directament a través de capes ocultes fins a la capa de sortida sense cicles/bucles. Les xarxes de feedforward es poden construir amb diversos tipus d'unitats, com ara les neurones binàries de McCulloch-Pitts, la més senzilla de les quals és el perceptró. Les neurones contínues, sovint amb activació sigmoïdal, s'utilitzen en el context de la retropropagació.

Retroalimentació normativa

[modifica]

Les xarxes de retroalimentació reguladora van començar com un model per explicar els fenòmens cerebrals trobats durant el reconeixement, inclosa l'esclat a tota la xarxa i la dificultat amb la similitud que es troba universalment en el reconeixement sensorial. Es crea un mecanisme per dur a terme l'optimització durant el reconeixement mitjançant connexions de retroalimentació inhibidores de tornada a les mateixes entrades que les activen. Això redueix els requisits durant l'aprenentatge i permet que l'aprenentatge i l'actualització siguin més fàcils alhora que es poden realitzar un reconeixement complex.

Una xarxa de retroalimentació reguladora fa inferències mitjançant retroalimentació negativa. La retroalimentació s'utilitza per trobar l'activació òptima de les unitats. És més semblant a un mètode no paramètric, però és diferent del veí més proper K, ja que emula matemàticament les xarxes feedforward.

Funció de base radial

[modifica]

Les funcions de base radial són funcions que tenen un criteri de distància respecte a un centre. Les funcions de base radial s'han aplicat com a reemplaçament de la característica de transferència de la capa oculta sigmoïdal en perceptrons multicapa. Les xarxes RBF tenen dues capes: a la primera, l'entrada es mapeja a cada RBF de la capa "amagada". El RBF escollit sol ser un gaussià. En els problemes de regressió, la capa de sortida és una combinació lineal de valors de capa ocults que representen la sortida mitjana prevista. La interpretació d'aquest valor de la capa de sortida és la mateixa que un model de regressió a les estadístiques. En els problemes de classificació, la capa de sortida és típicament una funció sigmoide d'una combinació lineal de valors de capa ocults, que representa una probabilitat posterior. El rendiment en ambdós casos sovint es millora mitjançant tècniques de contracció, conegudes com a regressió de cresta en les estadístiques clàssiques. Això correspon a una creença prèvia en valors de paràmetres petits (i, per tant, funcions de sortida suaus) en un marc bayesià.

L'associació de cada dada d'entrada amb un RBF condueix naturalment a mètodes del nucli com ara màquines de vectors de suport (SVM) i processos gaussians (l'RBF és la funció del nucli). Els tres enfocaments utilitzen una funció del nucli no lineal per projectar les dades d'entrada en un espai on el problema d'aprenentatge es pot resoldre mitjançant un model lineal. Igual que els processos gaussians, i a diferència dels SVM, les xarxes RBF normalment s'entrenen en un marc de màxima probabilitat maximitzant la probabilitat (minimitzant l'error). Els SVM eviten l'ajustament excessiu maximitzant en lloc d'això un marge. Els SVM superen les xarxes RBF en la majoria d'aplicacions de classificació. En aplicacions de regressió poden ser competitius quan la dimensionalitat de l'espai d'entrada és relativament petita.

Una màquina Boltzmann restringida (RBM) amb unitats visibles i ocultes totalment connectades. Tingueu en compte que no hi ha connexions ocultes o visibles o visibles.

Xarxa de creença profunda

[modifica]

Una xarxa de creences profundes (DBN) és un model probabilístic i generatiu format per múltiples capes ocultes. Es pot considerar una composició de mòduls d'aprenentatge senzills.[3]

Un DBN es pot utilitzar per entrenar de manera generativa una xarxa neuronal profunda (DNN) utilitzant els pesos DBN apresos com a pesos DNN inicials. Aleshores, diversos algorismes discriminatius poden ajustar aquests pesos. Això és especialment útil quan les dades d'entrenament són limitades, perquè els pesos mal inicialitzats poden dificultar significativament l'aprenentatge. Aquests pesos pre-entrenats acaben en una regió de l'espai de pes que està més a prop dels pesos òptims que les opcions aleatòries. Això permet un modelatge millorat i una convergència final més ràpida.[4]

Xarxa neuronal recurrent

[modifica]

Les xarxes neuronals recurrents (RNN) propaguen les dades cap endavant, però també cap enrere, des de les etapes posteriors de processament fins a les etapes anteriors. RNN es pot utilitzar com a processadors de seqüències generals.

Física

[modifica]

Una xarxa neuronal física inclou material de resistència ajustable elèctricament per simular sinapsis artificials. Alguns exemples inclouen la xarxa neuronal basada en memristors ADALINE.[5] Una xarxa neuronal òptica és una implementació física d'una xarxa neuronal artificial amb components òptics.

Dinàmica

[modifica]

A diferència de les xarxes neuronals estàtiques, les xarxes neuronals dinàmiques adapten la seva estructura i/o paràmetres a l'entrada durant la inferència mostrant un comportament depenent del temps, com ara fenòmens transitoris i efectes de retard. Les xarxes neuronals dinàmiques en què els paràmetres poden canviar amb el temps estan relacionades amb l'arquitectura de pesos ràpids (1987), [6] on una xarxa neuronal produeix els pesos d'una altra xarxa neuronal.

Xarxes de memòria

[modifica]

Les xarxes de memòria incorporen memòria a llarg termini. La memòria a llarg termini es pot llegir i escriure, amb l'objectiu d'utilitzar-la per a la predicció. Aquests models s'han aplicat en el context de la resposta a preguntes (QA) on la memòria a llarg termini actua efectivament com a base de coneixement (dinàmica) i la sortida és una resposta textual.

En la memòria distribuïda escassa o la memòria temporal jeràrquica, els patrons codificats per xarxes neuronals s'utilitzen com a adreces per a la memòria adreçable al contingut, amb les "neurones" que serveixen essencialment com a codificadors i descodificadors d'adreces. Tanmateix, els primers controladors d'aquestes memòries no eren diferenciables.[7]

Referències

[modifica]
  1. «[https://www.cloudflare.com/learning/ai/what-is-neural-network/ What is a neural network? Neural networks are a crucial component of artificial intelligence (AI) models. They wor]» (en anglès). [Consulta: 23 novembre 2024].
  2. «Exploring the Most Popular Types of Artificial Neural Networks for Machine Learning- DL (Part 4)» (en anglès). [Consulta: 23 novembre 2024].
  3. Hinton, G.E. Scholarpedia, 4, 5, 2009, pàg. 5947. Bibcode: 2009SchpJ...4.5947H. DOI: 10.4249/scholarpedia.5947 [Consulta: free].
  4. Larochelle, Hugo. «An empirical evaluation of deep architectures on problems with many factors of variation». A: Proceedings of the 24th international conference on Machine learning (en anglès). New York, NY, USA: ACM, 2007, p. 473–480 (ICML '07). DOI 10.1145/1273496.1273556. ISBN 9781595937933. 
  5. Anderson, James A. Talking Nets: An Oral History of Neural Networks (en anglès). MIT Press, 2000. ISBN 9780262511117. 
  6. Hinton, Geoffrey E.; Plaut, David C. (en anglès) Proceedings of the Annual Meeting of the Cognitive Science Society, 9, 1987.
  7. Hinton, Geoffrey E. «Distributed representations» (en anglès), 1984. Arxivat de l'original el 2016-05-02.