Vés al contingut

Operadors neuronals

De la Viquipèdia, l'enciclopèdia lliure

Els operadors neuronals són una classe d'arquitectures d'aprenentatge profund dissenyades per aprendre mapes entre espais funcionals de dimensions infinites. Els operadors neuronals representen una extensió de les xarxes neuronals artificials tradicionals, marcant una sortida de l'enfocament típic en l'aprenentatge de mapes entre espais euclidians de dimensions finites o conjunts finits. Els operadors neuronals aprenen directament operadors entre espais funcionals; poden rebre funcions d'entrada i la funció de sortida es pot avaluar en qualsevol discretització.[1]

L'aplicació principal dels operadors neuronals és l'aprenentatge de mapes substituts per als operadors de solució d'equacions diferencials parcials (PDE), [2] que són eines crítiques per modelar l'entorn natural.[3] Els solucionadors estàndard de PDE poden consumir temps i consumir càlculs, especialment per a sistemes complexos. Els operadors neuronals han demostrat un rendiment millorat en la resolució de PDE en comparació amb les metodologies d'aprenentatge automàtic existents alhora que són significativament més ràpids que els solucionadors numèrics. Els operadors neuronals també s'han aplicat a diverses disciplines científiques i d'enginyeria, com ara el modelatge de flux turbulents, la mecànica computacional, les dades estructurades en gràfics [4] i les geociències.[5] En particular, s'han aplicat per aprendre camps d'estrès-deformació en materials, classificar dades complexes com la transcriptòmica espacial, predir el flux multifàsic en medis porosos [6] i simulacions de migració de diòxid de carboni. Finalment, el paradigma d'aprenentatge de l'operador permet l'aprenentatge de mapes entre espais de funció, i és diferent de les idees paral·leles de mapes d'aprenentatge des d'espais de dimensions finites fins a espais de funció, [7][8] i subsumeix aquests paràmetres quan es limita a la resolució d'entrada fixa.

Aprenentatge de l'operador

[modifica]

Entendre i mapejar les relacions entre espais funcionals té moltes aplicacions en enginyeria i ciències. En particular, es pot plantejar el problema de resoldre equacions diferencials parcials com la identificació d'un mapa entre espais funcionals, com ara des d'una condició inicial a un estat evolucionat en el temps. En altres PDE, aquest mapa pren una funció de coeficient d'entrada i produeix una funció de solució. L'aprenentatge d'operadors és un paradigma d'aprenentatge automàtic per aprendre els operadors de solucions que assignen la funció d'entrada a la funció de sortida.

Utilitzant mètodes tradicionals d'aprenentatge automàtic, abordar aquest problema implicaria discretitzar els espais de funcions d'entrada i sortida de dimensions infinites en quadrícules de dimensions finites i aplicar models d'aprenentatge estàndard, com ara xarxes neuronals. Aquest enfocament redueix l'aprenentatge de l'operador a l'aprenentatge de funcions de dimensions finites i té algunes limitacions, com ara generalitzar a discretitzacions més enllà de la graella utilitzada en l'entrenament.

Les propietats principals dels operadors neuronals que els diferencien de les xarxes neuronals tradicionals són la invariància de discretització i la convergència de la discretització.[9] A diferència de les xarxes neuronals convencionals, que es fixen en la discretització de les dades d'entrenament, els operadors neuronals poden adaptar-se a diverses discretitzacions sense tornar a entrenar. Aquesta propietat millora la robustesa i l'aplicabilitat dels operadors neuronals en diferents escenaris, proporcionant un rendiment coherent en diferents resolucions i graelles.

Definició i formulació

[modifica]

Arquitectònicament, els operadors neuronals són similars a les xarxes neuronals d'alimentació anticipada en el sentit que es componen de mapes lineals alternats i no linealitats. Atès que els operadors neuronals actuen sobre funcions i emeten, els operadors neuronals s'han formulat com una seqüència d'operadors integrals lineals alternatius en espais funcionals i no linealitats puntuals.[10] Utilitzant una arquitectura anàloga a les xarxes neuronals de dimensions finites, s'han provat teoremes d'aproximació universals similars per als operadors neuronals. En particular, s'ha demostrat que els operadors neuronals poden aproximar qualsevol operador continu en un conjunt compacte.[10]

Els operadors neuronals busquen aproximar algun operador entre espais funcionals i mitjançant la construcció d'un mapa paramètric . Aquests mapes paramètrics generalment es pot definir en la forma

on són els operadors d'elevació (elevació del codomini de la funció d'entrada a un espai dimensional superior) i de projecció (projecció del codomini de la funció intermèdia a la codimensió de sortida), respectivament. Aquests operadors actuen puntualment sobre les funcions i normalment es parametritzen com a perceptrons multicapa. és una no linealitat puntual, com ara una unitat lineal rectificada (ReLU) o una unitat lineal d'error gaussià (GeLU). Cada capa té un operador local respectiu (normalment parametritzat per una xarxa neuronal puntual), un operador integral del nucli , i una funció de biaix . Donada alguna representació funcional intermèdia amb domini en el -ª capa oculta, un operador integral del nucli es defineix com

on el nucli és una xarxa neuronal implícita aprendre, parametritzada per .

A la pràctica, sovint se li dóna la funció d'entrada a l'operador neuronal amb una resolució específica. Per exemple, considereu l'entorn on es fa l'avaluació a les punts . Manllevant dels mètodes d'aproximació integral de Nyström com la integració de la suma de Riemann i la quadratura gaussiana, l'operació integral anterior es pot calcular de la següent manera:

on és el volum de la subàrea o el pes en quadratura associat al punt . Així, una capa simplificada es pot calcular com

L'aproximació anterior, juntament amb la parametrització com a xarxa neuronal implícita, dóna lloc a l'operador neural gràfic (GNO).

Hi ha hagut diverses parametritzacions d'operadors neuronals per a diferents aplicacions. Normalment es diferencien en la seva parametrització . La instanciació més popular és l'operador neural de Fourier (FNO). FNO agafa i aplicant el teorema de convolució s'arriba a la parametrització següent de l'operador integral del nucli:

on representa la transformada de Fourier i representa la transformada de Fourier d'alguna funció periòdica . És a dir, FNO parametritza la integració del nucli directament a l'espai de Fourier, utilitzant un nombre prescrit de modes de Fourier. Quan la quadrícula a la qual es presenta la funció d'entrada és uniforme, la transformada de Fourier es pot aproximar mitjançant la transformada de Fourier discreta (DFT) amb freqüències per sota d'algun llindar especificat. La transformada de Fourier discreta es pot calcular mitjançant una implementació de transformada de Fourier ràpida (FFT).

Referències

[modifica]
  1. Kovachki, Nikola; Li, Zongyi; Liu, Burigede; Azizzadenesheli, Kamyar; Bhattacharya, Kaushik Journal of Machine Learning Research, 24, 2021, pàg. 1–97. arXiv: 2108.08481.
  2. Kovachki, Nikola; Li, Zongyi; Liu, Burigede; Azizzadenesheli, Kamyar; Bhattacharya, Kaushik Journal of Machine Learning Research, 24, 2021, pàg. 1–97. arXiv: 2108.08481.
  3. Evans, L. C.. Partial Differential Equations (en anglès). Providence: American Mathematical Society, 1998. ISBN 0-8218-0772-2. 
  4. Sharma, Anuj; Singh, Sukhdeep; Ratna, S. Multimedia Tools and Applications, 83, 8, 15-08-2023, pàg. 23413–23436. DOI: 10.1007/s11042-023-16440-4.
  5. Wen, Gege; Li, Zongyi; Azizzadenesheli, Kamyar; Anandkumar, Anima; Benson, Sally M. Advances in Water Resources, 163, 5-2022, pàg. 104180. arXiv: 2109.03697. Bibcode: 2022AdWR..16304180W. DOI: 10.1016/j.advwatres.2022.104180.
  6. Choubineh, Abouzar; Chen, Jie; Wood, David A.; Coenen, Frans; Ma, Fei Algorithms, 16, 1, 2023, pàg. 24. DOI: 10.3390/a16010024 [Consulta: free].
  7. Jiang, Chiyu Lmaxr. «MESHFREEFLOWNET: A Physics-Constrained Deep Continuous Space-Time Super-Resolution Framework». A: SC20: International Conference for High Performance Computing, Networking, Storage and Analysis (en anglès), 2020, p. 1–15. DOI 10.1109/SC41405.2020.00013. ISBN 978-1-7281-9998-6. 
  8. Lu, Lu; Jin, Pengzhan; Pang, Guofei; Zhang, Zhongqiang; Karniadakis, George Em Nature Machine Intelligence, 3, 3, 18-03-2021, pàg. 218–229. arXiv: 1910.03193. DOI: 10.1038/s42256-021-00302-5.
  9. Kovachki, Nikola; Li, Zongyi; Liu, Burigede; Azizzadenesheli, Kamyar; Bhattacharya, Kaushik Journal of Machine Learning Research, 24, 2021, pàg. 1–97. arXiv: 2108.08481.
  10. 10,0 10,1 Kovachki, Nikola; Li, Zongyi; Liu, Burigede; Azizzadenesheli, Kamyar; Bhattacharya, Kaushik Journal of Machine Learning Research, 24, 2021, pàg. 1–97. arXiv: 2108.08481.