Vés al contingut

Kernel de tangent neural

De la Viquipèdia, l'enciclopèdia lliure
Exemple de convergència de solució per Descens de gradient.

En l'estudi de les xarxes neuronals artificials (ANN), el kernel de tangent neural (amb acrònim anglès NTK) és un mètode nucli que descriu l'evolució de les xarxes neuronals artificials profundes durant el seu entrenament per descens de gradient. Permet estudiar les ANN utilitzant eines teòriques dels mètodes nucli.[1]

Per a les arquitectures de xarxes neuronals més comunes, en el límit de l'amplada de capa gran, l'NTK es torna constant. Això permet fer declaracions senzilles de forma tancada sobre prediccions de xarxes neuronals, dinàmiques d'entrenament, generalització i superfícies de pèrdua. Per exemple, garanteix que les ANN prou amples convergeixen a un mínim global quan s'entrenen per minimitzar una pèrdua empírica. El NTK de les xarxes d'amplada gran també està relacionat amb diversos límits de gran amplada de les xarxes neuronals.

El NTK va ser presentat el 2018 per Arthur Jacot, Franck Gabriel i Clément Hongler.[2] Estava implícit en treballs contemporanis sobre sobreparametrització.[3][4][5]


Referències

[modifica]
  1. Blog, Rajat's. «Understanding the Neural Tangent Kernel» (en anglès). https://rajatvd.github.io.+[Consulta: 30 juny 2022].
  2. , <http://papers.nips.cc/paper/8076-neural-tangent-kernel-convergence-and-generalization-in-neural-networks.pdf>. Consulta: 27 novembre 2019
  3. Li, Yuanzhi; Liang, Yingyu Advances in Neural Information Processing Systems, 2018.
  4. Allen-Zhu, Zeyuan; Li, Yuanzhi; Song, Zhao International Conference on Machine Learning, 2018.
  5. Du, Simon S; Zhai, Xiyu; Poczos, Barnabas; Aarti, Singh International Conference on Learning Representations, 2019.