Mètode del nucli

En l'aprenentatge automàtic, les màquines del nucli són una classe d'algorismes per a l'anàlisi de patrons, el membre més conegut dels quals és la màquina de vectors de suport (SVM). Aquests mètodes impliquen l'ús de classificadors lineals per resoldre problemes no lineals.^[1] La tasca general de l'anàlisi de patrons és trobar i estudiar tipus generals de relacions (per exemple, clústers, rànquings, components principals, correlacions, classificacions) en conjunts de dades. Per a molts algorismes que resolen aquestes tasques, les dades en la representació en brut s'han de transformar explícitament en representacions vectorials de característiques mitjançant un mapa de característiques especificat per l'usuari: en canvi, els mètodes del nucli només requereixen un nucli especificat per l'usuari, és a dir, una funció de similitud sobre tot. parells de punts de dades calculats mitjançant productes interns. El mapa de característiques a les màquines del nucli és de dimensions infinites, però només requereix una matriu de dimensions finites a partir de l'entrada de l'usuari d'acord amb el teorema del Representant. Les màquines del nucli són lentes per calcular per a conjunts de dades més grans que un parell de milers d'exemples sense processament paral·lel. Els mètodes del nucli deuen el seu nom a l'ús de funcions del nucli, que els permeten operar en un espai de característiques implícites d'alta dimensió sense calcular mai les coordenades de les dades en aquest espai, sinó simplement calculant els productes interns entre les imatges de tots els parells de dades de l'espai de funcions. Aquesta operació és sovint computacionalment més barata que el càlcul explícit de les coordenades. Aquest enfocament s'anomena " truc del nucli ".^[2] S'han introduït funcions del nucli per a dades de seqüències, gràfics, text, imatges i vectors.^[3]

Els algorismes capaços d'operar amb nuclis inclouen el perceptró del nucli, màquines de vectors de suport (SVM), processos gaussians, anàlisi de components principals (PCA), anàlisi de correlació canònica, regressió de cresta, agrupació espectral, filtres adaptatius lineals i molts altres.

La majoria dels algorismes del nucli es basen en optimització convexa o problemes propis i estan estadísticament ben fonamentats. Normalment, les seves propietats estadístiques s'analitzen mitjançant la teoria de l'aprenentatge estadístic (per exemple, utilitzant la complexitat de Rademacher).^[4]

Motivació i explicació informal

Els mètodes del nucli es poden considerar aprenents basats en instàncies: en lloc d'aprendre un conjunt fix de paràmetres corresponents a les característiques de les seves entrades, en lloc d'això "recorden" el $i$ -è exemple d'entrenament $(\mathbf {x} _{i},y_{i})$ i aprèn per això un pes corresponent $w_{i}$ . La predicció per a entrades no etiquetades, és a dir, aquelles que no estan en el conjunt d'entrenament, es tracta mitjançant l'aplicació d'una funció de semblança $k$ , anomenat nucli, entre l'entrada sense etiquetar $\mathbf {x'}$ i cadascun dels inputs de formació $\mathbf {x} _{i}$ . Per exemple, un classificador binari amb nucli normalment calcula una suma ponderada de similituds

${\hat {y}}=\operatorname {sgn} \sum _{i=1}^{n}w_{i}y_{i}k(\mathbf {x} _{i},\mathbf {x'} )$

on

${\hat {y}}\in \{-1,+1\}$ és l'etiqueta prevista del classificador binari nucleat per a l'entrada sense etiquetar $\mathbf {x'}$ la veritable etiqueta oculta $y$ és d'interès;
$k\colon {\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ és la funció del nucli que mesura la similitud entre qualsevol parell d'entrades $\mathbf {x} ,\mathbf {x'} \in {\mathcal {X}}$ ;
la suma oscil·la entre els $n$ exemples etiquetats $\{(\mathbf {x} _{i},y_{i})\}_{i=1}^{n}$ al conjunt d'entrenament del classificador, amb $y_{i}\in \{-1,+1\}$ ;
el $w_{i}\in \mathbb {R}$ són els pesos dels exemples d'entrenament, tal com determina l'algorisme d'aprenentatge;
la funció de signe $\operatorname {sgn}$ determina si la classificació prevista ${\hat {y}}$ surt positiu o negatiu.

Els classificadors del nucli es van descriure ja a la dècada de 1960, amb la invenció del perceptró del nucli. Van assolir un gran protagonisme amb la popularitat de la màquina de vectors de suport (SVM) a la dècada de 1990, quan es va trobar que la SVM era competitiva amb les xarxes neuronals en tasques com el reconeixement d'escriptura a mà.

Aplicacions

Les àrees d'aplicació dels mètodes del nucli són diverses i inclouen geoestadística,^[5] kriging, ponderació de distància inversa, reconstrucció 3D, bioinformàtica, quimioinformàtica, extracció d'informació i reconeixement d'escriptura a mà.

Referències

↑ «Kernel method» (en anglès). Engati. [Consulta: 4 abril 2023].
↑ Theodoridis, Sergios. Pattern Recognition (en anglès). Elsevier B.V., 2008, p. 203. ISBN 9780080949123.
↑ Unzueta, Diego. «Kernel Methods: A Simple Introduction» (en anglès). https://towardsdatascience.com,+22-10-2022.+[Consulta: 16 agost 2023].
↑ «Kernel methods: an overview» (en anglès). https://people.eecs.berkeley.edu.+[Consulta: 16 agost 2023].
↑ Honarkhah, M.; Caers, J. Mathematical Geosciences, 42, 5, 2010, pàg. 487–517. DOI: 10.1007/s11004-010-9276-7.

[1] «Kernel method» (en anglès). Engati. [Consulta: 4 abril 2023].

[2] Theodoridis, Sergios. Pattern Recognition (en anglès). Elsevier B.V., 2008, p. 203. ISBN 9780080949123.

[3] Unzueta, Diego. «Kernel Methods: A Simple Introduction» (en anglès). https://towardsdatascience.com,+22-10-2022.+[Consulta: 16 agost 2023].

[4] «Kernel methods: an overview» (en anglès). https://people.eecs.berkeley.edu.+[Consulta: 16 agost 2023].

[5] Honarkhah, M.; Caers, J. Mathematical Geosciences, 42, 5, 2010, pàg. 487–517. DOI: 10.1007/s11004-010-9276-7.

[1]

[2]

[3]

[4]

[5]