Optimització mínima seqüencial
L'optimització mínima seqüencial (SMO) és un algorisme per resoldre el problema de programació quadràtica (QP) que sorgeix durant l'entrenament de màquines de vectors de suport (SVM). Va ser inventat per John Platt l'any 1998 a Microsoft Research.[1] SMO s'utilitza àmpliament per a la formació de màquines vectorials de suport i està implementat per la popular eina LIBSVM.[2][3] La publicació de l'algorisme SMO l'any 1998 ha generat molta il·lusió a la comunitat SVM, ja que els mètodes disponibles anteriorment per a la formació de SVM eren molt més complexos i requerien solucionadors QP de tercers costosos.[4]
Problema d'optimització
[modifica]Considereu un problema de classificació binària amb un conjunt de dades (x1, y1),... , (xn, yn), on xi és un vector d'entrada i yi ∈ {-1, +1} és una etiqueta binària que li correspon. Una màquina vectorial de suport de marge suau s'entrena resolent un problema de programació quadràtica, que s'expressa en la forma dual de la següent manera:
- subjecte a:
on C és un hiperparàmetre SVM i K(xi, xj) és la funció del nucli, ambdues proporcionades per l'usuari; i les variables són multiplicadors de Lagrange.
Algorisme
[modifica]SMO és un algorisme iteratiu per resoldre el problema d'optimització descrit anteriorment. SMO divideix aquest problema en una sèrie de subproblemes més petits possibles, que després es resolen analíticament. A causa de la restricció d'igualtat lineal que implica els multiplicadors de Lagrange , el problema més petit possible implica dos d'aquests multiplicadors. Aleshores, per a dos multiplicadors qualsevol i , les restriccions es redueixen a:
i aquest problema reduït es pot resoldre analíticament: cal trobar un mínim d'una funció quadràtica unidimensional. és el negatiu de la suma sobre la resta de termes de la restricció d'igualtat, que es fixa en cada iteració.
- Trobeu un multiplicador de Lagrange que viola les condicions de Karush–Kuhn–Tucker (KKT) per al problema d'optimització.
- Trieu un segon multiplicador i optimitzar la parella.
- Repetiu els passos 1 i 2 fins a la convergència.
Quan tots els multiplicadors de Lagrange compleixen les condicions KKT (dins d'una tolerància definida per l'usuari), el problema s'ha resolt. Tot i que es garanteix la convergència d'aquest algorisme, s'utilitzen heurístiques per triar el parell de multiplicadors per accelerar la velocitat de convergència. Això és fonamental per a grans conjunts de dades, ja que n'hi ha opcions possibles per i .[5]
Referències
[modifica]- ↑ Platt, John. «Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines» (en anglès).
- ↑ Chang, Chih-Chung; Lin, Chih-Jen ACM Transactions on Intelligent Systems and Technology, 2, 3, 2011. DOI: 10.1145/1961189.1961199.
- ↑ Zanni, Luca. «Parallel Software for Training Large Scale Support Vector Machines on Multiprocessor Systems» (en anglès), 2006.
- ↑ Everything Old is New Again: a Fresh Look at Historical Approaches in Machine Learning (Tesi: Doctorat) (en anglès), p. 18.
- ↑ «[https://cs229.stanford.edu/materials/smo.pdf CS 229, Autumn 2009 The Simplified SMO Algorithm]» (en anglès). [Consulta: 11 maig 2024].