Winnow

Winnow
Classe	Algoritmo di ricerca
Struttura dati	vettore di pesi di dim. , numero di feature
Caso peggiore temporalmente	, con esempi di training
Caso ottimo temporalmente	, con feature attive
Caso peggiore spazialmente
	Manuale

Winnow ^[1] è una famiglia di metodi di apprendimento automatico utile a definire un classificatore lineare a partire da esempi etichettati. I metodi si basano su un algoritmo molto simile al percettrone, con la differenza che questo adotta uno schema di aggiornamento dei pesi additivo, mentre in Winnow si utilizza uno schema moltiplicativo che consente di funzionare molto meglio di altri con problemi con un gran numero di caratteristiche (feature) non rilevanti (da cui il nome, ="setaccio"). L'algoritmo di base è semplice e si adatta bene a dati ad alta dimensionalità. Durante l'addestramento, gli viene fornita una sequenza di esempi positivi e negativi. Da questa il metodo apprende un iperpiano di decisione che può poi essere utilizzato per etichettare nuovi esempi come positivi o negativi. Tali metodi possono essere utilizzato anche in contesti di apprendimento online, nei quali la fase di apprendimento e quella di classificazione non sono nettamente separate.

Algoritmo

L'algoritmo di base, Winnow1, funziona come segue. Lo spazio delle istanze è $X=\{0,1\}^{n}$ , ovvero ogni istanza viene descritta da un insieme di caratteristiche a valori booleani. L'algoritmo gestisce un vettore di pesi non negativi $w_{i}$ per $i\in \{1,\ldots ,n\}$ , uno per ogni caratteristica, inizialmente impostati a 1. Quando viene fornito un esempio $(x_{1},\ldots ,x_{n})$ da classificare, si applica la tipica regola di predizione dei classificatori lineari:

se $\sum _{i=1}^{n}w_{i}x_{i}>\Theta$ , allora si predice 1
altrimenti si predice 0

dove $\Theta$ è un numero reale che fa da soglia. Insieme ai pesi, la soglia definisce un iperpiano separatore nello spazio delle istanze. Si ottengono buone limitazioni all'errore se $\Theta =n/2$ (cfr. discussione in basso).

In fase di addestramento, per ogni esempio fornito, si applica la seguente regola di aggiornamento:

Se l'esempio è classificato correttamente, non si deve fare nulla.
Se l'esempio è classificato in modo errato e il risultato corretto è 0, per ogni caratteristica tale che $x_{i}=1$ , il peso corrispondente $w_{i}$ va impostato a 0 (passo di retrocessione).
$\forall x_{i}=1,w_{i}\gets 0$
Se l'esempio è classificato in modo errato e il risultato corretto è 1, per ogni caratteristica $x_{i}=1$ , il peso corrispondente $w_{i}$ va moltiplicato per $\alpha$ (passo di promozione).
$\forall x_{i}=1,w_{i}\gets \alpha w_{i}$

Tipicamente si imposta $\alpha \gets 2$ .

Esistono molte varianti di questo approccio di base.

Winnow2 ^[1] è simile, tranne per il fatto che nel declassamento i pesi vengono divisi per $\alpha$ invece di essere impostati a 0.
Balanced Winnow lavora con due insiemi di pesi e quindi due iperpiani. Questo può quindi essere generalizzato per classificazione multi-etichetta.

Limiti d'errore

In determinate condizioni, è possibile dimostrare che il numero di errori commessi da Winnow durante l'apprendimento ha un limite superiore che non dipende dal numero di esempi in ingresso. Se l'algoritmo Winnow1 utilizza $\alpha >1$ e $\Theta \geq 1/\alpha$ su una funzione-obiettivo che è una disgiunzione monotona di $k$ letterali data da $f(x_{1},\ldots ,x_{n})=x_{i_{1}}\lor \cdots \lor x_{i_{k}}$ , allora per qualsiasi sequenza di istanze il numero totale di errori è limitato da:^[2]

$\alpha k(\log _{\alpha }\Theta +1)+{\frac {n}{\Theta }}$ .

Note

1 2 (EN) Nick Littlestone, Learning Quickly When Irrelevant Attributes Abound: A New Linear-Threshold Algorithm (PDF), in Machine Learning, vol. 2, n. 4, 1º aprile 1988, pp. 285–318, DOI:10.1023/A:1022869011914.
↑ (EN) Nick Littlestone, "Mistake bounds and logarithmic linear-threshold learning algorithms", in Technical report, University of California, Santa Cruz., 1989, UCSC-CRL-89-11.

Portale Informatica

Portale Matematica

Portale Statistica

[:0-1] 1 2 (EN) Nick Littlestone, Learning Quickly When Irrelevant Attributes Abound: A New Linear-Threshold Algorithm (PDF), in Machine Learning, vol. 2, n. 4, 1º aprile 1988, pp. 285–318, DOI:10.1023/A:1022869011914.

[2] (EN) Nick Littlestone, "Mistake bounds and logarithmic linear-threshold learning algorithms", in Technical report, University of California, Santa Cruz., 1989, UCSC-CRL-89-11.

[1]

[2]

V · D · M Apprendimento automatico
Problemi	Teoria dell'apprendimento statistico · Classificazione · Regressione · Classificazione a singola classe · Ranking · Regole di associazione · Apprendimento non supervisionato · Apprendimento semi-supervisionato · Apprendimento supervisionato · Apprendimento auto-supervisionato · Apprendimento per rinforzo · Apprendimento profondo · Apprendimento online · Apprendimento incrementale · Apprendimento trasduttivo
Apprendimento non supervisionato	Clustering · Clustering gerarchico · K-means · Algoritmo EM · Clustering spettrale · DBSCAN · Mean shift · Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionato	Albero di decisione · Foresta casuale · Conditional random field CRF · Modello di Markov nascosto · Algoritmo k-nearest neighbors (k-NN) · Ragionamento basato su casi (CBR) · Classificatore bayesiano · Rete neurale artificiale · Regressione lineare · Regressione logistica · Modello grafico · Rete bayesiana · Macchine a vettori di supporto (SVM) · Processo gaussiano · Modello ensemble · Boosting · Bagging · Stacking · Voting · Cascading · Error correcting output code (ECOC)
Apprendimento per rinforzo	Q-learning · SARSA · TD
Riduzione della dimensionalità	Analisi fattoriale · Analisi della correlazione canonica (CCA) · Analisi delle componenti indipendenti (ICA) · Analisi discriminante lineare (LDA) · Analisi delle componenti principali (PCA) · Apprendimento di varietà (manifold learning) · Estrazione di caratteristiche · Immersione localmente lineare (LLE) · Isomap · Scaling multidimensionale (MDS) · Selezione delle caratteristiche · t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificiali	Percettrone · Percettrone basato su kernel · Rete neurale a funzioni base radiali (RBF net) · Rete neurale feed-forward · Rete di Hopfield · Percettrone multistrato · Rete neurale ricorrente (LSTM) · Macchina di Boltzmann ristretta · Mappa auto-organizzata · Rete neurale convoluzionale · Rete neurale a ritardo · Rete neurale spiking · Rete neurale grafica · Trasformatore
Software	Keras · Microsoft Cognitive Toolkit · Scikit-learn · TensorFlow · Theano · PyTorch · Weka
Altro	Algoritmo genetico · Particle Swarm Optimization · Caratteristica · Compromesso bias-varianza · Minimizzazione del rischio empirico