La strategia pura e mista

Le strategie possono essere pure o miste. La differenza tra i due concetti è nella certezza o meno della scelta.

La strategia pura è deterministica, per ogni situazione c'è un'azione migliore da compiere, mentre la strategia mista è stocastica e ogni azione possibile ha una probabilità di successo.

Le strategie pure
Le strategie miste

Le strategie pure

In una strategia pura l'agente conosce l'azione migliore in una particolare situazione ambientale o di gioco. L'agente gioca la strategia migliore e scarta le altre.

esempio di strategia pura

L'ambiente è deterministico

Per ogni situazione c'è una reazione o una scelta. L'associazione tra stimolo (input) e azione (output) è rigida.

E' quindi possibile costruire una tabella di regole IF-DO. Sono i sistemi più semplici da realizzare.

Nota. Tuttavia, spesso richiedono un grande spazio di memoria per archiviare tutte le situazioni di gioco. Inoltre, il tempo di accesso alle informazioni può diventare proibitivo.

Esempio

Nel seguente gioco gli agenti A e B possono scegliere tra due azioni.

La matrice di payoff del gioco è la seguente:

esempio di gioco con due equilibri di Nash

Quando B sceglie "sinistra, A sceglie sempre "alto".

Quando A sceglie "alto", B sceglie sempre "sinistra". E così via.

Nota. Nel gioco si presentano anche due equilibri di Nash, nella casella in alto a sinistra e nella casella in basso a destra. E' un tipico gioco simmetrico.

Le strategie miste

In una strategia mista l'agente non sa qual è l'azione migliore da scegliere in risposta a una situazione di gioco.

In questi casi, l'agente deve prendere una decisione tra N scelte possibili.

esempio di strategia mista

L'ambiente operativo è stocastico

Ogni scelta ha una probabilità di successo. Quindi, la decisione dipende da una distribuzione probabilistica.

Esempio

Nella situazione di gioco più semplice, nella morra a due dita, i giocatori A e B devono scegliere contemporaneamente tra due azioni.

a) mostrare un dito
b) mostrare due dita

un esempio di gioco stocastico

La probabilità di successo dell'azione a è p(a). Di conseguenza, la probabilità di insuccesso è 1-p(a).

La probabilità di successo dell'azione b è p(b). Quella di insuccesso è 1-p(b).

le probabilità di successo del gioco

Quindi, la probabilità di successo delle azioni a e b è pari a 0,5 ossia il 50%.

In questo caso specifico la scelta è random.

L'agente non gioca sempre l'azione con la probabilità di successo più alta. In molte altre situazioni di gioco si sceglie l'azione con maggiore probabilità di successo. Ad esempio, quando si costruisce un agente razionale nell'intelligenza artificiale. Tuttavia, non è detto che l'azione con maggiore probabilità sia anche la migliore possibile ( ottimale ) in un ambiente stocastico, dove la relazione di causa-effetto dipende da molte variabili ( es. scelte dell'avversario ) e da fattori casuali dovuti all'incertezza o sconosciuti ( es. ambienti parzialmente osservabili ).

La convenienza della strategia random

L'agente sceglie casualmente l'azione, tenendo conto della sua probabilità di successo.

Non è detto che debba scegliere sempre quella con la probabilità maggiore.

Esempio. Se A e B hanno probabilità di successo rispettivamente del 70% e 30%, l'agente può estrarre un numero random da 1 a 10, scegliendo l'azione A se il numero è compreso tra 1 e 7, l'azione B se è compreso tra 8 e 10.

Qual è il vantaggio delle strategie random?

A volte le strategie random consentono di trovare un equilibrio di Nash anche nei giochi dove manca.

Esempio

In questo gioco non c'è un equilibrio di Nash.

gioco senza equilibrio di Nash

Quando A sceglie destra, B sceglie destra. Tuttavia, quando B sceglie destra, A sceglie sinistra.

Pertanto, la casella in alto a sinistra non è un equilibrio di Nash.

l'assenza dell'equilibrio di Nash

Tuttavia, se la scelta fosse randomatica, quando B sceglie destra, A potrebbe scegliere sia destra che sinistra al 50%.

la soluzione random nei giochi senza l'equilibrio di Nash

Una volta su quattro entrambi i giocatori scelgono entrambi "destra".

Quindi, grazie alla scelta randomatica, nel 25% dei casi il gioco raggiunge l'equilibrio di Nash nella casella in alto a sinistra.

Nota. Per semplicità ho imposto una probabilità di scelta al 50%. In realtà, la probabilità andrebbe ponderata in base alle possibilità di successo del gioco. In una strategia mista la frequenza ottimale delle strategie di un giocatore dipende dalle frequenze scelte dall'altro giocatore.