regola carattere

statistica descittiva

analisi multivariata

analisi multivariata

Sin ora ci si è occupati di indagini statistiche che riguardavano un solo carattere, infatti, per ciascuna unità statistica si è osservato un solo carattere, si è quindi ricavata una modalità per ogni unità. Normalmente però viene chiesto alla statistica di sintetizzare molteplici osservazioni operate su ciascuna unità, ad esempio, parlando di una indagine sulle famiglie italiane, si vorrà sapere il loro reddito, il numero di componenti, quanti dei componenti sono genitori e quanti figli, il numero di automobili possedute, il numero di stanze della casa che abitano ecc. ecc. Si parlerà in questo caso di analisi multivariata.

analisi bivariatafreccia per tornare ad inizio pagina

Il caso più semplice di analisi multivariata è ovviamente quella bivariata, ovvero quella che si occupa di analizzare soltanto due caratteri. Osservando due caratteri, che chiameremo genericamente X ed Y, si rileveranno due modalità per ciascuna unità statistica. Le distribuzioni di frequenze ottenute saranno quindi bidimensionali e non monodimensionali come nel caso di indagini che riguardano un solo carattere.

Esempio: ad un gruppo di alunni delle scuole superiori si è chiesto quanti telefoni cellulari avessero acquistato negli ultimi tre anni (xi) ed anche la loro età (yj). Quindi:

carattere X = numero di telefoni cellulari acquistati negli ultimi tre anni.

carattere Y = età.

Le osservazioni sono state le seguenti:

alunno
x
y
alunno 01
1
17
alunno 02
1
17
alunno 03
0
14
alunno 04
2
14
alunno 05
2
18
alunno 06
1
17
alunno 07
1
16
alunno 08
0
18
alunno 09
2
17
alunno 10
0
19
alunno 11
1
16
alunno 12
2
19
alunno 13
2
18
alunno 14
1
18
alunno 15
1
15
alunno 16
1
14
alunno 17
2
14
alunno 18
1
15
alunno 19
1
18
alunno 20
2
16
alunno 21
0
17
alunno 22
1
14
alunno 23
2
15
alunno 24
2
17
alunno 25
1
14
alunno 26
2
17
alunno 27
1
19
alunno 28
1
19
alunno 29
1
15
alunno 30
0
19

 

tabella a doppia entratafreccia per tornare ad inizio pagina

Per la rappresentazione tabulare di distribuzioni bidimensionali, si utilizza una tabella a doppia entrata ove si indicheranno in ciascuna cella le frequenze congiunte, cioè quelle che realizzano contemporaneamente sia la modalità xi di quella riga, sia la yj di quella colonna. Queste tabelle si dicono:

Continuando l'esempio precedente avremo:

x/y
14
15
16
17
18
19
0
1
0
0
1
1
2
1
3
3
2
3
2
2
2
2
1
1
3
2
1

frequenze congiuntefreccia per tornare ad inizio pagina

Come detto, le frequenze indicate sono quelle che realizzano al contempo entrambe le modalità xi ed yj. Ad esemio, con la frequenza congiunta 3 (in grassetto), si intende che sono 3 gli alunni che soddisfano al contempo sia la modalita x2, sia y4, ovvero 3 alunni diciassettenni hanno acquistato un telefono cellulare negli ultimi tre anni.

x/y
14
15
16
17
18
19
0
1
0
0
1
1
2
1
3
3
2
3
2
2
2
2
1
1
3
2
1

Si noti che disporre le modalita xi ed yj in riga o in colonna è indifferente:

y/x
0
1
2
14
1
3
2
15
0
3
1
16
0
2
1
17
1
3
3
18
1
2
2
19
2
2
1

frequenze marginalifreccia per tornare ad inizio pagina

Aggiungendo una riga ed una colonna dove calcolare i rispettivi totali di colonna e di riga, si ottengono le cosìddette frequenze marginali:

x/y
14
15
16
17
18
19
Σ xi
0
1
0
0
1
1
2
5
1
3
3
2
3
2
2
15
2
2
1
1
3
2
1
10
Σ yj
6
4
3
7
5
5
30

La frequenza marginale 4 (in grassetto) indica che sono 4 il totale di alunni quindicenni; la 15 indica che è 15 il numero di alunni che hanno acquistato un telefono cellulare negli ultimi 3 anni e la 30 indica che sono 30 il numero totale di alunni dell'universo (o campione). Si noti che il numero di unità statistiche coinvolte dall'indagine n=30, si ricava sia come somma delle frequenze marginali xi (5+15+10=30), sia come somma delle frequenze marginali yj ( 6+4+3+7+5+5=30), perché sia che li si raggruppino per età che per numero di cellulari aquistati, gli alunni totali sono comunque 30.

Considerando il carattere X, quindi le rispettive modalità e frequenze marginali, si ottiene una distribuzione monodimensionale:

x
f
0
5
1
15
2
10

Lo stesso dicasi considerando il carattere Y:

y
f
14
6
15
4
16
3
17
7
18
5
19
5

Si può cioè considerare una distribuzione bivariata anche come due separate distribuzioni monodimensionali. Per queste è possibile calcolare le medie e gli indici di variabilità già visti.