Con il termine statistica intendiamo quella branca della matematica che studia, in termini sia qualitativi, sia quantitativi, un fenomeno collettivo. Essa analizza il metodo di raccolta, di sintesi e di rappresentazione dei dati inerenti appunto un fenomeno collettivo.
Dobbiamo al filosofo giurista e storico tedesco Gottfried Achenwall (1719 - 1772) il merito di aver coniato il termine statistica, intesa come scienza degli stati in quanto scienza finalizzata a trattare dati utili a governare meglio.
Per approcciarci alla scienza statistica bisogna premettere alcuni concetti chiave:
È pertanto il gruppo interessato dall'indagine.
L'unità statistica è quindi ciascun elemento del gruppo che l'indagine osserva.
Se l'universo è particolarmente ampio da rendere troppo dispendiosa se non impossibile l'indagine, si può decide di indagare un suo sottoinsieme, detto appunto campione, che sia rappresentativo dell'insieme di appartenenza, ovvero ne conservi le caratteristiche.
Visto che i delicati criteri che determinano la scelta di un campione statistico, prescindono il presente discorso approcciativo e costituiscono il campo di pertinenza della statistica induttiva, ci soffermiamo soltanto nell'evidenziare che le osservazioni di una indagine svolta sull'intero universo sono verificate, mentre l'indagine svolta su un campione fornisce una loro stima.
È pertanto l'oggetto dell'indagine stessa.
Si indica con una lettera maiuscola e se l'indagine osserva un unico carattere per unità statistica, questo si indica con la lettera X, se ne osserva due il secondo si indica con la lettera Y.
Il carattere si classifica in:
Esprime una caratteristica di natura quantitativa, ovvero di tipo numerico (come il numero di figli, il peso, ecc.)
Si distinguono due tipi di carattere quantitativo:
Esprime una caratteristica di natura qualitativa, ovvero di tipo non numerico (come il colore dei capelli, il genere maschile o femminile, ecc.).
Si distinguono due tipi di carattere qualitativo:
Le modalità sono pertanto i dati che l'indagine ha osservato.
Queste si indicano in generale con una x minuscola, e per distinguere la prima dalla seconda ecc. si pone un indice numerico in pedice (xi), pertanto x1 indica la prima modalità, x2 la seconda e se in tutto sono n, xn indica l'ultima.
Una volta raccolte tutte le modalità si possono organizzare secondo diverse distribuzioni.
Portiamo ad esempio una indagine statistica avente come:
Dopo aver svolto tutte le 10 interviste, si sono ottenute altrettante modalità. Le si possono rappresentare in due modi:
Si ripete ciascuna modalità xi così come la si è osservata:
xi | x |
---|---|
x1 | 3 |
x2 | 1 |
x3 | 2 |
x4 | 2 |
x5 | 1 |
x6 | 2 |
x7 | 2 |
x8 | 3 |
x9 | 2 |
x10 | 3 |
e si potrebbe anche decidere di porle in ordine crescente:
xi | x |
---|---|
x1 | 1 |
x2 | 1 |
x3 | 2 |
x4 | 2 |
x5 | 2 |
x6 | 2 |
x7 | 2 |
x8 | 3 |
x9 | 3 |
x10 | 3 |
Rappresentando le modalità secondo una distribuzione di frequenze, invece che ripetere quelle uguali, si indicano una sola volta e si associa loro una frequenza assoluta (detta anche peso) che indica quante volte ciascuna di esse si ripete:
xi | x | f | fi |
---|---|---|---|
x1 | 1 | 2 | f1 |
x2 | 2 | 5 | f2 |
x3 | 3 | 3 | f3 |
n: | 10 |
Tra i 10 rappresentanti, 2 possiedono un animale domestico, 5 ne possiedono 2 e gli altri 3 ne possiedono 3.
A ben vedere, le distribuzioni unitarie si possono immaginare come distribuzioni di frequenze ove le frequenze valgono tutte 1:
xi | x | f | fi |
---|---|---|---|
x1 | 1 | 1 | f1 |
x2 | 1 | 1 | f2 |
x3 | 2 | 1 | f3 |
x4 | 2 | 1 | f4 |
x5 | 2 | 1 | f5 |
x6 | 2 | 1 | f6 |
x7 | 2 | 1 | f7 |
x8 | 3 | 1 | f8 |
x9 | 3 | 1 | f9 |
x10 | 3 | 1 | f10 |
Nell'esempio sopra, a possedere 2 animali domestici, erano in 5, ma 5 è tanto o poco? Risulta facile intuire che, visto che l'indagine ha riguardato 10 persone, 5 su 10 sono la metà, ma se l'indagine ne avesse interessate 5000, allora 5 avrebbe avuto un'importanza ben minore ().
x | f | fr |
---|---|---|
1 | 2 | 2/10 |
2 | 5 | 5/10 |
3 | 3 | 3/10 |
∑ | 10 | 10/10 |
Moltiplicando per 100 la frequenza relativa si ottine la frequenza percentuale.
x | f | fr | f% |
---|---|---|---|
1 | 2 | 0.20 | 20% |
2 | 5 | 0.50 | 50% |
3 | 3 | 0.30 | 30% |
∑ | 10 | 1 | 100% |
Le frequenze cumulate sono una somma progressiva delle frequenze Si possono indicare per ogni tipo do frequenza. La prima frequenza comulata è uguale alla prima frequenza che si sta cumulando, si aggiunge quindi, la seconda, la terza e così via sino all'ultima che corrisponderà alla somma si tutte le frequenze
x | f | fc | fr | fr c | f% | f% c |
---|---|---|---|---|---|---|
1 | 2 | 2 | 0.2 | 0.2 | 20% | 20% |
2 | 5 | 7 | 0.5 | 0.7 | 50% | 70% |
3 | 3 | 10 | 0.3 | 1 | 30% | 100% |
∑ | 10 | 1 | 100% |
Chiedendosi ad esempio quanti siano i rappresentanti a possedere massimo 2 animali risponderemmo:
Da ora in avanti indicheremo con:
Nell'esempio portato sin ora, sono 3 le diverse modalità (un animale, due animali e tre animali) ed altrettante le rispettive frequenze (2, 5 e 3), quindi:
In generale: