Distribuzione_(statistica)

In statistica, in particolare nella statistica descrittiva, una distribuzione è una rappresentazione del modo in cui le diverse modalità di un carattere si distribuiscono nelle unità statistiche che compongono il collettivo oggetto di studio.[1]

Le distribuzioni in statistica vengono anche distinte in semplici se si rileva un solo carattere, multiple se si rilevano più caratteri sullo stesso collettivo.

Distribuzione unitaria

In una distribuzione unitaria semplice vengono presentate le modalità osservate per ciascuna unità statistica. Ad esempio, se si rileva il carattere "titolo di studio" tra gli n dipendenti di un'azienda, la distribuzione unitaria è un insieme di n coppie in cui il primo elemento indica l'unità (il nome, o altro dato identificativo, di ciascun dipendente), il secondo indica il suo titolo di studio (licenza media, diploma di maturità, laurea triennale ecc.).

Analogamente, una distribuzione multipla è un insieme di n-uple in cui il primo elemento indica l'unità ed i successivi indicano le modalità degli n – 1 caratteri osservate su quella unità.

L'insieme di coppie o n-uple viene rappresentato mediante una tabella. Nel caso di una distribuzione semplice si ha una tabella a due colonne, la prima contenente le singole unità e la seconda le modalità osservate.

Le serie di intensità

In generale le distribuzioni unitarie rappresentano il primo risultato di una rilevazione, che viene poi organizzato nella forma di una distribuzione di frequenze o di quantità. Fanno eccezione le cosiddette serie di intensità, che presentano le diverse intensità di un fenomeno rilevate secondo un criterio qualitativo o comunque non quantitativo in senso stretto (non una misura o un conteggio). Ne sono esempi:

  • le serie territoriali, in cui l'intensità di un fenomeno (ad esempio, il prezzo di un bene) viene rilevato per diversi territori, quali le regioni o province italiane;
  • le serie storiche, in cui l'intensità di un fenomeno (ad esempio, il PIL) viene rilevato in successivi anni o trimestri.

Distribuzione di frequenze

In una distribuzione di frequenze viene presentato il numero di unità sulle quali viene rilevata ciascuna modalità del carattere. In una rilevazione del titolo di studio, ad esempio, la distribuzione di frequenze è un insieme di k coppie, dove k è il numero delle modalità del carattere; in ciascuna coppia il primo elemento indica la modalità ed il secondo indica il numero ni di unità su cui quella modalità è stata osservata (la frequenza assoluta con cui viene osservata).

Se il carattere è quantitativo continuo, o presenta comunque numerose modalità, queste vengono raggruppate in classi. Ad esempio, se si rileva la statura le diverse stature possibili vengono raggruppate in intervalli ("meno di 150", "da 150 a 160" ecc.), se si rileva il numero dei dipendenti di un insieme di aziende si usano classi del tipo "fino a 5 addetti", "da 6 a 20", "da 21 a 50" ecc.

Nella tabella che rappresenta una distribuzione di frequenza semplice, la prima colonna contiene le modalità o le loro classi, la seconda contiene i numeri delle unità che presentano le diverse modalità. La somma della seconda colonna è uguale al numero totale n delle unità. Da una distribuzione di frequenze si possono derivare distribuzioni di frequenze relative (o percentuali). Nel primo caso, le frequenze ni, dette assolute, vengono sostituite dai rapporti fi=ni/n; nel secondo tali rapporti vengono moltiplicati per 100.

Infine, se il carattere è qualitativo ordinato o quantitativo, le sue diverse modalità vengono esposte in ordine crescente e si possono calcolare le frequenze cumulate assolute o relative; le frequenze assolute cumulate si calcolano come segue:

Le altre si calcolano in modo analogo.

Lo schema generale delle corrispondenti tabelle è il seguente:


Modalità
 
Frequenze
assolute
Frequenze
relative
Frequenze
percentuali
Frequenze
assolute
cumulate
Frequenze
relative
cumulate
Frequenze
percentuali
cumulate
 
 

dove:

  • x1, x2, ..., xk sono le k modalità del carattere (o le k classi in cui esse vengono raggruppate);
  • n1, n2, ..., nk sono le frequenze assolute con le quali le diverse modalità vengono osservate, il cui totale n è il numero complessivo delle unità statistiche;
  • f1, f2, ..., fk sono le frequenze relative, calcolate come rapporti tra le frequenze assolute ed il numero complessivo delle unità statistiche; il loro totale è 1;
  • N1, N2, ..., Nk sono le frequenze assolute cumulate, ottenute sommando alla frequenza assoluta della i-esima modalità le frequenze assolute delle modalità precedenti;
  • F1, F2, ..., Fk sono le frequenze relative cumulate, ottenute sommando alla frequenza relativa della i-esima modalità le frequenze relative delle modalità precedenti;

Le frequenze relative cumulate sono utilizzate per calcolare la funzione di ripartizione empirica.

Serie e seriazioni

Le distribuzioni di frequenza vengono talvolta dette:

  • serie, se si contano le unità che presentano le stesse modalità di un carattere qualitativo (geografico, alfabetico, cromatico ecc.);
  • seriazioni, se si contano le unità che presentano gli stessi valori di un carattere quantitativo.

Serie statistica

In altre parole la serie è una collezione ordinata di dati ovvero un insieme di dati disposti in ordine consecutivo (sequenza), dove ogni dato rappresenta una modalità o un valore del carattere osservato su ciascuna delle unità statistiche considerate.

Distribuzione di quantità

In una distribuzione di quantità viene presentato il modo in cui un carattere quantitativo si distribuisce tra le sue varie modalità. Ad esempio, supponendo che si rilevi il numero dei dipendenti di un insieme di aziende, si ha una distribuzione di frequenze se per ciascun numero di dipendenti, o per ciascuna sua classe, si mostra il numero delle aziende che hanno quel numero di dipendenti; si ha invece una distribuzione di quantità se si mostra il numero dei dipendenti in quella classe. Rappresentando le due distribuzioni mediante tabelle, nel primo caso la somma della seconda colonna sarà il numero totale delle unità (le aziende), nel secondo sarà il numero totale dei loro dipendenti (l'ammontare complessivo del carattere quantitativo rilevato).

Nella tabella che segue si suppone di aver rilevato il numero di dipendenti (il carattere quantitativo) presso 3.443.915 aziende (le unità statistiche):

Numero dipendenti Numero aziende
Fino a 5 5.275.084 3.013.879
da 6 a 20 3.123.203 324.478
da 21 a 50 2.028.302 67.610
da 51 a 100 1.567.439 22.952
da 101 a 500 2.506.534 13.305
da 501 a 1000 740.280 1.088
oltre 1000 1.384.302 603
Totale 16.625.144 3.443.915

La prima colonna contiene le modalità del carattere raggruppate in classi.

La seconda colonna contiene la distribuzione di quantità; nella seconda riga, ad esempio, si legge che il numero dei dipendenti occupati presso aziende che hanno da 6 a 20 dipendenti è 3.123.203. Il totale della colonna esprime il numero complessivo dei dipendenti delle aziende oggetto di rilevazione, quindi con l'ammontare complessivo del carattere.

La terza colonna contiene la distribuzione di frequenze; nella quarta riga, ad esempio, si legge che il numero delle aziende presso le quali si rileva la modalità "da 51 a 100 dipendenti" è 22.952. Il totale della colonna coincide con il numero complessivo delle aziende su cui è stata condotta l'indagine (il numero delle unità statistiche).

Rappresentazione grafica

Per le serie territoriali, si usano spesso cartogrammi, nei quali viene rappresentato l'intero territorio considerato (ad esempio una cartina dell'Italia) e si usano diversi colori per mostrare la diversa intensità del fenomeno rilevato nelle diverse province o regioni.

Le serie storiche vengono normalmente rappresentate con linee spezzate.

Le distribuzioni di frequenza sono rappresentate graficamente con diagrammi a barre o a torta se il carattere è qualitativo o quantitativo discreto, con istogrammi se il carattere è quantitativo continuo.

Note

  1. ^ Glossario Istat Archiviato il 31 dicembre 2011 in Internet Archive.

Bibliografia

  • Giuseppe Leti, Statistica descrittiva, Bologna, Il Mulino, 1983
  • Alighiero Naddeo, Statistica di base, Roma, Edizioni Kappa, 1981
  • Domenico Piccolo, Statistica, Bologna, Il Mulino, 1998

Voci correlate

Altri progetti

Collegamenti esterni

Controllo di autoritàThesaurus BNCF 22097