STATISTICA

Crediti: 
6
Settore scientifico disciplinare: 
STATISTICA (SECS-S/01)
Anno accademico di offerta: 
2016/2017
Semestre dell'insegnamento: 
Primo Semestre
Lingua di insegnamento: 

Italiano

Obiettivi formativi

Comprendere la logica dell’inferenza statistica, con illustrazione della teoria e con applicazioni dei test più diffusi nella ricerca e nella professione delle discipline della Natura e dell’Ambiente. Utilizzare i testi internazionali consigliati per approfondimenti. Con i risultati di analisi di laboratorio e di rilevazioni sul campo, sapere come devono essere presentati i dati, come devono essere analizzati, quali test devono essere applicati in funzione delle ipotesi formulate a priori e delle caratteristiche della distribuzione. Utilizzare almeno un programma informatico trasferendo i dati da Excel; sapere illustrare a chi non ha preparazione statistica l’output, fornire l’interpretazione statistica e il suo significato nelle scienze della terra. Stendere un rapporto con la presentazione dei dati e il risultato dei test.

Prerequisiti

Nella presentazione dei concetti e dei metodi, il corso inizia da un livello elementare per il quale sono più che sufficienti le conoscenze di matematica acquisite nei corsi precedenti di matematica, fisica e chimica.

Contenuti dell'insegnamento

Nella prima parte del corso sono presentati e discussi i metodi di statistica descrittiva, dalle rappresentazioni tabellari e grafiche alla stima degli indici o statistiche. Nella seconda parte sono illustrati con esempi i modelli di distribuzioni teoriche, partendo dal calcolo combinatorio e descrivendo la binomiale, la poissoniana, l’ipergeometrica e la normale. Nella terza parte, quella prevalente, sono spiegati i test d’inferenza proposti per cercare le leggi della Natura con illustrazioni della teoria e varie applicazioni alla professione e alla ricerca nelle discipline ambientali e in ecologia: chi quadrato, t di Student, soprattutto l’ANOVA nei suoi vari disegni sperimentali, la regressione e la correlazione lineari. Infine, per le situazioni con grande variabilità dei dati e presenza di outlier, sono presentati e applicati diversi test non parametrici.

Programma esteso

Programma esteso
1 - Tipi di scala e di misurazione. Statistica descrittiva per distribuzioni univariate. Costruzione delle tabelle e rappresentazione grafiche per variabili quantitative e variabili qualitative: istogrammi, poligoni, rettangoli distanziati, diagrammi circolari. I pittogrammi e il lie factor. Indici di tendenza centrale, di dispersione, di simmetria e di curtosi. Numero di decimali e di cifre significative.
Esercizi di statistica descrittiva con uso del programma PAST.

2 - Calcolo combinatorio, distribuzione binomiale, poissoniana, ipergeometrica. La distribuzione normale e la normale ridotta. Esercizi con uso della normale ridotta e delle tabelle z.

3 - Confronti tra tassi e probabilità. La distribuzione chi quadrato. Test per la bontà dell’adattamento; condizioni di validità e correzione di Yates. Tabelle di contingenza 2 x 2 e R x C, per campioni piccoli e grandi: metodo esatto di Fisher e test z in tabelle 2 x 2.
Il metodo G o log-likelihood ratio nei test per la bontà dell’adattamento e in tabelle di contingenza.
Esercizi sul test chi-quadrato per la bontà dell’adattamento e in tabelle di contingenza con PAST

4 - Errore alfa e errore beta; potenza a priori e a posteriori. Stima delle dimensioni dei campioni per il confronto tra medie con la distribuzione normale. Numero di dati per una misura con la precisione desiderata

5 - La distribuzione t di Student. Test per la media di un campione e intervallo di confidenza della media. Confronto tra le medie di due campioni dipendenti e di due campioni indipendenti. Test per l’omogeneità della varianza; test F, test di Bartlett, test di Levene. Cenni sui metodi per il confronto tra due medie con varianze differenti. Stima delle dimensioni minime dei due campioni, con la distribuzione t e la distribuzione z. Il bilanciamento di 2 campioni.
Esercizi sul test t di Student con il programma PAST, con varianze uguali e diverse.

6 - Analisi della varianza (ANOVA) a un criterio (one-way): il confronto tra due o più medie. Distribuzione F di Fisher-Snedecor e relazione con la distribuzione t di Student. Condizioni di validità dell’ANOVA e test per l’omoschedasticità con k campioni: test di Hartley, test di Cochran, test di Bartlett, test di Levene e sue varianti. Confronti multipli a priori o pianificati; confronti multipli a posteriori o post-hoc: il rischio alfa e il principio di Bonferroni; i metodi Bonferroni-Dunn, HSD di Tukey, SNK e i metodi sequenziali, il test di Dunnett, il test Duncan. Applicazioni dell’ANOVA e dei confronti multipli con il programma PAST.
Esercizi sull’ANOVA con il programma PAST.

7 - Analisi della varianza con due (two way) e con più criteri crossed. Metodi per ridurre il numero di osservazioni: i quadrati latini. Efficienza relativa di un disegno sperimentale. La perdita di dati in tabelle a due o più fattori crossed. Analisi dell’interazione tra due fattori, con misure ripetute. Interpretazione dell’interazione, con rappresentazioni grafiche. Analisi gerarchica o nested a due e a più livelli. Interazione nell’ANOVA a più fattori, crossed, nested e mista.
Assunzioni di validità dell’ANOVA, trasformazioni dei dati; il metodo di Box-Cox per la trasformazione più adeguata.

8 - Statistica descrittiva per distribuzioni bivariate. Regressione lineare semplice: stima del coefficiente angolare b e dell’intercetta a; significatività e intervallo di confidenza del coefficiente angolare e dell’intercetta. Scelta del campione per la significatività del coefficiente angolare e dell’intercetta. Il coefficiente di determinazione R-quadro. La regressione per l’origine: vantaggi e svantaggi. La predizione inversa o calibrazione. Confronto tra i coefficienti angolari di due campioni indipendenti. Concetti sull’analisi della covarianza (confronti tra medie di Y con X diversi).
La regressione lineare con Y ripetute. Calcolo dei termini della regressione mediante i coefficienti polinomiali. Test di linearità con Y ripetute, in campioni non bilanciati. Cenni sulla regressione pesata per la varianza e il numero di dati; sua calibrazione.
La correlazione: stima dell’indice di correlazione r di Pearson e sua significatività. Relazioni tra coefficiente angolare b e indice r di correlazione lineare. Intervallo di confidenza di r. La correlazione parziale o netta.
Applicazioni della regressione lineare e della correlazione con il programma PAST.

9 - Test per un campione: test delle successioni; test dei segni; test di Wilcoxon; intervallo di confidenza di una mediana; test di casualizzazione. Il test di Kolmogorv-Sminov.
Test per due campioni dipendenti: test dei segni, test T di Wilcoxon, test di casualizzazione.
Test per due campioni indipendenti: test della mediana, test T di Wilcoxon-Mann-Whitney, test U di Mann-Whitney, test di casualizzazione; il test di Levene non parametrico per differenze nella variabilità.
Test per k campioni: test della mediana; test di Kruskal-Wallis o ANOVA non parametrica a un criterio: test di Friedman o ANOVA non parametrica a due criteri; test di Jonckheere-Terpstra; test di Page.
La correlazione non parametrica; rho di Spearman e tau di Kendall.
La retta non parametrica o retta robusta di Theil.

Bibliografia

Dispense consigliate.
A) Per la statistica parametrica:
Lamberto Soliani (2008) Statistica applicata. UNI.NOVA, Parma. (pagg. X + 694);
ISBN:978-88-6319-041-0; www.uninova.net
B) Per la statistica non parametrica:
Soliani Lamberto (2008) I test non parametrici più citati nelle discipline scientifiche, UNI.NOVA, Parma. (pagg. VII + 828); ISBN: 978-88-6319-022-9; www.uninova.net
Edite dalla casa editrice di testi universitari UNINOVA di Parma, gruppo Pegaso Libreria;Via Cavedani, 7
Tel. 0521-290245 - Fax 0521-291661 - E-mail: libreria@gruppopegaso.it

Testi internazionali di riferimento:
- Sokal R. R. and F. J. Rohlf 2012. Biometry: the principles and practice of statistics in biological research. 4th edition. W. H. Freeman and Co.: New York. 937 pp
- Zar Jerrold (2010). Biostatistical Analysis, Fifth Edition. Pearson Education International, New Jersey, 944 pp

Testi internazionali gratuiti in rete, con argomenti utili al chimico
- EPA 530/R-09-007, March 2009, Statistical Analysis of Groundwater Monitoring Data at RCRA Facilities. Unified Guidance, Environmental Protection Agency, United States (pp. 888).
- EM 1110-1-4014, 31 Jan 2008, Environmental Quality - ENVIRONMENTAL STATISTICS, Department of the Army, U. S. Army Corps of Engineers (pp. 544).

Metodi didattici

Metodi didattici
La presentazioni dei concetti e dei metodi avviene con lezioni frontali, proiettando e discutendo le formule con applicazioni a vari esempi a carattere ambientale e di ecologia. L’uso di programmi informatici è presentato con la proiezione delle fasi di caricamento dati, l’applicazione dei grafici e dei test, la lettura dell’output e la discussione dei risultati. Gli studenti devono seguire e apprendere le varie fasi svolgendo gli esempi con il loro computer e il programma scelto.

Altre informazioni e attività di supporto.
Uso di almeno un programma informatico gratuito di riconosciuta validità internazionale, come PAleontological STatistics: www.nhm.uio.no/norlex/past/download.html
La scelta del programma è motivata dalla semplicità d’uso, dalla possibilità di caricare i dati direttamente da Excel, dalla qualità dei metodi descrittivi e dei test proposti, dalla sua diffusione del programma nelle discipline scientifiche, dalla semplicità con la quale ogni studente può averlo disponibile e aggiornato gratuitamente sul suo computer

Modalità verifica apprendimento

Modalità di verifica dell’apprendimento
Colloquio orale con discussione di esempi, per verificare l’apprendimento dei concetti e dei metodi della statistica inferenziale, la capacità di illustrare gli output informatici e di interpretarne i risultati. Il voto dipende dalla entità del programma studiato, dagli approfondimenti sui singoli temi illustrati a lezione, dalla correttezza dell’ipotesi formulate e della procedura statistica usata, dalla correttezza delle conclusioni tratte dal risultato del test e del linguaggio scientifico usato

Altre informazioni

Nel periodo di esami, si sarà un appello a settimana, eccetto il luglio e agosto dove saranno due. Per informazioni precise e aggiornate, mandare e-mail al docente.
Per i fuori corso e per chi non ha più l’obbligo della frequenza, è possibile fissare una data diversa, mediante richiesta al docente: lamberto.soliani@unipr.it