STATISTIQUE THEORIQUE ET APPLIQUEE

7m ago
43 Views
0 Downloads
347.92 KB
22 Pages
Transcription

STATISTIQUE THÉORIQUEET APPLIQUÉETome 1Statistique descriptiveet bases de l’inférence statistiquePierre DagnelieINTRODUCTIONS DESDIFFÉRENTS CHAPITRESBruxelles, De Boeck, 2013, 517 p.ISBN 978-2-8041-7560-3De Boeck Services, Fond Jean-Pâques 4, B-1348 Louvain-la-Neuve (Belgique)Tél. : 32 (0)10 48 25 00 – Fax : 32 (0)10 48 25 19E-mail : [email protected] – Site web : superieur.deboeck.com

Chapitre 1Introduction généraleSommaire 11.1 Définition1.2 Historique1.3 Cadre général1.4 Documentation complémentairePrincipaux mots-clés1 Nous rappelons que, dans les sommaires des di érents chapitres, le signeindique lesparagraphes qui sont entièrement ou partiellement de première importance, au sens du (( moded’emploi )) qui suit la table des matières. Ainsi, les signesqui apparaissent en marge dans lasuite de ce chapitre montrent que le paragraphe 1.1 doit être entièrement pris en considérationau premier niveau d’étude, que seuls les paragraphes 1.2.3 et 1.2.4 doivent être considérés à cestade, et que le paragraphe 1.3 doit aussi être entièrement pris en considération, le paragraphe 1.4pouvant être négligé (les alinéas marqués par les symboles d et b devant toujours être négligésau cours d’une première lecture).P. Dagnelie – Statistique théorique et appliquée (tome 1) – 2013

181.1INTRODUCTION GÉNÉRALE1.1DéfinitionDérivé du substantif latin status (État), le mot statistique possède, en françaiscomme dans d’autres langues, plusieurs significations distinctes.D’une part, utilisé le plus souvent au pluriel, le terme statistiques désigne toutensemble cohérent de données, généralement numériques, relatives à un grouped’individus ou d’objets. On parle par exemple de la ou des statistiques de laproduction agricole ou industrielle (quantités produites, prix de vente, coûts deproduction, etc.), des statistiques démographiques (natalité, mortalité, etc.), desstatistiques du chômage, des statistiques des accidents de la circulation routière,etc. Il convient toutefois de remarquer que, contrairement à une opinion communément admise, cette acception du terme statistique ne concerne pas seulementdes volumes importants de données.D’autre part, le mot statistique désigne l’ensemble des méthodes qui permettentde recueillir et d’analyser les données dont il vient d’être question. C’est à cettesignification que nous nous référons dans le présent ouvrage.Enfin, le terme statistique est aussi utilisé parfois pour désigner l’un ou l’autreparamètre, tel qu’une moyenne, calculé à partir d’un ensemble de données 2 .Dans la première définition que nous avons présentée, le qualificatif (( numériques )) doit être considéré dans un sens très large. Il peut en e et concerneraussi bien des données quantitatives (résultats de comptages ou de mesures), quedes données qualitatives (couleurs, appréciations gustatives, etc.), voire même destextes, codés sous forme numérique en vue d’un traitement informatique.Informations complémentaires : Bartholomew [1995], Dodge [2004], Dumas [1955],Willcox [1935].2 Les traductions anglaises sont d’une part statistics, à la fois pour des ensembles de donnéeset pour l’ensemble des méthodes, et d’autre part statistic, pour des paramètres.P. Dagnelie – Statistique théorique et appliquée (tome 1) – 2013

Chapitre 2La collecte des donnéesSommaire2.1 Introduction2.2 L’étude par enquête2.3 L’expérimentation2.4 La nature, l’enregistrement et le traitement des donnéesPrincipaux mots-clésP. Dagnelie – Statistique théorique et appliquée (tome 1) – 2013

28COLLECTE DES DONNÉES2.12.1Introduction1 Comme nous l’avons signalé antérieurement (§ 1.3.2), nous consacrons cechapitre 2 à la présentation, en termes très simples, de notions de base relativesà la collecte des données, c’est-à-dire à ce qui constitue normalement la premièrephase de toute étude statistique.Nous envisagerons successivement les questions qui concernent les études parenquête (§ 2.2), les problèmes d’expérimentation (§ 2.3), et les questions relatives àla nature, à l’enregistrement et au traitement des données (§ 2.4). Nous reviendronsultérieurement de façon plus détaillée sur certains de ces sujets, lorsque nous auronsprésenté diverses notions de calcul des probabilités et de statistique théorique.2 L’étude par enquête et l’expérimentation doivent normalement être organisées, l’une et l’autre, dans des conditions telles que de nombreux éléments (choixdes unités ou des individus observés, a ectation aux di érentes unités expérimentales des di érents traitements qui sont comparés, etc.) soient parfaitement maı̂trisés. Dans certains cas, et notamment dans certaines enquêtes rétrospectives, lescirconstances ne permettent pas de maı̂triser de tels éléments. L’étude est alorsbasée sur une simple accumulation d’observations, sans qu’une structure ou unordre précis puisse être préétabli.On parle dans ce cas d’étude par observation 1 . Nous ne traitons pas ce sujetdans le présent ouvrage.Informations complémentaires : en ce qui concerne l’observation par enquête, Ardilly[2006], Barnett [2002], Dussaix et Grosbras [1993], Thompson [2002], Tillé [2001] ;en ce qui concerne l’expérimentation, Dagnelie [2012], Fleiss [1999], Goupy et Creighton [2006], Kuehl [2000], Montgomery [2005] ; en ce qui concerne l’étude par observation : Kish [2004], Rosenbaum [2002, 2010], Smith et Sugden [1988].1En anglais : observational study, uncontrolled observational study.P. Dagnelie – Statistique théorique et appliquée (tome 1) – 2013

Chapitre 3La statistique descriptiveà une Les distributions de fréquencesLes représentations graphiquesLa réduction des données : généralitésLes paramètres de positionLes paramètres de dispersionLes moments et les paramètres de dissymétrie et d’aplatissement3.8 Le calcul de la moyenne, de la variance et des moments d’ordre3 et 43.9 Quelques informations relatives à l’exécution des calculs3.10 Les nombres-indicesPrincipaux mots-clésExercicesP. Dagnelie – Statistique théorique et appliquée (tome 1) – 2013

54STATISTIQUE DESCRIPTIVE À UNE DIMENSION3.13.1Introduction1 La statistique descriptive 1 a essentiellement pour but de présenter les données observées sous une forme telle qu’on puisse en prendre connaissance facilement. Elle peut concerner une variable ou une caractéristique à la fois, deuxvariables ou deux caractéristiques à la fois, ou encore plus de deux variables ouplus de deux caractéristiques simultanément. Selon les cas, on parle de statistiquedescriptive à une variable ou à une dimension 2 , de statistique descriptive à deuxvariables ou à deux dimensions 3 , et de statistique descriptive à plusieurs variablesou à plusieurs dimensions 4 .2 À une dimension, le but de simplification de la statistique descriptive peutêtre atteint en condensant les observations sous trois formes distinctes.Des tableaux statistiques permettent de présenter les données sous la formenumérique de distributions de fréquences (§ 3.2). Di érents types de diagrammespermettent de présenter graphiquement ces distributions, ou les données initialeselles-mêmes (§ 3.3). Et enfin, les données peuvent également être condensées sousla forme de quelques paramètres ou valeurs typiques : le calcul de ces paramètresconstitue la réduction des données 5 (§ 3.4 et suivants) 6 .La présentation des données sous forme de tableaux et de graphiques concerneplus particulièrement les cas où les observations sont assez nombreuses, tandis quela réduction des données s’applique indi éremment à tous les cas.Informations complémentaires : Alonzo [2006], Hamon et Jégou [2008], Mazerolle[2005].1En anglais : descriptive statistics.En anglais : univariate, one-dimensional.3 En anglais : bivariate, two-dimensional.4 En anglais : multivariate, multidimensional.5 En anglais : data reduction.6 L’expression (( réduction des données )) est parfois utilisée pour désigner l’ensemble de lastatistique descriptive, y compris la préparation de tableaux et de graphiques.2P. Dagnelie – Statistique théorique et appliquée (tome 1) – 2013

Chapitre 4La statistique descriptiveà deux .11IntroductionLes distributions de fréquencesLes représentations graphiquesLa réduction des données : généralitésLes moments et la covarianceLe coefficient de corrélation et le coefficient de déterminationLa régression linéaire au sens des moindres carrésLa régression linéaire au sens des moindres rectanglesLe calcul de la covariance et des paramètres dérivésLa régression curvilinéaireQuelques notions de statistique descriptive à plusieurs dimensionsPrincipaux mots-clésExercicesP. Dagnelie – Statistique théorique et appliquée (tome 1) – 2013

1164.1STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS4.1Introduction1 La statistique descriptive à deux dimensions a pour objet de mettre enévidence les relations qui existent entre deux séries d’observations, considérées simultanément. Ces observations peuvent être de nature qualitative ou quantitative,continue ou discontinue, etc., et il n’est nullement exclu d’étudier simultanémentdeux séries d’observations de natures di érentes (§ 2.4.1).2 Comme en statistique descriptive à une dimension, trois aspects doivent êtreenvisagés : l’élaboration de tableaux, permettant de condenser les données sous laforme de distributions de fréquences (§ 4.2), la représentation graphique des observations (§ 4.3), et la réduction des données, c’est-à-dire le calcul de paramètresservant à caractériser numériquement les relations existant entre les deux sériesd’observations (§ 4.4 à 4.10).À ces notions de statistique descriptive à deux dimensions, nous ajouterons unparagraphe consacré à la présentation de quelques éléments de statistique descriptive à plus de deux dimensions (§ 4.11).Informations complémentaires : Alonzo [2006], Hamon et Jégou [2008], Mazerolle[2005].P. Dagnelie – Statistique théorique et appliquée (tome 1) – 2013

Chapitre 5La probabilité mathématiqueet les distributionsthéoriques : généralitésSommaire5.1 Introduction5.2 La notion de probabilité5.3 Quelques propriétés de la probabilité mathématique5.4 La probabilité conditionnelle et l’indépendance stochastique5.5 Les notions de variable aléatoire et de distribution théorique5.6 Quelques propriétés des variables aléatoires5.7 L’espérance mathématique et ses propriétés5.8 Les paramètres des distributions théoriques à une dimension5.9 Les fonctions génératrices et la fonction caractéristiquePrincipaux mots-clésExercicesP. Dagnelie – Statistique théorique et appliquée (tome 1) – 2013

1805.1PROBABILITÉ ET DISTRIBUTIONS THÉORIQUES5.1Introduction1 Après avoir exposé les notions essentielles de statistique descriptive à une età deux dimensions, au cours des deux chapitres précédents, nous consacrons cettetroisième partie à des concepts plus théoriques, de probabilité et de distributionde probabilité notamment. Nous nous e orcerons de présenter ces concepts d’unemanière aussi intuitive que possible, par analogie avec les éléments correspondantsde la statistique descriptive.2 Au cours de ce chapitre 5, la notion de probabilité mathématique est toutd’abord introduite (§ 5.2), par comparaison avec celle de fréquence relative, puiscaractérisée par certaines de ses propriétés (§ 5.3). Cette notion nous permettraalors de définir la probabilité conditionnelle et l’indépendance stochastique (§ 5.4).Nous présenterons ensuite les notions de variable aléatoire et de distributionde probabilité ou distribution théorique (§ 5.5), par analogie avec celles de variableobservée et de distribution de fréquences ou distribution observée, et nous endonnerons quelques propriétés (§ 5.6).Nous définirons aussi le concept d’espérance mathématique (§ 5.7) et les paramètres des distributions théoriques à une dimension, en en donnant égalementdiverses propriétés (§ 5.8).Enfin, nous introduirons les notions de fonctions génératrices et de fonctioncaractéristique (§ 5.9).Informations complémentaires : Ross [1998, 2004], Tassi et Legait [1990].P. Dagnelie – Statistique théorique et appliquée (tome 1) – 2013

Chapitre 6Les principales distributionsthéoriques à une dimensionSommaire6.16.26.3IntroductionLes distributions binomiales et polynomialesLes distributions hypergéométriques et hypergéométriquesgénéralisées6.4 Les distributions de POISSON6.5 Quelques autres distributions discontinues6.6 Les distributions normales et log-normales6.7 Les distributions t de STUDENT6.8 Les distributions 2 de PEARSON6.9 Les distributions F de FISHER-SNEDECOR6.10 Schéma récapitulatif et notions complémentairesPrincipaux mots-clésExercicesP. Dagnelie – Statistique théorique et appliquée (tome 1) – 2013

2446.1DISTRIBUTIONS THÉORIQUES À UNE DIMENSION6.1Introduction1 Au cours de ce chapitre, nous définirons et nous caractériserons les principales distributions théoriques à une dimension.En ce qui concerne les distributions discontinues, nous étudierons pour commencer les distributions binomiales (§ 6.2), les distributions hypergéométriques(§ 6.3) et les distributions de Poisson (§ 6.4). Nous présenterons aussi des généralisations de ces distributions, à savoir les distributions polynomiales (§ 6.2.3) etles distributions hypergéométriques généralisées (§ 6.3.2), et nous dirons quelquesmots de diverses autres distributions discontinues (§ 6.5).En ce qui concerne les distributions continues, nous envisagerons ensuite successivement les distributions normales et log-normales (§ 6.6), les distributions tde Student (§ 6.7), les distributions 2 de Pearson (§ 6.8) et les distributions Fde Fisher-