Docsity
Docsity

Prepare for your exams
Prepare for your exams

Study with the several resources on Docsity


Earn points to download
Earn points to download

Earn points by helping other students or get them with a premium plan


Guidelines and tips
Guidelines and tips

Analyse de Régression Linéaire Simple: Exercices et Solutions, Assignments of Statistics

great way to study for final exam and get ready for the assignements

Typology: Assignments

2020/2021

Uploaded on 04/30/2021

mrriizzy
mrriizzy 🇨🇦

5

(1)

5 documents

1 / 20

Toggle sidebar

This page cannot be seen from the preview

Don't miss anything!

bg1
Solutions exercices supplémentaires
Chapitre 12 : Régression
Question 1
Dans une région on effectue une étude sur l'endettement des ménages. L'endettement est
mesuré à l'aide du total des soldes qui comprend les soldes à une société prêteuse,
banque, caisse populaire, magasins, cartes de crédit… Pour expliquer le total des soldes
(variable Y), on envisage de procéder par analyse de régression et, comme variable
explicative, on considère la variable suivante : le revenu hebdomadaire du ménage (X).
Auprès d'un échantillon de 20 ménages de cette région, on a recueilli les données
suivantes :
Numéro du Solde Revenu
ménage hebdomadaire
Y X
1 0 380
2 3 384 735
3 3 998 489
4 5 975 640
5 32 665 1 250
6 8 380 707
7 4 307 450
8 4 016 560
9 5 670 454
10 12 925 509
11 16 975 670
12 1 222 301
13 15 125 1 037
14 908 300
15 0 435
16 7 211 574
17 9 300 574
18 3 574 495
19 4 000 516
20 16 000 1 660
a) Au niveau de signification 0.01, peut-on affirmer que la variable X explique Y de
façon significative ?
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14

Partial preview of the text

Download Analyse de Régression Linéaire Simple: Exercices et Solutions and more Assignments Statistics in PDF only on Docsity!

Solutions exercices supplémentaires

Chapitre 12 : Régression

Question 1

Dans une région on effectue une étude sur l'endettement des ménages. L'endettement est mesuré à l'aide du total des soldes qui comprend les soldes à une société prêteuse,

banque, caisse populaire, magasins, cartes de crédit… Pour expliquer le total des soldes

(variable Y), on envisage de procéder par analyse de régression et, comme variable explicative, on considère la variable suivante : le revenu hebdomadaire du ménage (X).

Auprès d'un échantillon de 20 ménages de cette région, on a recueilli les données suivantes :

Numéro du Solde Revenu ménage hebdomadaire Y X

a) Au niveau de signification 0.01, peut-on affirmer que la variable X explique Y de façon significative?

Réponse :

À partir des données ci-dessus, on peut trouver les résultats suivants : ∑ xi = 12 736

∑ yi = 155 635

∑ xi^2 = 10 196 920 ∑ yi^2 = 2 376 741 735

∑ xiyi = 135 930 828

En utilisant les formules vues en classe,

b 1 = 17.

b 0 = -3455.

SCT = 1 165 629 074

SCreg = 649 799 045. SCres = SCT – SCreg = 515 830 028.

s^2 = SCres / (n-2) = 28 657 223.

sb1^2 = s^2 / [∑ xi^2 – n ̅^2 ] = 13.

Les hypothèses à tester sont les suivantes :

H 0 : β 1 = 0 versus H 1 : β 1 ≠ 0.

La statistique à employer est :

Tobservé = b 1 / sb1 = 17.64681 / (^) √13.733701 = 4.

On rejette H 0 si | Tobservé| > tα/2 (n-2). Dans la table de la distribution de Student on trouve tα/2 (n-2) = t0.005 (18) = 2.878. Puisque la valeur |Tobservé| est supérieure à la valeur critique on

rejette H 0 et on conclut que la régression est significative.

b) Si un ménage a un revenu hebdomadaire de 100 $ de plus qu'un autre, de combien

peut-on s'attendre à ce que le total de ses soldes va augmenter ou diminuer en moyenne par rapport à cet autre ménage?

Réponse : La pente de la droite de régression, c’est-à-dire b 1 = 17.64681, donne l’augmentation

moyenne des soldes pour chaque dollar de revenu hebdomadaire additionnel. Ainsi, dans le cas présent les soldes vont augmenter de 100 * b 1 = 100 * 17.64681 = 1764.68 $

c) Si l'on observe un nouveau ménage en dehors de notre échantillon et s'il a un revenu

hebdomadaire de 800 $, alors estimer le total des soldes de ce ménage par un intervalle de confiance à 95 %.

Réponse : [ ] [ ]

[ 1283 , 27 ; 1619 , 016 ]

2

2 2

10 2

1

2 10

1

2

2 2

2 0

0

3

3

Donc

S
S

x x x x

S
S

SY x

LI LS SY x avec

b

e i

i

i

i

e b  − = = = 

= − + × ±

 

=

2. Tester si la régression est significative au seuil α = 5 %.

Réponse :

1 1

0 1 ≠

ββββ

ββββ H

H

1

1 1 0 =

S b

b T

ββ ββ

On rejette H 0 si |T 0 | > tα/2 (n-2). Ici |T 0 | = 5.0769 et tα/2 (n-2) = t0.025(8) = 2.306, donc on rejette H 0 et on déclare que la régression est significative.

Question 3

Une compagnie a enregistré les données concernant les demandes quotidiennes de son produit Y en milliers d'unités ainsi que le prix unitaire X en centaines de dollars sur une période de 11 jours. Cette information se résume comme suit :

ΣX = 154 ΣX^2 = 2 586

ΣY = 451 ΣY^2 = 18 901

ΣXY = 5 930 SCres = 67.

a) À l'aide de cette information, quelle est la droite de régression estimée par la méthode des moindres carrés?

Solution :

1 1 2 2 1

n i i i n i i

x y nx y

b

x nx

=

=

b 0 = y − b x 1 = 41 + 0 893 14 , * =53 502 ,

ˆ y = 53.502 – 0.893 x

b) Calculez le coefficient de détermination.

Solution :

2 2

2 2 1 2 1 2 2

1

2586 2156 430 0 893 0 797 0 836 48901 18491 410

, , ,

n i i yx (^) n

i i

x nx r b

y ny

=

=

− − = = = = − −

Note : une petite erreur s’est glissée ci-dessus : remplacer 48901 par 18901 au dénominateur. Tout le reste est ok.

c) Effectuer un test afin de déterminer si la pente est significativement différente de zéro au niveau α = 0.05.

Solution :

La statistique de test est:

1

1 b

b

s

t =

Calculons sb1 : s^2 = SCres / ( n -2) = 67.08 / (11-2) = 7.

(^1 ) 2

, où s= MCres

i i

b

i i

s

s

x x n

 

1

s b =

1

1 b

b -0,

s 0,

t =

On rejette H 0 si | t | > tα/2 (n-2). Ici, on a que | t | = |-6.765| = 6.765. De plus,

c) Construire un intervalle de confiance au niveau 95 % pour le coefficient β 1.

Solution :

L’intervalle de confiance pour β 1 est obtenu grâce à la formule suivante :

[Li, Ls] = [b 1 ± tα/2 (n-2) s(b 1 )].

Ainsi l’intervalle de confiance pour β 1 est donc : [1.466 ± 2.447 * 0.099] = [1.224 , 1.708]

d) Vérifier à l’aide d’un test approprié au niveau α = 0.05 si les dépenses en publicité expliquent significativement le profit réalisé par le magasin d’articles de sport.

Solution : On doit effectuer un test d’hypothèses sur β 1.

Ainsi, H 0 : β 1 = 0 et H 1 : β 1 ≠ 0

Tobservé = b 1 / s b1 = 1.466 / 0.099 = 14.81. On rejette H 0 si |Tobservé| > tα/2 (n-2). Ici,

  • |Tobservé| = |14.81| = 14.
  • tα/2 (n-2) = t0.025 (6) = 2. Ainsi, on rejette H 0 : β 1 = 0. On conclut que les dépenses en publicité expliquent significativement le profit réalisé.

e) Estimer à l’aide d’un intervalle de confiance au niveau 95 % le profit moyen (en %) qu’un magasin de ce type qui consacre 1.8 % de ses dépenses en publicité peut espérer réaliser.

Solution : On cherche l’intervalle de confiance autour de la droite de régression.

[Li, Ls] = [(b 0 + b 1 xo) ± tα/2 (n-2) s( (^) y ˆ |x 0 )]

Calculons s( y ˆ^ |x 0 ). Pour ce faire, nous aurons besoin de Σ(xi - ̅)^2 :

s b1^2 = s^2 / Σ(xi - ̅)^2

Σ(xi - ̅)^2 = s^2 / s b1^2 = (0.24159)^2 / (0.099)^2 = 5.

2 2

2 0 0 =

x x

x x n

sy x Se i

Ainsi :

[Li,Ls] = [(0.707 + 1.466 (1.8)) ± 2.447 (0.092)] = [3.3458 ± 0.2244] = (3.12%; 3.57%)

f) Estimer à l’aide d’un intervalle de confiance au niveau 95 % le profit moyen (en %) que l’on croit qu’un magasin particulier d’articles de sport va réaliser s’il s’agit d’un nouveau magasin qu’on a l’occasion d’observer et si ce magasin consacre 1.8 % de ses dépenses pour la publicité.

Solution : On cherche l’intervalle de prévision pour une nouvelle observation de X.

[Li, Ls] = [(b 0 + b 1 xo) ± tα/2 (n-2) s ind]

s ind^2 = s^2 + s( (^) y ˆ |x 0 )^2 = (0.24159)^2 + (0.092)^2 = 0.

Ainsi,

[Li, Ls] = [(0.707 + 1.466 (1.8)) ± 2.447 (^) √0.0668] = [3.3458 ± 0.632] = (2.71 % , 3.98 %)

Question 5

On a recueilli auprès d'un échantillon de 15 familles de 4 personnes les données

concernant les 2 variables suivantes :

X : le revenu hebdomadaire net (en $) ; Y : les dépenses en nourriture (en $).

On a obtenu les résultats suivants :

^ Xi =^ 4 075^  Xi^2 =^ 1 221 075

^ Yi =^ 1 258^  Yi^2 =^ 106 638

^ XiYi =^ 349 370

Calculons la statistique t 0 = b 1 / s b1. Ainsi, nous devrons calculer l’écart type du paramètre b 1.

( ) 48 , 11 13

625 , 44 2

ˆ

2

1

2 1

2 (^2) = = −

=

  = = n

y y

n

e S

n

i

i i

n

i

i e

0 , 0004 114033 , 35

48 , 11

( ) 1

2

2 2 1 = = −

=

n

i

i

e b X X

S S

1

=^1 −^1 = =

b

o

S

b

t

On rejette H 0 si |t 0 | > tα/2 (n-2). Ici,

  • | t 0 | = |3.34| = 3.
  • tα/2 (n-2) = t0.025 (13) = 2. Ainsi, on rejette H 0 : β 1 = 0. On conclut que la régression est significative. .

d) Si le revenu hebdomadaire net augmentait de 25 $, de combien cela affecterait-il les dépenses en nourriture?

Solution :

La pente de la droite de régression, c’est-à-dire b 1 = 0.668, donne l’augmentation

moyenne des dépenses en nourriture pour chaque dollar de revenu hebdomadaire additionnel. Ainsi, dans le cas présent les dépenses en nourriture vont augmenter de 25 *

b 1 = 25 * 0.668 = 1.67 $

e) Estimez, à l'aide d'un intervalle de confiance à 95 %, la moyenne des dépenses en nourriture d'une famille dont le revenu hebdomadaire net est de 500 $.

Solution :

6 , 9361 0 , 7238 5 , 02 114033 , 35

15

500 4075

15

48 , 11 1 ( )

(ˆ )^1 ( )

2

1

2

2 = × =

 

  

 (^) − = × + −

= + −  =

n

i

i

o o e X X

x X n

SYx S

[ ] ( )

[ ( + × )± = ] =[ ± × ] =

0 , 025 ( 13 )

2

1

o

o o o

t SY x

LI LS b bx t α n SY x

L’intervalle de confiance donne donc : [88.29$, 109.97$].

f) Calculez le coefficient de corrélation et interprétez-le d'après le contexte du problème.

Solution :

r = (signe de b 1 ) √ 2

= + (^) √0. = 0.

On pourrait affirmer qu’il existe une bonne relation de dépendance POSITIVE entre le revenu hebdomadaire net et les dépenses en nourriture.

Question 6

Un courtier en immeubles d’une ville de Québec aimerait construire un modèle qui lui permettrait de prévoir la valeur marchande d’une maison unifamiliale à partir d’une variable explicative qui serait facile à observer pour lui. Comme facteur explicatif du prix d’une maison (variable dépendante Y en 1000 $), il envisage la variable suivante :

X 1 : la superficie du plancher (mesurée en 100 m^2 )

À partir d’un échantillon aléatoire de 25 maisons unifamiliales qui ont été vendues l’an dernier dans sa ville, le courtier veut savoir si le facteur superficie (X 1 ) peut expliquer le prix de la maison. Pour ce faire, il procède à une analyse de régression simple dont les résultats se présentent comme suit :

s = 7. r^2 = 0. b 0 = 56. b 1 = 11. sb1 = 2.

a) Déterminer l’équation de la droite de régression empirique y ˆ = b 0 + b 1 X 1.

Question 7

La société de transport Laviolette veut établir une politique d’entretien des camions de sa flotte. Tous les camions sont du même modèle et sont utilisés pour des transports semblables. La direction de la société est d’avis que le coût direct de déplacement (Y, en cents par km) est fonction du temps écoulé depuis la dernière inspection de ce camion (X). On a donc recueilli un échantillon de taille n = 26 sur ces deux variables. Les données relatives à cet échantillon et les résultats de l’analyse de régression de Y en X apparaissent ci-dessous :

s = 3. r^2 = 0. b 0 = 3. b 1 = 2. sb1 = 0.

Récapitulatif des observationsa

10,00 3, 18,00 7, 24,00 10, 26,00 9, 30,00 11, 11,00 6, 10,00 5, 24,00 8, 25,00 7, 8,00 4, 19,00 6, 20,00 9, 25,00 12, 22,00 8, 19,00 10, 18,00 9, 22,00 11, 14,00 6, 16,00 8, 26,00 10, 30,00 12, 17,00 5, 15,00 7, 12,00 4, 24,00 11, 12,00 5, 26 26

1 2 3 4 5 6 7 8 9

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Total N

COÛT NBMOIS

a. Limité aux 100 premières observations

a) Construire un intervalle de confiance à 95 % pour la moyenne de y si on attend 10 mois avant de faire l’inspection d’un camion.

Réponse : Soit x 0 = 10 mois, l’intervalle de confiance pour Y ˆ^ est :

[LI; LS] = [b 0 + b 1 x 0 ± tα/2 (n-2) * s( Y ˆ^ /x 0 )]

où:

  • ( ) (^ )^0 , 8859 172 , 4310

( 10 7 , 8077 ) 26

3 , 4404 1 ( )

ˆ 1 2 2

2 9 = = + − −

= + −  x x

x x n

SY x Se i

o

  • tα/2 (n-2) = t0.025 (24) = 2.

[LI; LS] = [b 0 + b 1 x 0 ± tα/2 (n-2) d.l. x s ( Y ˆ^ /x 0 )]

= [ 3 , 114 + 2 , 049 ( 10 )±2,063x0,8859] =

= [21.77 , 25.43]

b) Tester si la régression est significative au seuil α = 5 %.

Réponse : Nous devons ici effectuer le test d’hypothèses H 0 : β 1 = 0 versus Ha : β 1 ≠ 0.

On rejette H 0 si | t 0 | > tα/2 (n-2) où :

  • | t 0 | = | b 1 / sb1 | = | 2.049 / 0.262 | = | 7.82 | = 7.
  • tα/2 (n-2) = t0.025 (24) = 2.

Donc, on doit rejeter H 0 : β 1 = 0. On conclut que la régression est significative.

c) La droite obtenue de régression s’ajuste-t-elle bien aux observations? Justifier votre réponse au moyen d’un indice approprié.

Réponse : Pour répondre à cette question on doit utiliser le coefficient de détermination r^2. Puisque r^2 est égal à 0.718, on peut affirmer que la droite s’ajuste assez bien aux observations.

H 0 : β 1 =

H 1 : β 1 ≠ 0

La statistique du test est T 0 = b 1 / sb

Afin de calculer sb1 nous devons calculer les termes suivants :

SCT = ∑ yi^2 – [ (∑ yi)^2 / n ] = 42 249 – [ (627)^2 / 10 ] = 2936.

SCreg = num^2 / denom

où :

  • num = ∑ xiyi – [ (∑ xi) * (∑ yi) / n ] = 43 118 – [ 636 * 627 / 10 ] = 3240.
  • denom = ∑ xi^2 – [(∑ xi)^2 / n ] = 44 028 – [ (636)^2 / 10 ] = 3578.

Ainsi, SCreg = (3240.8)^2 / 3578.4 = 2935.

SCres = SCT – SCreg = 2936.1 - 2935.05 = 1.

s^2 = SCres / (n-2) = 1.04952 / (10-2) = 0.

Avec toute cette information, on trouve que :

Sb1^2 = s^2 / [ ∑ xi^2 – n ̅^2 ] = 0.13119 / [ 44 028 – (10 * 63.6^2 ) ] = 0.

sb1 = (^) √0.000036662 = 0.0060549.

T 0 = 0.905656 / 0.0060549 = 149.

On rejette H 0 si |T 0 | > tα/2 (n-2) où |T 0 | = |149.6| = 149.6 et t0.025 (8) = 2.306.

Conclusion : on doit rejeter l’hypothèse nulle. On détermine que la régression est significative.

c) Donner un indice de la qualité de l’ajustement de la droite aux données échantillonnées.

Solution :

Nous devons donner le coefficient de détermination r^2.

r^2 = SCreg / SCT = 2935.05 / 2936.1 = 0.

L’ajustement est quasi parfait!

d) Quelle valeur d’un bâtiment peut-on anticiper d’une usine dont le terrain est évalué à environ 55 000 $? Pour cela, calculer un intervalle de prévision à 95 %.

Solution :

Nous devons utiliser l’intervalle de prévision suivant :

[^ LI^ , LS ] =^ ( b o +^ b 1 xo )±^ t α

2

[ ( n^ −^ 2). S ( Yo^ −^ Y ˆ o^ )] et

S ( YoY ˆ o ) = Se 1 + 1 n

  • ( xo^ −^ X^ )

2

( XiX )^2 i = 1

n

S(Y 0 -  0 )^2 = s^2 (1 +

  + [ ( x^0 -^ ̅)

(^2) / (∑ xi (^2) – n ̅ (^2) ) ] )

  + [ (55 – 63.6)

2 / (44 028 – (10 * 63.6 2 )) ] )
[LI , LS] = 5.10027 + (0.905656 * 55) ± (2.306 * √0.147)

= [ 54.0272 , 55.7956 ] en 10 milliers de dollars = [ 540 272 $ , 557 956 $ ]

Question 9

i- En analyse de la régression, la variable prédite est: a. la variable dépendante b. la variable indépendante c. la variable d'intervention d. aucune de ces réponses.

ii- L'application de la méthode des moindres carrés permet d'estimer l'ordonnée à l'origine et la pente de façon à minimiser la somme des écarts au carré entre: a. les valeurs observées de la variable indépendante et les valeurs estimées de la variable indépendante b. les vraies valeurs de la variable indépendante et les valeurs estimées de la variable dépendante c. les valeurs observées de la variable dépendante et les valeurs estimées de la variable dépendante d. aucune de ces réponses.

vii- Nous sommes intéressés à déterminer la relation entre la demande quotidienne d'un article (y) et son prix unitaire (x). Un échantillon prélevé sur 10 jours a fourni les données suivantes:

Σx = 66 Σx^2 = 526 Σy = 71 Σy^2 = 605 Σxy = 557

a. Déterminez l'équation estimée de la régression par la méthode des moindres carrés. b. Calculez le coefficient de détermination et interprétez-le. c. Au seuil de signification de 5%, existe-t-il une relation significative entre les deux variables?

Solution :

a) Y$^ = 0.6460177 + 0.977876x

b) r^2 = [(0.977876)^2 * ( 526 – (10 * 6.6^2 ) ) ] / [ 605 – (10 * 7.1^2 ) ] = 0.

85.67% de la variation dans la demande est expliquée par la variation dans le prix, ce coefficient est proche de 1, la droite de régression semble adéquate pour les données observées.

c)

Nous devons ici effectuer un test d’hypothèses sur le paramètre β 1.

Posons les hypothèses H 0 et H 1.

H 0 : β 1 =

H 1 : β 1 ≠ 0

La statistique du test est T = b 1 / sb

Afin de calculer sb1 nous devons calculer les termes suivants :

SCT = ∑ yi^2 – [ (∑ yi)^2 / n ] = 605 – [ (71)^2 / 10 ] = 100.

SCreg = num^2 / denom

où :

num = ∑ xiyi – [ (∑ xi) * (∑ yi) / n ] = 557 – [ 66 * 71 / 10 ] = 88.

denom = ∑ xi^2 – [(∑ xi)^2 / n ] = 526 – [ (66)^2 / 10 ] = 90.

SCreg = (88.4)^2 / 90.4 = 86.

SCres = SCT – SCreg = 100.9 - 86.444 = 14.

s^2 = SCres / (n-2) = 14.45575 / (10-2) = 1.

Avec toute cette information, on trouve que sb1 = 0.141381.

T = 0.977876 / 0.141381 = 6.

On rejette H 0 si |T| > tα/2 (n-2) où |T| = |6.92| = 6.92 et t0.025 (8) = 2.306.

Conclusion : on doit rejeter l’hypothèse nulle. On détermine que la régression est significative.