









Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
Um resumo de um capítulo sobre regressão linear simples, incluindo a interpretação do coeficiente de correlação, valores de r e suas interpretações, hipóteses de nulo e alternativa, e cálculos de intervalos de confiança. O documento utiliza exemplos e problemas para ilustrar as concepções.
Tipologia: Resumos
1 / 15
Esta página não é visível na pré-visualização
Não perca as partes importantes!
1
PPGEP/UFRGS
CAPÍTULO 9REGRESSÃO LINEARSIMPLES
PPGEP
UFRGS
PPGEP/UFRGS
PPGEP
REGRESSÃO LINEAR SIMPLES •^
Em muitos problemas há duas ou mais variáveis que são relacionadas, e pode ser importante modelar essarelação. •
Por exemplo, a resistência à abrasão de um composto de borracha pode depender da quantidade de óleoadicionada à mistura. •
Assim, é possível construir um modelo relacionando resistência à abrasão com quantidade de óleo, e entãopode-se usar esse modelo para fins de otimização econtrole de processo.
3
PPGEP/UFRGS
REGRESSÃO LINEAR SIMPLES •^
Outro exemplo, as vendas de um produto podem estar relacionadas ao valor gasto em marketing com esseproduto. Assim, é possível construir um modelorelacionando vendas à gastos com marketing, e entãopode-se usar esse modelo para fins previsão de vendas. •
Em geral vamos supor que há uma variável dependente (ou variável de resposta)
que depende de
k
variáveis
independentes (ou variáveis regressoras)
. k -
A relação entre essas variáveis será descrita por um modelo matemático, chamado modelo de regressão, oqual é definido (ajustado) a um conjunto de dados.
PPGEP/UFRGS
PPGEP
Algumas vezes a relação funcional entre
e
k^
é
conhecida exatamente. Outras vezes o pesquisador deverábuscar o modelo apropriado testando diferentes funções. •
Modelos polinomiais são largamente utilizados como uma função aproximada da verdadeira relação entre
e
, e
REGRESSÃO LINEAR SIMPLESpor isso serão descritos no capítulo 10.
5
PPGEP/UFRGS
Modelos de regressão são usados com freqüência na análise de dados provenientes de experimentos nãoplanejados (observações de um fenômeno não controladoou dados históricos). •
Mas a análise de regressão também é muito útil no caso REGRESSÃO LINEAR SIMPLESde experimentos planejados que incluem fatores a níveiscontínuos. Nesse caso a análise de variância é usada paraidentificar os fatores significativos, e a seguir a análise deregressão é usada para construir um modelo que incorporeesses fatores.
PPGEP/UFRGS
PPGEP
Correlação •^
Para uma amostra de
n
pares de valores
(x,y)
o
coeficiente de correlação
r^
fornece uma medida da relação
linear que existe entre duas variáveis aleatórias
e
7
PPGEP/UFRGS
Cálculo do coeficiente de correlação
x
n
x
xx
i^
i
∑
∑
2
2
y
n
y
yy
i^
i
∑
∑
2
2
x y
n
x
y
xy
i^
i^
i^
i
∑
∑
∑ 1
Desvio-padrão de X:
Desvio-padrão de Y:
Covariância de X,Y:
yy
xx
xy
PPGEP/UFRGS
PPGEP
Coeficiente de correlação •^
Para
uma
interpretação
adequada
do
coeficiente
de
correlação,
e
deveriam ser variáveis aleatórias, ao
contrário
do
que
acontece
nos
problemas
de
regressão,
onde
é aleatória, mas
é considerada uma variável fixa.
Mesmo assim, é prática comum calcular
r^
em quase
todos
os
casos,
isto
é,
com
aleatória
ou
não.
coeficiente de correlação linear “r” mede a intensidade darelação linear entre duas variáveis
13
PPGEP/UFRGS
Cálculos iniciais
Meses(X) Rendimento(Y)
X^
Y^
X*Y
1
10,
1
114,
10,
2
10,
4
118,
21,
3
10,
9
116,
32,
4
9,
16
86,
37,
5
9,
25
90,
47,
6
10,
36
108,
62,
7
9
49
81
63
8
9,
64
86,
74,
9
7,
81
57,
68,
10
7,
100
57,
76
11
7,
121
62,
86,
12
7,
144
59,
92,
78
110,
650
1039,
673,
6,
9,
i^
(^2) i
i^
(^2) i
14
PPGEP/UFRGS
PPGEP
Cálculos
Desvio-padrão de X:Desvio-padrão de Y:Covariância de X,Y:Coeficiente de correlação:Interpretação:
Existe uma correlação linear inversa na amostra
entre meses após a regulagem e rendimento. A intensidadedesta correlação é forte.
(^
)^
(^
)^
(^00) ,
143
(^12) /
78
650
2
2
2
=
−
=
−
=
∑
∑
n
x
x
S
i
i
XX
(^
)^
(^34) , 18
(^12) /
(^70) ,
110
(^55) ,
1039
2
2
2
=
−
=
−
=
n
y
y
S
i
i
YY
(^
)(
)^
(^45) , 46
(^12) / ) (^70) ,
110
(^78) (
(^1) ,
673
− = × − = − =
n y x y x S i
i
i i
XY
(^907) , 0
18, x (^00) ,
143
(^45) , 46
− = − = × =
yy
xx
xy
S
S
S
r
15
PPGEP/UFRGS
Teste de hipótese para coeficiente decorrelação •
A hipótese da existência de uma relação entre
e
pode ser formulada usando-se: H
0
1
onde a letra
é usada para representar o valor
populacional do coeficiente de correlação. Pode serdemonstrado que o valor de
t^
pode ser calculado usando:
2
16
PPGEP/UFRGS
PPGEP
Teste de hipótese para coeficiente decorrelação •^
Assim a hipótese da existência de uma relação entre
e
pode ser verificada diretamente a partir do valor amostral
do coeficiente de correlação. Como sempre a hipótese nulaserá rejeitada se o valor calculado for maior que o tabelado: •
Para o exemplo em estudo tem-se:
ou seja, descarta-se a hipótese nula e conclui-se que existe correlação entre as variáveis estudadas.
2
, (^2) /
−
n
α
, 0
(^10) ; (^025) , 0
2
se
rejeita
(^228) , 2
(^82) , 6
)
(^907) , 0 (
1
2
12
(^907) , 0
H
t
t^
⇒ = > − = − −
−
17
PPGEP/UFRGS
Regressão Linear Simples •
A regressão linear simples estima uma equação matemática (ou modelo) que dado o valor de
(variável
independente), prevê o valor de
(variável dependente).
É dito relação linear simples, pois supõe-se tendência linear entre as variáveis e simples por ser uma únicavariável independente •
Seja que existam dados coletados (pares de valores) associando uma variável de resposta
com uma
variável regressora
PPGEP/UFRGS
PPGEP
Regressão Linear Simples •
E suponha que a relação entre
e
seja
aproximadamente linear. Então o valor esperado de
para
cada valor de
virá dado por:
β
0
β
1
onde os parâmetros da relação linear,
β
0
e
β
, são 1
desconhecidos. Vamos supor que cada observação
possa ser descrita pelo modelo:
β
0
β
1
ε
onde
ε
é o erro aleatório, com média 0 e variância
σ
A eq. (1) é chamada de modelo de regressão linear simples.
19
PPGEP/UFRGS
O coeficiente
β
0
é a
interseção
(valor de
para
enquanto que
β
1
é a
inclinação
da reta, que pode ser
positiva, negativa ou nula. •
Se há
n
pares de dados
(y
, x 1
), ..., (y 1
n
, x
)n
é possível
estimar os parâmetros
β
0
e
β
1
usando o método dos
Mínimos Quadrados e tendo como objetivo minimizar:
(y
i^
- b
0
- b
1
x
)i
2
onde
b
0
e
b
1
são estimativas amostrais de
β
0
e
β
uso do método conduz às seguintes estimativas:
b
1
XY
XX
X b
Y
bo
−
=
Humm...Mas, comoestimar b
o^
e
b
1
?
PPGEP/UFRGS
PPGEP
Cálculos iniciais Σ
x
i^
x
(^2) i
y
i^
y
(^2) i
Estimativa dos parâmetros: b
1
XY
XX
b
0
Equação de regressão Y = 11,34 - 0,325 X
(^
)^
143
2
2
=
−
=
n
x
x
S
i
i
XX
(^
)^
(^34) , 18
2
2
=
−
=
∑
∑
n
y
y
S
i
i
YY
(^
)(
)
x y
x
y
n
XY
i i
i^
i
25
PPGEP/UFRGS
Intervalos de Confiança e Testes de Hipótese
Como os resíduos de
supostamente seguem a
distribuição Normal, e como os valores de
a
e
b
são
funções lineares de
, é possível demonstrar que:
Esses resultados podem ser usados em testes de hipótese. Por exemplo, se a hipótese é: •
então calcula-se:
Z = (b
1
β
10
σ
b
(^
)
(^
) 2 1 b 1
1
2 0 b 0
0
,
N
b
,
N
b
σ β
→
σ β
→
10
1
1
10
1
0
β ≠
β
β
PPGEP/UFRGS
PPGEP
Isto é, testa-se se a inclinação é igual a zero, o que equivale a testar se existe uma relação entre
e
Usando a eq. (2) tem-se:
t = b
1
b
que deve ser comparado com o valor tabelado
Como sempre,
0
será rejeitado se
2 n, 2 /
−
α
2 n, (^2) /
t
t^
−
α
27
PPGEP/UFRGS
e, para um nível de probabilidade
α
0
será rejeitada
se resultar
. Como em geral a variância
2
não
é conhecida, usa-se:^ t = (b
1
β
10
b
e nesse caso
0
é rejeitada se
O intervalo de confiança para
β
1
virá dado por
Uma hipótese testada com freqüência é:
(^2) /
Z
Z
α
2 n, 2 / t
t^
−
α
1 b 2 / 1 1 1 b 2 / 1
α
α
0
:
H
0
:
H
1
1
1
0
≠ β
= β
PPGEP/UFRGS
PPGEP
Exemplo 9.3: Usando os dados do
problema do consumo
de combustível,
obtenha as estimativas para a variância
residual e para a variância dos parâmetros
b
0
e
b
Construa um intervalo de confiança para a inclinação
b
1
e verifique a hipótese. •
Estimativa das variâncias
YY
XY
1
0 b
XX
2
2
2
0 b
1 b
XX
2
2
1 (^2) b
29
PPGEP/UFRGS
Intervalo de confiança para
b
1
t^ 0,025;
β
1
β
1
Como esse intervalo não inclui o zero, a hipótese
β
1
é rejeitada, ou seja, existe uma relação entre o consumo de combustível e o tempo decorrido após aregulagem.
PPGEP/UFRGS
PPGEP
A análise de regressão produz uma relação entre as variáveis consideradas, a qual pode ser usada para prevervalores de
Dado um certo valor de
X = x
, há dois tipos de 0
previsão: previsão de um valor médio de
e previsão de
um valor individual de
Nos dois casos a estimativa pontual de
é a mesma,
O intervalo de confiança é mais amplo para o caso de previsões de valores individuais.
31
PPGEP/UFRGS
A variância dos valores preditos irá depender não somente de S
2 , mas também do valor de x
. Isso acontece porque 0
as previsões são mais precisas quando x
0
e menos
precisas quando x
0
aproxima-se dos extremos
Pode ser demonstrado que a variância da previsão de um valor médio de Y vem dada por:
n
x
Y p
X X
2
2
0
2
X
PPGEP/UFRGS
PPGEP
Como pode ser visto, a variância da previsão é mínima quando x
0
e aumenta quando x
0
afasta-se de
Assim, o intervalo de confiança para a previsão de um valor médio virá dado por:
μ
Y
= (b0 + b1 X0)
t
α
/2 ; n-
p Y S
37
PPGEP/UFRGS
Na figura a seguir, (a) representa uma situação onde o ajuste é adequado, enquanto (b) representa uma situaçãoonde o modelo linear não se ajusta bem aos dados. •
Se o modelo linear não fornece um bom ajuste, às vezes o problema pode ser contornado trabalhando-se com valorestransformados de X ou Y, por exemplo,
X
Re
0
4
8
12
16
20
(^210) -1 -
Re
0
4
8
12
16
20
(^210) -1 -
X
(a)
(b) X
X
onde
X b
b
Y
X
b
b
Y
1
0
1
0
= ∗
∗
=
=
PPGEP/UFRGS
PPGEP
X
Re
0
4
8
12
16
20
(^210) -1 -
(a)
X
Re
0
4
8
12
16
20
(^3210) -1-2 - (b)
Homogeneidade da variância
A suposição de homogeneidade da variância
σ
2
ao longo
de todo o intervalo de X também pode ser verificadaanalisando o gráfico de Resíduos
A figura a seguir apresenta uma situação (a) onde verifica- se a suposição de homogeneidade, enquanto que em (b) essasuposição é violada.
39
PPGEP/UFRGS
Se a suposição de homogeneidade da variância é rejeitada, pode-se usar o método da regressão linearponderada, onde se busca os valores de
β
0
e
β
1
que
minimizam
w
i^
(y
i^
- (b
0
+ b
1
x
))i
2
Nesse caso, os pesos
w
i^
são inversamente
proporcionais à variância.
Homogeneidade da variância
PPGEP/UFRGS
PPGEP
Normalidade dos Resíduos •^
O teste da normalidade da distribuição dos resíduos pode ser feito plotando-se os resíduos em papel de probabilidadeou utilizando testes analíticos de normalidade, como o testedo Chi-quadrado ou o teste de Kolmorov-Smirnov. •
Se a suposição de normalidade é rejeitada, muitas vezes uma transformação matemática nos valores de X e Y(logaritmo, inverso, raiz quadrada) irá gerar valorestransformados com resíduos normalmente distribuídos. •
Então o problema é analisado no espaço das variáveis transformadas e ao final retorna-se ao espaço original.
41
PPGEP/UFRGS
Intervalo de Variação para X
A variância da inclinação
b
1
aumenta quando se reduz
o intervalo de variação de
. Se o intervalo é pequeno,
b
será grande e nesse caso será difícil rejeitar a
hipótese
0
: b
1
Em outras palavras, se a relação entre
e
é medida
em um intervalo reduzido de
, os parâmetros estimados
não terão muito significado estatístico. •
Se o objetivo é construir um modelo de regressão, deve- se coletar dados nos extremos do intervalo de
, ou
seja, nos limites de interesse e viabilidade práticos ounos limites em que se supõe válida a relação linear.
PPGEP/UFRGS
PPGEP
A Análise de Variância e a Regressão •^
A análise de variância também é aplicável aos problemas de regressão. Na regressão simples, podemosdecompor os resíduos da seguinte maneira: •
Elevando ao quadrado e somando, obtém-se:
Uma vez que o produto cruzado resulta nulo. Essa equação também pode ser escrita como:
YY
= SQR + SQReg
Cujos graus de liberdade valem respectivamente:
(n - 1) = (n - 2) + 1
(^
)
[^
]
(^
)^
[^
(^
)]
Y
Y
y^
b
b X
b
b X
Y
i^
i^
i^
i
−
=
−
−
0
1
0
1
[^
]
(^
)^
(^
)
Y
Y
y^
b
b X
b^
b X
Y
i^
i^
i^
i
−
=
−
−
∑
∑
∑ 2
0
1
2
0
1
2
43
PPGEP/UFRGS
Assim, a média quadrada associada com o modelo de regressão e a média quadrada dos resíduos resultam:
MQReg = SQReg / 1MQR = SQR / (n - 2)
E o teste
é feito comparando
MQReg
, com
ou seja,
F = MQReg / MQR
A hipótese nula,
0
β
1
, será rejeitada sempre que
α
, 1, n-
A seguir apresenta-se a tabela ANOVA, contendo o formulário prático para o cálculo das Somas Quadradase os demais desenvolvimentos até o teste
A Análise de Variância e a Regressão
PPGEP/UFRGS
PPGEP
A tabela ANOVA, contendo o formulário prático para o cálculo das Somas Quadradas e os demaisdesenvolvimentos até o teste F Fonte deVariação
SQ
GDL
MQ
F
Regressão
SQReg = b
1
S
XY
1
MQReg
MQReg/MQR
Residual
SQR=S
YY
- b
S 1
XY
n - 2
MQR
Total
S
YY
n - 1
Tabela ANOVA
49
PPGEP/UFRGS
Regressão Não Linear Simples •
Se o ajuste linear é deficiente, muitas vezes é possível encontrar uma solução aproximada, e em geral satisfatória,utilizando uma transformação em
e/ou em
Em forma genérica, teríamos:
f(y) = b
0
+ b
1
g(X) +
ε
__*^
= b
0
+ b
1
__*^
ε
Os possíveis valores de
__*^
= f(y)
seriam
y
1/y
y
2
ln y
etc. Igualmente, para
__*^
= g(x)
poderíamos usar
x
1/x
x
ln x
, etc.
Uma vez definida a transformação, e confirmada em um gráfico de dispersão a relação aproximadamente linearentre
__*^
e
__* , poderia-se usar o método apresentado
anteriormente para obter as estimativas de
β
0
e
β
PPGEP/UFRGS
PPGEP
Regressão Não Linear Simples • Note-se que o método dos mínimos quadrados aplicadoaos valores transformados, isto é, minimizando
[ f (yi) - (b0 + bi g (xi))]2,
não vai fornecer os mesmos resultados que seriam obtidos minimizando
[ yi - h (xi)]2,
onde h (x) é uma função não linear de x. • Contudo, as diferenças em geral são pequenas e nãocomprometem a análise.
51
PPGEP/UFRGS
Exercícios •
9.1 Em um processo químico, a quantidade de sólidos depositada pode depender da concentração de umcomponente
que é adicionado à mistura. Ajuste um
modelo de regressão linear aos dados que aparecem aseguir. Depois plote a reta de regressão e os valoresobservados. •
9.2 Para os dados do exercício 9.1, calcule a variância residual e a variância dos parâmetros b
0
e b
. Depois 1
construa um intervalo de confiança de 95% para ainclinação b
1
e verifique a hipótese
0
β
1
Conc.
0
0
0
2
2
2
4
4
4
6
6
6
8
8
8
Depos.
13,3 11,5 12,9 14,1 13,3 16,1 14,9 15,9 18,1 17,5 16,5 18,9 20,3 18,5 20,
PPGEP/UFRGS
PPGEP
9.3 Calcule os resíduos padronizados
i^
i^
- (b
0
+ b
1
)] / Si
para os dados do exercício 9.1. Em seguida, plote
um gráfico de
Resíduos
e verifique se há evidências
de falta de ajuste do modelo linear ou falta dehomogeneidade da variância. •
9.4 Ainda em relação aos dados do exercício 9.1, calcule os intervalos de confiança para um valor médio e para umvalor individual de
usando
x
0
e
x
0
9.5 Um torno mecânico pode ser operado a diversas velocidades. Contudo, a qualidade do acabamento, ou seja,a rugosidade superficial, pode piorar com o aumento davelocidade de operação. Ajuste um modelo de regressãolinear aos dados que aparecem a seguir e depois plote areta de regressão e os valores observados.
Velocidade
3
3
3
6
6
6
9
9
9
12
12
12
Rugosidade
26,0 21,
33,
36,
27,5 37,
41,
28,0 39,
43,
37,
50,
53
PPGEP/UFRGS
9.6 Para os dados do exercício 9.5, calcule a variância residual e a variância dos parâmetros
b
0
e
b
. Depois, 1
construa um intervalo de confiança de 95% para a inclinação b
1
e verifique a hipótese da existência de uma relação entre
velocidade e rugosidade superficial. •
9.7 Faça a análise de variância para os dados do exercício 9.5 e confirme a significância do modelo de regressão linear.Em seguida calcule o valor do coeficiente de determinação eindique qual o significado técnico desse coeficiente para oproblema em questão.
PPGEP/UFRGS
PPGEP
9.8 O gerente de uma indústria localizada em um país tropical suspeita que há uma correlação entre a temperaturado dia e produtividade. Dados coletados aleatoriamente aolongo de um período de seis meses revelaram o seguinte: •
9.9 Calcule o valor do coeficiente de correlação entre a Temperatura e a produtividade e verifique a hipótese
0
ρ
Depois plote um gráfico de dispersão e visualize a naturezada correlação entre Temperatura e Produtividade.
Temperatura
21,
20,
22,
22,
22,
23,
24,
24,
25,
25,
25,
25,
Produtividade
142
148
131
132
145
138
144
136
141
124
133
128
Temperatura
27,
26,
28,
28,
29,
29,
30,
30,
30,
31,
32,
32,
Produtividade
132
137
124
117
122
131
124
111
119
129
123
116
55
PPGEP/UFRGS
9.9 A análise de 20 pares de valores indicou que a resistência à tração
de uma fibra sintética usada na
indústria têxtil guarda uma relação linear com apercentagem de algodão
presente na fibra. A equação
obtida foi
fornecido em percentagem,
equação válida para o intervalo de
entre 20 e 35%).
Conhecidos os valores das Somas Quadradas
XY
e
YY
=79,43 pede-se:
a) Faça a análise de Variância e conclua a respeito dasignificância do modelo.b) Calcule o valor do coeficiente de determinação
(^2) r
e
indique qual o seu significado técnico.
PPGEP/UFRGS
PPGEP
9.10 Um sofisticado simulador estocástico de tráfego fornece a velocidade média em avenidas de umametrópole em função do volume de automóveis. Oresultado de 14 simulações revelou o seguinte: •
Ajuste um modelo linear a esses dados e ache a equação de regressão
Y = b
+ b 0
1
V o l. d eT r á f e g o
3
3
5
5
1 0
1 0
1 5
1 5
2 0
2 0
2 5
2 5
3 0
3 0
V e l o c i d .M é d ia
9 5 , 6
9 3 , 8
7 4 , 4
7 4 , 8
5 0 , 5
5 1 , 5
4 4 , 6
4 2 , 4
3 5 , 8
3 8 , 7
3 2 , 0
3 , 2
3 0 , 1
2 9 , 1