









Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
Este documento aborda o conceito de correlação e regressão estatísticas, explicando os princípios básicos, tipos de correlação linear, calculo do coeficiente de correlação, e aplicação da regressão para estudar a relação entre variáveis. Além disso, o texto fornece exemplos práticos e aplicações da análise de correlação e regressão.
Tipologia: Resumos
1 / 17
Esta página não é visível na pré-visualização
Não perca as partes importantes!
Avaliar o grau de relacionamento entre variáveis e a tendência das mesmas com base em observações de uma série de dados.
Ao final desta aula, o estudante deverá: Saber calcular e interpretar o grau de correlação entre variáveis? Saber calcular e interpretar a tendência de comportamento entre variáveis?
Conhecimentos sobre estatística descritiva e estatística indutiva, temas vistos em aulas anteriores, além de Papel, Calculadora ou Computador para realização dos cálculos.
Bioestatística
Olá! Tudo bem? Vamos dar seqüência ao nosso estudo da estatística com a introdução de temas relacionados com Correlação e Regressão linear. Nesta aula você vai tomar conhecimento que a regressão e a correla- ção linear são técnicas destinadas a estudar o relacionamento entre duas variáveis. Estas relações além de serem importantes são fáceis de serem interpretadas e podem ser aplicada em muitos estudos da vida real e consequentemente em estudos biológicos. A análise de correlação tem por objetivo medir a intensidade de rela- ção entre as variáveis, devemos estar atentos aos princípios desta relação. Nas correlações supostamente lógicas, as relações causais se compreen- dem claramente. Nas chamadas correlações ilusórias não se encontra ne- nhuma conexão razoável entre as variáveis. Assim o tamanho de uma po- pulação de insetos pode estar correlacionado com a altura de certas ervas ou, pode ser simplesmente uma função do tempo. Pode não haver relação ecológica entre as plantas e os insetos, mas sim com uma outra variável. Também vamos estudar os tipos de correlação e como calcular o co- eficiente de correlação. Na regressão você vai aprender a estimar a relação de uma variável com outra, expressando a variável dependente em função da variável in- dependente. A regressão estuda conjuntos de variáveis que se supõe estar numa relação de causa e efeito. O estudo da regressão vai te conduzir a um acompanhamento da tendência da variável dependente em função do comportamento da variável independente.
Bioestatística
Tipos de Correlação:
Correlação Simples – quando se estuda o grau de relação entre duas variáveis, sendo uma dependente (Yi ) e outra independente (Xi).
Correlação Múltipla – quando se estuda o grau de relação simultânea entre a variável dependente e duas ou mais variáveis independentes.
Correlação Parcial – no caso de uma relação múltipla, quando se estuda a relação pura entre duas variáveis, depois de eliminada estatisticamente a influencia de outras variáveis independentes.
Investiga a existência de associação entre duas variáveis, isto é, o grau de inter-relacionamento entre a variável dependente e a independente. Porém devemos ficar atentos que a correlação linear simplesmente comprova uma variação concomitante entre duas variáveis, não significando, a priori, que uma é causa da outra, visto que muitas outras variáveis, não consideradas no estudo, podem afetar o comportamento da variável dependente. De acordo com a relação entre as variáveis esta correlação pode ser:
Direta ou Positiva – quando a variável dependente está diretamente re- lacionada com a variável independente. Ex.: Renda e Consumo.
Indireta ou Negativa – quando a variável dependente tem relação in- versamente proporcionalmente com a variável independente. Ex.: Preço e Demanda.
Nula – quando não há inter-relação entre as variáveis.
O diagrama de dispersão indica a forma da relação entre as variáveis estudadas e proporciona uma idéia sobre as funções de regressão a serem utilizadas. A depender da relação entre as variáveis, os pontos observa- dos, às vezes, se encontram, relativamente, próximos da linha de regres-
Correlação linear, tipos de correlação. regressão linear pelo... (^) Aula
são e em outras situações bastante disseminados em torno dela. Para^10 melhor quantificar esta “aproximação” é necessário determinar um coefi- ciente de correlação entre as variáveis. Porém não devemos interpretar a palavra “correlação” como a que quantifica uma relação de causa (ex: emissão do Banco Central) e efeito (ex: índice de preços ao consumidor). O valor obtido assinala unicamente uma relação funcional em determi- nado conjunto de dados.
Coeficiente de Correlação (r) é a medida estatística que dimensiona o grau de relação entre duas ou mais variáveis.
Sendo: xi ⇒ desvios reduzidos da variável independente(xi =Xi –X)
y (^) i ⇒ desvios reduzidos da variável dependente (yi = Yi - Y). n (^) ⇒ número de valores observados. sx e sy ⇒ desvio padrão das respectivas variáveis.
r = ∑ xi yi (n – 1) * s (^) x* .sy
O coeficiente de correlação, também, pode ser calculado através do estudo das variâncias. A variância total (σt^2 ) é a soma da variância explicada (σe^2 ) mais a variância residual (σr^2 ), isto é: σt^2 = σe^2 + σr^2. Dividindo ambos os membros da equação pela variância total te- mos: 1 = σe^2 /σt^2 + σr^2 /σt^2. A razão σr^2 /σt^2 corresponde ao coeficiente de alienação (k 2 ) e mede o grau de afastamento entre as variáveis, enquan- to que σe^2 /σt^2 mede o grau de aproximação existente entre as variáveis, sendo conhecido por coeficiente de determinação (r^2 ). Neste caso podemos encontrar o coeficiente de correlação a partir do coeficiente de determinação, isto é:
Existindo uma perfeita relação entre as variáveis o coeficiente de determinação (r 2 ) é igual a um (1), enquanto o de alienação é zero. O coeficiente de correlação pode, no máximo, ser igual a ± 1. Isto é:
intervalo: – 1 ≤ r ≤ 1.
Para: r =1 ou r = –1 ⇒ perfeita correlação positiva ou negativa. Para: r = 0,5 ou r = – 0,5 ⇒ regular correlação positiva ou negativa.
A medida que o valor de r se aproxima de 1 ou de –1 a correlação entre as variáveis vai se tornando forte. Quando r tende para “zero” a
Correlação linear, tipos de correlação. regressão linear pelo... (^) Aula
Equação de Regressão^10
Ý (^) i – Y = ( X (^) i – X) ⇒ Y (^) i – 69,4 = (X (^) i – 172)
Ýi = – 69,4 + 0,88 Xi
Peso esperado para um estudante com 196 cm de altura.
Ýi = – 69,4 + 0,88 (196) ⇒ Ý (^) i ≅ 90kg
Avaliação da Estimativa
Variância Total: st^2 =18,9333 Variância Residual: sr^2 = 4,
Variância Explicada: se^2 = 14,
Coeficiente de Variação Residual: Cr = 3,05%
Coeficiente de Determinação: r^2 ≅ 0,7744 ≅ 77,
É o estudo do comportamento de uma variável dependente (Yi) em fun- ção da variação de uma ou mais variáveis independentes (Xi , Zi , Wi , ...) supondo que estas variáveis estão numa relação de causa e efeito. Regressão Linear: A relação funcional entre as variáveis implica na possi- bilidade de estimar o valor de uma variável, dado o valor da outra, de acordo a função matemática que apresente melhor aderência aos dados observados. Convém, porém observar que em algumas situações, a relação entre as variáveis podem não estar sujeita a uma relação de causa e efeito. Por uma simples relação acidental ambas podem ser função de uma causa comum que as afeta. Isto, porém, não tira a importância que tem a regres- são no estudo do relacionamento entre variáveis. É preciso apenas cuida- do e nos casos mais difíceis de identificação da relação, pode-se optar por uma regressão múltipla, para maior segurança de análise e das projeções a serem efetuadas. Na regressão a variável independente (Xi) se mede sem erro. Ela não varia ao acaso, está sempre ao controle do investigador. Somente a variá- vel dependente (Y (^) i) é que é aleatória, e esta sujeita a pequenas variações (afastamentos) a depender do grau de relação entre as variáveis e do modelo de regressão utilizado.
r s (^) y sx
4, 4,
0,88*
Bioestatística
Assim a dosagem de certo tipo de droga (Xi) aplicada em pacientes, está sobre o controle do pesquisador, porém a pressão sangüínea (Yi ) é aleatória, dependendo, portanto, da relação causa-efeito entre as variáveis. A determinação de uma equação de ajuste depende do comporta- mento dos dados, inicialmente observados pelo diagrama de dispersão entre as variáveis, com conclusão assegurada pelo “critério dos mínimos qua- drados” que indica como melhor função ajustante aquela que minimiza a soma dos quadrados das diferenças entre os valores observados (Yi ) e os estimados (Ýi ) pelas respectivas funções: ∑ (Yi – Ýi )^2 = mínimo. Isto é, quanto menor a variância residual, melhor a equação ajustante. Na regressão ente duas variáveis as principais relações a serem estu- dadas são: Yi = a + bXi ; Y (^) i ⇒ a. b Xi^ ; Y (^) i ⇒ a + bXi + c Xi^2 ; Yi ⇒ a. Xib etc
Uma vez especificada a forma de relação entre as variáveis, deve-se estimar os coeficientes da função, obtendo assim a equação de Regres- são. Para isto é preciso ter informações acumuladas (mínimo de 10 itens) das variáveis estudadas para se descobrir a tendência de seu comporta- mento (regularidade); e, dessa forma, escolher qual dos modelos existen- tes de regressão é o mais apropriado. Algumas funções ajustantes podem ser identificadas pelas diferenças entre os valores observados da variável dependente. Se as primeiras dife- renças: (Y 2 – Y 1 ); (Y 3 – Y 2 ); ... ;(Y (^) n – Y (^) n-1) forem mais ou menos constan- tes, dizemos que a variável se ajusta a uma reta. No caso das segundas diferenças se apresentarem mais ou menos constantes, a variável se ajus- ta a uma parábola do segundo grau. O diagrama de dispersão também nos fornece boa orientação do tipo de função que melhor se ajusta aos dados. Porém, a decisão final, quanto à melhor função ajustante depende do coeficiente de variação resi- dual e/ou do coeficiente de determinação , visto que a medida de aderência é representada pela minimização dos resíduos entre os valores observados e os estimados pela função de regressão. Conhecida a equação ajustante e reconhecida a sua máxima aderên- cia, isto é: menor variância residual podemos fazer previsões do compor- tamento da variável dependente para os próximos períodos da série estu- dada. Mesmo assim é preciso muita cautela, tendo em vista a multiplicidade de fatores que podem influir nos resultados obtidos pela regressão. Por exemplo: a produção agrícola não depende apenas da pluviometria, outros fatores como: qualidade das sementes, esgotamento do solo, fertilizantes, etc., podem influir decisivamente no volume de produção, fatos que na realidade desprezamos quando aplicamos a re- gressão linear.
Bioestatística
k = ∑ (Yi – a – bX (^) i )^2 = mínimo
δk= – 2∑ (Yi – a – b Xi ) e δk = – 2∑X (^) i (Yi – a – bX (^) i) δa δb
Para que Z seja mínimo as derivadas parciais devem ser iguais a zero.
Equação Ajustante: ⇒ Ý (^) i = a + bXi
Substituindo Ýi (por a + bXi) na equação ∑ (Yi – Ý (^) i )^2 = mínimo e derivando parcialmente a equação em relação aos coeficientes “a” e “b” encontramos um sistema de equações, que nos permite estimar os coefi- cientes da equação de regressão.
Exemplo: consideremos os dados relativos a quantidade de fertili- zante utilizada (X (^) i ) e a produção obtida (Y (^) i ) de soja em determinado município, conforme tabela a seguir:
Para termos uma idéia inicial do modelo de regressão a ser utilizado, elaboramos o diagrama de dispersão das variáveis. Pela tendência apre- sentada vamos trabalhar uma função linear, cujos coeficientes podem ser obtidos pelas equações normais ou pelos desvios reduzidos das respecti- vas variáveis.
Correlação linear, tipos de correlação. regressão linear pelo... (^) Aula
10
100 40 4.000 10. 200 45 9.000 40. 300 50 15.000 90. 400 65 26.000 160. 500 70 35.000 250. 600 70 42.000 360. 700 80 56.000 490. 2800 420 187.000 1.400.
Fertilizante (Xi) Produção (Y (^) i) X (^) i *Y (^) i Xi^2
Coeficientes da Reta
∑Yi = na + b∑Xi ⇒ 420 = 7a + 2.800b
∑Yi X (^) i = a∑X (^) i + b∑X (^) i^2 ⇒ 187.000 = 2.800a + 1.400.000b
a = 32,86 e b= 0,
Equação Ajustante: Ýi = a + bXi ⇒ Ý (^) i = 32,86 + 0,068Xi
A função linear Ý (^) i = 32,86 + 0,068X (^) i - fornece a relação entre a produção obtida (Y (^) i) e a quantidade de fertilizante empregada (Xi ). Este modelo pode ser utilizado para estimar a variável dependente de acordo com o comportamento da variável independente. Isto é, admitindo a uti- lização de 800 kg de fertilizante por ha a produção esperada de soja é de 87 toneladas. Para melhor avaliar se a equação ajustante encontrada é a opção mais adequada, devemos calcular a o erro de estimativa por intermédio do desvio padrão residual e comparar com a de outros modelos de regressão. A função que apresentar menor erro de estimativa, isto é: menor Coefici- ente de Variação Residual é a melhor opção. Variância residual: é calculada entre os valores observados e estima- dos da variável dependente, para um mesmo período. A raiz quadrada deste valor representa o Erro Padrão de estimativa ou Desvio Padrão Residual.
sr^2 = ∑(Yi – Ýi)^2 / (n – 1) Variância Residual Relativa: s (^2) rr = s^2 r / Y
Correlação linear, tipos de correlação. regressão linear pelo... (^) Aula
Coeficientes da Reta^10
∑Yi = na + b∑Xi ∑X (^) i Yi = a∑X (^) i + b∑X (^) i^2
3282 = 10a + 45b 16.792 = 45a + 285b
a = 217,86 e b = 24,
Equação Ajustante: Ý (^) i = a + bXi ⇒ Ý (^) i = 217,86 + 24,52Xi
Estimativa do consumo residual de energia elétrica.
Ý 97 = 463 (1000 Mwh); Ý 98 = 488 (1000 Mwh) e Ý 99 = 512 (1000Mwh).
Uma característica a ser observada nas estimativas é que a soma dos valores ajustados sempre é igual a soma dos valores observados: ∑Ýi = ∑Yi.
Avaliação das Estimativas
Idade 1 2 3 4 5 6 7 C. Alimentar 5,6 5,2 4,8 4,5 4,4 2,9 2,
Bioestatística
Altura (cm) 23 17 26 23 24 26 19 21 24 27 Peso (kg) 1,5 1,2 1,8 1,4 1,7 2,0 1,6 1,9 1,7 2,
Horas 3 5 10 12 10 2 6 8 Produção 24 32 42 48 46 15 35 38
Idade (mês) 6 15 24 33 42 51 Custo Médio 9,7 16,5 19,3 19,2 26,9 29,
Ano 1990 1991 1992 1993 1994 1995
Número 115 103 94 85 74 65
Semana Xi 1 2 3 4 5 6 7 8 9 10 Peso Xi 3,5 5,0 7,5 8,0 8,5 8,5 9,0 9,5 10,0 10,
Bioestatística
Correlação é o estudo do grau de associação entre variáveis. Na cor- relação interessa observar se duas ou mais variáveis são independentes ou variam juntas. Como o objetivo de análise de correlação é medir a intensidade de relação entre as variáveis, você deve estar atento aos princípios desta relação. Nas correlações supostamente lógicas, as relações causais se com- preendem claramente. Nas chamadas correlações ilusórias não se encon- tra nenhuma conexão razoável entre as variáveis. De acordo com a relação entre as variáveis a correlação linear pode ser: direta ou positiva, indireta ou negativa e nula. O diagrama de dispersão indica a forma da relação entre as variáveis estudadas e proporciona uma boa visão sobre as funções de regressão a serem utilizadas. Mas para melhor qualificar esta aproximação é necessá- rio determinar o coeficiente de correlação entre as variáveis, cujo valor sempre está em um intervalo entre menos um a mais um, e escolher a equação de regressão mais adequada. A função de regressão pode ser obtida a partir do estudo da correla- ção, bem como a partir da aplicação dos mínimos quadrados entre os valores observados e os esperados da variável dependente. Dispondo da equação de regressão você deve calcular a variância residual e consequentemente o erro de estimativa para cada regressão. Uma boa regressão sempre trabalha com uma margem de erro menor do que 10% e quanto mais próximo de “zero” estiver este erro melhor é a equação de regressão.
Sou capaz de fazer estudos sobre correlação linear? Sou capaz de fazer estudos sobre regressão linear? Sou capaz de construir diagramas de dispersão e calcular erro de esti- mativas?
Correlação linear, tipos de correlação. regressão linear pelo... (^) Aula
REFERÊNCIAS^10
RODRIGUES, PEDRO CARVALHO. Bioestatística. Universidade Fe- deral Fluminense. FONSECA, JAIRO DA. Curso de Estatística. Editora Atlas. OLIVEIRA, FRANCISCO ESTEVAM MARTINS DE. Estatística e Pro- babilidade. Editora Atlas. TANAKA. Elementos de Estatística. Editora McGraw.Hill. BARBETTA, PEDRO A. Estatística aplicada às Ciências Sociais. Editora da UFSC. GÓES, LUIZ A. C. Estatística I e II. Editora Saraiva. DÍAZ, FRANCISCA; LOPES, FRANCISCO JAVIER. Bioestatística. Editora Thomson.