




























































































Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
Conceitos e técnicas de data mining, utilizando o software r. O conteúdo inclui tópicos como análise de componentes principais (pca), validação cruzada, trade-off de viés-variância, modelos de regressão spline, gams, tibbles, subsetting, ranking, summarise, visualização de dados e análise exploratória. O documento também apresenta exemplos práticos e exercícios para consolidar o aprendizado.
Tipologia: Esquemas
1 / 253
Esta página não é visível na pré-visualização
Não perca as partes importantes!
Capacitação em data Mining e machine learning usando o software R..
40 horas
O curso tem o objetivo que o(a) aluno(a) seja capaz de utilizar métodos numéricos, teorias de algoritmos e heurísticas para a solução de problemas que demandem mineração de dados e aprendizado de máquina.
· Métodos não lineares;
· Métodos de árvore;
· Métodos não supervisionados;
· Texto como base de dados;
· Aplicações usando o software R.
Aulas expositivas, atividades práticas (execução e construção de códigos em R) e estudos de casos.
75% de frequência nas lives ;
MORETTIN, Pedro A.; BUSSAB, Wilton O. Estatística básica. Saraiva Educação SA, 2017.
MOUNT, John; ZUMEL, Nina. Practical data science with R. Simon and Schuster, 2019.
JAMES, Gareth et al. An introduction to statistical learning. New York: springer, 2013.
PROVOST, Foster; FAWCETT, Tom. Data Science for Business: What you need to know about data mining and data-analytic thinking. " O'Reilly Media, Inc.", 2013.
OZDEMIR, Sinan. Principles of data science. Packt Publishing Ltd, 2016.
Um elemento central da inferência frequentista é o erro padrão. Suponha que um algoritmo tenha produzido uma estimativa de um parâmetro de interesse, por exemplo, a média 𝑥𝑥´ = 0.751 a partir de uma amostra. É natural perguntar: Quão precisa é a estimativa? Neste caso, a fórmula (1.2) para o desvio padrão σ de uma média amostral fornece o erro padrão estimado: 𝑠𝑠𝑏𝑏𝑏𝑏 = 0.
Para muitos casos a estimativa do erro padrão não é um problema, mas mas estimadores mais complexos pode ser. O jackknife (1957) foi um primeiro passo em direção a uma abordagem baseada em computação, para erros padrão. O bootstrap (1979) foi ainda mais longe na automação de uma ampla variedade de cálculos inferenciais, incluindo erros padrão. Além de poupar os estatísticos do esgotamento de cálculos rotineiros tediosos, o jackknife e o bootstrap abriram as portas para algoritmos de estimação mais complicados.
JACKKNIFE
Jackknife é uma técnica de reamostragem que visa estimar a variabilidade de uma estatística a partir de uma única amostra. A ideia principal é criar réplicas da amostra, cada uma delas deixando de fora um dos pontos de dados, e calcular a estatística de interesse em cada uma dessas réplicas.
As aplicações básicas são em problemas de uma única amostra, onde se observou uma amostra independente e identicamente distribuída (iid) 𝑥𝑥 = (𝑥𝑥 1 , 𝑥𝑥 2 , … , 𝑥𝑥𝑛𝑛) de uma distribuição de probabilidade desconhecida 𝐹𝐹 em algum espaço 𝑋𝑋, onde 𝑥𝑥𝑖𝑖 segue uma distribuição 𝐹𝐹 para 𝑖𝑖 = 1,2, … , 𝑛𝑛. 𝑋𝑋 pode ser qualquer coisa: a reta real, o plano, um espaço de funções. Uma estatística real-valued 𝜃𝜃^^ é calculada aplicando algum algoritmo 𝑠𝑠(⋅) a 𝑥𝑥, onde
𝜃𝜃^ = 𝑠𝑠(𝑥𝑥)
.
Desejamos atribuir um erro padrão a 𝜃𝜃^. Ou seja, desejamos estimar o desvio padrão de 𝜃𝜃^ = 𝑠𝑠(𝑥𝑥)
Seja 𝑥𝑥(𝑖𝑖) a amostra com 𝑥𝑥𝑖𝑖 removido: 𝑥𝑥(𝑖𝑖) = (𝑥𝑥1, 𝑥𝑥2,... , 𝑥𝑥𝑖𝑖 − 1, 𝑥𝑥𝑖𝑖 + 1,... , 𝑥𝑥𝑛𝑛),
e denote o valor correspondente da estatística de interesse como 𝜃𝜃^(𝑖𝑖) = 𝑠𝑠�𝑥𝑥(𝑖𝑖)�.
Então, a estimativa do jackknife para o erro padrão de 𝜃𝜃^^ é:
𝑠𝑠𝑠𝑠^ (^) jack = �
2
𝑛𝑛
𝑖𝑖=
onde $\hat\theta}_{(.)}$ é a média de 𝜃𝜃^(𝑖𝑖)’s, ou seja, 𝜃𝜃^(.) = (^1) 𝑛𝑛 ∑ 𝑛𝑛𝑖𝑖=1 𝜃𝜃(𝑖𝑖).
No caso em que 𝜃𝜃^^ é a média 𝑥𝑥´ de valores reais 𝑥𝑥 1 , 𝑥𝑥 2 , … , 𝑥𝑥𝑛𝑛 (ou seja, X é um intervalo da reta real), 𝜃𝜃^(𝑖𝑖) é a média excluindo 𝑥𝑥𝑖𝑖, que pode ser expressa como:
A Equação de 𝑠𝑠𝑠𝑠^ (^) jack com 𝜃𝜃^(.) = 𝑥𝑥´, 𝜃𝜃(𝑖𝑖) − 𝜃𝜃(.) = 𝑥𝑥´𝑛𝑛−1−𝑥𝑥𝑖𝑖 , e
𝑠𝑠𝑠𝑠^ (^) jack = �
exatamente a mesma fórmula clássica de 𝑠𝑠𝑠𝑠. Isso não é coincidência. O fator de correção 𝑛𝑛− 𝑛𝑛 foi inserido para fazer com que^ 𝑠𝑠𝑠𝑠^^ jack^ concorde com^ 𝑠𝑠𝑠𝑠^ quando^ 𝜃𝜃
Resumindo, com uma amostra x = (x1, x2, …, xn). O procedimento do jackknife é o seguinte:
𝑠𝑠𝑠𝑠^ (^) jack = �
𝑛𝑛
𝑖𝑖=
onde Θ é a estatística calculada na amostra original.
Vale ressaltar algumas características de $ _{}$:
Um exemplo de como realizar o jackknife em R usando a função jackknife() do pacote bootstrap:
Neste exemplo, usamos uma amostra simples x com os valores (2, 3, 4, 5, 6). A função mean_func() calcula a média dos dados, que é a estatística de interesse. Em seguida, aplicamos a função jackknife() com a amostra e a função de estatística especificadas.
O resultado do jackknife é armazenado na variável jackknife_results, que contém estatísticas como as réplicas da estatística, viés, variância e outros. Usamos a variância para estimar o erro padrão, que é armazenado na variável jackknife_se.
Finalmente, os resultados do jackknife e o erro padrão estimado são impressos na tela.
Exemplo viés
𝑠𝑠 2 =
𝑛𝑛
𝑖𝑖=
BOOTSTRAP
A analogia central do bootstrap é
A população esta para a amostra assim como a amostra esta para as amostras de bootstrap
Para calcular os erros padrão a serem usados nos intervalos de confiança, precisamos conhecer a distribuição amostral da estatística de interesse.
No caso de uma média, podemos recorrer ao teorema do limite central se o tamanho da amostra for suficientemente grande.
O bootstrap adota uma abordagem diferente. Utilizamos a amostra como um estimador da distribuição amostral. Por exemplo,considerando que
distribuição amostral ≈ distribuição populacional
podemos substituir a distribuição amostral pela distribuição populacional e, em seguida, gera novas amostras para obter uma distribuição amostral.
O bootstrap baseia-se no princípio da substituição. O princípio de substituição afirma que, quando algo é desconhecido, deve-se usar uma estimativa dele. Um exemplo é o uso do desvio padrão da amostra no lugar do desvio padrão da população , ao calcular o erro padrão da média
O bootstrap usa a distribuição empírica como uma substituição para a distribuição populacional desconhecida.
O que é Aprendizado Estatístico?
Assumindo que exista alguma relação entre uma resposta quantitativa 𝑌𝑌 e 𝑝𝑝 preditores diferentes 𝑋𝑋 = 𝑋𝑋 1 , 𝑋𝑋 2 , … , 𝑋𝑋𝑝𝑝 então, podemos escrever na forma geral:
𝑌𝑌 = 𝑓𝑓(𝑋𝑋) + 𝜖𝜖
onde 𝑓𝑓 é uma função fixa, mas desconhecida, de 𝑋𝑋 = 𝑋𝑋 1 , 𝑋𝑋 2 , … , 𝑋𝑋𝑝𝑝, e o termo 𝜖𝜖 representa o
erro aleatório, que é independente de 𝑋𝑋 e tem média zero. O aprendizado estatístico é um conjunto de métodos para estimar adequadamente 𝑓𝑓.
Vamos analisar os dados Advertising onde o objetivo é investigar a relação entre publicidade e vendas de um determinado produto. O conjunto de dados de publicidade consiste nas vendas desse produto em 200 mercados diferentes, juntamente com os valores gastos em publicidade do produto em cada um desses mercados em três mídias diferentes: TV, rádio e jornal. Os dados são exibidos na Figura abaixo.
Não é possível aumentar as vendas diretamente. Então o investimento em propaganda é uma forma de promover as vendas, e a solução foi pagar por publicidade em cada uma das três mídias. Desta forma, se for comprovado que existe uma associação entre publicidade e vendas, podemos recomendar ao cliente o investimento em publicidade, o que aumentaria indiretamente as vendas. Em outras palavras, nosso objetivo é desenvolver um modelo que possa ser usado para prever as vendas com base nos valores
investidos nas três. Neste problema, os valores gastos em publicidade são variáveis de entrada, ou também chamada de variáveis independentes ou preditores. Vendas é a variável de saída , variável resposta ou dependente. As variáveis de entrada são geralmente representadas pela letra 𝑋𝑋. Como são três variáveis, usaremos um índice para diferenciá-las. No caso, 𝑋𝑋 1 pode ser o orçamento da TV, 𝑋𝑋 2 o orçamento do rádio e 𝑋𝑋 3 o orçamento do jornal. A variável dependente, a variável vendas, é geralmente representada pela letra 𝑌𝑌. (Estas são apenas as notações mais comuns nas bibliografias, mas poderia ser utilizada qualquer outra).
Generalizando, suponha que uma resposta quantitativa 𝑌𝑌 com 𝑝𝑝 preditores diferentes, 𝑋𝑋 1 , 𝑋𝑋 2 , … , 𝑋𝑋𝑝𝑝. Assumimos que existe alguma relação entre 𝑌𝑌 e 𝑋𝑋 = 𝑋𝑋 1 , 𝑋𝑋 2 , … , 𝑋𝑋𝑝𝑝, que pode ser
escrita na forma bem geral como:
𝑌𝑌 = 𝑓𝑓(𝑋𝑋) + 𝜖𝜖
onde 𝑓𝑓 é uma função fixa e desconhecida de 𝑋𝑋 1 , 𝑋𝑋 2 , … , 𝑋𝑋𝑝𝑝 e que representa a informação sistemática. O 𝜖𝜖, é o erro aleatório.
Suponha no caso do Advertising que a relação entre vendas e despesas com TV fosse conhecida e representada pela linha azul na figura abaixo. Neste caso, foi selecionado uma amostra que estão representados por pontos e as linha tracejadas em laranja, mostram os erros associada a cada observação - distância do valor observado e o valor real. Estes erros variam para cima ou para baixo da reta, de modo geral tem média zero.
O aprendizado estatístico se refere a um conjunto de métodos para estimar 𝑓𝑓 e estes métodos visam dois propósitos: Predição ou Inferência
Voltando ao caso do Advertising, na realidade a relação entre vendas e despesas com TV é desconhecida. Na tentativa de explicar as vendas a partir das despesas com TV foi ajustado um modelo linear, representada pela linha vermelha na figura abaixo. Os valores observados estão representados por pontos e as linhas tracejadas agora representam em laranja agora representam o erro de predição - distância do valor predito e o valor observado. Estes erros variam para cima ou para baixo da reta, de modo geral tem média zero.
Inferências
Muitas vezes o interesse está na compreensão da associação entre 𝑌𝑌 e 𝑋𝑋 1 , … , 𝑋𝑋𝑝𝑝. Nesta situação, desejamos estimar 𝑓𝑓, mas o objetivo não é necessariamente fazer previsões para 𝑌𝑌. Agora 𝑓𝑓^^ não pode ser tratado como uma caixa preta, porque é preciso saber sua forma exata. Nesse cenário, pode-se estar interessado em responder às seguintes perguntas
Em alguma modelagem pode ser conduzida tanto para previsão quanto para inferência e diferentes métodos para estimar 𝑓𝑓 podem ser apropriados. Por exemplo, modelos lineares permitem inferências relativamente simples e interpretáveis, mas podem não produzir previsões tão precisas quanto algumas outras abordagens. Em contraste, algumas das abordagens altamente não lineares podem potencialmente fornecer previsões bastante precisas para 𝑌𝑌, mas com um modelo menos interpretável para o qual a inferência é mais desafiadora ou inviável.
No caso do Advertising, na relação entre vendas e despesas com TV, como mostrado na figura anterior, o modelo obtido é mostrado abaixo e seus parâmetros podem ser interpretados. Obviamente a uma série de pressupostos para que a suposições sobre estes parâmetros sejam válidas
𝑌𝑌^ = 7.032 + 0.0475𝑥𝑥
model <- lm (Sales ~ TV, data = advertising)
term estimate std.error statistic p.value (Intercept) 7.03259355 0.457842940 15.36028 1.40630e- TV 0.04753664 0.002690607 17.66763 1.46739e-
Precisão e interpretabilidade do modelo
As escolha do métodos a ser utilizado tem relação direta com este balanço entre a precisão da previsão e a interpretabilidade do modelo. Dos muitos métodos existentes, alguns são menos flexíveis ou mais restritivos para estimar 𝑓𝑓. Por exemplo, a regressão linear é uma abordagem relativamente inflexível, porque só pode gerar funções lineares. Outros modelos são mais flexíveis porque podem gerar uma gama muito mais ampla de formas possíveis para estimar 𝑓𝑓. Desta forma é razoável perguntar: por que usar um método mais restritivo em vez de uma abordagem mais flexível? Existem várias razões pelas quais podemos preferir um modelo mais restritivo. Se estivermos interessados principalmente em inferência, então os modelos restritivos são muito mais interpretáveis. Por exemplo, quando a inferência é o objetivo, o modelo linear pode ser uma boa escolha, pois será bastante fácil entender a relação entre 𝑌𝑌 e 𝑋𝑋 1 ,^ 𝑋𝑋 2 , … ,^ 𝑋𝑋𝑝𝑝. Em contraste, abordagens muito flexíveis, como as splines, e os métodos boosting, podem levar a estimativas tão complicadas de 𝑓𝑓 que seria inviável entender como qualquer um dos preditores está associado à resposta.