Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Métodos Estatísticos Aplicados a Data Mining usando o Software R - Módulo I e II, Esquemas de Econometria

Conceitos e técnicas de data mining, utilizando o software r. O conteúdo inclui tópicos como análise de componentes principais (pca), validação cruzada, trade-off de viés-variância, modelos de regressão spline, gams, tibbles, subsetting, ranking, summarise, visualização de dados e análise exploratória. O documento também apresenta exemplos práticos e exercícios para consolidar o aprendizado.

Tipologia: Esquemas

2024

Compartilhado em 04/10/2024

nertan-cruz-1
nertan-cruz-1 🇧🇷

7 documentos

1 / 253

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
MÉTODOS ESTATÍSTICOS APLICADOS A DATA MINING
USANDO O SOFTWARE R
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Pré-visualização parcial do texto

Baixe Métodos Estatísticos Aplicados a Data Mining usando o Software R - Módulo I e II e outras Esquemas em PDF para Econometria, somente na Docsity!

MÉTODOS ESTATÍSTICOS APLICADOS A DATA MINING

USANDO O SOFTWARE R

SUMÁRIO

    1. PROGRAMA DA DISCIPLINA
  • 1.1 EMENTA
  • 1.2 CARGA HORÁRIA TOTAL
  • 1.3 OBJETIVO
  • 1.4 CONTEÚDO PROGRAMÁTICO
  • 1.5 METODOLOGIA
  • 1.6 CRITÉRIOS DE AVALIAÇÃO
  • 1.7 BIBLIOGRAFIA RECOMENDADA
  • CURRICULUM VITAE DO PROFESSOR
  • REAMOSTRAGEM
  • JACKKNIFE
  • BOOTSTRAP
  • MODELOS..........................................................................................................
  • APRENDIZADO ESTATÍSTICO
  • K-FOLD CROSS VALIDATION
  • MODELOS DE REGRESSÃO
  • SELEÇÃO DE MODELOS
  • MODELOS NÃO LINEARES
  • FUNÇÕES DE BASE
  • REGRESSÕES SPLINE
  • CLASSIFICAÇÃO
  • CLASSIFICAÇÃO
  • AVALIAÇÃO DE CLASSIFICAÇÃO
  • MÉTODO DE ÁRVORES
  • APRENDIZADO NÃO SUPERVISIONADOS
  • PCA
  • MÉTODOS DE AGRUPAMENTO

1. PROGRAMA DA DISCIPLINA

1.1 Ementa

Capacitação em data Mining e machine learning usando o software R..

1.2 Carga horária total

40 horas

1.3 Objetivo

O curso tem o objetivo que o(a) aluno(a) seja capaz de utilizar métodos numéricos, teorias de algoritmos e heurísticas para a solução de problemas que demandem mineração de dados e aprendizado de máquina.

1.4 Conteúdo programático

· Métodos não lineares;

· Métodos de árvore;

· Métodos não supervisionados;

· Texto como base de dados;

· Aplicações usando o software R.

1.5 Metodologia

Aulas expositivas, atividades práticas (execução e construção de códigos em R) e estudos de casos.

1.6 Critérios de avaliação

75% de frequência nas lives ;

1.7 Bibliografia recomendada

MORETTIN, Pedro A.; BUSSAB, Wilton O. Estatística básica. Saraiva Educação SA, 2017.

MOUNT, John; ZUMEL, Nina. Practical data science with R. Simon and Schuster, 2019.

JAMES, Gareth et al. An introduction to statistical learning. New York: springer, 2013.

PROVOST, Foster; FAWCETT, Tom. Data Science for Business: What you need to know about data mining and data-analytic thinking. " O'Reilly Media, Inc.", 2013.

OZDEMIR, Sinan. Principles of data science. Packt Publishing Ltd, 2016.

  1. Análise de sensibilidade: A reamostragem também é útil para realizar análises de sensibilidade, investigando como os resultados estatísticos ou de modelagem variam em resposta a diferentes configurações de dados ou parâmetros. Ao realizar reamostragem em diferentes subconjuntos de dados ou com diferentes configurações de parâmetros do modelo, é possível avaliar a robustez das conclusões e identificar possíveis fontes de incerteza ou viés.

Um elemento central da inferência frequentista é o erro padrão. Suponha que um algoritmo tenha produzido uma estimativa de um parâmetro de interesse, por exemplo, a média 𝑥𝑥´ = 0.751 a partir de uma amostra. É natural perguntar: Quão precisa é a estimativa? Neste caso, a fórmula (1.2) para o desvio padrão σ de uma média amostral fornece o erro padrão estimado: 𝑠𝑠𝑏𝑏𝑏𝑏 = 0.

Para muitos casos a estimativa do erro padrão não é um problema, mas mas estimadores mais complexos pode ser. O jackknife (1957) foi um primeiro passo em direção a uma abordagem baseada em computação, para erros padrão. O bootstrap (1979) foi ainda mais longe na automação de uma ampla variedade de cálculos inferenciais, incluindo erros padrão. Além de poupar os estatísticos do esgotamento de cálculos rotineiros tediosos, o jackknife e o bootstrap abriram as portas para algoritmos de estimação mais complicados.

JACKKNIFE

Jackknife é uma técnica de reamostragem que visa estimar a variabilidade de uma estatística a partir de uma única amostra. A ideia principal é criar réplicas da amostra, cada uma delas deixando de fora um dos pontos de dados, e calcular a estatística de interesse em cada uma dessas réplicas.

As aplicações básicas são em problemas de uma única amostra, onde se observou uma amostra independente e identicamente distribuída (iid) 𝑥𝑥 = (𝑥𝑥 1 , 𝑥𝑥 2 , … , 𝑥𝑥𝑛𝑛) de uma distribuição de probabilidade desconhecida 𝐹𝐹 em algum espaço 𝑋𝑋, onde 𝑥𝑥𝑖𝑖 segue uma distribuição 𝐹𝐹 para 𝑖𝑖 = 1,2, … , 𝑛𝑛. 𝑋𝑋 pode ser qualquer coisa: a reta real, o plano, um espaço de funções. Uma estatística real-valued 𝜃𝜃^^ é calculada aplicando algum algoritmo 𝑠𝑠(⋅) a 𝑥𝑥, onde

𝜃𝜃^ = 𝑠𝑠(𝑥𝑥)

.

Desejamos atribuir um erro padrão a 𝜃𝜃^. Ou seja, desejamos estimar o desvio padrão de 𝜃𝜃^ = 𝑠𝑠(𝑥𝑥)

Seja 𝑥𝑥(𝑖𝑖) a amostra com 𝑥𝑥𝑖𝑖 removido: 𝑥𝑥(𝑖𝑖) = (𝑥𝑥1, 𝑥𝑥2,... , 𝑥𝑥𝑖𝑖 − 1, 𝑥𝑥𝑖𝑖 + 1,... , 𝑥𝑥𝑛𝑛),

e denote o valor correspondente da estatística de interesse como 𝜃𝜃^(𝑖𝑖) = 𝑠𝑠�𝑥𝑥(𝑖𝑖)�.

Então, a estimativa do jackknife para o erro padrão de 𝜃𝜃^^ é:

𝑠𝑠𝑠𝑠^ (^) jack = �

��𝜃𝜃^(𝑖𝑖) − 𝜃𝜃^(.)�

2

𝑛𝑛

𝑖𝑖=

onde $\hat\theta}_{(.)}$ é a média de 𝜃𝜃^(𝑖𝑖)’s, ou seja, 𝜃𝜃^(.) = (^1) 𝑛𝑛 ∑ 𝑛𝑛𝑖𝑖=1 𝜃𝜃(𝑖𝑖).

No caso em que 𝜃𝜃^^ é a média 𝑥𝑥´ de valores reais 𝑥𝑥 1 , 𝑥𝑥 2 , … , 𝑥𝑥𝑛𝑛 (ou seja, X é um intervalo da reta real), 𝜃𝜃^(𝑖𝑖) é a média excluindo 𝑥𝑥𝑖𝑖, que pode ser expressa como:

𝜃𝜃^(𝑖𝑖) =

A Equação de 𝑠𝑠𝑠𝑠^ (^) jack com 𝜃𝜃^(.) = 𝑥𝑥´, 𝜃𝜃(𝑖𝑖) − 𝜃𝜃(.) = 𝑥𝑥´𝑛𝑛−1−𝑥𝑥𝑖𝑖 , e

𝑠𝑠𝑠𝑠^ (^) jack = �

∑ 𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥´)^2

exatamente a mesma fórmula clássica de 𝑠𝑠𝑠𝑠. Isso não é coincidência. O fator de correção 𝑛𝑛− 𝑛𝑛 foi inserido para fazer com que^ 𝑠𝑠𝑠𝑠^^ jack^ concorde com^ 𝑠𝑠𝑠𝑠^ quando^ 𝜃𝜃

^ = 𝑥𝑥´.

Resumindo, com uma amostra x = (x1, x2, …, xn). O procedimento do jackknife é o seguinte:

  1. Para cada i de 1 a n, crie uma réplica da amostra excluindo o i-ésimo ponto: 𝑥𝑥(𝑖𝑖) = (𝑥𝑥 1 , 𝑥𝑥 2 , … , 𝑥𝑥𝑖𝑖−1, 𝑥𝑥𝑖𝑖+1, … , 𝑥𝑥𝑛𝑛).
  2. Calcule a estatística de interesse para cada réplica: 𝜃𝜃^(𝑖𝑖) = 𝑠𝑠�𝑥𝑥(𝑖𝑖)�.
  3. Calcule: 𝜃𝜃^(.) = (^1) 𝑛𝑛 ∑ 𝑛𝑛𝑖𝑖=1 𝜃𝜃(𝑖𝑖).
  4. Calcule a estimativa do erro padrão usando as réplicas:

𝑠𝑠𝑠𝑠^ (^) jack = �

^(𝑖𝑖) − 𝜃𝜃^(.)�^2

𝑛𝑛

𝑖𝑖=

onde Θ é a estatística calculada na amostra original.

Vale ressaltar algumas características de $ _{}$:

  • É não paramétrica: não é necessário assumir uma forma específica para a distribuição subjacente F dos dados. Isso torna o método flexível e aplicável a uma variedade de situações.
  • É completamente automática: é possível escrever um único algoritmo mestre que recebe o conjunto de dados 𝑥𝑥 e a função 𝑠𝑠(𝑥𝑥) e retorna a estimativa 𝑠𝑠𝑠𝑠^ (^) jack. Isso simplifica o processo de aplicação do método.
  • O algoritmo trabalha com conjuntos de dados de tamanho n-1, não n. Existe uma suposição implícita de suavização em relação ao tamanho da amostra. Isso pode ser preocupante para estatísticas como a mediana amostral, que têm uma definição diferente para tamanhos de amostra ímpar e par.
  • A margem de erro padrão Jackknife tende a ser ligeiramente tendenciosa para cima como uma estimativa do verdadeiro erro padrão. Isso significa que pode ocorrer uma pequena sobrestimação da variabilidade real dos dados.

Um exemplo de como realizar o jackknife em R usando a função jackknife() do pacote bootstrap:

$jack.se

[1] 0.

$jack.bias

[1] 0

$jack.values

[1] 4.50 4.25 4.00 3.75 3.

$call

jackknife(x = x, theta = mean_func)

[1] "Erro padrão estimado pelo jackknife: 0.707106781186548"

Neste exemplo, usamos uma amostra simples x com os valores (2, 3, 4, 5, 6). A função mean_func() calcula a média dos dados, que é a estatística de interesse. Em seguida, aplicamos a função jackknife() com a amostra e a função de estatística especificadas.

O resultado do jackknife é armazenado na variável jackknife_results, que contém estatísticas como as réplicas da estatística, viés, variância e outros. Usamos a variância para estimar o erro padrão, que é armazenado na variável jackknife_se.

Finalmente, os resultados do jackknife e o erro padrão estimado são impressos na tela.

[1] 0.

[1] 0.

[1] 0

[1] 0

Exemplo viés

  • seja o estimador

𝑠𝑠 2 =

(𝑥𝑥𝑖𝑖 − 𝑥𝑥´)^2

𝑛𝑛

𝑖𝑖=

  • é um estimador viesado

$jack.se

[1] 1.

$jack.bias

[1] -0.

$jack.values

[1] 1.2500 2.1875 2.5000 2.1875 1.

$call

jackknife(x = x, theta = v)

[1] "Erro padrão estimado pelo jackknife: 1.04582503316759"

[1] -0.

[1] -0.

[1] 2.

[1] 2.

  1. v=function(x){ sum((x-mean(x))^2)/(length(x)) }: É definida a função v, que calcula a estatística de interesse, neste caso, a variância populacional.
  2. jackknife_results <- jackknife(x, v): A função jackknife é utilizada para aplicar o Jackknife à amostra x, usando a função v como a estatística de interesse. O resultado é armazenado na variável jackknife_results.

BOOTSTRAP

A analogia central do bootstrap é

A população esta para a amostra assim como a amostra esta para as amostras de bootstrap

Para calcular os erros padrão a serem usados nos intervalos de confiança, precisamos conhecer a distribuição amostral da estatística de interesse.

No caso de uma média, podemos recorrer ao teorema do limite central se o tamanho da amostra for suficientemente grande.

O bootstrap adota uma abordagem diferente. Utilizamos a amostra como um estimador da distribuição amostral. Por exemplo,considerando que

distribuição amostral ≈ distribuição populacional

podemos substituir a distribuição amostral pela distribuição populacional e, em seguida, gera novas amostras para obter uma distribuição amostral.

O bootstrap baseia-se no princípio da substituição. O princípio de substituição afirma que, quando algo é desconhecido, deve-se usar uma estimativa dele. Um exemplo é o uso do desvio padrão da amostra no lugar do desvio padrão da população , ao calcular o erro padrão da média

√𝑛𝑛^

𝜎𝜎^

O bootstrap usa a distribuição empírica como uma substituição para a distribuição populacional desconhecida.

MODELOS

APRENDIZADO ESTATÍSTICO

O que é Aprendizado Estatístico?

Assumindo que exista alguma relação entre uma resposta quantitativa 𝑌𝑌 e 𝑝𝑝 preditores diferentes 𝑋𝑋 = 𝑋𝑋 1 , 𝑋𝑋 2 , … , 𝑋𝑋𝑝𝑝 então, podemos escrever na forma geral:

𝑌𝑌 = 𝑓𝑓(𝑋𝑋) + 𝜖𝜖

onde 𝑓𝑓 é uma função fixa, mas desconhecida, de 𝑋𝑋 = 𝑋𝑋 1 , 𝑋𝑋 2 , … , 𝑋𝑋𝑝𝑝, e o termo 𝜖𝜖 representa o

erro aleatório, que é independente de 𝑋𝑋 e tem média zero. O aprendizado estatístico é um conjunto de métodos para estimar adequadamente 𝑓𝑓.

Vamos analisar os dados Advertising onde o objetivo é investigar a relação entre publicidade e vendas de um determinado produto. O conjunto de dados de publicidade consiste nas vendas desse produto em 200 mercados diferentes, juntamente com os valores gastos em publicidade do produto em cada um desses mercados em três mídias diferentes: TV, rádio e jornal. Os dados são exibidos na Figura abaixo.

Não é possível aumentar as vendas diretamente. Então o investimento em propaganda é uma forma de promover as vendas, e a solução foi pagar por publicidade em cada uma das três mídias. Desta forma, se for comprovado que existe uma associação entre publicidade e vendas, podemos recomendar ao cliente o investimento em publicidade, o que aumentaria indiretamente as vendas. Em outras palavras, nosso objetivo é desenvolver um modelo que possa ser usado para prever as vendas com base nos valores

investidos nas três. Neste problema, os valores gastos em publicidade são variáveis de entrada, ou também chamada de variáveis independentes ou preditores. Vendas é a variável de saída , variável resposta ou dependente. As variáveis de entrada são geralmente representadas pela letra 𝑋𝑋. Como são três variáveis, usaremos um índice para diferenciá-las. No caso, 𝑋𝑋 1 pode ser o orçamento da TV, 𝑋𝑋 2 o orçamento do rádio e 𝑋𝑋 3 o orçamento do jornal. A variável dependente, a variável vendas, é geralmente representada pela letra 𝑌𝑌. (Estas são apenas as notações mais comuns nas bibliografias, mas poderia ser utilizada qualquer outra).

Generalizando, suponha que uma resposta quantitativa 𝑌𝑌 com 𝑝𝑝 preditores diferentes, 𝑋𝑋 1 , 𝑋𝑋 2 , … , 𝑋𝑋𝑝𝑝. Assumimos que existe alguma relação entre 𝑌𝑌 e 𝑋𝑋 = 𝑋𝑋 1 , 𝑋𝑋 2 , … , 𝑋𝑋𝑝𝑝, que pode ser

escrita na forma bem geral como:

𝑌𝑌 = 𝑓𝑓(𝑋𝑋) + 𝜖𝜖

onde 𝑓𝑓 é uma função fixa e desconhecida de 𝑋𝑋 1 , 𝑋𝑋 2 , … , 𝑋𝑋𝑝𝑝 e que representa a informação sistemática. O 𝜖𝜖, é o erro aleatório.

Suponha no caso do Advertising que a relação entre vendas e despesas com TV fosse conhecida e representada pela linha azul na figura abaixo. Neste caso, foi selecionado uma amostra que estão representados por pontos e as linha tracejadas em laranja, mostram os erros associada a cada observação - distância do valor observado e o valor real. Estes erros variam para cima ou para baixo da reta, de modo geral tem média zero.

O aprendizado estatístico se refere a um conjunto de métodos para estimar 𝑓𝑓 e estes métodos visam dois propósitos: Predição ou Inferência

Voltando ao caso do Advertising, na realidade a relação entre vendas e despesas com TV é desconhecida. Na tentativa de explicar as vendas a partir das despesas com TV foi ajustado um modelo linear, representada pela linha vermelha na figura abaixo. Os valores observados estão representados por pontos e as linhas tracejadas agora representam em laranja agora representam o erro de predição - distância do valor predito e o valor observado. Estes erros variam para cima ou para baixo da reta, de modo geral tem média zero.

Inferências

Muitas vezes o interesse está na compreensão da associação entre 𝑌𝑌 e 𝑋𝑋 1 , … , 𝑋𝑋𝑝𝑝. Nesta situação, desejamos estimar 𝑓𝑓, mas o objetivo não é necessariamente fazer previsões para 𝑌𝑌. Agora 𝑓𝑓^^ não pode ser tratado como uma caixa preta, porque é preciso saber sua forma exata. Nesse cenário, pode-se estar interessado em responder às seguintes perguntas

  • Quais preditores estão associados à resposta? Muitas vezes, apenas uma pequena fração dos preditores disponíveis está fortemente associada a 𝑌𝑌. Identificar os poucos preditores importantes entre um grande conjunto de variáveis possíveis pode ser extremamente útil, dependendo da aplicação.
  • Qual é a relação entre a resposta e cada preditor? Alguns preditores podem ter uma relação positiva com 𝑌𝑌, o que significa que valores maiores do preditor estão associados a valores maiores de 𝑌𝑌. Outros preditores podem ter a relação inversa. Dependendo da complexidade de 𝑓𝑓, a relação entre a resposta e um determinado preditor também pode depender dos valores dos outros preditores.
  • A relação entre 𝑌𝑌 e cada preditor pode ser adequadamente resumida usando uma equação linear ou a relação é mais complicada? Historicamente, a maioria dos métodos para estimar 𝑓𝑓 tem uma forma linear. Em algumas situações, tal suposição é razoável ou mesmo desejável. Mas muitas vezes a verdadeira relação é mais complicada, caso em que um modelo linear pode não fornecer uma representação precisa da relação entre as variáveis de entrada e saída

Em alguma modelagem pode ser conduzida tanto para previsão quanto para inferência e diferentes métodos para estimar 𝑓𝑓 podem ser apropriados. Por exemplo, modelos lineares permitem inferências relativamente simples e interpretáveis, mas podem não produzir previsões tão precisas quanto algumas outras abordagens. Em contraste, algumas das abordagens altamente não lineares podem potencialmente fornecer previsões bastante precisas para 𝑌𝑌, mas com um modelo menos interpretável para o qual a inferência é mais desafiadora ou inviável.

No caso do Advertising, na relação entre vendas e despesas com TV, como mostrado na figura anterior, o modelo obtido é mostrado abaixo e seus parâmetros podem ser interpretados. Obviamente a uma série de pressupostos para que a suposições sobre estes parâmetros sejam válidas

𝑌𝑌^ = 7.032 + 0.0475𝑥𝑥

  • no R

model <- lm (Sales ~ TV, data = advertising)

term estimate std.error statistic p.value (Intercept) 7.03259355 0.457842940 15.36028 1.40630e- TV 0.04753664 0.002690607 17.66763 1.46739e-

Precisão e interpretabilidade do modelo

As escolha do métodos a ser utilizado tem relação direta com este balanço entre a precisão da previsão e a interpretabilidade do modelo. Dos muitos métodos existentes, alguns são menos flexíveis ou mais restritivos para estimar 𝑓𝑓. Por exemplo, a regressão linear é uma abordagem relativamente inflexível, porque só pode gerar funções lineares. Outros modelos são mais flexíveis porque podem gerar uma gama muito mais ampla de formas possíveis para estimar 𝑓𝑓. Desta forma é razoável perguntar: por que usar um método mais restritivo em vez de uma abordagem mais flexível? Existem várias razões pelas quais podemos preferir um modelo mais restritivo. Se estivermos interessados principalmente em inferência, então os modelos restritivos são muito mais interpretáveis. Por exemplo, quando a inferência é o objetivo, o modelo linear pode ser uma boa escolha, pois será bastante fácil entender a relação entre 𝑌𝑌 e 𝑋𝑋 1 ,^ 𝑋𝑋 2 , … ,^ 𝑋𝑋𝑝𝑝. Em contraste, abordagens muito flexíveis, como as splines, e os métodos boosting, podem levar a estimativas tão complicadas de 𝑓𝑓 que seria inviável entender como qualquer um dos preditores está associado à resposta.