Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Análise Estatística de Dados: Extraindo Informações Usando R - Prof. Venezuela, Esquemas de Estatística

Neste documento, aprenda a utilizar o software r para extrair informações importantes de seus dados. Saiba como selecionar elementos específicos de um data frame, manipular variáveis categoricas, calcular frequências relativas e histogramas, além de identificar a normalidade de dados.

Tipologia: Esquemas

2022

Compartilhado em 05/01/2024

ana-clara-peres-1
ana-clara-peres-1 🇧🇷

1 documento

1 / 112

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Tutorial para Análise Descritiva com uso do R
em Estatística I - Versão 4.1
Maria Kelly Venezuela, Rinaldo Artes e Tatiana Terabayashi Melhado
Bruno Fava, Bruno Souza, João Tessari, Marina Muradian e Pedro Santos
Insper Instituto de Ensino e Pesquisa
19 fevereiro 2020
Índice
1. Primeiro Contato com RStudio 4
1.1. Escolherdiretóriodetrabalho ....................................... 4
1.2. Criar script .................................................. 4
1.3. Salvar script ................................................. 5
1.4. ConhecendooAmbiente........................................... 5
1.5. Algumas Dicas de Boas Práticas de Programação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.6. MinhaPrimeiraLinhadeCódigo...................................... 7
1.7. Funções .................................................... 7
1.8. Objetos .................................................... 8
1.9. Vetores .................................................... 9
1.10.Matrizes.................................................... 10
1.11.DataFrames ................................................. 11
1.12.Subconjuntos ................................................. 13
1.13. Colunas de uma Base de Dados (Data Frame) .............................. 14
1.14. Problema Comum: Caracteres Especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.15. Acessando a Documentação das Funções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.16. Alguns links paraConsulta ......................................... 15
1.17.Conjuntosdedadosdotutorial ....................................... 15
2. Base de Dados 16
2.1. Leitura de uma Base de Dados do R (.RData)............................... 16
2.2. Leitura de uma Base de Dados do Excel (.xlsx) ............................. 17
2.3. Extraindo Informações da Base de Dados BankLoan.RData ....................... 18
2.4. Salvando uma nova Base de Dados do R (.RData) ............................ 19
2.5. Filtrando Variáveis (Colunas) Específicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6. EstruturadosDados............................................. 23
2.7. Incluindo Nova Variável em um Data Frame ............................... 23
2.8. Bibliotecas .................................................. 24
2.9. CheatSheet.................................................. 24
3. Variáveis Qualitativas: tabelas e gráficos 25
3.1. Definindo uma Variável Qualitativa no R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.2. Tabelas para Variáveis Qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.1. Tabelas considerando apenas uma Variável (Tabelas Univariadas) . . . . . . . . . . . . . . . . 27
3.2.1.1. FrequênciasAbsolutas................................... 27
3.2.1.2. FrequênciasRelativas ................................... 27
3.2.1.3. Frequências Relativas Acumuladas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2.1.4. Combinando todas as Frequências em uma única Tabela . . . . . . . . . . . . . . . 30
3.2.1.5. Hands-On: Agora sua vez! . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.2. Tabelas considerando duas Variáveis (Tabelas Bivariadas) . . . . . . . . . . . . . . . . . . . . 31
1
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b
pf1c
pf1d
pf1e
pf1f
pf20
pf21
pf22
pf23
pf24
pf25
pf26
pf27
pf28
pf29
pf2a
pf2b
pf2c
pf2d
pf2e
pf2f
pf30
pf31
pf32
pf33
pf34
pf35
pf36
pf37
pf38
pf39
pf3a
pf3b
pf3c
pf3d
pf3e
pf3f
pf40
pf41
pf42
pf43
pf44
pf45
pf46
pf47
pf48
pf49
pf4a
pf4b
pf4c
pf4d
pf4e
pf4f
pf50
pf51
pf52
pf53
pf54
pf55
pf56
pf57
pf58
pf59
pf5a
pf5b
pf5c
pf5d
pf5e
pf5f
pf60
pf61
pf62
pf63
pf64

Pré-visualização parcial do texto

Baixe Análise Estatística de Dados: Extraindo Informações Usando R - Prof. Venezuela e outras Esquemas em PDF para Estatística, somente na Docsity!

Tutorial para Análise Descritiva com uso do R

Maria Kelly Venezuela, Rinaldo Artes e Tatiana Terabayashi Melhado

Bruno Fava, Bruno Souza, João Tessari, Marina Muradian e Pedro Santos

1. Primeiro Contato com RStudio

Quando a linguagem de programação R é escolhida para se trabalhar, via interface do RStudio, certamente, é porque o usuário possui um interessante trabalho de análise de dados para conduzir.

Assim, antes de apresentar cada campo dessa interface, é importante saber de maneira muito eficiente, as seguintes boas práticas: Escolher diretório de trabalho; Criar script ; e Salvar script.

1.1. Escolher diretório de trabalho

Para direcionar uma pasta onde ficarão todos os arquivos do seu atual trabalho, inclusive base de dados, deve percorrer pelo menu: Session > Set Working Directory > Choose Directory. Na janela que for aberta, deve escolher uma pasta ( folder ) em seu computador.

A ilustração a seguir indica como direcionar um diretório de trabalho:

Caso opte direcionar diretório via comando, pesquise o comando setwd() (no Console , digite ?setwd). Ou via atalho, use as teclas Ctrl + Shift + H (no Mac, utilizar Command ao invés do Ctrl).

1.2. Criar script

Para criar um novo script , no canto superior à esquerda do RStudio, basta seguir o caminho File > New File

R Script ou clicar no ícone “+” e selecionar o item R Script. Ainda, há a opção de utilizar apenas o atalho Ctrl + Shift + N (no Mac, utilizar Command ao invés do Ctrl).

Veja essa ilustração que indica como criar um novo script no ambiente do seu RStudio:

Para tenha interesse em criar projeto, consulte aqui.

1.3. Salvar script

Para salvar um script no diretório que foi direcionado anteriormente, no canto superior à esquerda do RStudio, siga o caminho File > Save ou utilize o atalho Ctrl + S (no Mac, utilizar Command ao invés do Ctrl). Veja essa ilustração que indica como salvar um novo script :

Se abrir uma nova janela para escolher a codificação ( Choose encoding ) que serão armazenados os textos digitados no script , optar pelas codificações mais usuais do RSTudio: UTF-8, se Mac ou Linux; ou WINDOWS-1252, se Windows.

1.4. Conhecendo o Ambiente

Após criar um novo script , a figura a seguir mostra como deve estar a tela do seu Rstudio. Para facilitar a compreendê-la nesse primeiro contato, essa tela se encontra aqui numerada em quatro importantes ambientes.

para que outras pessoas entendam sua lógica e para que você mesmo consiga utilizar o código no futuro com maior facilidade. Dar Nomes aos Objetos :

  • Objetos nomeados com uma única letra podem ser muito simples e você pode se perder entre eles.
  • Dê preferência para nomes curtos, simples, e que lembrem rapidamente o conteúdo inserido no objeto.
  • Não utilize caracteres especiais, acentos ou espaços.
  • Uma mesma letra minúscula e maiúscula é considerada diferente nessa nomeação de objetos.

1.6. Minha Primeira Linha de Código

No script , ao digitar uma linha de código e pressionar o botão Run ou o atalho Ctrl + Enter (ou Command + Enter no Mac), o Console exibirá o resultado. Por exemplo:

print ("Hello World!")

[1] "Hello World!"

Para dar mais exemplos, vamos começar com um caso simples, realizando operações básicas.

1 + 3

[1] 4

NOTA: O comando Ctrl/Command + Enter ou Run roda somente o comando da linha que o cursor está posicionado ou os comandos das linhas selecionadas. Se temos mais de uma linha de código, podemos utilizar o comando Ctr/Command + Shift + Enter para rodar o código todo. Alternativamente, podemos selecionar as linhas do código desejadas e apertar o botão Run.

1.7. Funções

Da mesma forma, podemos utilizar funções já programadas no RStudio. Por exemplo, para realizar a operação matemática 1 + 2 + 3 + 4, alternativamente, podemos utilizar a função sum() já existente no software. De maneira geral , esta função pode ser utilizada assim:

sum (numero1,numero2,numero3, etc)

E, para o exemplo citado anteriormente, temos:

sum (1, 2, 3, 4) #Soma

[1] 10

Para calcularmos a raiz quadrada de um número, existe a função sqrt(), que funciona de maneira geral como:

sum (numero_desejado)

Um exemplo:

sqrt (9) #Raiz quadrada

[1] 3

Para calcular o cosseno, a função cos() (dentre muitas outras funções), que funciona de maneira geral como:

cos (numero_desejado)

Um exemplo:

cos (3.1415) #Cosseno

[1] -

NOTA: No R:

  1. O separador de casas decimais é “.” (ponto) e não “,” (vírgula).
  2. Para separar argumentos dentro de uma função, utiliza-se “,” (vírgula) e não “;” (ponto e vírgula).

1.8. Objetos

Criar objetos pode ser útil para guardar resultados de operações matemáticas ou de funções calculadas. Para atribuir algum valor a um objeto, os operadores que atribuem valores a um objeto podem ser feitos pelos símbolos: <- (obtido com atalho Alt -) e = (atalho Alt +). Já uma maneira menos utilizada cujo valor é atribuído a um objeto pode ser feito pelo símbolo: ->.

Os exemplos a seguir mostram o uso desses operadores de atribuição para colocar o valor 3 ao objeto nomeado de a:

a <- 3 a = 3 3 -> a

Ainda, se quiser salvar o resultado da soma de 1 + 2 + 3 + 4, pense em algum nome para guardá-lo (releia a Seção 1.7). Aqui, nomearemos de soma:

soma <- sum (1, 2, 3, 4)

Da mesma forma, podemos salvar o valor de

9 no objeto nomeado raiz:

raiz <- sqrt (9)

Posteriormente, podemos incluir o objeto salvo em outra operação: Por exemplo, se quisermos agora saber o valor de 2 +

(9), podemos simplesmente incluir no código o objeto raiz já criado anteriormente:

2 + raiz

[1] 5

Para exibir o valor contido em um objeto, basta chamá-lo:

raiz

[1] 3

Isso é o equivalente a utilizar a função print:

print (raiz)

[1] 3

Após criar um objeto, verifica-se sua existência na parte da tela apontada pelo Campo 3 Environment , que lista todos os objetos carregados:

## [52] 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167

## [69] 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184

## [86] 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

NOTA: Os números entre colchetes [] representam a posição do valor imediatamente à direita dentro do vetor! Note também que, mesmo quando apenas um número é exibido, o R mostra a posição [1]. Isso acontece porque o R também o considera como vetor!

ATENÇÃO: Muitas funções levam os argumentos na forma de vetor. É o caso da função mean() que calcula a média. Para calcular a média de alguns números, é necessário antes carregá-los num vetor. Por exemplo, queremos calcular a média dos números: 1 , 2 , 4 , 7 e 10. Primeiramente, criar o objeto numeros que irá receber o vetor com os valores desejados: numeros <- c (1, 2, 4, 7, 10)

Agora, guardar em media o resultado calculado dessa média do vetor numeros calculada pela função mean(): media <- mean (numeros)

Para exibir o conteúdo da variável media: media

[1] 4.

NOTA: Repare que o resultado da média não foi exibido no console quando criamos o objeto media. Isso se dá pois a informação retornada pela função foi salva diretamente, logo, não havia nada para ser impresso no Console. Alternativamente, pode-se criar um objeto soma que irá receber o valor da soma de 1 + 2 + 4 + 7 + 10: soma <- 1 + 2 + 4 + 7 + 10

E para criar um novo objeto nomeado, por exemplo, de media2 que receberá o valor de soma dividido por 5 (número de elementos somados), faz-se:

media2 <- soma / 5

Da mesma maneira, chama-se media2 para que o resultado seja exibido: media

[1] 4.

Para saber o número de elementos em um vetor, use o comando length(): length (numeros)

[1] 5

1.10. Matrizes

Além dos vetores unidimensionais, pode ser útil a utilização de matrizes. Um fato essencial nas matrizes é que todos os dados devem ser do mesmo tipo (só numérico ou só texto, entre outras opções). Para formação da matriz, os conteúdos são colocados na forma vetorial. Considere o conteúdo do vetor a seguir nomeado de vet: vet <- c (1, 3, 4, 7, 10, 14)

Para a criação da matriz, utilizamos a função matrix() que leva argumentos adicionais:

  • nrow (número de linhas) e
  • ncol (número de colunas).

Assim, distribuiremos os números contidos em vet numa matriz com 3 linhas e 2 colunas e a salvaremos na variável A:

A <- matrix (vet, nrow = 3, ncol = 2)

A seguir, chama-se o objeto A para que a matriz seja exibida: A

[,1] [,2]

[1,] 1 7

[2,] 3 10

[3,] 4 14

Note que primeiro ele preenche todas as linhas da 1a^ coluna da matriz utilizando os primeiros elementos de vet e só então começa a preencher as próximas colunas. Para selecionar partes de uma matriz, utilize o padrão: nome_da_matriz[numero_da_linha,numero_da_coluna]

Veja alguns exemplos a seguir: A[3,2] # elemento da 3a linha e 2a coluna

[1] 14

A[2 : 3,1] # elementos da 2a até 3a linha da 1a coluna

[1] 3 4

NOTA: Conforme explicado anteriormente, os números entre colchetes [] representam o número da linha e o número da coluna da matriz que você quer selecionar, respectivamente. Por exemplo, A[1,2] mostrará o elemento da 1 a^ linha e 2a^ coluna da matriz A.

1.11. Data Frames

Um objeto fundamental para análise de dados no R é o Data Frame. Sua aparência é similar a de uma matriz. Geralmente, cada coluna representa uma variável, e cada linha uma observação. Seu diferencial é que cada coluna pode representar um tipo de dado diferente (isto é, uma coluna pode conter dados numéricos, enquanto outra coluna possui dados de texto). Podemos carregar uma base de dados de exemplo, em formato Data Frame , já existente dentro do R, utilizando a função data(). De maneira geral , utilizamos esta função da seguinte forma: data (nome_dataframe)

Carregando o Data Frame mtcars existente no R: data (mtcars)

Note que após executar o programa, o objeto mtcars aparece na tela Environment , no canto superior direito do RStudio. Caso o Data Frame seja chamado diretamente, todas as observações são exibidas no Console , o que pode ser ruim caso a base de dados seja grande. Para visualizar a base em uma tela separada, basta clicar em cima do nome da base (no caso, mtcars) na tela Environment. Este procedimento é um atalho para o código View(nome_dataframe):

NOTA: Para maiores detalhes da função str(mtcars), veja Seção 2.6.

1.12. Subconjuntos

Uma parte importante na programação em R é a referência a subconjuntos. Nesse caso, o operador essencial é o colchete [].

Por exemplo, queremos selecionar o quarto elemento na sequência de 20 a 30. Primeiro, geraremos números consecutivos de 20 a 30 utilizando : conforme visto anteriormente e salvaremos na variável numeros:

numeros <- 20 : 30

Agora pediremos para o R retornar o elemento na quarta posição desta sequência:

numeros[4]

[1] 23

Podemos também pedir para o R retornar os elementos da 1 a , 3 a^ e 7 a^ posições na sequência. Nesse caso, criamos um vetor que possui as posições de interesse e o inserimos dentro dos colchetes:

numeros[ c (1, 3, 7)]

[1] 20 22 26

Agora queremos que o R retorne todos os elementos, exceto o contido na segunda posição. Para isso, utilizaremos [-2]:

numeros[ - 2]

[1] 20 22 23 24 25 26 27 28 29 30

Da mesma forma, queremos agora que o R retorne todos os elementos, exceto os contidos nas posições 2 a , 5 a^ e 9 a. Utilizando a lógica dos dois últimos exemplos, temos:

numeros[ -c (2, 5, 9)]

[1] 20 22 23 25 26 27 29 30

Em Matrizes e Data Frames , o procedimento é bastante parecido, salvo o fato de que temos posições para linhas e colunas.

Dessa forma, se quisermos que o R retorne o elemento da segunda linha e terceira coluna do Data Frame mtcars, utilizamos o comando:

mtcars[2, 3]

[1] 160

Se quisermos visualizar todos os elementos da primeira coluna (todas as linhas da primeira coluna), podemos utilizar:

mtcars[, 1]

[1] 21.0 21.0 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 17.8 16.4 17.3 15.

[15] 10.4 10.4 14.7 32.4 30.4 33.9 21.5 15.5 15.2 13.3 19.2 27.3 26.0 30.

[29] 15.8 19.7 15.0 21.

De forma similar, se quisermos visualizar todos os elementos da primeira linha (todas as colunas da primeira linha):

mtcars[1,]

mpg cyl disp hp drat wt qsec vs am gear carb

Mazda RX4 21 6 160 110 3.9 2.62 16.46 0 1 4 4

1.13. Colunas de uma Base de Dados ( Data Frame )

Quando queremos fazer operações utilizando colunas específicas da base que estamos utilizando, podemos utilizar o símbolo $. A diferença é que ao invés de precisar saber a posição da coluna em que tal variável se encontra, precisamos apenas saber o nome da variável. Ou seja, de maneira geral , utilizamos nome_dataframe $ nome_variavel.

Dessa forma, quando queremos selecionar os elementos da coluna cyl da base mtcars, utilizamos:

mtcars $ cyl

[1] 6 6 4 6 8 6 8 4 4 6 6 8 8 8 8 8 8 4 4 4 4 8 8 8 8 4 4 4 8 6 8 4

1.14. Problema Comum: Caracteres Especiais

Um problema muito comum no RStudio ao abrir scripts de R é a leitura de caracteres não presentes no alfabeto da língua inglesa.

Assim, caracteres com acento, por exemplo, são substituídos por pontos de interrogação ?, sinalizando que o RStudio não conseguiu identificar o caractere.

Uma solução simples é, com o script aberto, seguir o seguinte procedimento: Clicar na aba File, no canto superior esquerdo do RStudio. Selecionar o item Reopen with Encoding.... Selecionar a opção UTF-8 ou WINDOWS-1252. Em geral, uma das duas já estará selecionada, sendo correta a outra opção! Aqui, a opção correta sempre dependerá da escolha que o script foi salvo (reveja as seções 1.2 e 1.3 para lembrar como criar e salvar um script ). Clicar em OK.

1.15. Acessando a Documentação das Funções

Para obter ajuda sobre o funcionamento de alguma função e sobre seus argumentos, basta utilizar o comando help(nome_da_função) ou ?nome_da_função. Experimente inspecionar as funções abs() e sort():

help (abs) ?sort

2. Base de Dados

Esta seção irá apresentar algumas dicas importantes para carregar e manipular uma base de dados no RStudio.

2.1. Leitura de uma Base de Dados do R (.RData)

Apresentamos algumas formas básicas de carregar uma base de dados no formato .RData no RStudio. A forma mais simples e direta de carregar a base de dados é através do menu do RStudio. Primeiro, clique em File > Open File (seta 1) ou na pasta amarela em Environment (seta 2), selecione o arquivo da base de dados com extensão .RData e confirme que deseja carregá-lo no RStudio.

Para realizar a leitura do banco de dados .RData via linha de comando, pode-se utilizar a função load() indicando de maneira completa e entre aspas (" ") o diretório do seu computador que está localizada a base de dados. Por exemplo:

load ("C:/Insper/Estatística I/BankLoan.RData")

Se um diretório de trabalho já foi indicado, a base de dados também pode ser carregada utilizando diretamente seu nome e acrescentando .Rdata. Não é necessária a inserção de todo o caminho até o arquivo:

load ("BankLoan.RData")

Uma última maneira indicada aqui para abrir uma base de dados .RData funcionará apenas após direcionar um diretório de trabalho. Com diretório direcionado, clique no nome do arquivo a partir da tela Files , no canto inferior direito do RStudio, como mostra a imagem. Após clicar, confirmar que deseja carregar o arquivo no RStudio clicando agora em Sim ou Yes:

2.2. Leitura de uma Base de Dados do Excel (.xlsx)

Para carregar a base de dados .xlsx através do menu do RStudio , clique no caminho File > Import Dataset > From Excel... (seta 1). No campo File/URL, clique em Browse... e procure a base de dados em Excel. Selecione o arquivo com extensão .xlsx e confirme que deseja carregá-lo no RStudio clicando em Open. Como padrão, será carregado os dados da primeira planilha do arquivo Excel. Caso queira alterar a planilha, no campo Import Options, altere o nome da planilha em Sheet:. Agora sim clique no botão Import. Outra opção é clicar em Import Dataset da aba Environment no canto superior à direita da tela (seta 2). A partir daí, seguir os mesmos passos ditos anteriormente.

NOTA: Na primeira vez que tentar importar uma base de dados do Excel após a instalação do R no seu computador, o RStudio irá avisar que é necessário a instalação de um pacote ( package ) para que a importação seja realizada. Aceite a instalação (demorará alguns minutos para que seja feito o download e a instalação) e, então, nas próximas vezes a importação será da maneira explicada anteriormente.

A figura a seguir apresenta esses dois caminhos indicados pelas setas.

[1] "individuo" "Agência" "IDADE" "EDUCAÇÃO" "TEMPO_EMP"

[6] "TEMPO_END" "RENDA" "DÍVIDA_CC" "OUTRAS_DIV" "GRAU_ENDIV"

[11] "DEFAULT"

Esses são os nomes das variáveis (rótulos das colunas) contidas na base de dados dados. Essas variáveis possuem os seguintes significados:

individuo: ID do cliente que solicitou empréstimo; Agência: Agência em que solicitou o empréstimo codificada de 1 a 8 ; IDADE: Idade (em anos completos); EDUCAÇÃO: nível educacional do cliente codificada de 1 a 5 com os seguintes significados

  • 1 : Analfabeto;
  • 2 : 1o. Grau;
  • 3 : 2o. Grau;
  • 4 : Graduacao; e
  • 5 : Pos-Graduacao; TEMPO_EMP: Tempo de emprego (em anos); TEMPO_END: Tempo no mesmo endereço (em anos); RENDA: Renda familiar anual (em mil reais); DÍVIDA_CC: Dívida do cartão de crédito (em mil reais); OUTRAS_DIV: Outras dívidas (em mil reais); GRAU_ENDIV: Grau de endividamento ( %) calculado por GRAU_ENDIV=(DÍVIDAS_CC+OUTRAS_DIV)/RENDA×100 % DEFAULT: codificada em
  • 0 : se cliente é Adimplente; e
  • 1 : se cliente é Inadimplente.

2.4. Salvando uma nova Base de Dados do R (.RData)

Assuma que, por algum motivo, seja necessário criar uma nova base de dados apenas com as quatro primeiras colunas da base de dados dados que possui as informações de BankLoan.RData conforme visualizado no campo Environment. Para criar essa nova base de dados nomeada aqui de dados2, pode ser utilizada a seguinte linha de comando:

dados2 <- dados[,1 : 4]

individuo Agência IDADE EDUCAÇÃO 1 2 41 3 2 4 27 1 3 3 40 1 4 5 41 1 5 1 24 2 6 4 41 2

Para salvar esse novo Data Frame , a função save() pode ser utilizada da seguinte forma:

save (dados2, file = "BankLoan_NAO.RData")

Observações:

  1. O nome do arquivo com extensão .RData colocado no argumento file foi apenas uma sugestão.
  2. Para rever o que significa dados[,1:4] reveja a Seção 1.12 de subconjuntos.

2.5. Filtrando Variáveis (Colunas) Específicas

Na Seção 1.13, foi mostrado que para selecionar uma coluna específica do banco de dados, utilizamos o símbolo $. De maneira geral : nome_dataframe $ nome_da_coluna. Voltando à base de dados dados do arquivo BankLoan.RData, vamos supor que queremos que o R “filtre” o ID dos indivíduos que possuem a variável DEFAULT com valor igual a 0. Para isso, utilizaremos os colchetes []. De maneira geral , fazemos um filtro no R assim: nome_dataframe $ variavel_interesse[nome_dataframe $ variavel_de_filtro == restrição]

Observações:

  1. O operador == realiza um teste lógico; o operador de atribuição = atribui um valor para uma determinada variável.
  2. Podemos utilizar outros operadores para o teste lógico: >=, <=, >, < , !=, entre outros. Para mais detalhes, veja: http://curso-r.github.io/posts/aula01.html.
  3. Se a variável de filtro for qualitativa e estiver representada por texto, é necessário utilizar as aspas duplas (" ") para apresentar a categoria na qual quer fazer a restrição.
  4. Para incluir mais de 1 filtro para seleção dos dados, utilize o operador lógico & entre as restrições para filtro dentro dos colchetes []. Este operador lógico representa a condição E , ou seja, todas as restrições colocadas com este operador devem acontecer para ter resultado TRUE.
  5. Se no filtro você quiser a condição OU , utilize o operador lógico |. No exemplo do Bankloan.RData, como queremos que o R nos retorne o ID dos indivíduos com determinada caraterística, colocaremos esta variável do lado externo dos colchetes. Do lado interno dos colchetes, colocaremos o filtro que queremos fazer, ou seja, selecionaremos somente os indivíduos que possuem a variável DEFAULT com valor 0. Vamos utilizar, então, o operador de igualdade ==. Esse operador verifica se o valor da esquerda corresponde ao valor da direita e, em caso positivo, retorna TRUE, ao passo que, caso negativo, retorna FALSE. No caso de selecionar uma coluna, ele realiza o teste para cada indivíduo e retorna um vetor: dados $ DEFAULT == 0

[1] FALSE TRUE TRUE TRUE FALSE TRUE TRUE TRUE FALSE TRUE TRUE

[12] TRUE TRUE TRUE TRUE FALSE FALSE TRUE TRUE TRUE TRUE TRUE

[23] TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[34] TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE

[45] FALSE TRUE TRUE TRUE FALSE TRUE FALSE TRUE FALSE TRUE TRUE

[56] FALSE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE FALSE

[67] FALSE TRUE FALSE FALSE TRUE TRUE TRUE TRUE TRUE TRUE TRUE

[78] TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE FALSE TRUE

[89] TRUE FALSE TRUE FALSE TRUE FALSE FALSE TRUE TRUE TRUE TRUE

[100] FALSE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE

[111] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE TRUE

[122] FALSE FALSE FALSE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE

[133] TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE TRUE

[144] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE

[155] TRUE TRUE TRUE FALSE FALSE TRUE TRUE TRUE FALSE TRUE FALSE

[166] FALSE FALSE TRUE TRUE TRUE TRUE TRUE FALSE TRUE TRUE TRUE

[177] TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE TRUE TRUE FALSE

[188] TRUE TRUE TRUE FALSE TRUE FALSE FALSE TRUE TRUE FALSE TRUE