




























































































Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
Neste documento, aprenda a utilizar o software r para extrair informações importantes de seus dados. Saiba como selecionar elementos específicos de um data frame, manipular variáveis categoricas, calcular frequências relativas e histogramas, além de identificar a normalidade de dados.
Tipologia: Esquemas
1 / 112
Esta página não é visível na pré-visualização
Não perca as partes importantes!
1. Primeiro Contato com RStudio
Quando a linguagem de programação R é escolhida para se trabalhar, via interface do RStudio, certamente, é porque o usuário possui um interessante trabalho de análise de dados para conduzir.
Assim, antes de apresentar cada campo dessa interface, é importante saber de maneira muito eficiente, as seguintes boas práticas: Escolher diretório de trabalho; Criar script ; e Salvar script.
Para direcionar uma pasta onde ficarão todos os arquivos do seu atual trabalho, inclusive base de dados, deve percorrer pelo menu: Session > Set Working Directory > Choose Directory. Na janela que for aberta, deve escolher uma pasta ( folder ) em seu computador.
A ilustração a seguir indica como direcionar um diretório de trabalho:
Caso opte direcionar diretório via comando, pesquise o comando setwd() (no Console , digite ?setwd). Ou via atalho, use as teclas Ctrl + Shift + H (no Mac, utilizar Command ao invés do Ctrl).
Para criar um novo script , no canto superior à esquerda do RStudio, basta seguir o caminho File > New File
R Script ou clicar no ícone “+” e selecionar o item R Script. Ainda, há a opção de utilizar apenas o atalho Ctrl + Shift + N (no Mac, utilizar Command ao invés do Ctrl).
Veja essa ilustração que indica como criar um novo script no ambiente do seu RStudio:
Para tenha interesse em criar projeto, consulte aqui.
Para salvar um script no diretório que foi direcionado anteriormente, no canto superior à esquerda do RStudio, siga o caminho File > Save ou utilize o atalho Ctrl + S (no Mac, utilizar Command ao invés do Ctrl). Veja essa ilustração que indica como salvar um novo script :
Se abrir uma nova janela para escolher a codificação ( Choose encoding ) que serão armazenados os textos digitados no script , optar pelas codificações mais usuais do RSTudio: UTF-8, se Mac ou Linux; ou WINDOWS-1252, se Windows.
Após criar um novo script , a figura a seguir mostra como deve estar a tela do seu Rstudio. Para facilitar a compreendê-la nesse primeiro contato, essa tela se encontra aqui numerada em quatro importantes ambientes.
para que outras pessoas entendam sua lógica e para que você mesmo consiga utilizar o código no futuro com maior facilidade. Dar Nomes aos Objetos :
No script , ao digitar uma linha de código e pressionar o botão Run ou o atalho Ctrl + Enter (ou Command + Enter no Mac), o Console exibirá o resultado. Por exemplo:
print ("Hello World!")
Para dar mais exemplos, vamos começar com um caso simples, realizando operações básicas.
1 + 3
NOTA: O comando Ctrl/Command + Enter ou Run roda somente o comando da linha que o cursor está posicionado ou os comandos das linhas selecionadas. Se temos mais de uma linha de código, podemos utilizar o comando Ctr/Command + Shift + Enter para rodar o código todo. Alternativamente, podemos selecionar as linhas do código desejadas e apertar o botão Run.
Da mesma forma, podemos utilizar funções já programadas no RStudio. Por exemplo, para realizar a operação matemática 1 + 2 + 3 + 4, alternativamente, podemos utilizar a função sum() já existente no software. De maneira geral , esta função pode ser utilizada assim:
sum (numero1,numero2,numero3, etc)
E, para o exemplo citado anteriormente, temos:
sum (1, 2, 3, 4) #Soma
Para calcularmos a raiz quadrada de um número, existe a função sqrt(), que funciona de maneira geral como:
sum (numero_desejado)
Um exemplo:
sqrt (9) #Raiz quadrada
Para calcular o cosseno, a função cos() (dentre muitas outras funções), que funciona de maneira geral como:
cos (numero_desejado)
Um exemplo:
cos (3.1415) #Cosseno
NOTA: No R:
Criar objetos pode ser útil para guardar resultados de operações matemáticas ou de funções calculadas. Para atribuir algum valor a um objeto, os operadores que atribuem valores a um objeto podem ser feitos pelos símbolos: <- (obtido com atalho Alt -) e = (atalho Alt +). Já uma maneira menos utilizada cujo valor é atribuído a um objeto pode ser feito pelo símbolo: ->.
Os exemplos a seguir mostram o uso desses operadores de atribuição para colocar o valor 3 ao objeto nomeado de a:
a <- 3 a = 3 3 -> a
Ainda, se quiser salvar o resultado da soma de 1 + 2 + 3 + 4, pense em algum nome para guardá-lo (releia a Seção 1.7). Aqui, nomearemos de soma:
soma <- sum (1, 2, 3, 4)
Da mesma forma, podemos salvar o valor de
9 no objeto nomeado raiz:
raiz <- sqrt (9)
Posteriormente, podemos incluir o objeto salvo em outra operação: Por exemplo, se quisermos agora saber o valor de 2 +
(9), podemos simplesmente incluir no código o objeto raiz já criado anteriormente:
2 + raiz
Para exibir o valor contido em um objeto, basta chamá-lo:
raiz
Isso é o equivalente a utilizar a função print:
print (raiz)
Após criar um objeto, verifica-se sua existência na parte da tela apontada pelo Campo 3 Environment , que lista todos os objetos carregados:
NOTA: Os números entre colchetes [] representam a posição do valor imediatamente à direita dentro do vetor! Note também que, mesmo quando apenas um número é exibido, o R mostra a posição [1]. Isso acontece porque o R também o considera como vetor!
ATENÇÃO: Muitas funções levam os argumentos na forma de vetor. É o caso da função mean() que calcula a média. Para calcular a média de alguns números, é necessário antes carregá-los num vetor. Por exemplo, queremos calcular a média dos números: 1 , 2 , 4 , 7 e 10. Primeiramente, criar o objeto numeros que irá receber o vetor com os valores desejados: numeros <- c (1, 2, 4, 7, 10)
Agora, guardar em media o resultado calculado dessa média do vetor numeros calculada pela função mean(): media <- mean (numeros)
Para exibir o conteúdo da variável media: media
NOTA: Repare que o resultado da média não foi exibido no console quando criamos o objeto media. Isso se dá pois a informação retornada pela função foi salva diretamente, logo, não havia nada para ser impresso no Console. Alternativamente, pode-se criar um objeto soma que irá receber o valor da soma de 1 + 2 + 4 + 7 + 10: soma <- 1 + 2 + 4 + 7 + 10
E para criar um novo objeto nomeado, por exemplo, de media2 que receberá o valor de soma dividido por 5 (número de elementos somados), faz-se:
media2 <- soma / 5
Da mesma maneira, chama-se media2 para que o resultado seja exibido: media
Para saber o número de elementos em um vetor, use o comando length(): length (numeros)
Além dos vetores unidimensionais, pode ser útil a utilização de matrizes. Um fato essencial nas matrizes é que todos os dados devem ser do mesmo tipo (só numérico ou só texto, entre outras opções). Para formação da matriz, os conteúdos são colocados na forma vetorial. Considere o conteúdo do vetor a seguir nomeado de vet: vet <- c (1, 3, 4, 7, 10, 14)
Para a criação da matriz, utilizamos a função matrix() que leva argumentos adicionais:
Assim, distribuiremos os números contidos em vet numa matriz com 3 linhas e 2 colunas e a salvaremos na variável A:
A <- matrix (vet, nrow = 3, ncol = 2)
A seguir, chama-se o objeto A para que a matriz seja exibida: A
Note que primeiro ele preenche todas as linhas da 1a^ coluna da matriz utilizando os primeiros elementos de vet e só então começa a preencher as próximas colunas. Para selecionar partes de uma matriz, utilize o padrão: nome_da_matriz[numero_da_linha,numero_da_coluna]
Veja alguns exemplos a seguir: A[3,2] # elemento da 3a linha e 2a coluna
A[2 : 3,1] # elementos da 2a até 3a linha da 1a coluna
NOTA: Conforme explicado anteriormente, os números entre colchetes [] representam o número da linha e o número da coluna da matriz que você quer selecionar, respectivamente. Por exemplo, A[1,2] mostrará o elemento da 1 a^ linha e 2a^ coluna da matriz A.
Um objeto fundamental para análise de dados no R é o Data Frame. Sua aparência é similar a de uma matriz. Geralmente, cada coluna representa uma variável, e cada linha uma observação. Seu diferencial é que cada coluna pode representar um tipo de dado diferente (isto é, uma coluna pode conter dados numéricos, enquanto outra coluna possui dados de texto). Podemos carregar uma base de dados de exemplo, em formato Data Frame , já existente dentro do R, utilizando a função data(). De maneira geral , utilizamos esta função da seguinte forma: data (nome_dataframe)
Carregando o Data Frame mtcars existente no R: data (mtcars)
Note que após executar o programa, o objeto mtcars aparece na tela Environment , no canto superior direito do RStudio. Caso o Data Frame seja chamado diretamente, todas as observações são exibidas no Console , o que pode ser ruim caso a base de dados seja grande. Para visualizar a base em uma tela separada, basta clicar em cima do nome da base (no caso, mtcars) na tela Environment. Este procedimento é um atalho para o código View(nome_dataframe):
NOTA: Para maiores detalhes da função str(mtcars), veja Seção 2.6.
Uma parte importante na programação em R é a referência a subconjuntos. Nesse caso, o operador essencial é o colchete [].
Por exemplo, queremos selecionar o quarto elemento na sequência de 20 a 30. Primeiro, geraremos números consecutivos de 20 a 30 utilizando : conforme visto anteriormente e salvaremos na variável numeros:
numeros <- 20 : 30
Agora pediremos para o R retornar o elemento na quarta posição desta sequência:
numeros[4]
Podemos também pedir para o R retornar os elementos da 1 a , 3 a^ e 7 a^ posições na sequência. Nesse caso, criamos um vetor que possui as posições de interesse e o inserimos dentro dos colchetes:
numeros[ c (1, 3, 7)]
Agora queremos que o R retorne todos os elementos, exceto o contido na segunda posição. Para isso, utilizaremos [-2]:
numeros[ - 2]
Da mesma forma, queremos agora que o R retorne todos os elementos, exceto os contidos nas posições 2 a , 5 a^ e 9 a. Utilizando a lógica dos dois últimos exemplos, temos:
numeros[ -c (2, 5, 9)]
Em Matrizes e Data Frames , o procedimento é bastante parecido, salvo o fato de que temos posições para linhas e colunas.
Dessa forma, se quisermos que o R retorne o elemento da segunda linha e terceira coluna do Data Frame mtcars, utilizamos o comando:
mtcars[2, 3]
Se quisermos visualizar todos os elementos da primeira coluna (todas as linhas da primeira coluna), podemos utilizar:
mtcars[, 1]
De forma similar, se quisermos visualizar todos os elementos da primeira linha (todas as colunas da primeira linha):
mtcars[1,]
Quando queremos fazer operações utilizando colunas específicas da base que estamos utilizando, podemos utilizar o símbolo $. A diferença é que ao invés de precisar saber a posição da coluna em que tal variável se encontra, precisamos apenas saber o nome da variável. Ou seja, de maneira geral , utilizamos nome_dataframe $ nome_variavel.
Dessa forma, quando queremos selecionar os elementos da coluna cyl da base mtcars, utilizamos:
mtcars $ cyl
Um problema muito comum no RStudio ao abrir scripts de R é a leitura de caracteres não presentes no alfabeto da língua inglesa.
Assim, caracteres com acento, por exemplo, são substituídos por pontos de interrogação ?, sinalizando que o RStudio não conseguiu identificar o caractere.
Uma solução simples é, com o script aberto, seguir o seguinte procedimento: Clicar na aba File, no canto superior esquerdo do RStudio. Selecionar o item Reopen with Encoding.... Selecionar a opção UTF-8 ou WINDOWS-1252. Em geral, uma das duas já estará selecionada, sendo correta a outra opção! Aqui, a opção correta sempre dependerá da escolha que o script foi salvo (reveja as seções 1.2 e 1.3 para lembrar como criar e salvar um script ). Clicar em OK.
Para obter ajuda sobre o funcionamento de alguma função e sobre seus argumentos, basta utilizar o comando help(nome_da_função) ou ?nome_da_função. Experimente inspecionar as funções abs() e sort():
help (abs) ?sort
2. Base de Dados
Esta seção irá apresentar algumas dicas importantes para carregar e manipular uma base de dados no RStudio.
Apresentamos algumas formas básicas de carregar uma base de dados no formato .RData no RStudio. A forma mais simples e direta de carregar a base de dados é através do menu do RStudio. Primeiro, clique em File > Open File (seta 1) ou na pasta amarela em Environment (seta 2), selecione o arquivo da base de dados com extensão .RData e confirme que deseja carregá-lo no RStudio.
Para realizar a leitura do banco de dados .RData via linha de comando, pode-se utilizar a função load() indicando de maneira completa e entre aspas (" ") o diretório do seu computador que está localizada a base de dados. Por exemplo:
load ("C:/Insper/Estatística I/BankLoan.RData")
Se um diretório de trabalho já foi indicado, a base de dados também pode ser carregada utilizando diretamente seu nome e acrescentando .Rdata. Não é necessária a inserção de todo o caminho até o arquivo:
load ("BankLoan.RData")
Uma última maneira indicada aqui para abrir uma base de dados .RData funcionará apenas após direcionar um diretório de trabalho. Com diretório direcionado, clique no nome do arquivo a partir da tela Files , no canto inferior direito do RStudio, como mostra a imagem. Após clicar, confirmar que deseja carregar o arquivo no RStudio clicando agora em Sim ou Yes:
Para carregar a base de dados .xlsx através do menu do RStudio , clique no caminho File > Import Dataset > From Excel... (seta 1). No campo File/URL, clique em Browse... e procure a base de dados em Excel. Selecione o arquivo com extensão .xlsx e confirme que deseja carregá-lo no RStudio clicando em Open. Como padrão, será carregado os dados da primeira planilha do arquivo Excel. Caso queira alterar a planilha, no campo Import Options, altere o nome da planilha em Sheet:. Agora sim clique no botão Import. Outra opção é clicar em Import Dataset da aba Environment no canto superior à direita da tela (seta 2). A partir daí, seguir os mesmos passos ditos anteriormente.
NOTA: Na primeira vez que tentar importar uma base de dados do Excel após a instalação do R no seu computador, o RStudio irá avisar que é necessário a instalação de um pacote ( package ) para que a importação seja realizada. Aceite a instalação (demorará alguns minutos para que seja feito o download e a instalação) e, então, nas próximas vezes a importação será da maneira explicada anteriormente.
A figura a seguir apresenta esses dois caminhos indicados pelas setas.
Esses são os nomes das variáveis (rótulos das colunas) contidas na base de dados dados. Essas variáveis possuem os seguintes significados:
individuo: ID do cliente que solicitou empréstimo; Agência: Agência em que solicitou o empréstimo codificada de 1 a 8 ; IDADE: Idade (em anos completos); EDUCAÇÃO: nível educacional do cliente codificada de 1 a 5 com os seguintes significados
Assuma que, por algum motivo, seja necessário criar uma nova base de dados apenas com as quatro primeiras colunas da base de dados dados que possui as informações de BankLoan.RData conforme visualizado no campo Environment. Para criar essa nova base de dados nomeada aqui de dados2, pode ser utilizada a seguinte linha de comando:
dados2 <- dados[,1 : 4]
individuo Agência IDADE EDUCAÇÃO 1 2 41 3 2 4 27 1 3 3 40 1 4 5 41 1 5 1 24 2 6 4 41 2
Para salvar esse novo Data Frame , a função save() pode ser utilizada da seguinte forma:
save (dados2, file = "BankLoan_NAO.RData")
Observações:
Na Seção 1.13, foi mostrado que para selecionar uma coluna específica do banco de dados, utilizamos o símbolo $. De maneira geral : nome_dataframe $ nome_da_coluna. Voltando à base de dados dados do arquivo BankLoan.RData, vamos supor que queremos que o R “filtre” o ID dos indivíduos que possuem a variável DEFAULT com valor igual a 0. Para isso, utilizaremos os colchetes []. De maneira geral , fazemos um filtro no R assim: nome_dataframe $ variavel_interesse[nome_dataframe $ variavel_de_filtro == restrição]
Observações: