Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

Mineração de Dados e Análise de Dados - Prof. Ferreiro, Provas de Biotecnologia

Este documento aborda os conceitos e técnicas de mineração de dados, uma área interdisciplinar que envolve a extração de conhecimento a partir de grandes volumes de dados. Ele explica como os dados brutos podem ser transformados em informações valiosas por meio de técnicas como a análise de associação, a indução de regras, a análise de sensibilidade e a análise de otimização. O documento também discute a importância da mineração de dados para aplicações como a prevenção de fraudes e a análise de cestas de compras. Além disso, ele apresenta exemplos práticos de como a mineração de dados pode ser aplicada em diferentes contextos, como no setor público e no varejo. Ao final, o documento aborda a importância do fator humano no processo de escolha e utilização de ferramentas de mineração de dados, destacando que não há uma solução única e que a seleção da ferramenta adequada depende da aplicação e dos interesses específicos.

Tipologia: Provas

2021

Compartilhado em 07/06/2024

igor-almeida-6om
igor-almeida-6om 🇧🇷

1 / 27

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
Mineração de
Dados (Data
Mining)
Otempo todo geramos dados, muitos dados!
pf3
pf4
pf5
pf8
pf9
pfa
pfd
pfe
pff
pf12
pf13
pf14
pf15
pf16
pf17
pf18
pf19
pf1a
pf1b

Pré-visualização parcial do texto

Baixe Mineração de Dados e Análise de Dados - Prof. Ferreiro e outras Provas em PDF para Biotecnologia, somente na Docsity!

Mineração de

Dados (Data

Mining)

Otempo todo geramos dados, muitos dados!

Seja no rastro que deixamos ao fazer compras de produtos ou serviços, seja nas plataformas sociais, trocas de mensagens, etc. Nós também passamos a ter sede de dados. A simples manutenção de um blog já gera dados interessantes:

Em outras palavras, tanto nós quanto as empresas querem dados para analisar Análise de dados

Junto ao big data está a ideia de mineração de dados (data-mining).  Data-mining ou mineração de dados é o processo de explorar grandes quantidades de dados à procura de padrões para detectar novos relacionamentos entre variáveis.  Procura descobrir padrões, tendências e correlações ocultas nos dados,  Geralmente ainda está identificada com algoritmos. Mineração de dados é usada para :

 Explicar : … Por que caiu a venda de sorvetes no Rio de Janeiro?

 Confirmar uma hipótese: uma companhia de seguros pode querer

examinar os registros de seus clientes para determinar se famílias de duas rendas têm mais probabilidade de adquirir um plano de saúde do que famílias de uma renda.

 Explorar: analisar os dados buscando relacionamentos novos e não

previstos. Uma companhia de cartão de crédito pode analisar seus registros históricos para determinar que fatores estão associados a pessoas que representam riscos para créditos.

O que é BI? Baseia-se na capacidade de disseminar informações de forma rápida e segura auxiliando em processos de tomada de decisões. As organizações recolhem informações a fim de avaliar o ambiente de negócio e converter em campos significativos, tais como pesquisa de mercado, de indústria, de marketing e análise de competidores Utiliza técnicas de recuperação da informação, inteligência artificial, reconhecimento de padrões, estatísticas… DM é usual em grandes bancos de dados e o resultado final pode ser exibido por meio de regras, hipóteses, árvores de decisão, etc. DM evolui como evolui o conhecimento e a inteligência empresarial.

as vendas de cervejas cresciam na mesma proporção que as de fraldas.

 Ao comprar fraldas para seus bebês, os pais aproveitavam para

abastecer o estoque de cerveja para o final de semana. Data mining opera de acordo com diferentes métodos: Método de visualização Método estatístico Método de dedução Método de indução Método de estruturas de decisão (árvores) Método de Redes Neurais

Método de Associação Método da Cesta de Compras Método de algoritmos genéticos Método de indução de regras  Indução de regras: conjunto de regras que classificam os conjuntos de dados

  • Ex: Se Renda > 60.000 e Débito < 10%, então Risco “bom” => Aprovar! Sistemas de apoio à decisão / modelagem analítica

Sistemas de apoio à decisão / modelagem analíticaAnálise de Otimização Encontrar um valor ótimo para variáveis selecionadas, dadas certas restrições. Exemplo: Qual o melhor montante de propaganda considerando nosso orçamento e escolha de mídia? Técnica de cesta de compras para gerar regras de associação  As regras de associação são bastante utilizadas em banco de dados de tamanho grande e o resultado depende do algoritmo usado.  O nome “análise da cesta de compras” tem origem no algoritmo que começou classificando o tipo de cliente de um supermercado de acordo com a composição da sua cesta de compras.

Técnica de cesta de compras para gerar regras de associação (cont.)  Associação sequencial:  Descobre associações que ligam eventos ao longo do tempo (ou seja, identifica padrões sequenciais).

- Exemplo: Clientes que abrem uma conta corrente e após três meses abrem uma conta poupança e abrirão uma conta de cartão de crédito dentro de seis meses em 24% dos casos. Método de associação  Relações significativas entre itens de dados armazenados.  O objetivo é encontrar tendências a partir de um grande número de transações.  Exemplo: varrer registros de terminais de pontos de venda e descobrir que itens são vendidos juntos para redefinir disposição a campanhas.

 If (bebida=champagne e comida=caviar), then (cliente =homem e idade> 60 anos) com nível de certeza =90%  If (bebida=água mineral e roupa =casaco para bebê), then (cliente=mulher e idade > 30 anos), com nível de certeza =90 % Grupos de dois itens: (sexo=masc, idade=25 ou menos) 🡪3x (sexo fem, peso = 80 kg ou mais) 🡪3 x Grupos de quatro itens:

(sexo=masc, idade=25 ou menos, peso=60 a 80, colesterol normal) 🡪 1 x Grupos de 5 itens: (masc, 60kg ou menos, lipídios=alto, colesterol=alto, doença=sim) 🡪 2 x Por exemplo, vimos que o grupo de cinco itens ocorre duas vezes e gera as seguintes regras, entre outras: 1 – Um item na parte IF e quatro na parte THEN: if (sexo=masc), then (peso=60kg ou menos, lipidios = alto, coleterol = alto, doença=sim) O antecedente (sexo=masc) ocorre em oito regras do banco de dados. Sendo assim, o nível de certeza desta regra é 2/8 ou 25%. 2 – Três itens na parte IF e dois na parte THEN

Vamos considerar o seguinte cenário para a utilização do algoritmo. Um sistema de contas a receber de um clube esportivo envia para um banco no início de cada mês um boleto contendo a mensalidade do clube a ser paga pelos associados. O banco então envia pelo correio a fatura para os clientes e espera os recebimentos. No final do mês, o banco retorna para o sistema do clube quais clientes pagaram o boleto, quais não pagaram e quais clientes pagaram com atraso, dentre outras informações. Com o objetivo de diminuir a quantidade de clientes que pagam o boleto com atraso, foi feita uma mineração de dados na base de associados para identificar o perfil de quem paga com atraso o boleto. Exemplo – Inadimplentes Temos um conjunto de dados formado por 14 amostras. Cada ponto representa alguém que contraiu um empréstimo no passado. Eixo X: salário

Eixo Y: débito mensal (hipoteca, carro…)  Base de dados relativos a empréstimos pessoais.  O conhecimento que queremos extrair é: o Como identificar os mutuários negligentes?  Há um consenso de que os atributos mais importantes são: o Salário o Débito o Regularidade de pagamento Como identificar inadimplentes?