



















Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
Este documento aborda os conceitos e técnicas de mineração de dados, uma área interdisciplinar que envolve a extração de conhecimento a partir de grandes volumes de dados. Ele explica como os dados brutos podem ser transformados em informações valiosas por meio de técnicas como a análise de associação, a indução de regras, a análise de sensibilidade e a análise de otimização. O documento também discute a importância da mineração de dados para aplicações como a prevenção de fraudes e a análise de cestas de compras. Além disso, ele apresenta exemplos práticos de como a mineração de dados pode ser aplicada em diferentes contextos, como no setor público e no varejo. Ao final, o documento aborda a importância do fator humano no processo de escolha e utilização de ferramentas de mineração de dados, destacando que não há uma solução única e que a seleção da ferramenta adequada depende da aplicação e dos interesses específicos.
Tipologia: Provas
1 / 27
Esta página não é visível na pré-visualização
Não perca as partes importantes!
Otempo todo geramos dados, muitos dados!
Seja no rastro que deixamos ao fazer compras de produtos ou serviços, seja nas plataformas sociais, trocas de mensagens, etc. Nós também passamos a ter sede de dados. A simples manutenção de um blog já gera dados interessantes:
Em outras palavras, tanto nós quanto as empresas querem dados para analisar Análise de dados
Junto ao big data está a ideia de mineração de dados (data-mining). Data-mining ou mineração de dados é o processo de explorar grandes quantidades de dados à procura de padrões para detectar novos relacionamentos entre variáveis. Procura descobrir padrões, tendências e correlações ocultas nos dados, Geralmente ainda está identificada com algoritmos. Mineração de dados é usada para :
examinar os registros de seus clientes para determinar se famílias de duas rendas têm mais probabilidade de adquirir um plano de saúde do que famílias de uma renda.
previstos. Uma companhia de cartão de crédito pode analisar seus registros históricos para determinar que fatores estão associados a pessoas que representam riscos para créditos.
O que é BI? Baseia-se na capacidade de disseminar informações de forma rápida e segura auxiliando em processos de tomada de decisões. As organizações recolhem informações a fim de avaliar o ambiente de negócio e converter em campos significativos, tais como pesquisa de mercado, de indústria, de marketing e análise de competidores Utiliza técnicas de recuperação da informação, inteligência artificial, reconhecimento de padrões, estatísticas… DM é usual em grandes bancos de dados e o resultado final pode ser exibido por meio de regras, hipóteses, árvores de decisão, etc. DM evolui como evolui o conhecimento e a inteligência empresarial.
as vendas de cervejas cresciam na mesma proporção que as de fraldas.
abastecer o estoque de cerveja para o final de semana. Data mining opera de acordo com diferentes métodos: Método de visualização Método estatístico Método de dedução Método de indução Método de estruturas de decisão (árvores) Método de Redes Neurais
Método de Associação Método da Cesta de Compras Método de algoritmos genéticos Método de indução de regras Indução de regras: conjunto de regras que classificam os conjuntos de dados
Sistemas de apoio à decisão / modelagem analítica Análise de Otimização Encontrar um valor ótimo para variáveis selecionadas, dadas certas restrições. Exemplo: Qual o melhor montante de propaganda considerando nosso orçamento e escolha de mídia? Técnica de cesta de compras para gerar regras de associação As regras de associação são bastante utilizadas em banco de dados de tamanho grande e o resultado depende do algoritmo usado. O nome “análise da cesta de compras” tem origem no algoritmo que começou classificando o tipo de cliente de um supermercado de acordo com a composição da sua cesta de compras.
Técnica de cesta de compras para gerar regras de associação (cont.) Associação sequencial: Descobre associações que ligam eventos ao longo do tempo (ou seja, identifica padrões sequenciais).
- Exemplo: Clientes que abrem uma conta corrente e após três meses abrem uma conta poupança e abrirão uma conta de cartão de crédito dentro de seis meses em 24% dos casos. Método de associação Relações significativas entre itens de dados armazenados. O objetivo é encontrar tendências a partir de um grande número de transações. Exemplo: varrer registros de terminais de pontos de venda e descobrir que itens são vendidos juntos para redefinir disposição a campanhas.
If (bebida=champagne e comida=caviar), then (cliente =homem e idade> 60 anos) com nível de certeza =90% If (bebida=água mineral e roupa =casaco para bebê), then (cliente=mulher e idade > 30 anos), com nível de certeza =90 % Grupos de dois itens: (sexo=masc, idade=25 ou menos) 🡪3x (sexo fem, peso = 80 kg ou mais) 🡪3 x Grupos de quatro itens:
(sexo=masc, idade=25 ou menos, peso=60 a 80, colesterol normal) 🡪 1 x Grupos de 5 itens: (masc, 60kg ou menos, lipídios=alto, colesterol=alto, doença=sim) 🡪 2 x Por exemplo, vimos que o grupo de cinco itens ocorre duas vezes e gera as seguintes regras, entre outras: 1 – Um item na parte IF e quatro na parte THEN: if (sexo=masc), then (peso=60kg ou menos, lipidios = alto, coleterol = alto, doença=sim) O antecedente (sexo=masc) ocorre em oito regras do banco de dados. Sendo assim, o nível de certeza desta regra é 2/8 ou 25%. 2 – Três itens na parte IF e dois na parte THEN
Vamos considerar o seguinte cenário para a utilização do algoritmo. Um sistema de contas a receber de um clube esportivo envia para um banco no início de cada mês um boleto contendo a mensalidade do clube a ser paga pelos associados. O banco então envia pelo correio a fatura para os clientes e espera os recebimentos. No final do mês, o banco retorna para o sistema do clube quais clientes pagaram o boleto, quais não pagaram e quais clientes pagaram com atraso, dentre outras informações. Com o objetivo de diminuir a quantidade de clientes que pagam o boleto com atraso, foi feita uma mineração de dados na base de associados para identificar o perfil de quem paga com atraso o boleto. Exemplo – Inadimplentes Temos um conjunto de dados formado por 14 amostras. Cada ponto representa alguém que contraiu um empréstimo no passado. Eixo X: salário
Eixo Y: débito mensal (hipoteca, carro…) Base de dados relativos a empréstimos pessoais. O conhecimento que queremos extrair é: o Como identificar os mutuários negligentes? Há um consenso de que os atributos mais importantes são: o Salário o Débito o Regularidade de pagamento Como identificar inadimplentes?