Docsity
Docsity

Prepare-se para as provas
Prepare-se para as provas

Estude fácil! Tem muito documento disponível na Docsity


Ganhe pontos para baixar
Ganhe pontos para baixar

Ganhe pontos ajudando outros esrudantes ou compre um plano Premium


Guias e Dicas
Guias e Dicas

PLANO DE ACOMPANHAMENTO DE CARREIRA EM CIÊNCIA DE DADOS II, Exercícios de Processamento de Dados

Como observaram, essa unidade não possui atividades de autocorreção. É proposta uma atividade mais prática, considerando que vocês já possuem instalada a plataforma Hadoop, bem como o mahout, portanto, vocês poderão fazer os experimentos aqui propostos, onde é disponibilizada uma base de textos da Reuters.

Tipologia: Exercícios

2023
Em oferta
30 Pontos
Discount

Oferta por tempo limitado


Compartilhado em 09/10/2024

nertan-cruz-1
nertan-cruz-1 🇧🇷

7 documentos

1 / 7

Toggle sidebar

Esta página não é visível na pré-visualização

Não perca as partes importantes!

bg1
UNIVERSIDADE CRUZEIRO DO SUL
PLANO DE ACOMPANHAMENTO DE CARREIRA EM CIÊNCIA DE DADOS II - TURMA_001 EAD
DISCIPLINA: Tópicos Especiais em Ciência de Dados II - Turma_001
Atividade Prática
Aluno: Ademir Oliveira da silva
RGM: 56892547
Conteúdo do exercício
Como observaram, essa unidade não possui atividades de autocorreção. É proposta uma atividade mais prática,
considerando que vocês já possuem instalada a plataforma Hadoop, bem como o mahout, portanto, vocês
poderão fazer os experimentos aqui propostos, onde é disponibilizada uma base de textos da Reuters.
A ideia da atividade é vocês executarem o algoritmo kmeans usando uma das pastas com os textos, e analisar
qual o resultado do algoritmo.
Observem os clusters gerados, e se de fato os assuntos possuem relação entre si. Caso queiram utilizar outras
bases de textos, a sequência de comandos deverá funcionar.
Executando o algoritimo Kmeans, e analise o seu resultado, use a plataforma hadoop e mahout.
Kmeans+Base Reuters+C50train+mahout
Executando o algoritimo Kmeans, e analise o seu resultado, use a plataforma hadoop e mahout.
A base se encontra nesta url: https://github.com/jgscott/STA380/tree/master/data/ReutersC50/C50train
hadoop fs -copyFromLocal C50/ /
./mahout seqdirectory -i /C50/C50train -o /seqreuters -xm sequential
./mahout seq2sparse -i /seqreuters -o /train-sparse
./mahout kmeans -i /train-sparse/tfidf-vectors/ -c /kmeans-train-clusters -o /train-clusters-final -dm
org.apache.mahout.common.distance.EuclideanDistanceMeasure -x 10 -k 10 -ow
./mahout clusterdump -d /train-sparse/dictionary.file-0 -dt sequencefile -i /train-clusters-final/clusters-10-
final -n 10 -b 100 -o ~/saida_clusters.txt -p /train-clusters-final/clustered-points
o arquivo final será esse, atualize as datas e o número de clusters:
pf3
pf4
pf5
Discount

Em oferta

Pré-visualização parcial do texto

Baixe PLANO DE ACOMPANHAMENTO DE CARREIRA EM CIÊNCIA DE DADOS II e outras Exercícios em PDF para Processamento de Dados, somente na Docsity!

UNIVERSIDADE CRUZEIRO DO SUL

PLANO DE ACOMPANHAMENTO DE CARREIRA EM CIÊNCIA DE DADOS II - TURMA_001 – EAD DISCIPLINA: Tópicos Especiais em Ciência de Dados II - Turma_ Atividade Prática

Aluno: Ademir Oliveira da silva

RGM: 56892547

Conteúdo do exercício

Como observaram, essa unidade não possui atividades de autocorreção. É proposta uma atividade mais prática,

considerando que vocês já possuem instalada a plataforma Hadoop, bem como o mahout, portanto, vocês poderão fazer os experimentos aqui propostos, onde é disponibilizada uma base de textos da Reuters.

A ideia da atividade é vocês executarem o algoritmo kmeans usando uma das pastas com os textos, e analisar qual o resultado do algoritmo.

Observem os clusters gerados, e se de fato os assuntos possuem relação entre si. Caso queiram utilizar outras bases de textos, a sequência de comandos deverá funcionar.

Executando o algoritimo Kmeans, e analise o seu resultado, use a plataforma hadoop e mahout.

Kmeans+Base Reuters+C50train+mahout

Executando o algoritimo Kmeans, e analise o seu resultado, use a plataforma hadoop e mahout.

A base se encontra nesta url: https://github.com/jgscott/STA380/tree/master/data/ReutersC50/C50train

hadoop fs -copyFromLocal C50/ /

./mahout seqdirectory -i /C50/C50train -o /seqreuters -xm sequential

./mahout seq2sparse -i /seqreuters -o /train-sparse

./mahout kmeans -i /train-sparse/tfidf-vectors/ -c /kmeans-train-clusters -o /train-clusters-final -dm org.apache.mahout.common.distance.EuclideanDistanceMeasure -x 10 -k 10 -ow

./mahout clusterdump -d /train-sparse/dictionary.file-0 -dt sequencefile -i /train-clusters-final/clusters-10- final -n 10 -b 100 -o ~/saida_clusters.txt -p /train-clusters-final/clustered-points

o arquivo final será esse, atualize as datas e o número de clusters:

Analise do resultado do algoritmo:

A análise dos clusters gerados pelo algoritmo K-means revela diferentes temas com pouca sobreposição direta entre eles, sugerindo que os tópicos são amplamente distintos. Abaixo está uma análise de como esses clusters se relacionam entre si:

  1. Cluster 1 : Contém termos genéricos como "its", "he", "from", que podem estar relacionados a textos narrativos ou informativos mais amplos. A presença de palavras como "percent" e "million" sugere uma discussão quantitativa ou econômica, sem foco em um tópico específico.
  2. Cluster 2 : Focado em temas de entretenimento, como filmes e celebridades. Termos como "blacklist", "disney", e "film" indicam discussões sobre a indústria cinematográfica, possivelmente envolvendo controvérsias ou produção de filmes.
  3. Cluster 3 : Está relacionado a um contexto político ou legal, com termos como "fraud", "papers", e "hearing", e centrado em figuras públicas e processos judiciais.
  4. Cluster 4 : Focado no setor varejista, com menções a marcas de lojas e termos relacionados ao comércio, como "retailer" e "bankruptcy", refletindo uma discussão sobre negócios e a saúde financeira de grandes varejistas.
  5. Cluster 5 : Relacionado ao setor automobilístico, com termos como "ford", "mondeo", e "cars", indicando discussões sobre a indústria automotiva, particularmente em relação a fabricantes de automóveis.
  6. Cluster 6 : Aborda temas relacionados ao transporte e segurança, com termos como "tunnel", "fire", e "evacuation", sugerindo um contexto de infraestrutura, possivelmente referindo-se a incidentes em túneis ou sistemas de transporte.
  7. Cluster 7 : Relacionado ao setor financeiro, com termos como "bank", "royal", e "canadian", o que indica discussões sobre bancos e o sistema financeiro, especificamente no Canadá.

Conclusão

Os clusters gerados mostram uma clara segmentação temática. Não há uma relação direta entre a maioria dos clusters, visto que os temas variam de entretenimento e política a comércio, transporte e finanças. Cada cluster reflete um campo específico, mostrando que o algoritmo K-means conseguiu separar bem os diferentes tópicos presentes nos textos analisados.

:{"identifier":"VL-1335","r":[{"based":0.413},{"biggest":0.585},{"company's":1.42},{"from":0.155},{"i

:{"identifier":"VL-948","r":[{"10":0.875},{"19":1.537},{"1938":2.43},{"1945":2.824},{"1989":1.455},{"

:{"identifier":"VL-1991","r":[{"business":0.415},{"only":1.083},{"retailer":0.669}],"c":[{"1":2.144},

:{"identifier":"VL-1925","r":[{"1":1.516},{"13.6":3.439},{"38.7":5.463},{"5956":3.13},{"96.8":3.863},