



Estude fácil! Tem muito documento disponível na Docsity
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Prepare-se para as provas
Estude fácil! Tem muito documento disponível na Docsity
Prepare-se para as provas com trabalhos de outros alunos como você, aqui na Docsity
Os melhores documentos à venda: Trabalhos de alunos formados
Prepare-se com as videoaulas e exercícios resolvidos criados a partir da grade da sua Universidade
Responda perguntas de provas passadas e avalie sua preparação.
Ganhe pontos para baixar
Ganhe pontos ajudando outros esrudantes ou compre um plano Premium
Comunidade
Peça ajuda à comunidade e tire suas dúvidas relacionadas ao estudo
Descubra as melhores universidades em seu país de acordo com os usuários da Docsity
Guias grátis
Baixe gratuitamente nossos guias de estudo, métodos para diminuir a ansiedade, dicas de TCC preparadas pelos professores da Docsity
Como observaram, essa unidade não possui atividades de autocorreção. É proposta uma atividade mais prática, considerando que vocês já possuem instalada a plataforma Hadoop, bem como o mahout, portanto, vocês poderão fazer os experimentos aqui propostos, onde é disponibilizada uma base de textos da Reuters.
Tipologia: Exercícios
1 / 7
Esta página não é visível na pré-visualização
Não perca as partes importantes!
Em oferta
PLANO DE ACOMPANHAMENTO DE CARREIRA EM CIÊNCIA DE DADOS II - TURMA_001 – EAD DISCIPLINA: Tópicos Especiais em Ciência de Dados II - Turma_ Atividade Prática
Aluno: Ademir Oliveira da silva
RGM: 56892547
Conteúdo do exercício
Como observaram, essa unidade não possui atividades de autocorreção. É proposta uma atividade mais prática,
considerando que vocês já possuem instalada a plataforma Hadoop, bem como o mahout, portanto, vocês poderão fazer os experimentos aqui propostos, onde é disponibilizada uma base de textos da Reuters.
A ideia da atividade é vocês executarem o algoritmo kmeans usando uma das pastas com os textos, e analisar qual o resultado do algoritmo.
Observem os clusters gerados, e se de fato os assuntos possuem relação entre si. Caso queiram utilizar outras bases de textos, a sequência de comandos deverá funcionar.
Executando o algoritimo Kmeans, e analise o seu resultado, use a plataforma hadoop e mahout.
Kmeans+Base Reuters+C50train+mahout
Executando o algoritimo Kmeans, e analise o seu resultado, use a plataforma hadoop e mahout.
A base se encontra nesta url: https://github.com/jgscott/STA380/tree/master/data/ReutersC50/C50train
hadoop fs -copyFromLocal C50/ /
./mahout seqdirectory -i /C50/C50train -o /seqreuters -xm sequential
./mahout seq2sparse -i /seqreuters -o /train-sparse
./mahout kmeans -i /train-sparse/tfidf-vectors/ -c /kmeans-train-clusters -o /train-clusters-final -dm org.apache.mahout.common.distance.EuclideanDistanceMeasure -x 10 -k 10 -ow
./mahout clusterdump -d /train-sparse/dictionary.file-0 -dt sequencefile -i /train-clusters-final/clusters-10- final -n 10 -b 100 -o ~/saida_clusters.txt -p /train-clusters-final/clustered-points
o arquivo final será esse, atualize as datas e o número de clusters:
Analise do resultado do algoritmo:
A análise dos clusters gerados pelo algoritmo K-means revela diferentes temas com pouca sobreposição direta entre eles, sugerindo que os tópicos são amplamente distintos. Abaixo está uma análise de como esses clusters se relacionam entre si:
Conclusão
Os clusters gerados mostram uma clara segmentação temática. Não há uma relação direta entre a maioria dos clusters, visto que os temas variam de entretenimento e política a comércio, transporte e finanças. Cada cluster reflete um campo específico, mostrando que o algoritmo K-means conseguiu separar bem os diferentes tópicos presentes nos textos analisados.
:{"identifier":"VL-1335","r":[{"based":0.413},{"biggest":0.585},{"company's":1.42},{"from":0.155},{"i
:{"identifier":"VL-948","r":[{"10":0.875},{"19":1.537},{"1938":2.43},{"1945":2.824},{"1989":1.455},{"
:{"identifier":"VL-1991","r":[{"business":0.415},{"only":1.083},{"retailer":0.669}],"c":[{"1":2.144},
:{"identifier":"VL-1925","r":[{"1":1.516},{"13.6":3.439},{"38.7":5.463},{"5956":3.13},{"96.8":3.863},