Cursos‎ > ‎

Mineração Massiva de Dados 2020.1

Objetivos do Curso

O objetivo do curso é apresentar técnicas de Mineração de Dados em uma quantidade muito grande de informações, virtualmente infinita. O curso visa apresentar uma introdução às técnicas mais conhecidas de mineração de dados e aplica-las em uma infraestrutura de computação distribuída de alto desempenho baseado no Apache Spark. O curso não foca  em detalhes de implementação dos algoritmos de ciência de dados, mas em como utilizá-lo de forma distribuída. O curso ftambém aceita alunos matriculados em outros cursos de pós-graduação da UECE em áreas do conhecimento que necessitem realizar análise de grandes volumes de dados com ferramenta para suas pesquisas. Sendo uma disciplina aplicada, ela tem uma composição de 50% de aula teórica e 50% de aula prática. 

Como trabalho final da disciplina deverá ser escrito um texto, em formato de artigo, com uma experiência de mineração de dados na área de interesse do aluno. No curso é estimulado a interação entre alunos da computação  com alunos de áreas diferentes com o objetivo  de para despertar novos temas de pesquisa para ambos..

Conteúdo programático

  1. Introdução à Mineração de Dados
  2. Infraestrutura de computação e Map-reduce.
  3. Revisão de Álgebra Linear e Estatística.
  4. Regras de Associação e Clustering
  5. Localizando Itens Semelhantes
  6. Análise de Enlace
  7. Sistemas de Recomendação
  8. Análise de Comunidades
  9. Redução de Dimensionalidade
  10. Aprendizagem de Máquina
  11. Tratamento de dados contínuos (Streaming)
  12. Aplicações prática no sistema Apach Spark distribuído.

Material do curso

Livro Texto

O livro texto do curso pode ser baixado em Mining of Massive Datasets

Slides do curso

Slides do curso Mineração Massiva de Dados 

Vídeo Aulas

Aula 01 - Introdução:  Parte 1a   Parte 1b 
Aula 02 - Infraestrutura MapReduce:  Parte 2a   Parte 2b   Parte 2c
Aula 03 - Revisão Matemática Estatística e Programação:  Parte 3a   Parte 3b   Parte 3c
Aula 04 - Agrupamento:  Parte 4a   Parte 4b
Aula 05 - Regras de Associação:  Parte 5a   Parte 5b
Aula 06 - Análise de Enlaces (Grafos):   Parte 6a   Parte 6b   Parte 6c
Aula 07 - Análise de Dados Similares:   Parte 7a   Parte 7b   Parte 7c  Parte 7d
Aula 08 - Análise de Comunidades:  Parte 8a   Parte 8b   Parte 8c
Aula 09 - Sistemas de Recomendação:  Parte 9a   Parte 9b   Parte 9c
Aula 10 - Redução de Dimensionalidade:  Parte 10a   Parte 10b   Parte 10c  Parte 10d
Aula 11 - Aprendizado de Máquina:   Parte 11a   Parte 11b   Parte 11c  Parte 11d
Aula 12 - Processamento Distribuído no Spark:   Parte 12a   Parte 12b   Parte 12c 
Aula 13 - Dados Contínuos (Streaming):   Parte 13a   Parte 13b   Parte 13c

Leitura Complementar

Este curso é baseado no curso Mining of Massive Datasets dos professores Jure Leskovec, Anand Rajaraman e Jeff Ullman  da Universidade de Stanford. Os slides originais do curso, o material didático e videoaulas podem ser acessadas em MMDS.

Recursos computacionais

O link para acessar o ambiente Jupyter Lab é: LasidHub

Página do Laboratório com várias dicas de programação em Spark. LASID

Repositório do Github com programas exemplo e dados usados nas aulas práticas: Mineração Massiva de Dados 

Para acessar o sistema JupyterLab é necessário criar uma conta durante a aula.

Guia de programação

Exemplos de código Python para desenhar gráficos: The Python Graph Gallery

Trabalho Final

Como trabalho final cada aluno deverá apresentar uma proposta e implementação de sistema de mineração de dados a sua escolha. O trabalho pode ser individual ou em grupos pequenos (2 ou 3 participantes). Será estimulado a formação de grupos com participantes da computação e de área de aplicação do trabalho.

Deverá ser preparado um documento em formato "artigo" com os seguintes tópicos:

  1. Título
  2. Resumo/Abstract
  3. Introdução/Motivação
  4. Trabalhos Relacionados
  5. Fundamentação Teórica
  6. Apresentação da Proposta
  7. Sugestão de implementação e validação
  8. Conclusão
  9. Bibliografia
Otrabalho deverá ser apresentado em sala de aula no formato de um seminário em data a ser marcada. Esta apresentação, além de contribuir para a nota de participação em aula, poderá sugerir melhorias no trabalho antes da entrega do texto final.

Calendário de apresentações do Trabalho Final

xx/xx:
Fulano: Título do trabalho

Avaliação

A avaliação da disciplina se dará pela participação em sala de aula, das atividades práticas em sala, e da nota atribuída ao trabalho final.

Calendário

Início do curso: 03/03/2020
Datas de apresentação do Trabalho Final: vide programação acima
Data de entrega do texto escrito do Trabalho Final: 30/09/2020
Fim do curso: 30/06/2020
Comments