Objetivos do CursoO objetivo do curso é apresentar técnicas de Mineração de Dados em uma quantidade muito grande de informações, virtualmente infinita. O curso visa apresentar uma introdução às técnicas mais conhecidas de mineração de dados e aplica-las em uma infraestrutura de computação distribuída de alto desempenho baseado no Apache Spark. O curso não foca em detalhes de implementação dos algoritmos de ciência de dados, mas em como utilizá-lo de forma distribuída. O curso ftambém aceita alunos matriculados em outros cursos de pós-graduação da UECE em áreas do conhecimento que necessitem realizar análise de grandes volumes de dados com ferramenta para suas pesquisas. Sendo uma disciplina aplicada, ela tem uma composição de 50% de aula teórica e 50% de aula prática. Como trabalho final da disciplina deverá ser escrito um texto, em formato de artigo, com uma experiência de mineração de dados na área de interesse do aluno. No curso é estimulado a interação entre alunos da computação com alunos de áreas diferentes com o objetivo de para despertar novos temas de pesquisa para ambos.. Conteúdo programático
Material do cursoLivro TextoO livro texto do curso pode ser baixado em Mining of Massive Datasets Slides do cursoSlides do curso Mineração Massiva de DadosVídeo AulasAula 01 - Introdução: Parte 1a Parte 1bAula 02 - Infraestrutura MapReduce: Parte 2a Parte 2b Parte 2c Aula 03 - Revisão Matemática Estatística e Programação: Parte 3a Parte 3b Parte 3c Aula 04 - Agrupamento: Parte 4a Parte 4b Aula 05 - Regras de Associação: Parte 5a Parte 5b Aula 06 - Análise de Enlaces (Grafos): Parte 6a Parte 6b Parte 6c Aula 07 - Análise de Dados Similares: Parte 7a Parte 7b Parte 7c Parte 7d Aula 08 - Análise de Comunidades: Parte 8a Parte 8b Parte 8c Aula 09 - Sistemas de Recomendação: Parte 9a Parte 9b Parte 9c Aula 10 - Redução de Dimensionalidade: Parte 10a Parte 10b Parte 10c Parte 10d Aula 11 - Aprendizado de Máquina: Parte 11a Parte 11b Parte 11c Parte 11d Aula 12 - Processamento Distribuído no Spark: Parte 12a Parte 12b Parte 12c Aula 13 - Dados Contínuos (Streaming): Parte 13a Parte 13b Parte 13c Aula 14 - Reconhecimento de Imagens: Parte 14a Parte 14b Parte 14c Parte 14d Leitura ComplementarEste curso é baseado no curso Mining of Massive Datasets dos professores Jure Leskovec, Anand Rajaraman e Jeff Ullman da Universidade de Stanford. Os slides originais do curso, o material didático e videoaulas podem ser acessadas em MMDS.Recursos computacionaisO link para acessar o sistema Jupyter Lab é: LasidHub Para acessar o sistema JupyterLab é necessário criar a conta duarante a aula. Guia de programaçãoExemplos de código Python para desenhar gráficos: The Python Graph Gallery Trabalho FinalComo trabalho final cada aluno deverá apresentar uma proposta e implementação de sistema de mineração de dados a sua escolha. O trabalho pode ser individual ou em grupos pequenos (2 ou 3 participantes). Será estimulado a formação de grupos com participantes da computação e de área de aplicação do trabalho. Deverá ser preparado um documento em formato "artigo" com os seguintes tópicos:
Calendário de apresentações do Trabalho Finalxx/xx: Fulano: Título do trabalho AvaliaçãoA avaliação do curso se dará por uma nota pela participação em sala de aula e atividades práticas em sala, e a nota atribuída ao trabalho final. CalendárioInício do curso: 09/04/2021Datas de apresentação do Trabalho Final: vide programação acima Data de entrega do texto escrito do Trabalho Final: 27/07/2021 Fim do curso: 30/07/2021 |
Cursos >