Laboratório de Ciência de Dados
Código
01060999Créditos ECTS
6Objetivos
1. Reconhecer os principais conceitos e metodologias em Aprendizagem Automática.
2. Conhecer e aplicar métodos simples supervisionados e não supervisionados.
3. Criar e utilizar modelos simples, de árvores de decisão e de redes neuronais artificiais.
4. Utilizar e interpretar medidas de avaliação de modelos supervisionados e não supervisionados.
5. Adquirir competências na utilização de diferentes aplicações (inclindo low code) usadas em Ciência de Dados.
Programa
Módulo I introdução aos dados e à ciência
- Sistemas de Apoio à Decisão (SAD). A metodologia CRISP-DM. Tecnologias de Big Data e de Data MIning.
- Pré-processamento de informação. ETL e limpeza de dados. Visualização e exploração de dados.
- Introdução aos métodos de aprendizagem automática. Problemas supervisionados e não supervisionados. Avaliação e validação de modelos. Consolidação, implementação e difusão do conhecimento extraído.
Módulo II Métodos não supervisionados e supervisionados simples
- Aprendizagem não supervisionada: análise de clusters e redução de dimensionalidade.
- Algoritmos supervisionados simples. Regressão e classificação.
- Utilizar e interpretar medidas de avaliação de modelos supervisionados e não supervisionados.
Módulo III Aprendizagem com árvores e regras
- Indução de árvores de classificação, de regressão e de modelos.
- Algoritmos para indução de regras de associação e de cobertura.
- Interpretação de resultados, o problema do sobreajustamento. Pré-poda e pós-poda. Validação cruzada e por hold out sample.
Módulo IV Aprendizagem com Redes Neuronais Artificiais (RNA)
- O Algoritmo do Perceptrão Linear e o problema da separabilidade.
- Redes multicamada, ativação e retro-propagação.
- Utilização do algoritmo MLP para regressão e para classificação.
Métodos de Ensino
Nas sessões teóricas é utilizado o método expositivo e demonstrativo, com o recurso a ajudas visuais e a exemplos.
Nas sessões de laboratório, os alunos desenvolvem projetos com base em guiões e com acompanhamento do docente, permitindo que trabalhem de forma autónoma, mas supervisionada.
No projeto, os alunos são desafiados a identificar dados em qualquer formato e sobre um tema escolhido pelo grupo, que serão trabalhos pelos algoritmos estudados. Os resultados são analisados e interpretados.
Semanalmente são resolvidos problemas pelos alunos, usando fichas de trabalho e são discutidos relatórios de acompanhamento. Todos os materiais de apoio são disponibilizados no Moodle, sendo esta ferramenta igualmente usada para entrega e discussão dos projetos.
AVALIAÇÃO:
A avaliação pode ser efetuada em frequência ou por exame. No caso da avalição em frequência, esta inclui a apresentação e discussão de um projeto com peso de 30%, participação nas atividades assíncronas de acompanhamento semanais (20%) e a média das avaliações individuais constituídas por um miniteste no final de cada módulo, com peso de 50%. Na média dos minitestes retira-se a pior nota. Na avaliação por exame, este tem peso de 60% e a nota do projeto 40%.
Bibliografia
Essencial
- Aurélien Géron. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (2.ª ed.). O’Reilly Media.
- Benjamin S. Baumer, Daniel T. Kaplan, Nicholas J. Horton (2021). Modern Data Science with R, 2nd edition. Chapman & Hall/CRC Texts in Statistical Science. Chapman and Hall/CRC.
- Ciara Byrne, 2017. Development Workflows for Data Scientists, 1st ed. O’Reilly Media, USA.
Complementar
- Shah, C. (2022). A Hands-On Introduction to Machine Learning. Higher Education from Cambridge University Press; Cambridge University Press.
- Steven L. Franconeri, Lace M. Padilla, Priti Shah, Jeffrey M. Zacks, & Jessica Hullman. (2021). The Science of Visual Data Communication: What Works. Psychological Science in the Public Interest.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning: With Applications in R. Springer US.
Método de Avaliação
De acordo com Métodos de Ensino - 100 %