Laboratório de Ciência de Dados

Código

01060999

Créditos ECTS

6

Objetivos

1. Reconhecer os principais conceitos e metodologias em Aprendizagem Automática.
2. Conhecer e aplicar métodos simples supervisionados e não supervisionados.
3. Criar e utilizar modelos simples, de árvores de decisão e de redes neuronais artificiais.
4. Utilizar e interpretar medidas de avaliação de modelos supervisionados e não supervisionados.
5. Adquirir competências na utilização de diferentes aplicações (inclindo low code) usadas em Ciência de Dados.

Programa

Módulo I introdução aos dados e à ciência

  1. Sistemas de Apoio à Decisão (SAD). A metodologia CRISP-DM. Tecnologias de Big Data e  de Data MIning.
  2. Pré-processamento de informação. ETL e limpeza de dados. Visualização e exploração de dados.
  3. Introdução aos métodos de aprendizagem automática. Problemas supervisionados e não supervisionados. Avaliação e validação de modelos. Consolidação, implementação e difusão do conhecimento extraído.

Módulo II Métodos não supervisionados e supervisionados simples

  1. Aprendizagem não supervisionada: análise de clusters e redução de dimensionalidade.
  2. Algoritmos supervisionados simples. Regressão e classificação.
  3. Utilizar e interpretar medidas de avaliação de modelos supervisionados e não supervisionados.

Módulo III Aprendizagem com árvores e regras

  1. Indução de árvores de classificação, de regressão e de modelos.
  2. Algoritmos para indução de regras de associação e de cobertura.
  3. Interpretação de resultados, o problema do sobreajustamento. Pré-poda e pós-poda. Validação cruzada e por hold out sample.

Módulo IV Aprendizagem com Redes Neuronais Artificiais (RNA)

  1. O Algoritmo do Perceptrão Linear e o problema da separabilidade.
  2. Redes multicamada, ativação e retro-propagação.
  3. Utilização do algoritmo MLP para regressão e para classificação.

Métodos de Ensino

Nas sessões teóricas é utilizado o método expositivo e demonstrativo, com o recurso a ajudas visuais e a exemplos.

Nas sessões de laboratório, os alunos desenvolvem projetos com base em guiões e com acompanhamento do docente, permitindo que trabalhem de forma autónoma, mas supervisionada.

No projeto, os alunos são desafiados a identificar dados em qualquer formato e sobre um tema escolhido pelo grupo, que serão trabalhos pelos algoritmos estudados. Os resultados são analisados e interpretados.

Semanalmente são resolvidos problemas pelos alunos, usando fichas de trabalho e são discutidos relatórios de acompanhamento. Todos os materiais de apoio são disponibilizados no Moodle, sendo esta ferramenta igualmente usada para entrega e discussão dos projetos.

AVALIAÇÃO:

A avaliação pode ser efetuada em frequência ou por exame. No caso da avalição em frequência, esta inclui a apresentação e discussão de um projeto com peso de 30%, participação nas atividades assíncronas de acompanhamento semanais (20%) e a média das avaliações individuais constituídas por um miniteste no final de cada módulo, com peso de 50%. Na média dos minitestes retira-se a pior nota. Na avaliação por exame, este tem peso de 60% e a nota do projeto 40%.

Bibliografia

Essencial

- Aurélien Géron. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (2.ª ed.). O’Reilly Media.
- Benjamin S. Baumer, Daniel T. Kaplan, Nicholas J. Horton (2021). Modern Data Science with R, 2nd edition. Chapman & Hall/CRC Texts in Statistical Science. Chapman and Hall/CRC.
- Ciara Byrne, 2017. Development Workflows for Data Scientists, 1st ed. O’Reilly Media, USA.

Complementar

- Shah, C. (2022). A Hands-On Introduction to Machine Learning. Higher Education from Cambridge University Press; Cambridge University Press.
- Steven L. Franconeri, Lace M. Padilla, Priti Shah, Jeffrey M. Zacks, & Jessica Hullman. (2021). The Science of Visual Data Communication: What Works. Psychological Science in the Public Interest.
- James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning: With Applications in R. Springer US.

Método de Avaliação

    De acordo com Métodos de Ensino - 100 %