Laboratório de Ciência de Dados

Código

01060999

Créditos ECTS

6

Objetivos

1. Reconhecer os principais conceitos e metodologias em Aprendizagem Automática.
2. Conhecer e aplicar métodos simples supervisionados e não supervisionados.
3. Criar e utilizar modelos simples, de árvores de decisão e de redes neuronais artificiais.
4. Utilizar e interpretar medidas de avaliação de modelos supervisionados e não supervisionados.
5. Adquirir competências na utilização de diferentes aplicações (inclindo low code) usadas em Ciência de Dados.

Programa

"Módulo I introdução aos dados e à ciência
1. Sistemas de Apoio à Decisão (SAD). A metodologia CRISP-DM. Tecnologias de Big Data e  de Data MIning.
2. Pré-processamento de informação. ETL e limpeza de dados. Visualização e exploração de dados.
3. Introdução aos métodos de aprendizagem automática. Problemas supervisionados e não supervisionados. Avaliação e validação de modelos. Consolidação, implementação e difusão do conhecimento extraído."
"Módulo II Métodos não supervisionados e supervisionados simples
1. Algoritmos de classificação não supervisionada e análise de clusters.
2. Algoritmos supervisionados simples. Regressão e classificação.
3. Utilizar e interpretar medidas de avaliação de modelos supervisionados e não supervisionados."
"Módulo III Aprendizagem de árvores e regras
1. Indução de árvores de classificação, de regressão e de modelos.
2. Algoritmos para indução de regras de associação e de cobertura.
3. Interpretação de resultados, o problema do sobreajustamento. Pré-poda e pós-poda. Validação cruzada e por hold out sample."
"Módulo IV Aprendizagem com Redes Neuronais Artificiais (RNA)
1. O Algoritmo do Perceptrão Linear e o problema da separabilidade.
2. Redes multicamada, ativação e retropropagação.
3. Utilização do algoritmo MLP para regressão e para classificação."

Métodos de Ensino

"Nas sessões teóricas é utilizado o método expositivo e demonstrativo, com o recurso a ajudas visuais e a exemplos.

Nas sessões de laboratório, os alunos desenvolvem projetos com base em guiões e com acompanhamento do docente, permitindo que trabalhem de forma autónoma mas supervisionada.

No projeto, os alunos são desafiados a identificar dados em qualquer formato e sobre um tema escolhido pelo grupo, que serão trabalhos pelos algoritmos estudados, que serão trabalhados pelos algoritmos estudados. Os resultados são analisados e interpretados.

Semanalmente são resolvidos problemas pelos alunos e são discutidos relatórios de acompanhamento.

Todos os materiais de apoio são disponibilizados no Moodle, sendo esta ferramenta igualmente usada para entrega e discussão dos projetos.

Bibliografia

Essencial

  • Jake VanderPlas. (2016). Python Data Science Handbook. O’Reilly Media. (eBook)
  • Garrett Grolemund & Hadley Wickham. (2016). R for Data Science. O’Reilly Media, Inc. (eBook)
  • Aurélien Géron. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (2.ª ed.). O’Reilly Media. (disponível em PDF)

Complementar

  • Steven L. Franconeri, Lace M. Padilla, Priti Shah, Jeffrey M. Zacks, & Jessica Hullman. (2021). The Science of Visual Data Communication: What Works. Psychological Science in the Public Interest. https://doi.org/10.1177/15291006211051956
  • José Braga de Vasconcelos, e Alexandre Barão. 2017. Ciência dos Dados nas Organizações. 1.ª ed. Data Science. Lisboa, Portugal: FCA - Editora Informática.
  • Miguel Rocha, Pedro G. Ferreira, 2017. Análise e Exploração de Dados com R, Data Science. FCA - Editora de Informática.

Método de Avaliação