Unidade 1 – Fundamentos de IA e Ciência de Dados

Faculdade SENAC DF
Unidade 1 – Fundamentos de IA e Ciência de Dados
Bem-vindo à primeira unidade! Neste módulo, você vai descobrir como a Inteligência Artificial e a Ciência de Dados estão transformando o mundo — e aprender a dar os primeiros passos nessa jornada.
Aulas 1 a 4
Fundamentos de Dados
Prof.ª Maristela
Visão Geral da Unidade
O que você vai aprender?
Esta unidade está organizada em 4 encontros progressivos, partindo dos conceitos fundamentais até a prática com dados reais em Python.
01
Encontro 1 — Situação-Problema
Conceitos de IA, Machine Learning, Deep Learning e impacto social
02
Encontro 2 — Estudo de Caso
Tipos de dados, qualidade, estruturação e ciclo de vida dos dados
03
Encontro 3 — Laboratório
Ambiente Python, Jupyter Notebook, NumPy e Pandas na prática
04
Encontro 4 — Laboratório
Análise Exploratória de Dados: estatísticas, gráficos e padrões
Encontro 1
Situação-Problema
Introdução à Inteligência Artificial e Ciência de Dados
Imagine que você trabalha em uma empresa e precisa prever quais clientes estão prestes a cancelar um serviço — ou qual produto será mais vendido no próximo mês. Como fazer isso de forma eficiente e precisa? A resposta está nos dados e nos algoritmos de IA.
O que é Inteligência Artificial?
A Inteligência Artificial é o campo da computação que busca criar sistemas capazes de realizar tarefas que normalmente exigiriam inteligência humana — como reconhecer padrões, tomar decisões e aprender com experiências.
Inteligência Artificial (IA)
Campo amplo que engloba qualquer técnica que permite às máquinas simular comportamentos inteligentes
Machine Learning (ML)
Subcampo da IA em que os sistemas aprendem automaticamente a partir de dados, sem serem explicitamente programados
Deep Learning (DL)
Subcampo do ML que usa redes neurais profundas para aprender representações complexas de dados, como imagens e voz
IA, ML e Deep Learning: Qual a diferença?
Muita gente confunde esses três termos. Eles se relacionam como bonecas russas — um está contido dentro do outro.
Compreender essa hierarquia é essencial: todo Deep Learning é Machine Learning, e todo Machine Learning é IA — mas nem toda IA usa ML ou Deep Learning.
Aplicações Atuais da IA
🏥 Saúde
Diagnóstico por imagem, detecção precoce de doenças e recomendação de tratamentos personalizados
🛒 Varejo
Sistemas de recomendação (como Netflix e Spotify), previsão de demanda e personalização de ofertas
🚗 Transporte
Veículos autônomos, otimização de rotas e previsão de manutenção preventiva
💬 Linguagem
Assistentes virtuais, tradução automática e chatbots de atendimento ao cliente
Impacto da IA na Sociedade e no Mercado
Oportunidades
Criação de novas profissões e funções especializadas
Automação de tarefas repetitivas, liberando tempo para criatividade
Acesso democrático a serviços personalizados de qualidade
Avanços científicos acelerados em medicina, clima e energia
Desafios e Reflexões
Viés algorítmico e discriminação em decisões automatizadas
Privacidade e uso ético dos dados pessoais
Transparência nos modelos de IA (explicabilidade)
Impacto no mercado de trabalho e requalificação profissional
Refletir sobre esses desafios é parte essencial da formação de um bom profissional de dados.
Encontro 2
Estudo de Caso
Dados como Base da Inteligência Artificial
Todo modelo de IA começa com dados. Sem dados de qualidade, mesmo o algoritmo mais sofisticado produz resultados ruins. Neste encontro, vamos entender o que são dados, como classificá-los e por que sua qualidade é tão crítica.
O que são Dados e seus Tipos
Dados são registros brutos de fatos, observações ou medições sobre o mundo. Eles podem assumir diversas formas e são classificados de maneiras diferentes dependendo de sua natureza.
Quantitativos
Representam magnitudes numéricas. Ex: temperatura, preço, idade, número de vendas
Qualitativos
Representam categorias ou atributos. Ex: cor favorita, gênero, status do pedido
Estruturados
Organizados em tabelas com linhas e colunas. Facilmente processados por bancos de dados relacionais
Não Estruturados
Textos livres, imagens, áudios, vídeos — representam cerca de 80% dos dados gerados no mundo
Qualidade e Preparação de Dados
Dados do mundo real raramente chegam prontos para uso. Eles podem conter erros, valores ausentes ou inconsistências que precisam ser tratados antes de qualquer análise.
Coleta
Dados são obtidos de fontes diversas: sensores, formulários, APIs, bancos de dados, redes sociais
Limpeza
Remoção de duplicatas, tratamento de valores ausentes (NaN) e correção de inconsistências
Transformação
Normalização, codificação de variáveis categóricas e engenharia de features
Análise / Modelagem
Com dados limpos e preparados, é possível treinar modelos e extrair insights confiáveis
Ciclo de Vida dos Dados
Os dados percorrem um ciclo completo desde sua criação até sua utilização em decisões e modelos. Compreender esse ciclo ajuda a garantir qualidade em cada etapa do processo.
O ciclo é iterativo: os resultados gerados alimentam novas perguntas e, consequentemente, novas necessidades de coleta e análise.
Encontro 3
Laboratório de Práticas
Introdução ao Ambiente de Ciência de Dados com Python
Chegou a hora de colocar a mão na massa! Neste encontro, você vai configurar seu ambiente de desenvolvimento e realizar as primeiras operações de manipulação de dados com Python.
Por que Python para Ciência de Dados?
Vantagens do Python
Sintaxe simples e legível, ideal para iniciantes
Maior ecossistema de bibliotecas científicas do mundo
Comunidade enorme com recursos gratuitos em português
Utilizado pelas principais empresas de tecnologia do mundo
Integra-se facilmente com ferramentas de Big Data e Cloud
Ferramentas do Encontro
🐍 Python
Linguagem de programação principal para ciência de dados
📓 Jupyter Notebook
Ambiente interativo que mistura código, texto e gráficos
Bibliotecas Essenciais: NumPy e Pandas
NumPy e Pandas são as duas bibliotecas mais importantes para manipulação de dados em Python. Juntas, formam a base de praticamente todo projeto de ciência de dados.
NumPy — Computação Numérica
Oferece suporte a arrays multidimensionais e operações matemáticas vetorizadas extremamente rápidas. É a base do ecossistema científico Python.
Arrays e matrizes de alta performance
Funções matemáticas e estatísticas
Álgebra linear e geração de números aleatórios
Pandas — Manipulação de Dados
Permite trabalhar com dados tabulares de forma intuitiva usando DataFrames — estruturas semelhantes a planilhas do Excel, mas com poder de programação.
Leitura de CSV, Excel, JSON e bancos de dados
Filtragem, agrupamento e transformação de dados
Tratamento de valores ausentes
Primeiros Passos: Importando e Explorando Dados
Com o ambiente configurado, as primeiras linhas de código já revelam muito sobre um dataset. Veja o fluxo básico de trabalho com Pandas:
Esses comandos simples revelam o número de linhas, colunas, tipos de dados e estatísticas básicas — informações essenciais antes de qualquer análise mais aprofundada.
Estrutura de Dados no Pandas
Series — Dados Unidimensionais
Uma Series é como uma coluna de planilha: uma sequência de valores com um índice associado. Exemplo: lista de notas de alunos.
import pandas as pd
notas = pd.Series([7.5, 8.0, 6.5, 9.0])
print(notas.mean())  # → 7.75
DataFrame — Dados Bidimensionais
Um DataFrame é uma tabela completa com linhas e colunas nomeadas — a estrutura mais usada em projetos de dados.
dados = {
  "aluno": ["Ana", "Bruno"],
  "nota": [8.5, 7.0],
  "aprovado": [True, True]
}
df = pd.DataFrame(dados)
💡 Dica: Sempre inspecione seu DataFrame com df.shape, df.dtypes e df.head() logo após carregá-lo para entender com o que está trabalhando.
Encontro 4
Laboratório de Práticas
Análise Exploratória de Dados (EDA)
A Análise Exploratória de Dados é o processo de investigar um dataset para descobrir padrões, detectar anomalias e formular hipóteses — antes de construir qualquer modelo preditivo.
Estatística Descritiva: Entendendo os Dados
A estatística descritiva nos oferece um resumo quantitativo das principais características de um conjunto de dados. Com Pandas, obtemos essas métricas com uma única linha de código.
📊 Tendência Central
Média: soma dividida pela quantidade de valores
Mediana: valor central quando os dados estão ordenados
Moda: valor que aparece com maior frequência
📐 Dispersão
Variância: média dos quadrados dos desvios
Desvio padrão: raiz da variância, na mesma unidade dos dados
Amplitude: diferença entre máximo e mínimo
📦 Distribuição
Quartis: dividem os dados em 4 partes iguais
IQR: intervalo interquartil, identifica outliers
Histograma: visualiza a forma da distribuição
Visualização de Dados com Matplotlib e Seaborn
Gráficos são a linguagem universal dos dados. Eles nos permitem enxergar em segundos o que tabelas numéricas levariam minutos para revelar.
Histograma
Mostra a distribuição de uma variável numérica, revelando se os dados são simétricos, assimétricos ou multimodais
Gráfico de Dispersão
Exibe a relação entre duas variáveis numéricas, ajudando a identificar correlações positivas, negativas ou ausência de relação
Boxplot
Resumo visual de mediana, quartis e outliers — excelente para comparar distribuições entre grupos diferentes
Mapa de Calor
Visualiza a correlação entre múltiplas variáveis de forma compacta, identificando rapidamente quais pares de variáveis se relacionam
Identificando Padrões e Insights
O objetivo final da EDA é transformar dados brutos em conhecimento acionável. Veja o que devemos investigar sistematicamente:
🔍 Distribuições
Os dados seguem uma distribuição normal? Há assimetria (skewness)? Existem picos inesperados que sugerem subgrupos?
⚠️ Outliers
Valores extremos podem ser erros de medição ou fenômenos legítimos e importantes. Identificá-los é crucial antes da modelagem.
🔗 Correlações
Quais variáveis se movem juntas? Correlação não implica causalidade, mas sugere relações que merecem investigação aprofundada.
❓ Valores Ausentes
Qual o padrão de dados faltantes? Eles são aleatórios ou sistemáticos? Isso determina a melhor estratégia de imputação.
Recapitulando: Os 4 Encontros da Unidade 1
Você percorreu um caminho completo — dos conceitos teóricos à prática com dados reais. Veja o que foi coberto:
1
Encontro 1
Conceitos de IA, ML, Deep Learning e aplicações reais no mercado
2
Encontro 2
Tipos de dados, qualidade, preparação e ciclo de vida dos dados
3
Encontro 3
Python, Jupyter Notebook, NumPy e Pandas para manipulação de dados
4
Encontro 4
Análise Exploratória de Dados: estatísticas, visualizações e padrões
🚀 Próximo passo: Com esses fundamentos, você está pronto para avançar para Machine Learning — onde os dados se transformam em modelos preditivos inteligentes!