Pular para conteúdo

Aula 12 - IA para Imagens (Visão Computacional) 👁️

Como um computador "vê" uma foto? Para ele, não existem cores ou formas, apenas uma mar de números.

🔢 Imagens são Matrizes

Cada imagem digital é composta por pixels. Cada pixel é um número representando a cor. - Preto e Branco: 1 matriz (0 a 255). - Colorida (RGB): 3 matrizes (Vermelho, Verde, Azul).


🧠 CNNs: As Redes Neurais Convolucionais

Para imagens, usamos um tipo especial de rede chamado CNN. Elas funcionam como "filtros inteligentes" que deslizam sobre a imagem procurando padrões.

Como uma CNN funciona?

Ela não olha a imagem inteira de uma vez. Ela olha pequenos pedaços (janelas) e tenta encontrar bordas, cantos e texturas.

graph LR
    img["Imagem de Entrada"] --> filter["Filtro (Convolução)"]
    filter --> pool["Simplificação (Pooling)"]
    pool --> final["Classificação"]

💻 Exemplo Prático: Dataset MNIST

O "Hello World" da visão computacional é o reconhecimento de dígitos escritos à mão.

$ python
>>> from tensorflow.keras.datasets import mnist
>>> (x_train, y_train), (x_test, y_test) = mnist.load_data()
>>> print(f"Formato da imagem: {x_train[0].shape}") 
> Formato da imagem: (28, 28) # Uma grade de 28x28 pixels!

🌟 Aplicações Reais

  • Reconhecimento Facial (Desbloqueio do celular).
  • Diagnóstico Médico (Raio-X, Tomografias).
  • Veículos Autônomos (Identificação de placas e pedestres).

🧠 Dica do Especialista

Transfer Learning

Hoje em dia, raramente treinamos uma CNN do zero. Pegamos uma rede que já "estudou" milhões de fotos (como a do Google) e apenas a "ensinamos" a nossa tarefa específica. Isso economiza semanas de treino!


🚀 Mini-Projeto

Desafio: Como você explicaria para uma criança de 5 anos o que é um Pixel?


Próxima Aula: IA para Texto (PLN)