Aulão de Aprendizado por Reforço [Teoria e Prática!]

Published: 16 May 2023
on channel: Didática Tech
8,779
485

Chegou a sua vez de ensinar uma IA a jogar! Combo de 4 módulos com 50% OFF: https://didatica.tech/combo-modulos-i...

Aprendizagem por reforço é uma técnica em amplo desenvolvimento e pesquisa devido aos seus excelentes resultados. Nesse vídeo tutorial você vai aprender do zero como funciona e como aplicar na prática utilizando Python.

Organização do vídeo:
00:00 Conteúdo da Aula
00:48 Sobre a Teoria
02:26 O que é Aprendizado por Reforço
09:20 Ações, estados, recompensas
13:35 Exploration vs Exploitation
16:47 O que são ambientes virtuais
19:32 Criando um ambiente virtual
21:47 Instalando Jupyter Notebook
22:29 Instalando Stable Baselines, Gym, Super-Mario
26:22 O que é Stable Baselines
29:08 Emulador Super Mario Bros
33:04 Explorando a gym-super-mario-bros
49:00 Wrappers skipping, stacking, clipping
01:01:12 Criando um arquivo .py
01:03:37 Treinando o modelo com paralelismo
01:20:55 Testando o modelo

Comando para criar o ambiente virtual:
conda create -n ambienteRL python=3.7 pip

Ativando o ambiente:
conda activate ambienteRL

Comando para instalar o jupyter notebook:
pip install jupyter

Comando para instalar a biblioteca Stable Baselines:
pip install stable-baselines3

Comando para instalar o emulador do Super Mario:
pip install gym-super-mario-bros

Compilador C++ do Visual Studio: https://visualstudio.microsoft.com/pt...

Comando para instalar a biblioteca OpenCV:
pip install opencv-python

Pasta com todos os códigos python e jupyter notebooks utilizados nessa aula:
https://didatica.tech/wp-content/uplo...

Documentação oficial Stable Baselines: https://stable-baselines.readthedocs....
Documentação Gym Super Mario: https://pypi.org/project/gym-super-ma...

Todos os cursos Didática Tech: https://tiny.cc/a4tn/

O aprendizado por reforço é um tipo de aprendizado de máquina onde um agente aprende a tomar decisões através de interações com seu ambiente. Imagine que você está jogando um jogo de videogame. Você não sabe quais ações levam à vitória, então começa a experimentar (atacar aqui, defender ali, recuar, avançar, pegar itens etc.). Com o tempo, você percebe que algumas ações tendem a aumentar sua pontuação ou levar a uma vitória. Então, você começa a repetir essas ações e evitar outras que levem a resultados negativos.

No aprendizado por reforço, o agente (que seria você, no exemplo do videogame) recebe recompensas (como pontos ou vitórias) ou punições (como perder pontos ou o jogo) com base nas ações que toma. O objetivo do agente é maximizar a quantidade total de recompensas.

Assim, o agente começa a aprender uma "policy", que é basicamente uma estratégia que ele usa para decidir qual ação tomar em um determinado estado do ambiente. Esta policy é continuamente atualizada à medida que o agente aprende mais sobre o ambiente e as recompensas associadas a diferentes ações.

A beleza do aprendizado por reforço é que o agente pode aprender a partir da experimentação direta e da tentativa e erro, sem necessidade de instruções explícitas ou supervisão direta.

Para mais informações teóricas, leia esse artigo: https://didatica.tech/introducao-a-ap...

#AprendizadoporReforço #python #inteligenciaartificial


Watch video Aulão de Aprendizado por Reforço [Teoria e Prática!] online without registration, duration hours minute second in high quality. This video was added by user Didática Tech 16 May 2023, don't forget to share it with your friends and acquaintances, it has been viewed on our site 8,779 once and liked it 485 people.