Codificando Variáveis Categóricas para Machine Learning | Mãos à obra Cientista de Dados #02

Опубликовано: 01 Июнь 2021
на канале: Programação Dinâmica
10,292
869

A etapa de pré-processamento dos dados é fundamental para o desempenho de um modelo de machine learning. E uma tarefa comum que precisa ser realizada é o tratamento (ou codificação) das variáveis categóricas, pois a maioria dos modelos de aprendizado de máquina exigem que os dados de entrada sejam numéricos. No entanto, frequentemente nos deparamos com variáveis não-numéricas presentes nos dados que desejamos utilizar como fonte para os modelos. 

Nesse vídeo discutimos estratégias para lidar com esses tipos de dados. Começando por entender as diferentes formas que dados não-numéricos podem assumir para, então, investigarmos alternativas para tratar esses dados. Usando Python na prática, implementamos nossas soluções em um conjunto de dados reais: os microdados do ENEM.

O próximo episódio dessa série será AO VIVO no sábado, 05/06, 17h, e você está convidado(a) para aprender machine learning em Python com a gente:
▶️ Seleção e codificação de variáveis para Machine Learning | Mãos à Obra Cientista de Dados #03:    • Análise Exploratória de Variáveis par...  

Note que as variáveis categóricas podem possuir rótulos numéricos ou não-numéricos. No caso de rótulos numéricos, esses podem ser utilizados nos modelos de aprendizado de máquina diretamente, ao passo que os rótulos não-numéricos precisam ser tratados se desejarmos utilizá-los como entrada de um modelo e é sobre esse caso que iremos estudar aqui.

Mesmo que um modelo aceite variáveis categóricas pode ser útil codificar para aumentar a performance, pois diminui a memória. E como escolher? Testando! Você deve analisar o trade-off performance vs. desempenho para o seu modelo.

As opções aqui discutidas não esgotam as possibilidades que são muitas e continuam crescendo conforme as pesquisas avançam, se desejar explorar mais opções confira a documentação a seguir:
Category Encoders: https://contrib.scikit-learn.org/cate...
https://scikit-learn.org/stable/modul...

Uma ajudinha extra se você estiver perdido nas definições. Ao longo dos nossos estudos, iremos utilizar diversas ferramentas como:
– Linguagem de programação Python
– Pacotes Pandas, Scikit-Learn e suas dependências
– Ambiente de desenvolvimento Jupyter Notebook ou Google Colab (para quem preferir!)
– Plataforma Kaggle

Sabemos que, para um primeiro contato, podem ser muitas novidades. Se sua cabeça ainda está se adaptando a esse novo mundo, aqui vão alguns nomes com os quais vamos nos deparar com bastante frequência:
1. Dados de treinamento
2. Dados de Teste
3. Dados de Validação
4. Avaliação
5. Features ou características
6. Labels ou Rótulos

Venha colocar as mãos à obra, cientista de dados, e aprenda machine learning na prática! 🙌🏾
Essa é uma continuação da série Mãos à obra Cientista de Dados, assista o episódio 01 desta série aqui:    • Introdução ao Aprendizado de Máquina(...  

0:00 Mindset de um(a) cientista de dados
0:53 O que é variável quantitativa
1:49 O que é variável categórica
3:00 Identificando variáveis categóricas nos microdados do ENEM
6:40 Técnicas de codificação de variáveis categóricas para machine learning
7:15 Substituição de variáveis categóricas
8:57 One-hot encoding de variáveis categóricas
11:32 Ordinal encoding de variáveis categóricas
13:55 Diferença entre ordinal encoding e label encoding
14:40 Projeto Mãos à Obra Cientista de Dados

✅ Outros materiais recomendados:
✔️ Nossa playlist de Machine Learning ▶️    • O que é MACHINE LEARNING? Introdução ...  
✔️ Python Data Science Handbook(gratuito): https://jakevdp.github.io/PythonDataS...
✔️ Machine Learning Crash Course(gratuito): https://developers.google.com/machine...
✔️ Cursos Gratuitos do Kaggle: https://www.kaggle.com/learn
📚 Livros recomendados de Data Science: https://amzn.to/2XZyxUr
📚 Livros de Algoritmos e Estruturas de Dados: https://amzn.to/3d5wK4m

🟣 Canal na Twitch para lives:   / pgdinamica  
🟦 Canal do Telegram para receber os vídeos: https://t.me/joinchat/AAAAAFaoNgZTMRv...

✉️ E-mails:
– Propostas comerciais: [email protected]
– Demais assuntos: [email protected]

👩🏾‍💻👨🏾‍💻 Confira mais conteúdo em nosso blog: https://blog.programacaodinamica.com.br

🔥 Faça parte da comunidade gratuita Programação Mais Dinâmica: https://bit.ly/pgsparkle (baixe o app e entre na comunidade)

📸 Nos siga no Instagram:   / pgdinamica  
📸 @kizzy_terra @hallpaz

🐦 Nos siga no Twitter:   / pgdinamica  
🐦 @kizzy_terra @hallpaz

Curta a Programação Dinâmica no facebook: fb.com/pgdinamica
Nosso repositório no Github: github.com/programacaodinamica
Confira o nosso Medium: medium.com/programacaodinamica
Confira os artigos no Python Café: pythoncafe.com.br

🥰 Se você gosta do nosso trabalho e acha relevante a nossa atuação no Youtube, considere nos apoiar se tornando membro do canal: https://www.youtube.com/programacaodi...


Смотрите видео Codificando Variáveis Categóricas para Machine Learning | Mãos à obra Cientista de Dados #02 онлайн без регистрации, длительностью часов минут секунд в хорошем качестве. Это видео добавил пользователь Programação Dinâmica 01 Июнь 2021, не забудьте поделиться им ссылкой с друзьями и знакомыми, на нашем сайте его посмотрели 10,292 раз и оно понравилось 869 людям.