RASPAGEM DE DADOS com Python É ILEGAL? Como saber se é permitido extrair dados de um site

Опубликовано: 09 Март 2021
на канале: Programação Dinâmica
19,170
2.2k

Raspagem de dados é uma técnica computacional de extração automática de dados. Uma dúvida muito comum é sobre a legalidade deste tipo de prática. Afinal, pode ou não pode fazer?

Assista também:
1. RASPAGEM de DADOS com PYTHON usando BeautifulSoup | Python na Prática #9 -    • RASPAGEM de DADOS com PYTHON usando B...  
2. Consumindo dados da API do YOUTUBE com Python | Python na Prática #11 -    • Consumindo dados da API do YOUTUBE co...  
3. Baixando DADOS oficiais de COVID-19 com SELENIUM em Python no Google Colab | Web Scraping    • Automação com SELENIUM em Python | Ba...  
4. RASPAGEM de TEXTOS dos Pronunciamentos do Presidente | Python na Prática #14    • RASPAGEM de TEXTOS dos Pronunciamento...  

O padrão de exclusão de robôs , também conhecido como protocolo de exclusão de robôs ou simplesmente robots.txt , é um padrão usado por sites para se comunicar com rastreadores da web e outros robôs da web . O padrão especifica como informar ao robô da web sobre quais áreas do site não devem ser processadas ou verificadas. Os robôs são freqüentemente usados ​​por mecanismos de pesquisa para categorizar sites. Nem todos os robôs cooperam com o padrão; coletores de e-mail , spambots , malwaree os robôs que fazem a varredura em busca de vulnerabilidades de segurança podem até começar com as partes do site em que foram informados para ficar de fora. O padrão pode ser usado em conjunto com Sitemaps , um padrão de inclusão de robôs para sites.

O que é um arquivo robots.txt?
Esse arquivo informa aos rastreadores do mecanismo de pesquisa quais páginas ou arquivos podem ser solicitados do site. Esse recurso é usado principalmente para evitar a sobrecarga do site com solicitações e não funciona como um mecanismo para manter uma página da Web fora dos resultados da pesquisa do Google.

Criar um arquivo robots.txt - https://developers.google.com/search/...

A coleta de dados web, ou raspagem web, é uma forma de mineração que permite a extração de dados de sites da web convertendo-os em informação estruturada para posterior análise. O tipo mais básico de coleta é o download manual das páginas, copiando e colando o conteúdo, e isso pode ser feito por qualquer pessoa. Contudo, essa técnica geralmente é feita através de um software que simula uma navegação humana por diversos sites, extraindo informações específicas. É um campo com ativa evolução que compartilha um objetivo comum com a visão da web semântica, uma iniciativa ambiciosa que ainda requer avanços no processamento de texto, compreensão semantical, inteligência artificial e interação humano-computador. A coleta de dados web é muito semelhante à indexação web (utilizado pela maioria dos motores de busca), mas a motivação final é muito diferente. A indexação web é usada para ajudar a tornar os motores de busca mais eficientes, já a coleta de dados é tipicamente usada para diferentes razões, como comparação de preços online, monitoramentos meteorológicos, pesquisas de mercado, coleta de dados governamentais, monitoramento de dados e, em alguns casos, roubo.
Os scripts e aplicativos de coleta de dados vão simular uma pessoa navegando normalmente em um site através de um navegador. Com estes scripts/softwares o usuário pode se conectar a um site e solicitar uma página, exatamente como um navegador faria. O servidor web irá enviar de volta a página requisitada e então os coletores processam as páginas de dados, que são não estruturadas ou semiestruturadas, e convertem os dados em um formato estruturado. Uma vez que os dados estão em um formato estruturado, o usuário pode manipula-los e analisa-los com facilidade. Fonte: Wikipedia

🔥 Faça parte da comunidade gratuita Programação Mais Dinâmica: https://bit.ly/pgsparkle (baixe o app e entre na comunidade)

📚 Livros recomendados de Data Science: https://amzn.to/2XZyxUr
📚 Livros de Algoritmos e Estruturas de Dados: https://amzn.to/3d5wK4m
SetUp - Equipamentos: https://amzn.to/37Cg3N2

🟣 Canal na Twitch para lives:   / pgdinamica  

🟦 Canal do Telegram para receber os vídeos: https://t.me/joinchat/AAAAAFaoNgZTMRv...

✉️ E-mails:
– Propostas comerciais: [email protected]
– Demais assuntos: [email protected]

👩🏾‍💻👨🏾‍💻 Confira mais conteúdo em nosso blog: https://blog.programacaodinamica.com.br

📸 Nos siga no Instagram:   / pgdinamica  
📸 @kizzy_terra @hallpaz

🐦 Nos siga no Twitter:   / pgdinamica  
🐦 @kizzy_terra @hallpaz

Curta a Programação Dinâmica no facebook: fb.com/pgdinamica
Nosso repositório no Github: github.com/programacaodinamica
Confira o nosso Medium: medium.com/programacaodinamica
Confira os artigos no Python Café: pythoncafe.com.br

🥰 Se você gosta do nosso trabalho e acha relevante a nossa atuação no Youtube, considere nos apoiar se tornando membro do canal: https://www.youtube.com/programacaodi...

#handshake


Смотрите видео RASPAGEM DE DADOS com Python É ILEGAL? Como saber se é permitido extrair dados de um site онлайн без регистрации, длительностью часов минут секунд в хорошем качестве. Это видео добавил пользователь Programação Dinâmica 09 Март 2021, не забудьте поделиться им ссылкой с друзьями и знакомыми, на нашем сайте его посмотрели 19,170 раз и оно понравилось 2.2 тысяч людям.