Читаем, распознаем многостраничные PDF файлы, выбираем страницы которые содержат искомые слова

Published: 06 December 2022
on channel: АниКей Скайвокер

730

Ролик на английском: • Read/recognize PDF files, select page...
Анализируем исходный PDF файл, выбираем из него только те страницы, которые содержат заданные слова. Работаем с файлами, в которых данные в виде текста и в виде сканированных страниц. Скрипт на питоне, для распознавания используем Tesseract-OCR. Модули pikepdf, PyPDF2, pytesseract.

архив со скриптами из видео: https://drive.google.com/file/d/1s9k4...
сайт питон: https://www.python.org/downloads/
команда установки модуля "PyPDF2": pip install PyPDF2
документация модуля "PyPDF2": https://pypdf2.readthedocs.io/en/latest/
команда установки модуля "pikepdf": pip install pikepdf
документация модуля "pikepdf": https://pikepdf.readthedocs.io/en/lat...
сайт "tesseract": https://github.com/UB-Mannheim/tesser... (при установке выбрать нужные языки распознавания)
команда установки модуля "pytesseract": pip install pytesseract
git тессеракта: https://github.com/madmaze/pytesseract
или установка всех модулей разом pip install pikepdf PyPDF2 pytesseract

Watch video Читаем, распознаем многостраничные PDF файлы, выбираем страницы которые содержат искомые слова online without registration, duration hours minute second in high quality. This video was added by user АниКей Скайвокер 06 December 2022, don't forget to share it with your friends and acquaintances, it has been viewed on our site 730 once and liked it 13 people.

00:00:00