Читаем, распознаем многостраничные PDF файлы, выбираем страницы которые содержат искомые слова

Опубликовано: 06 Декабрь 2022
на канале: АниКей Скайвокер
730
13

Ролик на английском:    • Read/recognize PDF files, select page...  
Анализируем исходный PDF файл, выбираем из него только те страницы, которые содержат заданные слова. Работаем с файлами, в которых данные в виде текста и в виде сканированных страниц. Скрипт на питоне, для распознавания используем Tesseract-OCR. Модули pikepdf, PyPDF2, pytesseract.

архив со скриптами из видео: https://drive.google.com/file/d/1s9k4...
сайт питон: https://www.python.org/downloads/
команда установки модуля "PyPDF2": pip install PyPDF2
документация модуля "PyPDF2": https://pypdf2.readthedocs.io/en/latest/
команда установки модуля "pikepdf": pip install pikepdf
документация модуля "pikepdf": https://pikepdf.readthedocs.io/en/lat...
сайт "tesseract": https://github.com/UB-Mannheim/tesser... (при установке выбрать нужные языки распознавания)
команда установки модуля "pytesseract": pip install pytesseract
git тессеракта: https://github.com/madmaze/pytesseract
или установка всех модулей разом pip install pikepdf PyPDF2 pytesseract


Смотрите видео Читаем, распознаем многостраничные PDF файлы, выбираем страницы которые содержат искомые слова онлайн без регистрации, длительностью часов минут секунд в хорошем качестве. Это видео добавил пользователь АниКей Скайвокер 06 Декабрь 2022, не забудьте поделиться им ссылкой с друзьями и знакомыми, на нашем сайте его посмотрели 730 раз и оно понравилось 13 людям.