Как парсить данные с PDF?

Shoup

Новичок
Регистрация
25.01.2026
Сообщения
18
Реакции
6
Баллы
3
Всем привет! Столкнулся с проблемой, что не получается извлекать все почты из пдф в браузере или файле. Я хочу по регулярному значению извлекать текст из файла, но у меня не получается. Иногда извлекаются почты, но не все, а иногда вообще ничего. В данный момент я сделал следующую реализацию: по get-запросу я скачиваю pdf как файл, потом я читаю файл и добавляю содержимое в переменную, а уже потом я извлекаю текст через регулярное выражение и добавляю всё в список. До этого пробовал читать прямо с браузера через открытие ссылки в активном окне, но через DOM вообще ничего не получилось взять.
Skrinsot-22-02-2026-123007.jpg



Подскажите, как это можно реализовать, может какие библиотеки нужно установить?
 
Возможно регулярка не корректно составлена.
 
Как минимум, надо смотреть конкретный pdf, откуда что-то не взялось, и после этого уже копать, что именно в данном случае пошло не так, проверяя и сам файл, и как он у тебя "прочитался".
 
Как минимум, надо смотреть конкретный pdf, откуда что-то не взялось, и после этого уже копать, что именно в данном случае пошло не так, проверяя и сам файл, и как он у тебя "прочитался".
Вообще я делаю парсер почт, и тут именно конкретный пдф не даст большого толка. Скажите, я делаю всё правильно и мне нужно поковыряться с тем что я уже сделал? Или нужно переделывать по другому?
 
Вообще я делаю парсер почт, и тут именно конкретный пдф не даст большого толка. Скажите, я делаю всё правильно и мне нужно поковыряться с тем что я уже сделал? Или нужно переделывать по другому?
Так откуда нам знать? Может, там вообще в pdf - картинка. Что-то не получается, смотрите, что именно, анализируйте, добавляйте еще какую-то логику... Ищите все варианты, где что-то не так, как хотелось бы, и пытайтесь понять, что именно надо добавить в логику...
 
Можно загружать в локальную нейросеть через lmstudio и получать 100% распознавание.
 
Можете поставить внешние библиотеки, например iText и вначале конвертировать в текст, только потом искать регулярным выражением.

Регулярное выражение сейчас может не работать, т.к. текст не обязательно будет именно таким внутри документа, оформление или переносы будут мешать извлечению данных.
 
Я из пдф и из картинок извлекаю данные гроком через бота в телеге, но мне не так много нужно. Потом уже в docx питоном пихаю в нужные мне места данные.
 
Для парсинга pdf использую библиотеку itext, но это уже реализация за пределами стандартных кубиков
 
Я уже решил эту проблему, но с библиотеками у меня не вышло, постоянно возникали проблемы с компиляцией кода при запуске, решил поискать другой путь и нашёл! Сейчас я использую стороннее приложение pdftotxt.exe. Оно просто конвертирует текстовый пдф в txt, а потом я уже читаю конечный файл и забираю нужные значения через регулярку. Да, способ сомнительный, но он работает! К сожалению картинки он воспринимать не может, но это и не стояло в моих задачах.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)