Как парсить данные с PDF?

Shoup · 22.02.2026

Всем привет! Столкнулся с проблемой, что не получается извлекать все почты из пдф в браузере или файле. Я хочу по регулярному значению извлекать текст из файла, но у меня не получается. Иногда извлекаются почты, но не все, а иногда вообще ничего. В данный момент я сделал следующую реализацию: по get-запросу я скачиваю pdf как файл, потом я читаю файл и добавляю содержимое в переменную, а уже потом я извлекаю текст через регулярное выражение и добавляю всё в список. До этого пробовал читать прямо с браузера через открытие ссылки в активном окне, но через DOM вообще ничего не получилось взять.

Подскажите, как это можно реализовать, может какие библиотеки нужно установить?

one · 22.02.2026

Возможно регулярка не корректно составлена.

Shoup · 22.02.2026

Вот регулярное выражение, которое я использую
[a-zA-Z0-9][a-zA-Z0-9\.\-_]*[a-zA-Z0-9]@[a-zA-Z0-9][a-zA-Z0-9\.\-]*[a-zA-Z0-9]\.[a-zA-Z]{2,}

one написал(а):
Возможно регулярка не корректно составлена.

Moonwalker · 22.02.2026

Как минимум, надо смотреть конкретный pdf, откуда что-то не взялось, и после этого уже копать, что именно в данном случае пошло не так, проверяя и сам файл, и как он у тебя "прочитался".

Shoup · 22.02.2026

Moonwalker написал(а):
Как минимум, надо смотреть конкретный pdf, откуда что-то не взялось, и после этого уже копать, что именно в данном случае пошло не так, проверяя и сам файл, и как он у тебя "прочитался".

Вообще я делаю парсер почт, и тут именно конкретный пдф не даст большого толка. Скажите, я делаю всё правильно и мне нужно поковыряться с тем что я уже сделал? Или нужно переделывать по другому?

Moonwalker · 22.02.2026

Shoup написал(а):
Вообще я делаю парсер почт, и тут именно конкретный пдф не даст большого толка. Скажите, я делаю всё правильно и мне нужно поковыряться с тем что я уже сделал? Или нужно переделывать по другому?

Так откуда нам знать? Может, там вообще в pdf - картинка. Что-то не получается, смотрите, что именно, анализируйте, добавляйте еще какую-то логику... Ищите все варианты, где что-то не так, как хотелось бы, и пытайтесь понять, что именно надо добавить в логику...

soprano · 22.02.2026

Можно загружать в локальную нейросеть через lmstudio и получать 100% распознавание.

specialist · 25.02.2026

Можете поставить внешние библиотеки, например iText и вначале конвертировать в текст, только потом искать регулярным выражением.

Регулярное выражение сейчас может не работать, т.к. текст не обязательно будет именно таким внутри документа, оформление или переносы будут мешать извлечению данных.

heks · 26.02.2026

Я из пдф и из картинок извлекаю данные гроком через бота в телеге, но мне не так много нужно. Потом уже в docx питоном пихаю в нужные мне места данные.

Jufel · 26.02.2026

Для парсинга pdf использую библиотеку itext, но это уже реализация за пределами стандартных кубиков

Shoup · 19.03.2026

Я уже решил эту проблему, но с библиотеками у меня не вышло, постоянно возникали проблемы с компиляцией кода при запуске, решил поискать другой путь и нашёл! Сейчас я использую стороннее приложение pdftotxt.exe. Оно просто конвертирует текстовый пдф в txt, а потом я уже читаю конечный файл и забираю нужные значения через регулярку. Да, способ сомнительный, но он работает! К сожалению картинки он воспринимать не может, но это и не стояло в моих задачах.

Поиск

Как парсить данные с PDF?

Shoup

Новичок

one

Client

Shoup

Новичок

Moonwalker

Client

Shoup

Новичок

Moonwalker

Client

soprano

Client

specialist

Client

heks

Client

Jufel

Client

Shoup

Новичок

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)