Как парсить данные с PDF?

Shoup

Новичок
Регистрация
25.01.2026
Сообщения
13
Благодарностей
3
Баллы
3
Всем привет! Столкнулся с проблемой, что не получается извлекать все почты из пдф в браузере или файле. Я хочу по регулярному значению извлекать текст из файла, но у меня не получается. Иногда извлекаются почты, но не все, а иногда вообще ничего. В данный момент я сделал следующую реализацию: по get-запросу я скачиваю pdf как файл, потом я читаю файл и добавляю содержимое в переменную, а уже потом я извлекаю текст через регулярное выражение и добавляю всё в список. До этого пробовал читать прямо с браузера через открытие ссылки в активном окне, но через DOM вообще ничего не получилось взять.



Подскажите, как это можно реализовать, может какие библиотеки нужно установить?
 

one

Client
Регистрация
22.09.2015
Сообщения
6 984
Благодарностей
1 304
Баллы
113
Возможно регулярка не корректно составлена.
 

Shoup

Новичок
Регистрация
25.01.2026
Сообщения
13
Благодарностей
3
Баллы
3

Moonwalker

Client
Регистрация
16.03.2016
Сообщения
1 932
Благодарностей
1 621
Баллы
113
Как минимум, надо смотреть конкретный pdf, откуда что-то не взялось, и после этого уже копать, что именно в данном случае пошло не так, проверяя и сам файл, и как он у тебя "прочитался".
 

Shoup

Новичок
Регистрация
25.01.2026
Сообщения
13
Благодарностей
3
Баллы
3
Как минимум, надо смотреть конкретный pdf, откуда что-то не взялось, и после этого уже копать, что именно в данном случае пошло не так, проверяя и сам файл, и как он у тебя "прочитался".
Вообще я делаю парсер почт, и тут именно конкретный пдф не даст большого толка. Скажите, я делаю всё правильно и мне нужно поковыряться с тем что я уже сделал? Или нужно переделывать по другому?
 

Moonwalker

Client
Регистрация
16.03.2016
Сообщения
1 932
Благодарностей
1 621
Баллы
113
Вообще я делаю парсер почт, и тут именно конкретный пдф не даст большого толка. Скажите, я делаю всё правильно и мне нужно поковыряться с тем что я уже сделал? Или нужно переделывать по другому?
Так откуда нам знать? Может, там вообще в pdf - картинка. Что-то не получается, смотрите, что именно, анализируйте, добавляйте еще какую-то логику... Ищите все варианты, где что-то не так, как хотелось бы, и пытайтесь понять, что именно надо добавить в логику...
 

soprano

Client
Регистрация
25.08.2011
Сообщения
985
Благодарностей
1 172
Баллы
93
Можно загружать в локальную нейросеть через lmstudio и получать 100% распознавание.
 

specialist

Client
Регистрация
28.12.2018
Сообщения
734
Благодарностей
343
Баллы
63
Можете поставить внешние библиотеки, например iText и вначале конвертировать в текст, только потом искать регулярным выражением.

Регулярное выражение сейчас может не работать, т.к. текст не обязательно будет именно таким внутри документа, оформление или переносы будут мешать извлечению данных.
 

heks

Client
Регистрация
01.10.2013
Сообщения
1 591
Благодарностей
488
Баллы
83
Я из пдф и из картинок извлекаю данные гроком через бота в телеге, но мне не так много нужно. Потом уже в docx питоном пихаю в нужные мне места данные.
 

Jufel

Client
Регистрация
12.06.2018
Сообщения
1 555
Благодарностей
1 076
Баллы
113
Для парсинга pdf использую библиотеку itext, но это уже реализация за пределами стандартных кубиков
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)