Как парсить данные с PDF?

Shoup

Новичок
Регистрация
25.01.2026
Сообщения
13
Благодарностей
3
Баллы
3
Всем привет! Столкнулся с проблемой, что не получается извлекать все почты из пдф в браузере или файле. Я хочу по регулярному значению извлекать текст из файла, но у меня не получается. Иногда извлекаются почты, но не все, а иногда вообще ничего. В данный момент я сделал следующую реализацию: по get-запросу я скачиваю pdf как файл, потом я читаю файл и добавляю содержимое в переменную, а уже потом я извлекаю текст через регулярное выражение и добавляю всё в список. До этого пробовал читать прямо с браузера через открытие ссылки в активном окне, но через DOM вообще ничего не получилось взять.



Подскажите, как это можно реализовать, может какие библиотеки нужно установить?
 

one

Client
Регистрация
22.09.2015
Сообщения
6 979
Благодарностей
1 304
Баллы
113
Возможно регулярка не корректно составлена.
 

Shoup

Новичок
Регистрация
25.01.2026
Сообщения
13
Благодарностей
3
Баллы
3

Moonwalker

Client
Регистрация
16.03.2016
Сообщения
1 926
Благодарностей
1 609
Баллы
113
Как минимум, надо смотреть конкретный pdf, откуда что-то не взялось, и после этого уже копать, что именно в данном случае пошло не так, проверяя и сам файл, и как он у тебя "прочитался".
 

Shoup

Новичок
Регистрация
25.01.2026
Сообщения
13
Благодарностей
3
Баллы
3
Как минимум, надо смотреть конкретный pdf, откуда что-то не взялось, и после этого уже копать, что именно в данном случае пошло не так, проверяя и сам файл, и как он у тебя "прочитался".
Вообще я делаю парсер почт, и тут именно конкретный пдф не даст большого толка. Скажите, я делаю всё правильно и мне нужно поковыряться с тем что я уже сделал? Или нужно переделывать по другому?
 

Moonwalker

Client
Регистрация
16.03.2016
Сообщения
1 926
Благодарностей
1 609
Баллы
113
Вообще я делаю парсер почт, и тут именно конкретный пдф не даст большого толка. Скажите, я делаю всё правильно и мне нужно поковыряться с тем что я уже сделал? Или нужно переделывать по другому?
Так откуда нам знать? Может, там вообще в pdf - картинка. Что-то не получается, смотрите, что именно, анализируйте, добавляйте еще какую-то логику... Ищите все варианты, где что-то не так, как хотелось бы, и пытайтесь понять, что именно надо добавить в логику...
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)