Как парсить данные с PDF?

one · 22.02.2026

Возможно регулярка не корректно составлена.

Moonwalker · 22.02.2026

Как минимум, надо смотреть конкретный pdf, откуда что-то не взялось, и после этого уже копать, что именно в данном случае пошло не так, проверяя и сам файл, и как он у тебя "прочитался".

Moonwalker · 22.02.2026

Shoup сказал(а):
Вообще я делаю парсер почт, и тут именно конкретный пдф не даст большого толка. Скажите, я делаю всё правильно и мне нужно поковыряться с тем что я уже сделал? Или нужно переделывать по другому?

Так откуда нам знать? Может, там вообще в pdf - картинка. Что-то не получается, смотрите, что именно, анализируйте, добавляйте еще какую-то логику... Ищите все варианты, где что-то не так, как хотелось бы, и пытайтесь понять, что именно надо добавить в логику...

soprano · 22.02.2026

Можно загружать в локальную нейросеть через lmstudio и получать 100% распознавание.

specialist · 25.02.2026

Можете поставить внешние библиотеки, например iText и вначале конвертировать в текст, только потом искать регулярным выражением.

Регулярное выражение сейчас может не работать, т.к. текст не обязательно будет именно таким внутри документа, оформление или переносы будут мешать извлечению данных.

heks · 26.02.2026

Я из пдф и из картинок извлекаю данные гроком через бота в телеге, но мне не так много нужно. Потом уже в docx питоном пихаю в нужные мне места данные.

Jufel · 26.02.2026

Для парсинга pdf использую библиотеку itext, но это уже реализация за пределами стандартных кубиков

Поиск

Как парсить данные с PDF?

Shoup

Новичок

one

Client

Shoup

Новичок

Moonwalker

Client

Shoup

Новичок

Moonwalker

Client

soprano

Client

specialist

Client

heks

Client

Jufel

Client

Shoup

Новичок

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)