Шаблон для конвертирования PDF в JPG. Получаем уникальный контент.

  • Автор темы Автор темы fri-lancer
  • Дата начала Дата начала

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
420
Реакции
164
Баллы
43
Приветствую всех!

Данный шаблон будет выполнять две задачи:
1) Конвертировать PDF в картинку в формате JPG (с помощью сторонней программы)
2) Заливать картинку на сервис Яндекса https://translate.yandex.ru/ocr для распознавания текста с картинки.

Можно было конечно не конвертировать PDF в картинку и использовать для распознавания сервис Google (https://support.google.com/drive/answer/176692?co=GENIE.Platform=Desktop&hl=ru),
но там есть ограничение: в PDF документе будут обработаны только первые 10 страниц.

Итак первое что нужно сделать это скачать программу 2jpeg-free с офицального сайта https://www.2jpeg.com/download
Ограничение на ее использование это копирайт в конце каждой картинки: Created by 2JPEG www.2jpeg.com (будем заменять кубиком в шаблоне)
Установить и запомнить путь до исполняемого файла, в моей системе он такой C:\Program Files (x86)\2JPEG\2jpeg.exe
Если у вас путь до файла отличается, то пропишите его в первом кубике в этом поле:

1.png

Во втором поле будут прописаны параметры запуска:
-src "{-Project.Directory-}pdf\vinni-puh-i-vse-vse-vse.pdf" -dst "{-Project.Directory-}jpg" -oper Rasterize res:300 -oper Resize size:"1024 1024" -jpeg mode:progressive bpp:8 quality:75 subsampling:422 opthuff:yes

2.png

Коротко о них:
-src - Исходная папка файла для конвертации. Для обработки списка файлов, сохраните его как текстовый файл и используйте '@' перед путем к файлу.
-dst - Путь к папке назначения.
-oper - имя операции обработки изображения с параметрами. По умолчанию пусто.
-options - Общие параметры с параметрами. По умолчанию пусто.

Подробнее на сайте https://www.2jpeg.com/overview/2jpeg-command-line-syntax

Чем больше страниц в пдф файле тем больше нужно выставлять таймаут выполнения, по умолчанию 10, я установил 120 для файла из 152 страниц.

3.png

На этом с настройкой все.
Закидываем пдфку в папку pdf, запускаем шаблон.
По умолчанию будет переводится c русского языка на украинский.
Готовые картинки будут сохранятся в папку jpg.
Файлы с текстами будут сохранятся в папку txt, в подпапки "оригинальный текст" и "переведенный текст".

Один нюанс, после запуска выскочит такое окошко в нем нужно будет нажать на клавишу 1 как там просят.

4.png

Пример получения уникального (когда то) контента и сайтов использовавших его:
Идем например на сайт https://books.google.ru/
Вбиваем в поиск например слово "автомобіль" на украинском языке.
Я выбрал там одно из пособий: Сто і одна порада водію-початківцю
Перевел одну из страниц: Як вибрати автомобільні шини
Взял переведенный текст и в поиске Яндекса нашел сайт который его уже использовал: niknews.mk.ua/2018/08/28/kak-vybrat-avtomobilnye-shiny/

Для каких целей шаблон:
Возможно вам нужно перепечатать текст из пдф? Но лень.
Для получения контента, уникального и не очень (для ДДЛ или просто дорвеев).
Напишите свой вариант в комментарии :-)

Скачать шаблон
Архив с шаблоном не прикрепляется, залил сюда https://cloud.mail.ru/public/2Zuk/4caGkMk6V
 
Номер конкурса шаблонов
  1. Четвертый конкурс шаблонов
Уровень сложности
Лёгкий
Категория
  1. Другое
Последнее редактирование модератором:
Можно еще подключить AutoIT либо через WinApi сделать ввод значений в CMD, дабы совсем ничего не нажимать)
 
  • Спасибо
Реакции: vertigo141
Наверное можно, ни разу не работал с WinApi.
 
Можно imagemagick использовать, там ничего нажимать ненужно.
 
На самом деле решений много, есть и библиотеки на C# но те что я находил платные.
 
Вообще ghostscript - открытый софт для работы с pdf-ками. А вот здесь можно найти кучу оберток для него.
 
Так pdf и текст в нем пс нормально индексирует, смысл? Или речь про уник переводной текст?
 
Мне попадались пдфки с текстом который в ПС не находись.
 
а есть еще сервисы которые распознают текст с такой же точностью как https://translate.yandex.ru/ocr ? не считая ocr от гугл
 
Не искал альтернатив, в яндекс не походит?
 
Можно imagemagick использовать, там ничего нажимать ненужно
можете подсказать как в imagemagick конвертировать pdf в картинку? через гугл искал ответ, но при использовании кода оттуда выдает ошибку
 
пдф в текст хорошо через Ворд 2016 переводить.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)