- Регистрация
- 01.10.2013
- Сообщения
- 420
- Реакции
- 164
- Баллы
- 43
Приветствую всех!
Данный шаблон будет выполнять две задачи:
1) Конвертировать PDF в картинку в формате JPG (с помощью сторонней программы)
2) Заливать картинку на сервис Яндекса https://translate.yandex.ru/ocr для распознавания текста с картинки.
Можно было конечно не конвертировать PDF в картинку и использовать для распознавания сервис Google (https://support.google.com/drive/answer/176692?co=GENIE.Platform=Desktop&hl=ru),
но там есть ограничение: в PDF документе будут обработаны только первые 10 страниц.
Итак первое что нужно сделать это скачать программу 2jpeg-free с офицального сайта https://www.2jpeg.com/download
Ограничение на ее использование это копирайт в конце каждой картинки: Created by 2JPEG www.2jpeg.com (будем заменять кубиком в шаблоне)
Установить и запомнить путь до исполняемого файла, в моей системе он такой C:\Program Files (x86)\2JPEG\2jpeg.exe
Если у вас путь до файла отличается, то пропишите его в первом кубике в этом поле:

Во втором поле будут прописаны параметры запуска:
-src "{-Project.Directory-}pdf\vinni-puh-i-vse-vse-vse.pdf" -dst "{-Project.Directory-}jpg" -oper Rasterize res:300 -oper Resize size:"1024 1024" -jpeg mode:progressive bpp:8 quality:75 subsampling:422 opthuff:yes

Коротко о них:
-src - Исходная папка файла для конвертации. Для обработки списка файлов, сохраните его как текстовый файл и используйте '@' перед путем к файлу.
-dst - Путь к папке назначения.
-oper - имя операции обработки изображения с параметрами. По умолчанию пусто.
-options - Общие параметры с параметрами. По умолчанию пусто.
Подробнее на сайте https://www.2jpeg.com/overview/2jpeg-command-line-syntax
Чем больше страниц в пдф файле тем больше нужно выставлять таймаут выполнения, по умолчанию 10, я установил 120 для файла из 152 страниц.

На этом с настройкой все.
Закидываем пдфку в папку pdf, запускаем шаблон.
По умолчанию будет переводится c русского языка на украинский.
Готовые картинки будут сохранятся в папку jpg.
Файлы с текстами будут сохранятся в папку txt, в подпапки "оригинальный текст" и "переведенный текст".
Один нюанс, после запуска выскочит такое окошко в нем нужно будет нажать на клавишу 1 как там просят.

Пример получения уникального (когда то) контента и сайтов использовавших его:
Идем например на сайт https://books.google.ru/
Вбиваем в поиск например слово "автомобіль" на украинском языке.
Я выбрал там одно из пособий: Сто і одна порада водію-початківцю
Перевел одну из страниц: Як вибрати автомобільні шини
Взял переведенный текст и в поиске Яндекса нашел сайт который его уже использовал: niknews.mk.ua/2018/08/28/kak-vybrat-avtomobilnye-shiny/
Для каких целей шаблон:
Возможно вам нужно перепечатать текст из пдф? Но лень.
Для получения контента, уникального и не очень (для ДДЛ или просто дорвеев).
Напишите свой вариант в комментарии
Скачать шаблон
Архив с шаблоном не прикрепляется, залил сюда https://cloud.mail.ru/public/2Zuk/4caGkMk6V
Данный шаблон будет выполнять две задачи:
1) Конвертировать PDF в картинку в формате JPG (с помощью сторонней программы)
2) Заливать картинку на сервис Яндекса https://translate.yandex.ru/ocr для распознавания текста с картинки.
Можно было конечно не конвертировать PDF в картинку и использовать для распознавания сервис Google (https://support.google.com/drive/answer/176692?co=GENIE.Platform=Desktop&hl=ru),
но там есть ограничение: в PDF документе будут обработаны только первые 10 страниц.
Итак первое что нужно сделать это скачать программу 2jpeg-free с офицального сайта https://www.2jpeg.com/download
Ограничение на ее использование это копирайт в конце каждой картинки: Created by 2JPEG www.2jpeg.com (будем заменять кубиком в шаблоне)
Установить и запомнить путь до исполняемого файла, в моей системе он такой C:\Program Files (x86)\2JPEG\2jpeg.exe
Если у вас путь до файла отличается, то пропишите его в первом кубике в этом поле:

Во втором поле будут прописаны параметры запуска:
-src "{-Project.Directory-}pdf\vinni-puh-i-vse-vse-vse.pdf" -dst "{-Project.Directory-}jpg" -oper Rasterize res:300 -oper Resize size:"1024 1024" -jpeg mode:progressive bpp:8 quality:75 subsampling:422 opthuff:yes

Коротко о них:
-src - Исходная папка файла для конвертации. Для обработки списка файлов, сохраните его как текстовый файл и используйте '@' перед путем к файлу.
-dst - Путь к папке назначения.
-oper - имя операции обработки изображения с параметрами. По умолчанию пусто.
-options - Общие параметры с параметрами. По умолчанию пусто.
Подробнее на сайте https://www.2jpeg.com/overview/2jpeg-command-line-syntax
Чем больше страниц в пдф файле тем больше нужно выставлять таймаут выполнения, по умолчанию 10, я установил 120 для файла из 152 страниц.

На этом с настройкой все.
Закидываем пдфку в папку pdf, запускаем шаблон.
По умолчанию будет переводится c русского языка на украинский.
Готовые картинки будут сохранятся в папку jpg.
Файлы с текстами будут сохранятся в папку txt, в подпапки "оригинальный текст" и "переведенный текст".
Один нюанс, после запуска выскочит такое окошко в нем нужно будет нажать на клавишу 1 как там просят.

Пример получения уникального (когда то) контента и сайтов использовавших его:
Идем например на сайт https://books.google.ru/
Вбиваем в поиск например слово "автомобіль" на украинском языке.
Я выбрал там одно из пособий: Сто і одна порада водію-початківцю
Перевел одну из страниц: Як вибрати автомобільні шини
Взял переведенный текст и в поиске Яндекса нашел сайт который его уже использовал: niknews.mk.ua/2018/08/28/kak-vybrat-avtomobilnye-shiny/
Для каких целей шаблон:
Возможно вам нужно перепечатать текст из пдф? Но лень.
Для получения контента, уникального и не очень (для ДДЛ или просто дорвеев).
Напишите свой вариант в комментарии

Скачать шаблон
Архив с шаблоном не прикрепляется, залил сюда https://cloud.mail.ru/public/2Zuk/4caGkMk6V
- Номер конкурса шаблонов
- Четвертый конкурс шаблонов
- Уровень сложности
- Лёгкий
- Категория
- Другое
Последнее редактирование модератором:



