- Регистрация
- 01.10.2013
- Сообщения
- 418
- Благодарностей
- 156
- Баллы
- 43
Приветствую всех!
Данный шаблон будет выполнять две задачи:
1) Конвертировать PDF в картинку в формате JPG (с помощью сторонней программы)
2) Заливать картинку на сервис Яндекса https://translate.yandex.ru/ocr для распознавания текста с картинки.
Можно было конечно не конвертировать PDF в картинку и использовать для распознавания сервис Google (https://support.google.com/drive/answer/176692?co=GENIE.Platform=Desktop&hl=ru),
но там есть ограничение: в PDF документе будут обработаны только первые 10 страниц.
Итак первое что нужно сделать это скачать программу 2jpeg-free с офицального сайта https://www.2jpeg.com/download
Ограничение на ее использование это копирайт в конце каждой картинки: Created by 2JPEG www.2jpeg.com (будем заменять кубиком в шаблоне)
Установить и запомнить путь до исполняемого файла, в моей системе он такой C:\Program Files (x86)\2JPEG\2jpeg.exe
Если у вас путь до файла отличается, то пропишите его в первом кубике в этом поле:
Во втором поле будут прописаны параметры запуска:
-src "{-Project.Directory-}pdf\vinni-puh-i-vse-vse-vse.pdf" -dst "{-Project.Directory-}jpg" -oper Rasterize res:300 -oper Resize size:"1024 1024" -jpeg mode:progressive bpp:8 quality:75 subsampling:422 opthuff:yes
Коротко о них:
-src - Исходная папка файла для конвертации. Для обработки списка файлов, сохраните его как текстовый файл и используйте '@' перед путем к файлу.
-dst - Путь к папке назначения.
-oper - имя операции обработки изображения с параметрами. По умолчанию пусто.
-options - Общие параметры с параметрами. По умолчанию пусто.
Подробнее на сайте https://www.2jpeg.com/overview/2jpeg-command-line-syntax
Чем больше страниц в пдф файле тем больше нужно выставлять таймаут выполнения, по умолчанию 10, я установил 120 для файла из 152 страниц.
На этом с настройкой все.
Закидываем пдфку в папку pdf, запускаем шаблон.
По умолчанию будет переводится c русского языка на украинский.
Готовые картинки будут сохранятся в папку jpg.
Файлы с текстами будут сохранятся в папку txt, в подпапки "оригинальный текст" и "переведенный текст".
Один нюанс, после запуска выскочит такое окошко в нем нужно будет нажать на клавишу 1 как там просят.
Пример получения уникального (когда то) контента и сайтов использовавших его:
Идем например на сайт https://books.google.ru/
Вбиваем в поиск например слово "автомобіль" на украинском языке.
Я выбрал там одно из пособий: Сто і одна порада водію-початківцю
Перевел одну из страниц: Як вибрати автомобільні шини
Взял переведенный текст и в поиске Яндекса нашел сайт который его уже использовал: niknews.mk.ua/2018/08/28/kak-vybrat-avtomobilnye-shiny/
Для каких целей шаблон:
Возможно вам нужно перепечатать текст из пдф? Но лень.
Для получения контента, уникального и не очень (для ДДЛ или просто дорвеев).
Напишите свой вариант в комментарии
Скачать шаблон
Архив с шаблоном не прикрепляется, залил сюда https://cloud.mail.ru/public/2Zuk/4caGkMk6V
Данный шаблон будет выполнять две задачи:
1) Конвертировать PDF в картинку в формате JPG (с помощью сторонней программы)
2) Заливать картинку на сервис Яндекса https://translate.yandex.ru/ocr для распознавания текста с картинки.
Можно было конечно не конвертировать PDF в картинку и использовать для распознавания сервис Google (https://support.google.com/drive/answer/176692?co=GENIE.Platform=Desktop&hl=ru),
но там есть ограничение: в PDF документе будут обработаны только первые 10 страниц.
Итак первое что нужно сделать это скачать программу 2jpeg-free с офицального сайта https://www.2jpeg.com/download
Ограничение на ее использование это копирайт в конце каждой картинки: Created by 2JPEG www.2jpeg.com (будем заменять кубиком в шаблоне)
Установить и запомнить путь до исполняемого файла, в моей системе он такой C:\Program Files (x86)\2JPEG\2jpeg.exe
Если у вас путь до файла отличается, то пропишите его в первом кубике в этом поле:
Во втором поле будут прописаны параметры запуска:
-src "{-Project.Directory-}pdf\vinni-puh-i-vse-vse-vse.pdf" -dst "{-Project.Directory-}jpg" -oper Rasterize res:300 -oper Resize size:"1024 1024" -jpeg mode:progressive bpp:8 quality:75 subsampling:422 opthuff:yes
Коротко о них:
-src - Исходная папка файла для конвертации. Для обработки списка файлов, сохраните его как текстовый файл и используйте '@' перед путем к файлу.
-dst - Путь к папке назначения.
-oper - имя операции обработки изображения с параметрами. По умолчанию пусто.
-options - Общие параметры с параметрами. По умолчанию пусто.
Подробнее на сайте https://www.2jpeg.com/overview/2jpeg-command-line-syntax
Чем больше страниц в пдф файле тем больше нужно выставлять таймаут выполнения, по умолчанию 10, я установил 120 для файла из 152 страниц.
На этом с настройкой все.
Закидываем пдфку в папку pdf, запускаем шаблон.
По умолчанию будет переводится c русского языка на украинский.
Готовые картинки будут сохранятся в папку jpg.
Файлы с текстами будут сохранятся в папку txt, в подпапки "оригинальный текст" и "переведенный текст".
Один нюанс, после запуска выскочит такое окошко в нем нужно будет нажать на клавишу 1 как там просят.
Пример получения уникального (когда то) контента и сайтов использовавших его:
Идем например на сайт https://books.google.ru/
Вбиваем в поиск например слово "автомобіль" на украинском языке.
Я выбрал там одно из пособий: Сто і одна порада водію-початківцю
Перевел одну из страниц: Як вибрати автомобільні шини
Взял переведенный текст и в поиске Яндекса нашел сайт который его уже использовал: niknews.mk.ua/2018/08/28/kak-vybrat-avtomobilnye-shiny/
Для каких целей шаблон:
Возможно вам нужно перепечатать текст из пдф? Но лень.
Для получения контента, уникального и не очень (для ДДЛ или просто дорвеев).
Напишите свой вариант в комментарии
Скачать шаблон
Архив с шаблоном не прикрепляется, залил сюда https://cloud.mail.ru/public/2Zuk/4caGkMk6V
- Категория
- Другое
- Номер конкурса шаблонов
- Четвертый конкурс шаблонов
- Уровень сложности
- Лёгкий
Для запуска проектов требуется программа ZennoPoster или ZennoDroid.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...
Для того чтобы запустить шаблон, откройте нужную программу. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.
Последнее редактирование модератором: