- Регистрация
- 31.10.2011
- Сообщения
- 3 052
- Реакции
- 796
- Баллы
- 113
Одним из главных факторов успешности обучения ИИ — является хорошо размеченная и большая база с данными для обучения и тестирования обученности. Для некоторых задач, собрать базу, не такая уж и проблема, а вот на разметку потребуется либо много своего монотонно проведённого времени, либо много денег.
Например, была задача: собрать данные о HtmlElement, в которых содержится цена на товар в интернет магазинах, о его родителе, о его структурном расположении в теле страницы, о его текстовом содержимом и другие параметры, которые можно будет скормить для обучения, с целью определения на любой странице Х — есть цена или нет и в каком HtmlElement она содержится. Если знать где этот элемент (координаты (х, у)) в теле страницы, то все остальные данные можно легко получить с помощью автоматизации браузера.
Собирать xpath элементов с десяти тысяч страниц в ручном режиме — то ещё занятие… Лёгкие пути, в просмотре обзоров готового софта — искать было лень, но периодически работая с капча сервисами, пришла идея — а что если всю эту работу поручить на капча сервис, в котором есть живые исполнители. Выбор пал на сервис rucaptcha(ru)/2captcha(en) - кликать по картинкам там стоит около 160 руб за 1 тыс шт.
Что в итоге получилось, можно посмотреть на видео.
В софт добавляется csv файл с названиями картинок или текстовыми вопросами, картинка инструкция или текстовое задание, далее картинки приводятся к принимаемому капча сервисом размеру и отправляются в сервис. На выходе получаем файл с координатами (при выборе текстового ответа — файл с текстовыми ответами) и папку с изображениями в изменённых размерах. Далее нам остаётся только спроецировать координаты с уменьшенного изображения на реальный холст (в задаче из примера с поиском HtmlElement).
Данный софт без каких-либо сверхъестественных способностей, т.к. создавался для себя под определённые задачи и предлагается к использования — бесплатно, скачать можно тут.
Например, была задача: собрать данные о HtmlElement, в которых содержится цена на товар в интернет магазинах, о его родителе, о его структурном расположении в теле страницы, о его текстовом содержимом и другие параметры, которые можно будет скормить для обучения, с целью определения на любой странице Х — есть цена или нет и в каком HtmlElement она содержится. Если знать где этот элемент (координаты (х, у)) в теле страницы, то все остальные данные можно легко получить с помощью автоматизации браузера.
Собирать xpath элементов с десяти тысяч страниц в ручном режиме — то ещё занятие… Лёгкие пути, в просмотре обзоров готового софта — искать было лень, но периодически работая с капча сервисами, пришла идея — а что если всю эту работу поручить на капча сервис, в котором есть живые исполнители. Выбор пал на сервис rucaptcha(ru)/2captcha(en) - кликать по картинкам там стоит около 160 руб за 1 тыс шт.
Что в итоге получилось, можно посмотреть на видео.
Данный софт без каких-либо сверхъестественных способностей, т.к. создавался для себя под определённые задачи и предлагается к использования — бесплатно, скачать можно тут.



