Спарсить инет-магазин

stas11

Client
Регистрация
31.03.2013
Сообщения
188
Благодарностей
5
Баллы
18
Необходимо спарсить товары из инет-магазина(сайты по типу розетки). На одной странице категории(допустим ноутбуки) товаров расположено 20 товаров и таких страниц 15. Как правильно совершить парсинг товаров?
Я вижу вот такой вариант, но как по мне он очень долгий
Открываем первую страницу, парсим все ссылки товаров(кладем в список), открываем 2,3 и так до конца
Когда мы получили список всех ссылок на товары категории ноутбуки. Берем по одной строке с удалением и парсим уже со страницы товара - название, описание, картинка.

Возможно есть какой-то более правильный вариант парсинга интернет-магазинов? Спасибо.
 

xuligan

Client
Регистрация
07.03.2011
Сообщения
156
Благодарностей
42
Баллы
28
Я вижу вот такой вариант, но как по мне он очень долгий
мне кажется, что у Вас правильный вариант, ну а на счёт долгий, так Вы же не руками всё это делаете)))))
 

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 226
Баллы
113
Если магазин не защищен от парсинга, можно парсить в несколько потоков, что существенно сократит время парсинга.
 

stas11

Client
Регистрация
31.03.2013
Сообщения
188
Благодарностей
5
Баллы
18
Если магазин не защищен от парсинга, можно парсить в несколько потоков, что существенно сократит время парсинга.
с многопотоком никогда не работал. это получается если сайт позволяет - можно парсить сразу несколько категорий одновременно? просто в зенно добавить несколько шаблонов и запустить их одновременно?
 

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 226
Баллы
113
Как вариант можно и так. Вообще парсер контента магазина состоит как бы из двух задач:
  1. Получить ссылки на товары
  2. Спарсить контент размещеный по этим ссылкам.
Поэтому сначала я бы собрал ссылки на все товары во всех интересующих меня категориях (одним шаблоном), а потом спарсил контент с полученных ссылок в многопотоке (другим шаблоном).
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)