- Регистрация
- 24.12.2014
- Сообщения
- 616
- Реакции
- 442
- Баллы
- 63
Доброго времени суток. Представляю Вам парсер номеров и имён продавцов с сайта youla.ru. Шаблон написан на Post/Get запросах. Имеет функцию рассортировать полученные номера по операторам.
Входные настройки шаблона:
Сколько страниц парсить - кол-во станиц, которые шаблон будет парсить.
Сохранять - вид сохранённых данных. "Телефон" или "телефон;имя".
Сортировать по оператору - в конце работы шаблон создаст папку и рассортирует все номера по операторам.
Алгоритм работы шаблона:
Шаблон берёт заданную ссылку из входных настроек и делает два гет запроса по ней:
Далее меняет кодировку (ибо зачастую Юла даёт ответ в кодировке Unicode), парсит этот Get запрос Regex'ом на ссылки и удаляет дубли.
Примечание: Почему два гет запроса, а не один. Проблема в том, что в конце ссылки прописывается номер страницы "page=". Но когда парсинг идёт без критериев, то оператор page нужно прописывать как "?page=", а если с критериями, то "&page=".
Делаем ещё один Get запрос по ссылке из поиска, чтобы получить Title. Он нам понадобится при дальнейшем создании текстовых файлов и папок.
Теперь шаблон берёт ссылку на товар из списка Links, удаляет дубли, делает Get запрос и парсит номер телефона и имя. Имя получаем в кодировке Unicode, поэтому шаблон ещё раз перекодирует и записывает в файл (создаётся с именем из Title) по заданным параметрам.
Шаблон сам создаёт все файлы в той папке, где находится. Надеюсь шаблон подойдёт новичкам, которые на первых этапах изучения Get/Post, а также тем, кому нужно спарсить базу номеров с юлы для своих целей. Данный шаблон не парсит категорию Авто, так как там другой алгоритм парсинга.
Спасибо за внимание. Надеюсь этот шаблон Вам пригодится.
- Номер конкурса шаблонов
- Второй конкурс шаблонов
- Уровень сложности
- Средний
- Категория
- Парсинг
- Доски объявлений



