Помогите: Парсинг телефонов с сайта OLX

  • Автор темы Автор темы Alex62
  • Дата начала Дата начала
Да.
Пробовал и заголовки и содержимое и вместе, и только содержимое.
Результат тотже.
 
Да.
Пробовал и заголовки и содержимое и вместе, и только содержимое.
Результат тотже.
1 Делом посмотри запрос, есть ли в нем номер. Если есть, то покажи настройки экшена который парсит номер.
 
Номер в снифере есть.
Вот скрин по настройкам
 

Вложения

  • Clip2net_18010.jpg
    Clip2net_18010.jpg
    86,4 KB · Просмотры: 53
Вот как в снифере виден ответ при парсинге в ПрожектМакере
 

Вложения

  • Clip2net_180102.jpg
    Clip2net_180102.jpg
    175 KB · Просмотры: 43
Есть в GET запросе {-Variable.get_url_pagegsm-} следующий ответ. Там и телефон в value
А в переменной {-Variable.skrap_gsm-} НЕТ ничего.
Код:
Развернуть Свернуть Копировать
HTTP/1.1 200 OK
Content-Security-Policy: default-src * 'unsafe-eval' 'unsafe-inline' data:; frame-ancestors 'self' app.optimizely.com apps.facebook.com fonts.googleapis.com
X-Xss-Protection: 1
X-Content-Type-Options: nosniff
Referrer-Policy: unsafe-url
Strict-Transport-Security: max-age=31536000; includeSubDomains
X-B: tablica-dc4-267
X-T: D=35395 t=1514887534655556
Content-Type: application/json; charset=utf-8
Expires: Tue, 02 Jan 2018 10:05:34 GMT
Cache-Control: max-age=0, no-cache, no-store
Pragma: no-cache
Date: Tue, 02 Jan 2018 10:05:34 GMT
Connection: keep-alive
Content-Length: 26


{"value":"380 979 175639"}
 

Вложения

  • Clip2net_1801021.jpg
    Clip2net_1801021.jpg
    153,3 KB · Просмотры: 30
По этому не парсит регулярка. там пусто, парсить нечего. Я к этому и вел) Значит теперь надо понять, почему там пусто. Может не указаны юзер агенты, а может надо пост запрос отправить а не гет.

У тебя перменная {-Variable.get_url_pagegsm-}, стоит в поле для урл. А в ней у тебя ответ от другого гет запроса, а должна быть ссылка. Перепроверь все переменные еще раз.
 
Последнее редактирование:
Вам в помощь пост 22 и 23
yriy158 парсил GET запросом. На выходе {"value":"000 000 000"}
Посоветовали смотреть в сторону печенек.
У меня с GET запроса ответ сервака отдаёт {"value":"380 979 175639"} Т.е. телефон есть. Но регулярка его почему-то не видит.
Хотя в конструкторе регулярных выражений, свободно парсится.
 
Вам в помощь пост 22 и 23
yriy158 парсил GET запросом. На выходе {"value":"000 000 000"}
Посоветовали смотреть в сторону печенек.
У меня с GET запроса ответ сервака отдаёт {"value":"380 979 175639"} Т.е. телефон есть. Но регулярка его почему-то не видит.
Хотя в конструкторе регулярных выражений, свободно парсится.
Либо я дико туплю либо ты)))

Вот давай рассуждать логически. Регулярка не парсит. Смотрим переменную. Там ПУСТО! почечему там пусто, смотрим гет запрос, что там может быть? содержимое стоит, ок. значит порверяем переменную гет урл., смотрим, а там запрос, не урл а ЗАПРОС, а должен быть урл. Все! =) зачем мне эти посты, я по скринам все увидел.
 
  • Спасибо
Реакции: devas111
Помогите, сам не врублюсь, плиз.
Приартачил файлики.
Что я не так делаю, и почему не парсит регулярку с GET?
Кому не лень посмотрите, пожалуйста.
 

Вложения

  • Спасибо
Реакции: Masik
Хм.
Спасибо за помощь Mikhail B.
Разобрался. Просто парил регуляркой следующий запрос.
Не актуально.
 
Приветствую, ребята!
С недавнего времени на olx.ua перестала работать схема сбора номеров на запросах:
После отправки второго запроса olx говорит, что мы в бане.
Кто разбирался уже?
Во втором запросе отправляются куки вида:
Код:
Развернуть Свернуть Копировать
// Куки из 1 запроса
PHPSESSID=5ac199595eda9d8dd2c29edb83a0baad833471e6; mobile_default=desktop; dfp_segment_test_v3=62; dfp_segment_test=58; dfp_segment_test_v4=13; lister_lifecycle=1548501981; pt=d98c3fcaa5512b16c5698b78999778127acf58b4e367f087da5bca9f7cda28c6fcb04bd34bf67758915f37b09541bd5f753bcf2f8efed4c63387cabb19d5959d; ak_bmsc=2D9B5AEDADA8327EF0B608A5C9C8AD85601194DDC10A0000DD434C5CFE0B7567~plexTyFZtGkY/OAGPiufAcpLZapm+t0waS/2lGcHbB8sxeLbIfPWW1dgL3rveyjOPpEu9IrZOr6neiIvB9x8vcJxNOotthP1NjUWmFUbDcBze5+FoRNxuN5AdQJUUkY/HYCiHwUZQ2/xL+GF9JAIzKebYzm29tJIEGz9duQFgZtdGzUXL0PddTp5Z5dCxH9JMivZIXVMKja0Mzx0JLgsa0LPqa/JQevs/uwrlViBzJqHL3k5HJTmi9ik9YP/sCL3Mu; _abck=23A16F9A0F9ECCC60967D46A6AA51A58601194DDC10A0000DD434C5CD1505C5B~0~rdHvu2SqzynQZ8ldXlmB8tx9Kt85cExefbBMK4uH0E8=~-1~-1; bm_sz=893CC98935965BFC09A973FA0DFD5ACB~QAAQ3ZQRYBeCc/tmAQAA5BnpiWhZg7QToGF764Nu5dSavaFgV8HeWrZzL1YILsoX5VZf9Xp6jh7GOL8fTpwmLd7L+8MdO1KayRUGwAAtnX/Z+Fb5kfh6nT0XIerRkcp182N0WWpIps3UQH6OTKYgTRBz8MI3EJdA/gSUBpdKI9tYdrPN122Azc0GZJ+b9E8=;

// Дополнительные куки:
used_adblock=adblock_disabled; onap=16889e8fc7cx17d95f1e-1-16889e8fc7cx17d95f1e-6-1548504199; ldTd=true; fingerprint=fbdc4f53959cdb4ab268bb0cf23e7b2c189a8b53cad0d297edcd2c514f5a58bbbbd1038ed17ec0aeedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbe20e07d1501e53fa21c0ce59d9de41874de55969cc542da0e22fb9c2db7c54b2edcd2c514f5a58bb730ba2168033a7f4c2eea1e141cd8039b16a1da8531d1945850d3fa1ff34a1ab42ce39ce248a761975196cd41901cc52525fa71314aa02ef101815e2ab761857cadd2994d60616b1854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb99424db0dded4c09; dfp_user_id=64590c6b-2796-cd8e-eea2-8396042ebe87-ver2; _ga=GA1.2.1297485168.1548501978; _gid=GA1.2.720377840.1548501978; lqstatus=1548503178|||; laquesis=; laquesis_ff=; optimizelyEndUserId=oeu1548501980205r0.8879824182217749; __utma=250720985.1297485168.1548501978.1548501980.1548501980.1; __utmb=250720985.3.8.1548502399548; __utmc=250720985; __utmz=250720985.1548501980.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmt=1; _gat_clientNinja=1

Можно сразу сказать, что добавляется в куках определение fingerprint'a. А вот откуда он берется?..
 
Последнее редактирование:
Приветствую, ребята!
С недавнего времени на olx.ua перестала работать схема сбора номеров на запросах:
После отправки второго запроса olx говорит, что мы в бане.
Кто разбирался уже?
Во втором запросе отправляются куки вида:
Код:
Развернуть Свернуть Копировать
// Куки из 1 запроса
PHPSESSID=5ac199595eda9d8dd2c29edb83a0baad833471e6; mobile_default=desktop; dfp_segment_test_v3=62; dfp_segment_test=58; dfp_segment_test_v4=13; lister_lifecycle=1548501981; pt=d98c3fcaa5512b16c5698b78999778127acf58b4e367f087da5bca9f7cda28c6fcb04bd34bf67758915f37b09541bd5f753bcf2f8efed4c63387cabb19d5959d; ak_bmsc=2D9B5AEDADA8327EF0B608A5C9C8AD85601194DDC10A0000DD434C5CFE0B7567~plexTyFZtGkY/OAGPiufAcpLZapm+t0waS/2lGcHbB8sxeLbIfPWW1dgL3rveyjOPpEu9IrZOr6neiIvB9x8vcJxNOotthP1NjUWmFUbDcBze5+FoRNxuN5AdQJUUkY/HYCiHwUZQ2/xL+GF9JAIzKebYzm29tJIEGz9duQFgZtdGzUXL0PddTp5Z5dCxH9JMivZIXVMKja0Mzx0JLgsa0LPqa/JQevs/uwrlViBzJqHL3k5HJTmi9ik9YP/sCL3Mu; _abck=23A16F9A0F9ECCC60967D46A6AA51A58601194DDC10A0000DD434C5CD1505C5B~0~rdHvu2SqzynQZ8ldXlmB8tx9Kt85cExefbBMK4uH0E8=~-1~-1; bm_sz=893CC98935965BFC09A973FA0DFD5ACB~QAAQ3ZQRYBeCc/tmAQAA5BnpiWhZg7QToGF764Nu5dSavaFgV8HeWrZzL1YILsoX5VZf9Xp6jh7GOL8fTpwmLd7L+8MdO1KayRUGwAAtnX/Z+Fb5kfh6nT0XIerRkcp182N0WWpIps3UQH6OTKYgTRBz8MI3EJdA/gSUBpdKI9tYdrPN122Azc0GZJ+b9E8=;

// Дополнительные куки:
used_adblock=adblock_disabled; onap=16889e8fc7cx17d95f1e-1-16889e8fc7cx17d95f1e-6-1548504199; ldTd=true; fingerprint=fbdc4f53959cdb4ab268bb0cf23e7b2c189a8b53cad0d297edcd2c514f5a58bbbbd1038ed17ec0aeedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbedcd2c514f5a58bbe20e07d1501e53fa21c0ce59d9de41874de55969cc542da0e22fb9c2db7c54b2edcd2c514f5a58bb730ba2168033a7f4c2eea1e141cd8039b16a1da8531d1945850d3fa1ff34a1ab42ce39ce248a761975196cd41901cc52525fa71314aa02ef101815e2ab761857cadd2994d60616b1854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb854360a07fd48fdb99424db0dded4c09; dfp_user_id=64590c6b-2796-cd8e-eea2-8396042ebe87-ver2; _ga=GA1.2.1297485168.1548501978; _gid=GA1.2.720377840.1548501978; lqstatus=1548503178|||; laquesis=; laquesis_ff=; optimizelyEndUserId=oeu1548501980205r0.8879824182217749; __utma=250720985.1297485168.1548501978.1548501980.1548501980.1; __utmb=250720985.3.8.1548502399548; __utmc=250720985; __utmz=250720985.1548501980.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmt=1; _gat_clientNinja=1

Можно сразу сказать, что добавляется в куках определение fingerprint'a. А вот откуда он берется?..
Нашел решение?
 
Вся загвоздка в параметре sensor_data, который POST запросом отправляется, а в ответ приходит уникальная кука _abck , без котрой получить телефон невозможно.
А параметры sensor_data непонятно откуда берутся.
KAgMXEqh4pMekm.jpg
 
Скажите, а проблему с паснигом номеров так никто и не решил? :bw:
 
Пока только парсер-гибрид сделал. Основная инфа собирается запросом, номер телефона браузером. В принципе, если не нужны номера, можно на запросы чисто перейти. Конечно, актуально только для парсинга товаров на витрины магазинов.
А так с парсингом номеров засада
 
  • Спасибо
Реакции: Vangardo
Пока только парсер-гибрид сделал. Основная инфа собирается запросом, номер телефона браузером. В принципе, если не нужны номера, можно на запросы чисто перейти. Конечно, актуально только для парсинга товаров на витрины магазинов.
А так с парсингом номеров засада
Ясно. А я как только не пробовал все в пустую. Помню как то пол года год назад все ок было. А сейчас приходят нули(((((
 
Так и не появилось шустрого парня сумевшего достать номер телефона с сервера?
 
Стало понятно, что если в _abck есть ~0~ то можно парсить номер, если -1 то в ответе гет запроса, что подозрительная активность. Кто то разобрался как генерить _abck ? Его хватает номеров на 5 и потом блок ип и нужно перезагружать проект, чтоб взять новые данные.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)