Разница между GET и исходным кодом

  • Автор темы Автор темы Khaan27
  • Дата начала Дата начала

Khaan27

Client
Регистрация
06.10.2014
Сообщения
167
Реакции
25
Баллы
28
Всем привет
Мне нужно получить спарсить данные из исходного кода страницы
Я делаю Get-запрос к целевому url, но в возвращаемых данных содержимое отличается от того, которое выводится в исходном коде
Как можно решить эту проблему?
Можно ли как-то получить исходный код не нагружая сервер загрузкой страницы?
 
Можно ли как-то получить исходный код не нагружая сервер загрузкой страницы?
Если кратко, то нет.
Но иногда бывает, что нужные данные подгружаются (обычно - в каком-нибудь JSON'е), поэтому надо смотреть в трафике, что грузится на стрнаице и, возможно, получать нужные данные get-запросом к другим урлам.
 
  • Спасибо
Реакции: Khaan27
В дополнении к сообщению выше. В большинстве своем, это связано с тем, что сайт написан не на голом html/css, а на использовании js-скриптов, которые берут данные из доп. источников и выводят её пользователю.
 
В дополнении к сообщению выше. В большинстве своем, это связано с тем, что сайт написан не на голом html/css, а на использовании js-скриптов, которые берут данные из доп. источников и выводят её пользователю.
А как эти скрипты выполнить?
 
А как эти скрипты выполнить?
Запустить браузер )))
Вообще, обычно не выполнять скрипт надо, а смотреть, откуда этот скрипт нужные данные берет/подгружает. И просто получать оттуда напрямую.
Проще показать страницу, откуда надо данные получить, думаю, быстрее подскажут, если решение "на поверхности".
 
Проще показать страницу, откуда надо данные получить, думаю, быстрее подскажут, если решение "на поверхности".
Уже мозг сломал. Подскажите, если знаете.

Мне нужно автоматизировать подписку на паблик VK.

Подписка осуществляется POST-запросом с данными act=a_enter&al=1&hash=ПЕРЕМЕННАЯ1&pid=НОМЕР ПАБЛИКА&ref=community_page&trackcode=ПЕРЕМЕННАЯ2
ПЕРЕМЕННАЯ1 парсится регуляркой (?<="enterHash":").*?(?=")
ПЕРЕМЕННАЯ2 - (?<=data-trackcode=").*?(?=")

Они успешно парсятся из {-Page.Source-}, но мне нужно подгружать их без загрузки страницы. В GET-запросе к URL'у паблика их не найти.
 
Уже мозг сломал. Подскажите, если знаете.

Мне нужно автоматизировать подписку на паблик VK.

Подписка осуществляется POST-запросом с данными act=a_enter&al=1&hash=ПЕРЕМЕННАЯ1&pid=НОМЕР ПАБЛИКА&ref=community_page&trackcode=ПЕРЕМЕННАЯ2
ПЕРЕМЕННАЯ1 парсится регуляркой (?<="enterHash":").*?(?=")
ПЕРЕМЕННАЯ2 - (?<=data-trackcode=").*?(?=")

Они успешно парсятся из {-Page.Source-}, но мне нужно подгружать их без загрузки страницы. В GET-запросе к URL'у паблика их не найти.
значит они генерируются в JS на странице. надо найти код который это генерирует и повторить в своей логике.
 
решить эту проблему
Приветствую.
Не помню, можно ли связать с зенкой HtmlAgiltyPack, в нем оч удобно подобные вашему запросы делать:
C#:
Развернуть Свернуть Копировать
using HtmlAgilityPack;

var url = "https://example.com";
var web = new HtmlWeb();
var document = web.Load(url);
var html = document.DocumentNode.InnerHtml; // Получить содержимое страницы в виде строки
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)