[SOLVED] Взять содержимое HTML-страницы GET-запросом

Как взять DOM со страницы?

  • n/a

    Голосов: 0 0,0%
  • n/a

    Голосов: 0 0,0%

  • Всего проголосовало
    0

OKey

Client
Регистрация
04.02.2015
Сообщения
10
Благодарностей
0
Баллы
1
Парни, подскажите, проблема на пустяковом месте:
пытаюсь сформировать GET-запрос для взятия DOM со страницы, а в ответ получаю только заголовки и пару символов вместо всего HTML-кода.
Так выглядит GET-запрос и переменная с результатом (после заголовков пару символов: �.) - см. картинки в приложении.
Как взять DOM со страницы?
 

Вложения

OKey

Client
Регистрация
04.02.2015
Сообщения
10
Благодарностей
0
Баллы
1
Вот полное содержание переменной с ответом (socks_result):

HTTP/1.1 302 Found
Date: Sat, 16 Apr 2016 11:13:17 GMT
Cache-Control: no-cache,no-store,max-age=0,must-revalidate
Location: https://www.yandex.ru/
Expires: Sat, 16 Apr 2016 11:13:17 GMT
Last-Modified: Sat, 16 Apr 2016 11:13:17 GMT
P3P: policyref="/w3c/p3p.xml", CP="NON DSP ADM DEV PSD IVDo OUR IND STP PHY PRE NAV UNI"
Set-Cookie: yandexuid=4567314971460805197; Expires=Tue, 14-Apr-2026 11:13:17 GMT; Domain=.yandex.ru; Path=/
X-XSS-Protection: 1; mode=block
X-Content-Type-Options: nosniff
Content-Length: 0

HTTP/1.1 200 Ok
Date: Sat, 16 Apr 2016 11:13:18 GMT
Content-Type: text/html; charset=UTF-8
Cache-Control: no-cache,no-store,max-age=0,must-revalidate
Expires: Sat, 16 Apr 2016 11:13:18 GMT
Last-Modified: Sat, 16 Apr 2016 11:13:18 GMT
Content-Security-Policy: media-src 'self' yastatic.net kiks.yandex.ru; img-src 'self' data: https://yastatic.net https://home.yastatic.net https://*.yandex.ru https://*.yandex.net https://*.tns-counter.ru yastatic.net home.yastatic.net yandex.ru *.yandex.ru *.yandex.net *.tns-counter.ru *.gemius.pl yandex.st; font-src 'self' https://yastatic.net yastatic.net; connect-src 'self' wss://webasr.yandex.net wss://push.yandex.ru wss://portal-xiva.yandex.net https://yastatic.net https://home.yastatic.net https://yandex.ru https://*.yandex.ru portal-xiva.yandex.net yastatic.net home.yastatic.net yandex.ru *.yandex.ru *.yandex.net yandex.st; script-src 'self' 'unsafe-inline' 'unsafe-eval' https://suburban-widget.rasp.yandex.ru https://suburban-widget.rasp.yandex.net https://yastatic.net https://home.yastatic.net https://mc.yandex.ru https://pass.yandex.ru yastatic.net home.yastatic.net yandex.ru www.yandex.ru mc.yandex.ru suggest.yandex.ru clck.yandex.ru awaps.yandex.net; default-src 'self' blob: wss://portal-xiva.yandex.net portal-xiva.yandex.net; style-src 'self' 'unsafe-inline' https://yastatic.net https://home.yastatic.net yastatic.net home.yastatic.net; frame-src 'self' https://yastatic.net https://yandex.ru https://*.yandex.ru wfarm.yandex.net yastatic.net yandex.ru *.yandex.ru awaps.yandex.net; report-uri https://csp.yandex.net/csp?from=big.ru&showid=22887.21080.1460805198.11388&h=n63&yandexuid=4567314971460805197; object-src *.yandex.net yastatic.net kiks.yandex.ru awaps.yandex.net storage.mds.yandex.net;
P3P: policyref="/w3c/p3p.xml", CP="NON DSP ADM DEV PSD IVDo OUR IND STP PHY PRE NAV UNI"
X-Frame-Options: DENY
Content-Encoding: gzip
X-XSS-Protection: 1; mode=block
X-Content-Type-Options: nosniff
Transfer-Encoding: chunked


 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
  • Спасибо
Реакции: OKey

ibred

Client
Регистрация
04.04.2015
Сообщения
3 835
Благодарностей
3 552
Баллы
113
К сожалению, на втором скриншоте часть информации скрывается за скроллом и всего не увидеть.
У Вас там есть такая строчка: Accept-Encoding: gzip, deflate, sdch? Если да, удалите и попробуйте ещё раз.
 
  • Спасибо
Реакции: OKey

OKey

Client
Регистрация
04.02.2015
Сообщения
10
Благодарностей
0
Баллы
1
Спасибо за оперативность ответов!
убрал: Accept-Encoding: gzip, deflate
код страницы стал браться, но в одну строчку а не с разбивкой по тэгам.
Но это уже намного лучше! Спасибо.

И ещё, пытаюсь взять содержание страницы с одним единственным словом "GOOD" (страница dxmoon.com) - это для проверки носков на работоспособность, а в ответе Get_info вижу:
<html><head><META HTTP-EQUIV="refresh" CONTENT="0;URL=/cgi-sys/defaultwebpage.cgi"></head><body></body></html>

слова "GOOD" - содержимого страницы нету. почему?
 

OKey

Client
Регистрация
04.02.2015
Сообщения
10
Благодарностей
0
Баллы
1
Вот полное содержание вкладки "Дополнительно" - раздел "User Agent":
Mozilla/5.0 (Windows NT 6.1; rv:44.0) Gecko/20100101 Firefox/44.0
Host: www.yandex.ru
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Connection: keep-alive
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
https поставь
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113

OKey

Client
Регистрация
04.02.2015
Сообщения
10
Благодарностей
0
Баллы
1
ssXXXss, спасибо за замечание исправил на https, но у меня и при http содержание в ответе GET-запроса видно (после того как убрал: Accept-Encoding: gzip, deflate из поля User Agent).

Но в переменной (результат GET-запроса) весь контент в одну строчку - это нормально? можно разбивку по тэгам принудительную сделать? чтобы визуально можно было видеть где что лежит.

И по поводу проверки соксов, почему всё-таки может быть не видно текста со своего домена, на примере dxmoon.com ?

Результат такой: <html><head><META HTTP-EQUIV="refresh" CONTENT="0;URL=/cgi-sys/defaultwebpage.cgi"></head><body></body></html>

и всё, а текстового содержимого (слова "good") нет.
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
ssXXXss, спасибо за замечание исправил на https, но у меня и при http содержание в ответе GET-запроса видно (после того как убрал: Accept-Encoding: gzip, deflate из поля User Agent).

Но в переменной (результат GET-запроса) весь контент в одну строчку - это нормально? можно разбивку по тэгам принудительную сделать? чтобы визуально можно было видеть где что лежит.

И по поводу проверки соксов, почему всё-таки может быть не видно текста со своего домена, на примере dxmoon.com ?

Результат такой: <html><head><META HTTP-EQUIV="refresh" CONTENT="0;URL=/cgi-sys/defaultwebpage.cgi"></head><body></body></html>

и всё, а текстового содержимого (слова "good") нет.
2016-04-17_001508.png
2016-04-17_001534.png
 
  • Спасибо
Реакции: OKey

OKey

Client
Регистрация
04.02.2015
Сообщения
10
Благодарностей
0
Баллы
1
Да, так работает.
со своим текстом со своей страницы буду думать дальше - текста в get_info нет.
 

OKey

Client
Регистрация
04.02.2015
Сообщения
10
Благодарностей
0
Баллы
1
Разобрался, структурированную страницу выложил (с тегами) - и её содержимое стало мне доступно в get_info.
Всем спасибо за отзывчивость!
 

ibred

Client
Регистрация
04.04.2015
Сообщения
3 835
Благодарностей
3 552
Баллы
113
  • Спасибо
Реакции: OKey и ssXXXss

Кто просматривает тему: (Всего: 4, Пользователи: 0, Гости: 4)