Парсинг при помощи Яндекс XML

Регистрация
22.12.2015
Сообщения
96
Благодарностей
1
Баллы
8
Здравствуйте! Недавно открыл для себя новую информацию, оказывается спарсить сайты в поисковой выдачи можно гораздо быстрее, используя Яндекс XML. Решил разобраться в этой теме, но вот информации в интернете маловато... Да пишут, что такое яндекс xml, что такое лимиты, а вот как правильно составить запрос и другие тонкости (если они есть)...

Кого не затруднит и кто имеет опыт с xml просьба откликнуться:-)

Вопросы:

1. Пишу шаблон - парсинг сайтов по определенному запросу через xml. Нужно ли реализовывать в шаблоне авторизацию в яндексе перед осуществлением запроса? По идее в GET запросе имеется ключ и ответ вроде как и без авторизации придет?

2. Возможно ли одним GET запросом спарсить 100 страниц поисковой выдачи за раз? 1000 сайтов.

3. Возможно ли в GET запросе указать диапазон страниц для парсинга, к примеру с 1 по 10? Или же 1 запрос 1 страница?
 

budora

Client
Регистрация
13.08.2012
Сообщения
831
Благодарностей
556
Баллы
93
Здравствуйте! Недавно открыл для себя новую информацию, оказывается спарсить сайты в поисковой выдачи можно гораздо быстрее, используя Яндекс XML. Решил разобраться в этой теме, но вот информации в интернете маловато... Да пишут, что такое яндекс xml, что такое лимиты, а вот как правильно составить запрос и другие тонкости (если они есть)...

Кого не затруднит и кто имеет опыт с xml просьба откликнуться:-)

Вопросы:

1. Пишу шаблон - парсинг сайтов по определенному запросу через xml. Нужно ли реализовывать в шаблоне авторизацию в яндексе перед осуществлением запроса? По идее в GET запросе имеется ключ и ответ вроде как и без авторизации придет?

2. Возможно ли одним GET запросом спарсить 100 страниц поисковой выдачи за раз? 1000 сайтов.

3. Возможно ли в GET запросе указать диапазон страниц для парсинга, к примеру с 1 по 10? Или же 1 запрос 1 страница?
Логинимся в Яндекс аккаунт.
Переходим https://xml.yandex.ru/settings/ смотрим настройки и лимиты.
В разделе тест примеры запросов
 
  • Спасибо
Реакции: Аркадий
Регистрация
22.12.2015
Сообщения
96
Благодарностей
1
Баллы
8
Логинимся в Яндекс аккаунт.
Переходим https://xml.yandex.ru/settings/ смотрим настройки и лимиты.
В разделе тест примеры запросов
Я так понимаю диапозон страниц указывать в GET запросе нельзя? И максимальное количество сайтов за 1 запрос это 100? Соответственно мне нужно 10 запросов, чтобы спарсить 1000 сайтов. У меня всего 10 лимитов)))
 

one

Client
Регистрация
22.09.2015
Сообщения
6 834
Благодарностей
1 275
Баллы
113
Аркадий, даю подсказку, не по заданным вопросам. Если в настройках указать тип поиска "мировой", то лимитов дается 10к в час. ;-) Не знаю правда какой результат будет.
 
Регистрация
22.12.2015
Сообщения
96
Благодарностей
1
Баллы
8
Аркадий, даю подсказку, не по заданным вопросам. Если в настройках указать тип поиска "мировой", то лимитов дается 10к в час. ;-) Не знаю правда какой результат будет.

Попробовал найти эту опцию в настройках, но чего то нету) Не подскажите где она?
 
Регистрация
22.12.2015
Сообщения
96
Благодарностей
1
Баллы
8
Еще вопрос:
В настройках яндекс xml нужно указать IP для того, чтобы можно было получать ответы, если IP другой, то ответы приходить не будут. Так вот.. возможно ли IP менять на нужное через GET запросы или только через браузер?
 

one

Client
Регистрация
22.09.2015
Сообщения
6 834
Благодарностей
1 275
Баллы
113
Вот. А ИП менять можно но его надо постоянно регистрировать и обновления смены ИП происходят не моментально.

upload_2016-6-16_11-12-8.png
 
  • Спасибо
Реакции: AloneSlamer и Gfoblin
Регистрация
22.12.2015
Сообщения
96
Благодарностей
1
Баллы
8

one

Client
Регистрация
22.09.2015
Сообщения
6 834
Благодарностей
1 275
Баллы
113
На сьем позиций точно влияет на остальное не проверял.
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
через мировой удобно пробивать индексацию страниц, т.к. серпы для мирового и для россии разные
 
Регистрация
22.12.2015
Сообщения
96
Благодарностей
1
Баллы
8
через мировой удобно пробивать индексацию страниц, т.к. серпы для мирового и для россии разные
Только это или еще как то можно использовать?:-)

И еще такой вопрос: через GET можно ведь получить только 1000 сайтов по определенному поисковому запросу? К примеру в выдачи (если через браузер) то Яндекс показывает 100 страниц по 10 документов на каждой. Через GET такие же ограничения? Или там по одному запросу можно спарсить гораздо больше сайтов, чем 1000 сайтов?
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Только это или еще как то можно использовать?:-)

И еще такой вопрос: через GET можно ведь получить только 1000 сайтов по определенному поисковому запросу? К примеру в выдачи (если через браузер) то Яндекс показывает 100 страниц по 10 документов на каждой. Через GET такие же ограничения? Или там по одному запросу можно спарсить гораздо больше сайтов, чем 1000 сайтов?
может как то и можно, но не по другому не пригождалось)

xml тоже возвращает 100 групп по 10 элементов, но получить ту же тысячу можно через 10 запросов по 100 результатов
 

Animal

Client
Регистрация
15.06.2016
Сообщения
733
Благодарностей
130
Баллы
43
3. Возможно ли в GET запросе указать диапазон страниц для парсинга, к примеру с 1 по 10? Или же 1 запрос 1 страница?
Знаю что с поисковиком гугл так можно делать, а с Яндексом нужно попробовать. На ютубе есть пример с гугл поисковиком (для выдачи 50 результатов и больше, на одну страницу), Посмотрите, может получиться. Название видео: Создание шаблона Parser Google.
Желательно логинится на объекте парсинга, более стабильней страницы переключаются. Наверное код отличается, если зарегистрироваться.
 
Регистрация
22.12.2015
Сообщения
96
Благодарностей
1
Баллы
8
Знаю что с поисковиком гугл так можно делать, а с Яндексом нужно попробовать. На ютубе есть пример с гугл поисковиком (для выдачи 50 результатов и больше, на одну страницу), Посмотрите, может получиться. Название видео: Создание шаблона Parser Google.
Желательно логинится на объекте парсинга, более стабильней страницы переключаются. Наверное код отличается, если зарегистрироваться.
Понял) обязательно гляну)) Спасибо))
 

eleeet

Client
Регистрация
08.06.2016
Сообщения
13
Благодарностей
0
Баллы
1
Напиши потом, вопросы победил или нет. =)
 
Регистрация
22.12.2015
Сообщения
96
Благодарностей
1
Баллы
8
Напиши потом, вопросы победил или нет. =)
Сделал шаблон, в который загружаю кучу запросов и он вытаскивает из Яндекса по каждому запросу 1000 сайтов, все работает прекрасно. Правда сам шаблон еще улучшать нужно, чтобы удобней им было управлять и формировать свою базу сайтов по тематикам)

С вопросами разобрался:
1. Авторизацию в шаблоне реализовывать не нужно. Кроме того в сети прочел такую версию, что если работаешь с яндекс xml, то лучше проводить авторизацию аккаунта с которого пойдут GET запросы)) Эту версию опровергнул, так как и так все прекрасно работает, без ошибок и зависаний. Спарсил уже коло 20 000 уникальных сайтов. Так же если брать аккаунт в аренду с большим количеством лимитов на бирже, то в принципе не получится авторизоваться в нем:-) Там дают только user и key, ну и свой IP указываешь.
2. Не возможно. Чтобы спарсить 1000 сайтов (один поисковый запрос) нужно 10 лимитов. 1 лимит = 100 документов.
3. Тоже не возможно. 1 запрос = 1 страница = 100 документов на страице:-) А всего мы можем спарсить не более 1000 документов по одному запросу

В общем во всем разобрался. XML лимиты крутая вещь:-)

Удобно, быстро и без всяких заморочек (баны, прокси, куча аккаунтов и т.д.) всего этого нету:-)
 

eleeet

Client
Регистрация
08.06.2016
Сообщения
13
Благодарностей
0
Баллы
1
Сделал шаблон, в который загружаю кучу запросов и он вытаскивает из Яндекса по каждому запросу 1000 сайтов, все работает прекрасно. Правда сам шаблон еще улучшать нужно, чтобы удобней им было управлять и формировать свою базу сайтов по тематикам)

С вопросами разобрался:
1. Авторизацию в шаблоне реализовывать не нужно. Кроме того в сети прочел такую версию, что если работаешь с яндекс xml, то лучше проводить авторизацию аккаунта с которого пойдут GET запросы)) Эту версию опровергнул, так как и так все прекрасно работает, без ошибок и зависаний. Спарсил уже коло 20 000 уникальных сайтов. Так же если брать аккаунт в аренду с большим количеством лимитов на бирже, то в принципе не получится авторизоваться в нем:-) Там дают только user и key, ну и свой IP указываешь.
2. Не возможно. Чтобы спарсить 1000 сайтов (один поисковый запрос) нужно 10 лимитов. 1 лимит = 100 документов.
3. Тоже не возможно. 1 запрос = 1 страница = 100 документов на страице:-) А всего мы можем спарсить не более 1000 документов по одному запросу

В общем во всем разобрался. XML лимиты крутая вещь:-)

Удобно, быстро и без всяких заморочек (баны, прокси, куча аккаунтов и т.д.) всего этого нету:-)
У нас кодеры покупают литмы. Сначала пользовались своими, но это был великий геморой из-за постоянной перепривязки айпи. Сейчас просто докупаем необходимое количество.
 
Регистрация
22.12.2015
Сообщения
96
Благодарностей
1
Баллы
8
У нас кодеры покупают литмы. Сначала пользовались своими, но это был великий геморой из-за постоянной перепривязки айпи. Сейчас просто докупаем необходимое количество.
Да, я тоже убедился, что купить легче, при том ни так дорого. Ну или аккаунт в аренду взять, тоже вариант)
 

Svb84

Новичок
Регистрация
09.12.2016
Сообщения
1
Благодарностей
0
Баллы
1
Господа, добрый день.
Бьюсь с Яндекс.XML и никак не могу разобраться.
Задача определить видимость сайта. Поиск осуществлять до 50 позиции.
Передаю такую строку GET-запросом.
/search/xml?user=_____&key=_______&query=Teboil+2T+Bike&lr=225&l10n=ru&sortby=rlv&filter=none&groupby=attr%3Dd.mode%3Ddeep.groups-on-page%3D50.docs-in-group%3D1
Т.е. я пытаюсь получить страницу (первую) на которой 50 групп по 1 результату в группе.
Но возвращает только первые 10 позиций. Почему?
 

AnnZimm7

Новичок
Регистрация
15.03.2018
Сообщения
1
Благодарностей
0
Баллы
1
Сделал шаблон, в который загружаю кучу запросов и он вытаскивает из Яндекса по каждому запросу 1000 сайтов, все работает прекрасно. Правда сам шаблон еще улучшать нужно, чтобы удобней им было управлять и формировать свою базу сайтов по тематикам)

С вопросами разобрался:
1. Авторизацию в шаблоне реализовывать не нужно. Кроме того в сети прочел такую версию, что если работаешь с яндекс xml, то лучше проводить авторизацию аккаунта с которого пойдут GET запросы)) Эту версию опровергнул, так как и так все прекрасно работает, без ошибок и зависаний. Спарсил уже коло 20 000 уникальных сайтов. Так же если брать аккаунт в аренду с большим количеством лимитов на бирже, то в принципе не получится авторизоваться в нем:-) Там дают только user и key, ну и свой IP указываешь.
2. Не возможно. Чтобы спарсить 1000 сайтов (один поисковый запрос) нужно 10 лимитов. 1 лимит = 100 документов.
3. Тоже не возможно. 1 запрос = 1 страница = 100 документов на страице:-) А всего мы можем спарсить не более 1000 документов по одному запросу

В общем во всем разобрался. XML лимиты крутая вещь:-)

Удобно, быстро и без всяких заморочек (баны, прокси, куча аккаунтов и т.д.) всего этого нету:-)
можете показать как реализовали?
Просто столкнулась с такой же задачей, а бороздить просторы интернета крайне много времени отнимают
 

one

Client
Регистрация
22.09.2015
Сообщения
6 834
Благодарностей
1 275
Баллы
113
опс... продинамил
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)