Как спарсить выдачу яндекса?

Nixens

Client
Регистрация
18.02.2018
Сообщения
288
Благодарностей
7
Баллы
18
Не получается сделать универсальный парсер яндекса, отдельные домены могу спарсить, а вот четко вместе с URL не получается. У кого есть решение?

Домены это "от https или http" и до "первого слеша".
 

Gunjubasik

Client
Регистрация
30.05.2019
Сообщения
3 526
Благодарностей
1 323
Баллы
113
Не получается сделать универсальный парсер яндекса, отдельные домены могу спарсить, а вот четко вместе с URL не получается. У кого есть решение?

Домены это "от https или http" и до "первого слеша".
1. Что именно вы парсить собираетесь?
2. Какие домены вы можете спарсить, а какие нет?
3. Каким методом парсите?Можно пример?
4. Что у вас не получается спарсить?
 

Nixens

Client
Регистрация
18.02.2018
Сообщения
288
Благодарностей
7
Баллы
18
Нужно спарсить полностью урлы.
+ я написал что от https: и до первого слеша http://prntscr.com/tkwwin
 

SergSh

Client
Регистрация
10.05.2017
Сообщения
541
Благодарностей
395
Баллы
63
Нужно спарсить полностью урлы.
+ я написал что от https: и до первого слеша http://prntscr.com/tkwwin
C#:
var domains = project.Lists["domains"];
var hec = instance.ActiveTab.FindElementsByXPath("//li[@class = 'serp-item']//h2//a");
if(hec.Count > 0)
{
    foreach(var el in hec)
    {
        //получаем урл из H2
        string url = el.GetAttribute("href");
        //получаем домен из урл
        Uri uri = new Uri(url);
        string domain = uri.Host;
        //если в домене нет yandex.
        if(!domain.Contains("yandex."))
        {
            //добавляем в список
            domains.Add(url);
        }
    }
}
Можешь удалить проверку на яндекс в ссылке
 

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)