[SOLVED] Парсинг ссылок сайта из переменной которые не уводят с этого же сайта

ТРОН

Client
Регистрация
31.07.2016
Сообщения
336
Благодарностей
379
Баллы
63
Добрый день,
Будьте добры, есть вопрос который не могу решить сам.
Шаблон берет из переменной {-Variable.SiteLink-} сайт, потом переходит на этот сайт, парсит ссылки этой регуляркой {-Variable.SiteLink-}.*?(?=\ )
Задача была следующей, чтоб парсились ссылки которые не уводят с сайта. По итогу ссылки парсятся, но в основном какой то шлак, одни несуществующие страницы. И в связи с этим весь процесс парсинга становится бессмысленным.
Может я что то не так делаю? Хотя скорее всего так и есть)) Как должна выглядеть регулярка или каким образом можно получить ссылки с сайта, чтоб эти ссылки были нормальными?
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 449
Благодарностей
10 007
Баллы
113
Добрый день,
Будьте добры, есть вопрос который не могу решить сам.
Шаблон берет из переменной {-Variable.SiteLink-} сайт, потом переходит на этот сайт, парсит ссылки этой регуляркой {-Variable.SiteLink-}.*?(?=\ )
Задача была следующей, чтоб парсились ссылки которые не уводят с сайта. По итогу ссылки парсятся, но в основном какой то шлак, одни несуществующие страницы. И в связи с этим весь процесс парсинга становится бессмысленным.
Может я что то не так делаю? Хотя скорее всего так и есть)) Как должна выглядеть регулярка или каким образом можно получить ссылки с сайта, чтоб эти ссылки были нормальными?
попробуйте применить к переменной которая в регулярке Обработка текста - Escape строки..
брать все ссылки в список и из него вычищать ссылки на css, картинки и скрипты, в результате останутся именно страницы сайта..
 

ТРОН

Client
Регистрация
31.07.2016
Сообщения
336
Благодарностей
379
Баллы
63

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 449
Благодарностей
10 007
Баллы
113
Спасибо, т.е. после таких манипуляций, ссылок как на примере ниже не будет?
http://www.androidauthority.com/umi-plus-international-giveaway-3-phones-718113/">&nbsp;</a><div
Каким образом вычищать? что писать туда надо?
нужно улучшить регулярку, чтобы таких html-хвостов не было..
отбрасывать ссылки ведущие на css, картинки и js тоже регуляркой, можно составной, через конструкцию такого вида например (..)|(..)|(..)
 

ТРОН

Client
Регистрация
31.07.2016
Сообщения
336
Благодарностей
379
Баллы
63
нужно улучшить регулярку, чтобы таких html-хвостов не было..
отбрасывать ссылки ведущие на css, картинки и js тоже регуляркой, можно составной, через конструкцию такого вида например (..)|(..)|(..)
Спасибо за помощь, такое возможно сделать не имея вообще никаких знаний? В какую сторону копать? Я вообще ничего не понял(( Пятый день как использую зенку
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 449
Благодарностей
10 007
Баллы
113
Спасибо за помощь, такое возможно сделать не имея вообще никаких знаний? В какую сторону копать? Я вообще ничего не понял(( Пятый день как использую зенку
в первую очередь копать в сторону регулярных выражений, они постоянно нужны в практивке с зенкой..
оч. помогает в этом встроенный конструктор рег-выражений - можно экспериментировать..
+ мне помогает вот эта шпаргалка: https://dl.dropboxusercontent.com/u/65395173/регулярки.jpg
 
  • Спасибо
Реакции: ТРОН

ТРОН

Client
Регистрация
31.07.2016
Сообщения
336
Благодарностей
379
Баллы
63
в первую очередь копать в сторону регулярных выражений, они постоянно нужны в практивке с зенкой..
оч. помогает в этом встроенный конструктор рег-выражений - можно экспериментировать..
+ мне помогает вот эта шпаргалка: https://dl.dropboxusercontent.com/u/65395173/регулярки.jpg
Благодарю!
 

AZANIR

Client
Регистрация
09.06.2014
Сообщения
405
Благодарностей
200
Баллы
43
{-Variable.SiteForSpam-}+([\w\-\.,@?^=%&amp;:/~\+#]*[\w\-\@?^=%&amp;/~\+#])?
 
  • Спасибо
Реакции: ТРОН

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)