[SOLVED] Парсинг ссылок сайта из переменной которые не уводят с этого же сайта

ТРОН

Client
Регистрация
31.07.2016
Сообщения
336
Благодарностей
381
Баллы
63
Добрый день,
Будьте добры, есть вопрос который не могу решить сам.
Шаблон берет из переменной {-Variable.SiteLink-} сайт, потом переходит на этот сайт, парсит ссылки этой регуляркой {-Variable.SiteLink-}.*?(?=\ )
Задача была следующей, чтоб парсились ссылки которые не уводят с сайта. По итогу ссылки парсятся, но в основном какой то шлак, одни несуществующие страницы. И в связи с этим весь процесс парсинга становится бессмысленным.
Может я что то не так делаю? Хотя скорее всего так и есть)) Как должна выглядеть регулярка или каким образом можно получить ссылки с сайта, чтоб эти ссылки были нормальными?
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 116
Баллы
113
Добрый день,
Будьте добры, есть вопрос который не могу решить сам.
Шаблон берет из переменной {-Variable.SiteLink-} сайт, потом переходит на этот сайт, парсит ссылки этой регуляркой {-Variable.SiteLink-}.*?(?=\ )
Задача была следующей, чтоб парсились ссылки которые не уводят с сайта. По итогу ссылки парсятся, но в основном какой то шлак, одни несуществующие страницы. И в связи с этим весь процесс парсинга становится бессмысленным.
Может я что то не так делаю? Хотя скорее всего так и есть)) Как должна выглядеть регулярка или каким образом можно получить ссылки с сайта, чтоб эти ссылки были нормальными?
попробуйте применить к переменной которая в регулярке Обработка текста - Escape строки..
брать все ссылки в список и из него вычищать ссылки на css, картинки и скрипты, в результате останутся именно страницы сайта..
 

ТРОН

Client
Регистрация
31.07.2016
Сообщения
336
Благодарностей
381
Баллы
63

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 116
Баллы
113
Спасибо, т.е. после таких манипуляций, ссылок как на примере ниже не будет?
http://www.androidauthority.com/umi-plus-international-giveaway-3-phones-718113/">&nbsp;</a><div
Каким образом вычищать? что писать туда надо?
нужно улучшить регулярку, чтобы таких html-хвостов не было..
отбрасывать ссылки ведущие на css, картинки и js тоже регуляркой, можно составной, через конструкцию такого вида например (..)|(..)|(..)
 

ТРОН

Client
Регистрация
31.07.2016
Сообщения
336
Благодарностей
381
Баллы
63
нужно улучшить регулярку, чтобы таких html-хвостов не было..
отбрасывать ссылки ведущие на css, картинки и js тоже регуляркой, можно составной, через конструкцию такого вида например (..)|(..)|(..)
Спасибо за помощь, такое возможно сделать не имея вообще никаких знаний? В какую сторону копать? Я вообще ничего не понял(( Пятый день как использую зенку
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 116
Баллы
113
Спасибо за помощь, такое возможно сделать не имея вообще никаких знаний? В какую сторону копать? Я вообще ничего не понял(( Пятый день как использую зенку
в первую очередь копать в сторону регулярных выражений, они постоянно нужны в практивке с зенкой..
оч. помогает в этом встроенный конструктор рег-выражений - можно экспериментировать..
+ мне помогает вот эта шпаргалка: https://dl.dropboxusercontent.com/u/65395173/регулярки.jpg
 
  • Спасибо
Реакции: ТРОН

ТРОН

Client
Регистрация
31.07.2016
Сообщения
336
Благодарностей
381
Баллы
63
в первую очередь копать в сторону регулярных выражений, они постоянно нужны в практивке с зенкой..
оч. помогает в этом встроенный конструктор рег-выражений - можно экспериментировать..
+ мне помогает вот эта шпаргалка: https://dl.dropboxusercontent.com/u/65395173/регулярки.jpg
Благодарю!
 

AZANIR

Client
Регистрация
09.06.2014
Сообщения
405
Благодарностей
198
Баллы
43
{-Variable.SiteForSpam-}+([\w\-\.,@?^=%&amp;:/~\+#]*[\w\-\@?^=%&amp;/~\+#])?
 
  • Спасибо
Реакции: ТРОН

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)