Помогите с регулярко

proffman

Client
Регистрация
24.01.2013
Сообщения
547
Благодарностей
51
Баллы
28
В общем в Гугле вбиваем любой запрос, по данному запросу выдает кучу сайтов которые мне надо спарсить. Проблема в том, что никак не получается это сделать... Кроме DOM даже пробовал парсить просто текст страницы, домены которые заканчиваются на .ru net и.т.д, тоже не получилось, вместо желаемого парсинга получаю гугловскую кашу.

Понятное дело что гугл защищает таким образом от прасинга, но ведь должен быть какой-то обход?
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 450
Благодарностей
1 885
Баллы
113

proffman

Client
Регистрация
24.01.2013
Сообщения
547
Благодарностей
51
Баллы
28
(?<=<h3\ class="r"><a\ href=")(http|www).*?(?="\ onmousedown="return\ rwt)
Вот так можете попробовать
Получилось)
Если не секрет, Вы это в стандартном конструкторе рег. выражений пробовали, или сами придумали? Если в нем, то можете подсказать как Вы это сделали, ибо очень интересно, может пригодиться еще не раз...
 

proffman

Client
Регистрация
24.01.2013
Сообщения
547
Благодарностей
51
Баллы
28
daniilneet спасибо конечно, но не могли бы вы мне разобрать по косточкам данную регулярку, как вы её собрали)
 

proffman

Client
Регистрация
24.01.2013
Сообщения
547
Благодарностей
51
Баллы
28
Ну кто-то поможет разобрать эту регулярку? (?<=<h3\ class="r"><a\ href=")(http|www).*?(?="\ onmousedown="return\ rwt)
Вручную ведь составлять полный бред, где и как она создавалась спасибо!!!!!
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 714
Баллы
113

proffman

Client
Регистрация
24.01.2013
Сообщения
547
Благодарностей
51
Баллы
28
Во, спасибо будем разбираться! :az:
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)