Парсинг

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28
Ребята, подскажите как избавится от первого и последнего значения в списках такого рода?
jaguar.ru/#
jaguar.ru/dealer-network/index.html
jaguar.ru/request-a-brochure/index.html
jaguar.ru/quality-section/owners/jaguar-mobile-application.html
jaguar.ru/about-jaguar/how-to-become-our-dealer.html
jaguar.ru/quality-section/owners/merchandise-brochure.html
jaguar.ru/market-selector.html
jaguar.ru/jaguar-experience/index.html%20
jaguar.ru/build-yours/index.html%20
jaguar.ru/corporate-sales/index.html%20
jaguar.ru/financing/special_offers/index.html%20
jaguar.ru/incontrol/index.html%20
jaguar.ru/special-offers/index.html%20
jaguar.ru/jaguar-range/f-pace/experience/reveal.html
jaguar.ru/privacy-legal.html
jaguar.ru/terms-conditions.html
jaguar.ru/about-jaguar/careers.html
jaguar.ru/sitemap.html
jaguar.ru//livetex.ru/lead_generator/?utm_source=clients&utm_medium=chatlink&utm_campaign=chatlink
jaguar.ru/
 

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28
Точнее не именно первого и последнего, а с доменом и шилдом на конце
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 117
Баллы
113
строку с шилдом можно регуляркой отпарсить .*\#
 
  • Спасибо
Реакции: Andi88

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28

sof

Client
Регистрация
15.04.2013
Сообщения
831
Благодарностей
185
Баллы
43
Можно прочекать на дубли и все строки будут уникальны (при условии что # удалишь в первом Url)
 

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28
Помогите парсер ссылок сайта наладить, какой то мелкий шлак иногда попадает.
(возможно есть более простые способы собрать ссылки?)
 

Вложения

Последнее редактирование:

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28
Можно прочекать на дубли и все строки будут уникальны (при условии что # удалишь в первом Url)
Понял тебя, но "удалить дубли" оставляет 1 вариант (и удаляет все копии)
 

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28
270 ссылок выдал ucheck.ru
http://ucheck.ru/analyze/jaguar.ru/90Qo
671 pr-cy.ru
У меня даже с 1 страницы не получается на всех сайтах чтобы парсило, а тут 671 результатов за секунду...
Вопрос встал такой, потому что pr-cy.ru упал или проводились какие-то работы и шаблон не мог нормально работать, тоесть я зависим от этого сайта и его функционала.
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 451
Благодарностей
1 885
Баллы
113

samsonnn

Client
Регистрация
02.06.2015
Сообщения
1 781
Благодарностей
1 448
Баллы
113
Ребята, подскажите как избавится от первого и последнего значения в списках такого рода?
jaguar.ru/#
jaguar.ru/dealer-network/index.html
jaguar.ru/request-a-brochure/index.html
jaguar.ru/quality-section/owners/jaguar-mobile-application.html
jaguar.ru/about-jaguar/how-to-become-our-dealer.html
jaguar.ru/quality-section/owners/merchandise-brochure.html
jaguar.ru/market-selector.html
jaguar.ru/jaguar-experience/index.html%20
jaguar.ru/build-yours/index.html%20
jaguar.ru/corporate-sales/index.html%20
jaguar.ru/financing/special_offers/index.html%20
jaguar.ru/incontrol/index.html%20
jaguar.ru/special-offers/index.html%20
jaguar.ru/jaguar-range/f-pace/experience/reveal.html
jaguar.ru/privacy-legal.html
jaguar.ru/terms-conditions.html
jaguar.ru/about-jaguar/careers.html
jaguar.ru/sitemap.html
jaguar.ru//livetex.ru/lead_generator/?utm_source=clients&utm_medium=chatlink&utm_campaign=chatlink
jaguar.ru/


регулярка - (?<=jaguar\.ru/).*?(?=\.html)
 

Andi88

Client
Регистрация
17.10.2015
Сообщения
228
Благодарностей
26
Баллы
28

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113
(?<=jaguar\.ru/[a-z]).*?\.[^*<].+
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)