[Помощь новичку] Помогите удалить строки (ссылки) из списка

POLOZ

Client
Регистрация
06.02.2018
Сообщения
42
Благодарностей
4
Баллы
8
Здравствуйте! Помогите, пожалуйста новичку в освоении Zennoposter. Проблема следующая, после парсинга ссылок в списке отображаются, как нужные ссылки, так и «промежуточные», которые нужно удалить. Как оставить только ссылки, ведущие на целевые внутренние страницы, а промежуточные удалить. Все на скриншотах. Спасибо.
 

Rdenwer

Client
Регистрация
14.10.2010
Сообщения
254
Благодарностей
61
Баллы
28
Надо удалять на этапе парсинга, вернее подобрать актуальную регулярку.
 

POLOZ

Client
Регистрация
06.02.2018
Сообщения
42
Благодарностей
4
Баллы
8
Лучше регулярку подобрать не удалось. Ссылки дробятся (1,2,3), а мне нужна только 3. То есть данную операцию со списком я провести никак не смогу?
 

evgen_po

Client
Регистрация
27.08.2013
Сообщения
848
Благодарностей
532
Баллы
93
Лучше регулярку подобрать не удалось. Ссылки дробятся (1,2,3), а мне нужна только 3. То есть данную операцию со списком я провести никак не смогу?
Можете. Удалить строки НЕ удовлетворяющие регулярному выражению
http(s|)://.*?/.+
Должно помочь Вам.
 

POLOZ

Client
Регистрация
06.02.2018
Сообщения
42
Благодарностей
4
Баллы
8
evgen_po.6243, спасибо за помощь! Почти подошло...все почистилось за исключением одной ссылки. А можно поподробнее, как составлена эта регулярка? Дальше уже думаю сам дойду, как сделать.
 

evgen_po

Client
Регистрация
27.08.2013
Сообщения
848
Благодарностей
532
Баллы
93
evgen_po.6243, спасибо за помощь! Почти подошло...все почистилось за исключением одной ссылки. А можно поподробнее, как составлена эта регулярка? Дальше уже думаю сам дойду, как сделать.
Не увидел что нужно оставлять только ссылки только с 3. Думал и с 2 - тоже.
Тогда такая регулярка должна помочь
http(s|)://.+?/.+?/.+
Составлена в конструкторе регулярных выражений. По принципу что должен идти слеш, после него какие-то буквы, потом опять слеш и после него также буквы
 

evgen_po

Client
Регистрация
27.08.2013
Сообщения
848
Благодарностей
532
Баллы
93
evgen_po.6243, спасибо за помощь! Почти подошло...все почистилось за исключением одной ссылки. А можно поподробнее, как составлена эта регулярка? Дальше уже думаю сам дойду, как сделать.
http://zennolab.com/discussion/threads/reguljarnye-vyrazhenija-chto-ehto-takoe-i-s-chem-ix-edjat.23612/
Тут расписано как их составлять
 

POLOZ

Client
Регистрация
06.02.2018
Сообщения
42
Благодарностей
4
Баллы
8
Благодарю за помощь, пойду разбираться.
 

POLOZ

Client
Регистрация
06.02.2018
Сообщения
42
Благодарностей
4
Баллы
8
http(s|)://.*?/.+
http(s|)://.+?/.+?/.+

Данные регулярные выражения не помогли в данной ситуации, т.к. в списке содержатся нужные ссылки и с одним слешем, двумя и более. Нужна всего одна ссылка (3), а в список парсятся три ссылки (1,2,3).



Может кто поможет реализовать данный алгоритм? первые три могу сам, остальные пока нет) Или подскажите более простой вариант. Спсб.


1. скопировать строки «список1» в «список2»

2. сортировать значения «список2» по возрастанию

3. взять первую строку из «списка2» в переменную "ssylka" после взятия удалить

4. сравнить значение переменной «ssylka» со всеми строками «списка1»

5. если ни одна строка «списка1» не содержит значение переменной «ssylka», то берем следующую строку из «список2» и сравниваем со всеми строками «списка1»

6. если хоть одна строка из «списка1» содержит значение переменной «ssylka», исключая полное совпадение (то есть не полностью равна значению «ssylka», а только является частью строки) то строка со значением (с точным совпадением) переменной «ssylka» и удаляется из «списка1»

7. и так далее, пока все строки не будут взяты из «списка2» и удалены из него.
 
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)