Как отчистить список от мусора

backoff · 26.07.2016

Есть список доменов, там много мусора. Например есть урлы со знаками вопроса, или знак + ...
При использовании "удалить строки" в списке, эти знаки выдают ошибку, так как регулярное выражение не может правильно понять что от него нужно.

и еще один вопрос, как удалить все поддомены, чтобы был только главный домен.
и удалить все после слеша, который идет после доменной зоны
Спасибо.

пример:
go/38/?date=16.08.2013
dic.nsf/dic_synonims…<b>сердито</b>
yandex.ru/images
ru.wikipedia.org

может это можно сделать в notepad++ ?

Sergodjan · 26.07.2016

служебные символы (+ и т.д.) нужно экранировать слешами..
как вариант, перед удалением пропустить последовательность (переменную с нею) через экшен Обработка текста - Escape строки,
он заэкранирует все что нужно..

backoff · 26.07.2016

как 7 млн строк заэскейпить ?

списком можно как-то запилить?

Sergodjan · 26.07.2016

backoff написал(а):
как 7 млн строк заэскейпить ?
списком можно как-то запилить?

эскейпить только то что собираешься удалять в данный момент из списка (признак для удаления)..

backoff · 26.07.2016

в принципе все осилил, но не смог написать регулярку.
Как удалить любой поддомен?

пример:

123.123.ru
123-123.123.com
123-123-123.123-123.org
под-домен.какой-то-сайт.рф

то есть надо чтоб осталось только

123.ru
123.com
123-123.org
какой-то-сайт.рф

но в списке так же много доменов уже первого уровня, так что стандартный метод зенки не подойдет
я через нотепад удалил поддомены этого типа:
123.123.ru
blabla.site.com

само выражение:
ищем - (.*)\.([a-z]+)\.([a-z]+)
заменяем на - \2.\3

но он не пашет, если есть знак тире -

хелп

ibred · 27.07.2016

backoff написал(а):
само выражение:
ищем - (.*)\.([a-z]+)\.([a-z]+)
заменяем на - \2.\3

но он не пашет, если есть знак тире

Код:

\.([\w-]+)\.([\w]{2,6})

backoff · 27.07.2016

вот сработало, кроме доменов на кирилице

ищем - (.*)\.(.*)\.([a-z]+)
заменяем - \2.\3

ibred · 27.07.2016

backoff написал(а):
вот сработало, кроме доменов на кирилице

ищем - (.*)\.(.*)\.([a-z]+)
заменяем - \2.\3

Я Вам выше отправил рабочий вариант поиска поддоменов, включая кириллицу. Читайте тему внимательней.

backoff · 26.10.2016

опять потребовалось сделать тоже самое.
ваш вариант не работает...

если есть например 1.2.3.4.5.сайт.ру

напишите плиз конкретно что надо искать и на что надо заменить
спасибо

doc · 26.10.2016

backoff написал(а):
опять потребовалось сделать тоже самое.
ваш вариант не работает...

если есть например 1.2.3.4.5.сайт.ру

напишите плиз конкретно что надо искать и на что надо заменить
спасибо

[\w-]+\.\w+$ - выделить домен
([\w-]+\.)+(?=[\w-]+\.\w+$) - выделить поддомены
Хотя, скорее всего, я что-то не так понял в задании

Dimionix · 26.10.2016

Обработка текста - Regex

Код:

[\w-]+\.\w+(?=/|\n|$)

backoff · 26.10.2016

ооо то что надо. спасибо!

udder · 04.04.2019

Dimionix написал(а):
Обработка текста - Regex

Код:

[\w-]+\.\w+(?=/|\n|$)

Отлично, тоже искал такую регулярку, а можно ли оставлять протокол? https или http

Benf · 03.07.2020

Здравствуйте, столкнулся со следующей проблемой, нужно собрать со страницы сайта все доменные имена, без под доменов и того что идет после доменного имени,
[\w-]+\.\w+(?=/|\n|$)
это регулярное выражение отлично справляется в текстовом документе, но в моем случае еще есть теги и они мешают, видоизменил регулярное выражение до такого вида [\w-]+\.\w+(?=/|<|\n|$), оно стало парсить все что нужно но теперь оно цепляет почтовые домены и еще 1 элемент, они мне не нужны, весь день сегодня голову ломаю над решением задачи, так и не смог найти его

примеры: грубо говоря это текст страницы на котором я произвожу поиск

<td>emailemail@gmail.com</td>
<td>emailemail@poczta.fm</td>
<td>https://www.facebook.com</td>
<td>https://twitter.com</td>
<td>https://pl.metin2.gameforge.com</td>
<td>https://lms.loanme.pl/</td>
<td>https://learningapps.org/</td>
<td>https://konto.play.pl</td>
<td>https://freakymon.com</td>
<td>https://chomikuj.pl/figo54321/eJay+(program+do+tworzenia+muzyki)</td>
<td>https://chomikuj.pl/</td>
<td>https://allegro.pl/</td>
<td>https://accounts.google.com</td>
<td>https://accounts.epicgames.com</td>
<td>http://chomikuj.pl</td>
<td>http://board.pixelmon.pl</td>
">DL 1.2M</button>

когда использую это регулярное выражение [\w-]+\.\w+(?=/|\n|$)

в результатах остается только это
loanme.pl
learningapps.org
chomikuj.pl
chomikuj.pl
allegro.pl

когда использую свое которое видоизменил до такого вида [\w-]+\.\w+(?=/|<|\n|$)
результат получается таким какой должен быть,
facebook.com
twitter.com
gameforge.com
loanme.pl
learningapps.org
play.pl
freakymon.com
chomikuj.pl
chomikuj.pl
allegro.pl
google.com
epicgames.com
chomikuj.pl
pixelmon.pl

но еще появляются почтовые домены и немного левой инфы
gmail.com
poczta.fm
1.2M

помогите пожалуйста добавить к моему регулярному выражению еще стоп символы "@" и "знак пробела" чтоб не брало лишнего

baracuda · 03.09.2023

а кириллицу как бы прикрутить. было бы вообще шикарно

Поиск

Как отчистить список от мусора

backoff

Client

Sergodjan

Administrator

backoff

Client

Sergodjan

Administrator

backoff

Client

ibred

Client

backoff

Client

ibred

Client

backoff

Client

doc

Client

Dimionix

Moderator

backoff

Client

udder

Client

Benf

Client

baracuda

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)