Как отчистить список от мусора

Sergodjan · 26.07.2016

служебные символы (+ и т.д.) нужно экранировать слешами..
как вариант, перед удалением пропустить последовательность (переменную с нею) через экшен Обработка текста - Escape строки,
он заэкранирует все что нужно..

Sergodjan · 26.07.2016

backoff сказал(а):
как 7 млн строк заэскейпить ?
списком можно как-то запилить?

эскейпить только то что собираешься удалять в данный момент из списка (признак для удаления)..

ibred · 27.07.2016

backoff сказал(а):
само выражение:
ищем - (.*)\.([a-z]+)\.([a-z]+)
заменяем на - \2.\3

но он не пашет, если есть знак тире

Код:

\.([\w-]+)\.([\w]{2,6})

ibred · 27.07.2016

backoff сказал(а):
вот сработало, кроме доменов на кирилице

ищем - (.*)\.(.*)\.([a-z]+)
заменяем - \2.\3

Я Вам выше отправил рабочий вариант поиска поддоменов, включая кириллицу. Читайте тему внимательней.

doc · 26.10.2016

backoff сказал(а):
опять потребовалось сделать тоже самое.
ваш вариант не работает...

если есть например 1.2.3.4.5.сайт.ру

напишите плиз конкретно что надо искать и на что надо заменить
спасибо

[\w-]+\.\w+$ - выделить домен
([\w-]+\.)+(?=[\w-]+\.\w+$) - выделить поддомены
Хотя, скорее всего, я что-то не так понял в задании

Dimionix · 26.10.2016

Обработка текста - Regex

Код:

[\w-]+\.\w+(?=/|\n|$)

udder · 04.04.2019

Dimionix сказал(а):
Обработка текста - Regex

Код:

[\w-]+\.\w+(?=/|\n|$)

Отлично, тоже искал такую регулярку, а можно ли оставлять протокол? https или http

Benf · 03.07.2020

Здравствуйте, столкнулся со следующей проблемой, нужно собрать со страницы сайта все доменные имена, без под доменов и того что идет после доменного имени,
[\w-]+\.\w+(?=/|\n|$)
это регулярное выражение отлично справляется в текстовом документе, но в моем случае еще есть теги и они мешают, видоизменил регулярное выражение до такого вида [\w-]+\.\w+(?=/|<|\n|$), оно стало парсить все что нужно но теперь оно цепляет почтовые домены и еще 1 элемент, они мне не нужны, весь день сегодня голову ломаю над решением задачи, так и не смог найти его

примеры: грубо говоря это текст страницы на котором я произвожу поиск

<td>emailemail@gmail.com</td>
<td>emailemail@poczta.fm</td>
<td>https://www.facebook.com</td>
<td>https://twitter.com</td>
<td>https://pl.metin2.gameforge.com</td>
<td>https://lms.loanme.pl/</td>
<td>https://learningapps.org/</td>
<td>https://konto.play.pl</td>
<td>https://freakymon.com</td>
<td>https://chomikuj.pl/figo54321/eJay+(program+do+tworzenia+muzyki)</td>
<td>https://chomikuj.pl/</td>
<td>https://allegro.pl/</td>
<td>https://accounts.google.com</td>
<td>https://accounts.epicgames.com</td>
<td>http://chomikuj.pl</td>
<td>http://board.pixelmon.pl</td>
">DL 1.2M</button>

когда использую это регулярное выражение [\w-]+\.\w+(?=/|\n|$)

в результатах остается только это
loanme.pl
learningapps.org
chomikuj.pl
chomikuj.pl
allegro.pl

когда использую свое которое видоизменил до такого вида [\w-]+\.\w+(?=/|<|\n|$)
результат получается таким какой должен быть,
facebook.com
twitter.com
gameforge.com
loanme.pl
learningapps.org
play.pl
freakymon.com
chomikuj.pl
chomikuj.pl
allegro.pl
google.com
epicgames.com
chomikuj.pl
pixelmon.pl

но еще появляются почтовые домены и немного левой инфы
gmail.com
poczta.fm
1.2M

помогите пожалуйста добавить к моему регулярному выражению еще стоп символы "@" и "знак пробела" чтоб не брало лишнего

baracuda · 03.09.2023

а кириллицу как бы прикрутить. было бы вообще шикарно

Поиск

Как отчистить список от мусора

backoff

Client

Sergodjan

Administrator

backoff

Client

Sergodjan

Administrator

backoff

Client

ibred

Client

backoff

Client

ibred

Client

backoff

Client

doc

Client

Dimionix

Moderator

backoff

Client

udder

Client

Benf

Client

baracuda

Client

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)