Удалить слова на латинице

sidor800

Client
Регистрация
16.04.2013
Сообщения
123
Благодарностей
41
Баллы
28
Произвожу прасинг сайтов в тексте попадается мусор в виде кусков html кода надо его по удалять пример
HTML:
Перейти до к поиску
.mw-parser-output .main-header{border-bottom-color:transparent;margin-bottom:0.25 em;margin-top:0;padding-bottom:0;padding-top:0}.mw-parser-output .main-plainlist>ul{list-style:none;margin:0;padding:0}.mw-parser-output .main-plainlist li{margin-bottom:0}.mw-parser-output .main-top-right .mw-ui-quiet:hover,.mw-parser-output .main-top-right .mw-ui-quiet:focus.mw-parser-output .main-footer .mw-ui-quiet:hover,.mw-parser-output .main-footer .mw-ui-quiet:focus{color:#0645ad}.mw-parser-output .mw-headline-number{display:none}@media(min-width:720px){.mw-parser-output .main-wikimedia{padding-top:1rem;padding-left:1rem;padding-right:1rem}}@media(min-width:1000px){.mw-parser-output .main-wrapper{display:flex;margin:0 -0.75 rem}.mw-parser-output .main-wrapper-column{flex:1;margin:0 0.75 rem}.mw-parser-output .main-wikimedia{padding-top:1.5 rem;padding-left:1.5 rem;padding-right:1.5 rem}}
.mw-parser-output .main-top{font-size:1rem;margin-top:1rem;padding-bottom:1.5 rem}.mw-parser-output .main-top-left>p{font-size:0.875 em;margin:0}.mw-parser-output .main-top-right{font-size:0.875 em;margin-top:0.5 em}.mw-parser-output .main-top-right>ul{display:none;margin-top:0.5 rem}.mw-parser-output .main-top-right .mw-ui-button.mw-ui-quiet{padding-right:0}.mw-parser-output .main-top-header{border-bottom:0;margin-bottom:0;margin-top:0}.mw-parser-output .main-top-articleCount{margin-bottom:0}body.skin-minerva .mw-parser-output .main-top-articleCount{display:none}.mw-parser-output .main-top-mobileSearch{display:none;margin-top:1rem}body.skin-minerva .mw-parser-output .main-top-mobileSearch{display:block}.mw-parser-output .main-top-mobileSearchButton{background:#fff;border:none;box-shadow:0 2px 2px 0 rgba(0,0,0,0.25);color:#72777d;font-weight:normal;max-width:none;text-align:left;width:100%}@media(min-width:720px){.mw-parser-output .main-top{background-color:#f8f9fa;border:1px solid #c8ccd1;border-radius:2px;box-shadow:0 1px 1px rgba(0,0,0,.15);margin-bottom:1rem;padding:1rem}.mw-parser-output .main-top-right>ul{display:flex;flex-wrap:wrap}.mw-parser-output .main-top-articleCount{margin-bottom:0.5 rem}body.skin-minerva .mw-parser-output .main-top-articleCount{display:block}body.skin-minerva .mw-parser-output .main-top-mobileSearch{display:none}}@media(min-width:1000px){.mw-parser-output .main-top{align-items:center;background-image:url("https://upload.wikimedia.org/wikipedia/commons/e/e3/Wikipedia_logo_letters_banner.svg");background-position:right;background-repeat:no-repeat;display:flex;margin-bottom:1.5 rem;margin-top:0.5 rem;padding-bottom:0;padding-left:0;padding-right:1.5 rem;padding-top:0}.mw-parser-output .main-top-left{background-image:linear-gradient(to right,#f8f9fa 0%,#f8f9fa 70%,rgba(248,249,250,0)100%);flex:3;padding:2rem 0 2rem 1.5 rem}.mw-parser-output .main-top-right{flex:2;margin-top:0;text-align:right}.mw-parser-output .main-top-right>ul{align-items:center;flex-direction:row-reverse;justify-content:right;margin-top:0;text-align:left}.mw-parser-output .main-top-createArticle+li .mw-ui-button.mw-ui-quiet{padding-right:1em}}


<h1>Добро пожаловать в викепедию</h1>
надо по удалять остатки кода чтоб остался текст с html разметкой
 
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
Это CSS, а не HTML
Попробуйте в обработке текста заменять регулярку
PHP:
\..*?\{.*?\}
на пустоту
Ну как быстрый вариант.

css.png
 
  • Спасибо
Реакции: sidor800

sidor800

Client
Регистрация
16.04.2013
Сообщения
123
Благодарностей
41
Баллы
28
А как по удалять с переносом строк пример
PHP:
.adcenter-wrapper {
padding: 0 20px 0 85px;
}
.AdCentre_new_adv{
margin-bottom: 20px;
}
.AdCentre_new_adv .partner_material_item{
min-height: 76px;
margin: 10px 0px;
float: left;
margin-left: 12px;
}
.AdCentre_new_adv .x80_80{
max-width: 80px;
max-height: 80px;
margin-right: 10px;
float: left;
}
.AdCentre_new_adv .partner_material_item_text{
float:left;
max-width: 120px;
}
.AdCentre_new_adv .partner_material_item_text_value{
font: normal 14px/16px "PT Sans", serif;
display: block;
}
.AdCentre_new_adv .partner_material_item_text_value:hover{
color: #b11116;
}
.AdCentre_new_adv .sausage-header{
position: relative;
display: block;
height: 34px;
margin-left: 10px;
font: bold 15px/36px 'PT Sans', sans-serif;
color: #333;
letter-spacing: 0.01em;
border-bottom: 1px solid #dfdfdf;
}
@media print, screen and (max-width: 1260px){
.adcenter-wrapper {
padding: 0 0 0 0;
}
.AdCentre_new_adv {
width: 587px;
}
.AdCentre_new_adv .sausage-list{
width: 587px;
max-height: 208px;
}
.AdCentre_new_adv .partner_material_item_text{
max-width: 190px;
}
}

<p>В главном зале «Октября» к этому моменту находились около 2500 человек, многие знаменитости пришли на показ вместе со своими детьми. Несмотря на большое число зрителей, собравшиеся смогли организованно и спокойно пройти к выходам, избежав давки.</p>


#native3 {
position: relative;
float: right;
width: auto;
margin: 0 0 5px 10px;
max-width: 360px;
background: #fff;
box-shadow: 0 0 8px rgba(0,0,0,0.05);
}
 
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
А как по удалять с переносом строк пример
PHP:
.adcenter-wrapper {
padding: 0 20px 0 85px;
}
.AdCentre_new_adv{
margin-bottom: 20px;
}
.AdCentre_new_adv .partner_material_item{
min-height: 76px;
margin: 10px 0px;
float: left;
margin-left: 12px;
}
.AdCentre_new_adv .x80_80{
max-width: 80px;
max-height: 80px;
margin-right: 10px;
float: left;
}
.AdCentre_new_adv .partner_material_item_text{
float:left;
max-width: 120px;
}
.AdCentre_new_adv .partner_material_item_text_value{
font: normal 14px/16px "PT Sans", serif;
display: block;
}
.AdCentre_new_adv .partner_material_item_text_value:hover{
color: #b11116;
}
.AdCentre_new_adv .sausage-header{
position: relative;
display: block;
height: 34px;
margin-left: 10px;
font: bold 15px/36px 'PT Sans', sans-serif;
color: #333;
letter-spacing: 0.01em;
border-bottom: 1px solid #dfdfdf;
}
@media print, screen and (max-width: 1260px){
.adcenter-wrapper {
padding: 0 0 0 0;
}
.AdCentre_new_adv {
width: 587px;
}
.AdCentre_new_adv .sausage-list{
width: 587px;
max-height: 208px;
}
.AdCentre_new_adv .partner_material_item_text{
max-width: 190px;
}
}

<p>В главном зале «Октября» к этому моменту находились около 2500 человек, многие знаменитости пришли на показ вместе со своими детьми. Несмотря на большое число зрителей, собравшиеся смогли организованно и спокойно пройти к выходам, избежав давки.</p>


#native3 {
position: relative;
float: right;
width: auto;
margin: 0 0 5px 10px;
max-width: 360px;
background: #fff;
box-shadow: 0 0 8px rgba(0,0,0,0.05);
}
C#:
^(\.|@|#).{1,100}[\w\W]\{[\w\W]*?\}
Вроде работает
регклярки.png

Рекомендую изучить регулярки хотя бы минимально.

тык тык тык ))

В тестере зенки не работают знаки начала строки ^ и конца строки $ лучше использовать сторонний тестер.

Ну и поиск через ПС рулит)) Смотрите подпись.
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 438
Благодарностей
9 135
Баллы
113
А как по удалять с переносом строк пример
PHP:
.adcenter-wrapper {
padding: 0 20px 0 85px;
}
.AdCentre_new_adv{
margin-bottom: 20px;
}
.AdCentre_new_adv .partner_material_item{
min-height: 76px;
margin: 10px 0px;
float: left;
margin-left: 12px;
}
.AdCentre_new_adv .x80_80{
max-width: 80px;
max-height: 80px;
margin-right: 10px;
float: left;
}
.AdCentre_new_adv .partner_material_item_text{
float:left;
max-width: 120px;
}
.AdCentre_new_adv .partner_material_item_text_value{
font: normal 14px/16px "PT Sans", serif;
display: block;
}
.AdCentre_new_adv .partner_material_item_text_value:hover{
color: #b11116;
}
.AdCentre_new_adv .sausage-header{
position: relative;
display: block;
height: 34px;
margin-left: 10px;
font: bold 15px/36px 'PT Sans', sans-serif;
color: #333;
letter-spacing: 0.01em;
border-bottom: 1px solid #dfdfdf;
}
@media print, screen and (max-width: 1260px){
.adcenter-wrapper {
padding: 0 0 0 0;
}
.AdCentre_new_adv {
width: 587px;
}
.AdCentre_new_adv .sausage-list{
width: 587px;
max-height: 208px;
}
.AdCentre_new_adv .partner_material_item_text{
max-width: 190px;
}
}

<p>В главном зале «Октября» к этому моменту находились около 2500 человек, многие знаменитости пришли на показ вместе со своими детьми. Несмотря на большое число зрителей, собравшиеся смогли организованно и спокойно пройти к выходам, избежав давки.</p>


#native3 {
position: relative;
float: right;
width: auto;
margin: 0 0 5px 10px;
max-width: 360px;
background: #fff;
box-shadow: 0 0 8px rgba(0,0,0,0.05);
}
Еще можете так попробовать (в режиме Обработка текста - Regex):

50100


Регулярка:
<.*?>.[\w\W]+>
 
  • Спасибо
Реакции: sidor800

sidor800

Client
Регистрация
16.04.2013
Сообщения
123
Благодарностей
41
Баллы
28
Еще попутный вопрос как в теге img по удалять не нужные атрибуты оставить только атрибуты src="" width="" height="" пример
PHP:
<img class="inner__view lazy__img" src="https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--640x342.jpg" alt width="640" height="342" srcset="https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--640x342.jpg 640w, https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--300x160.jpg 300w, https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--768x411.jpg 768w, https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--1024x548.jpg 1024w, https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--1122x600.jpg 1122w, https://peopletalk.ru/wp-content/uploads/2020/01/slajder1-.jpg 1440w" sizes="(max-width: 640px) 100vw, 640px" itemprop="url" data-original="https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--640x342.jpg">
 

sidor800

Client
Регистрация
16.04.2013
Сообщения
123
Благодарностей
41
Баллы
28
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
Еще попутный вопрос как в теге img по удалять не нужные атрибуты оставить только атрибуты src="" width="" height="" пример
PHP:
<img class="inner__view lazy__img" src="https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--640x342.jpg" alt width="640" height="342" srcset="https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--640x342.jpg 640w, https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--300x160.jpg 300w, https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--768x411.jpg 768w, https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--1024x548.jpg 1024w, https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--1122x600.jpg 1122w, https://peopletalk.ru/wp-content/uploads/2020/01/slajder1-.jpg 1440w" sizes="(max-width: 640px) 100vw, 640px" itemprop="url" data-original="https://peopletalk.ru/wp-content/uploads/2020/01/slajder1--640x342.jpg">
А вот это просто можете сами попробовать составить в конструкторе :D

регуляр.png
 

sidor800

Client
Регистрация
16.04.2013
Сообщения
123
Благодарностей
41
Баллы
28
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
только первое совпадение берет
попробуйте так
C#:
.{1,100}\{[\w\W]*?\}
мне надо чтоб осталось
4 кубика простых регулярок.
Алгоритм отбор что нужно удалить из исходного кода.
Выставляете границы в конструкторе что идет до нужного куска и после.
Можно выставить с чего начинается нужный код. Так же выставляем галку "самое короткое совпадение"
Потом просто заменяете отобранный кусок кода на пустоту в обработке текста в режиме "Замена" и "regex".
 

sidor800

Client
Регистрация
16.04.2013
Сообщения
123
Благодарностей
41
Баллы
28
4 кубика простых регулярок.
Алгоритм отбор что нужно удалить из исходного кода.
Выставляете границы в конструкторе что идет до нужного куска и после.
Можно выставить с чего начинается нужный код. Так же выставляем галку "самое короткое совпадение"
Потом просто заменяете отобранный кусок кода на пустоту в обработке текста в режиме "Замена" и "regex".
Дело в том что там могут быть разные комбинации мне надо чтоб все вырубало кроме этих атрибутов src="" width="" height=""
 
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
ТОгда стоит парсить только то что требуется. И компоновать ссылку на картинку самостоятельно.
 
  • Спасибо
Реакции: Sergodjan

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)