4 место Быстрый парсер RU + ENG текстового контента на Get-запросах

d4k · 28.12.2018

Шаблон супер. Орка, спасибо. Есть вопрос по кодировке - пытаюсь парсить азиатские всякие сайты через boilerpipe (там везде utf- 8-)

, но в результатах пустота.
Пример таких сайтов:
bk8thai.com
ebet88.com

orka13 · 28.12.2018

d4k написал(а):
Шаблон супер. Орка, спасибо. Есть вопрос по кодировке - пытаюсь парсить азиатские всякие сайты через boilerpipe (там везде utf-, но в результатах пустота.
Пример таких сайтов:
bk8thai.com
ebet88.com

1. Шаблон рассчитан только на 2 языка текстовки, что указано в заголовке темы, поэтому под другие алфавиты\языки надо править регулярки и правила нахождения популярных слов.
2. Вижу шаблон коряво все-же проводить конвертацию кодировки для нестандартных языков (иероглифов и т.д.), возвращая тупо «?????» вместо нестандартных букв, хз смогу ли исправить, ибо тут и так нет смысла в них.
3. В версии «1.02» вижу есть моя ошибка с дублированием переменной урл {-Variable.url-} \ {-Variable.Url-}.

До нового года попробую погонять и выкатить обновленную версию.

d4k · 28.12.2018

Было бы супер. Т.к. активно работаю с Азиатскими сайтами и очень не хватает в данном шабе простой переконвертации... Парсит нормально, но на выходе уже ???? вместо иероглифов)))

d4k · 08.01.2019

orka13 написал(а):
1. Шаблон рассчитан только на 2 языка текстовки, что указано в заголовке темы, поэтому под другие алфавиты\языки надо править регулярки и правила нахождения популярных слов.
2. Вижу шаблон коряво все-же проводить конвертацию кодировки для нестандартных языков (иероглифов и т.д.), возвращая тупо «?????» вместо нестандартных букв, хз смогу ли исправить, ибо тут и так нет смысла в них.
3. В версии «1.02» вижу есть моя ошибка с дублированием переменной урл {-Variable.url-} \ {-Variable.Url-}.

До нового года попробую погонять и выкатить обновленную версию.

Orka, С прошедшими! Не было времени глянуть? Намекните хотя бы куда копать и где нужно внести правки, чтобы с кодировкой нормальные символы были а не "????". Заранее спасибо!

orka13 · 08.01.2019

Неа, не успел еще, на днях сделаю.

Сибиряк · 15.01.2019

@orka13
Салют!
Почему то пропускает строки при фильтрации текста:

Код:

Please complete the security check to access www.hoosiersportsreport.com.

Код:

// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова:
regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.IgnoreCase );

В конструкторе регулярок работает. Находит строку. А в ПМ нет.
Что может быть?

orka13 · 15.01.2019

d4k написал(а):
Было бы супер. Т.к. активно работаю с Азиатскими сайтами и очень не хватает в данном шабе простой переконвертации... Парсит нормально, но на выходе уже ???? вместо иероглифов)))

Увы, с моим базовым знанием C# не получилось существующий алгоритм подправить. Могу разве что посоветовать убрать там блок "C#: авто-определения ("авто-исправления") кодировки", и посылать запросы с utf-8 кодировкой, либо добавить дополнительный запрос с нужной кодировкой, а ее значение искать в результатах первого запроса в заголовках, мета-тегах...

Сибиряк написал(а):
@orka13
Салют!
Почему то пропускает строки при фильтрации текста:

Код:

Please complete the security check to access www.hoosiersportsreport.com.

Код:

// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова: regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.IgnoreCase );

В конструкторе регулярок работает. Находит строку. А в ПМ нет.
Что может быть?

Там немного через попу все сделано, и как видно есть косяки, а я все не могу времени найти переделать нормально, стыдно стает за такой говнокод. Походу поможет вот такой код с добавлением Multiline:

C#:

// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова:
regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.Multiline|System.Text.RegularExpressions.RegexOptions.IgnoreCase );

ssXXXss · 15.01.2019

попробуй самое короткое совпадение
.*?

bad robot · 16.01.2019

Спасибо за шаблон. Если можно, сделайте в будущих версиях, чтобы он понимал кириллические ссылки вида %D0%B0%D0%BA%D0%B0%D1%84%D0%B8%D1%81%D1%82

bismark132 · 26.05.2019

Я так понял этот шаблон парсит только текстовую часть страницы, то есть описание и отфильтровывает текст из шапки, сайдбаров и футера, правильно?

Сибиряк · 26.05.2019

bismark132 написал(а):
Я так понял этот шаблон парсит только текстовую часть страницы, то есть описание и отфильтровывает текст из шапки, сайдбаров и футера, правильно?

Он кажется весь текст парсит который проходит фильтры.

bismark132 · 26.05.2019

Понятно, тогда пробуем на практике.)

orka13 · 26.05.2019

Шаблон не умеет распознавать где футер, где шапка... Он просто ищет длинные предложения по всей верстке страницы. То есть если в футере присутствует длинный текст то он и его захавает.

Поиск

4 место Быстрый парсер RU + ENG текстового контента на Get-запросах

d4k

Client

orka13

Client

d4k

Client

d4k

Client

orka13

Client

Сибиряк

Client

orka13

Client

ssXXXss

Client

bad robot

Client

bismark132

Client

Сибиряк

Client

bismark132

Client

orka13

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)