4 место Быстрый парсер RU + ENG текстового контента на Get-запросах

d4k

Client
Регистрация
24.12.2014
Сообщения
27
Благодарностей
5
Баллы
3
Шаблон супер. Орка, спасибо. Есть вопрос по кодировке - пытаюсь парсить азиатские всякие сайты через boilerpipe (там везде utf-8-), но в результатах пустота.
Пример таких сайтов:
bk8thai.com
ebet88.com
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Шаблон супер. Орка, спасибо. Есть вопрос по кодировке - пытаюсь парсить азиатские всякие сайты через boilerpipe (там везде utf-8-), но в результатах пустота.
Пример таких сайтов:
bk8thai.com
ebet88.com
1. Шаблон рассчитан только на 2 языка текстовки, что указано в заголовке темы, поэтому под другие алфавиты\языки надо править регулярки и правила нахождения популярных слов.
2. Вижу шаблон коряво все-же проводить конвертацию кодировки для нестандартных языков (иероглифов и т.д.), возвращая тупо «?????» вместо нестандартных букв, хз смогу ли исправить, ибо тут и так нет смысла в них.
3. В версии «1.02» вижу есть моя ошибка с дублированием переменной урл {-Variable.url-} \ {-Variable.Url-}.

До нового года попробую погонять и выкатить обновленную версию.
 
  • Спасибо
Реакции: d4k

d4k

Client
Регистрация
24.12.2014
Сообщения
27
Благодарностей
5
Баллы
3
Было бы супер. Т.к. активно работаю с Азиатскими сайтами и очень не хватает в данном шабе простой переконвертации... Парсит нормально, но на выходе уже ???? вместо иероглифов)))
 

d4k

Client
Регистрация
24.12.2014
Сообщения
27
Благодарностей
5
Баллы
3
1. Шаблон рассчитан только на 2 языка текстовки, что указано в заголовке темы, поэтому под другие алфавиты\языки надо править регулярки и правила нахождения популярных слов.
2. Вижу шаблон коряво все-же проводить конвертацию кодировки для нестандартных языков (иероглифов и т.д.), возвращая тупо «?????» вместо нестандартных букв, хз смогу ли исправить, ибо тут и так нет смысла в них.
3. В версии «1.02» вижу есть моя ошибка с дублированием переменной урл {-Variable.url-} \ {-Variable.Url-}.

До нового года попробую погонять и выкатить обновленную версию.
Orka, С прошедшими! Не было времени глянуть? Намекните хотя бы куда копать и где нужно внести правки, чтобы с кодировкой нормальные символы были а не "????". Заранее спасибо!
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Неа, не успел еще, на днях сделаю.
 
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
@orka13
Салют!
Почему то пропускает строки при фильтрации текста:
Код:
Please complete the security check to access www.hoosiersportsreport.com.

Код:
// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова:
regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.IgnoreCase );
В конструкторе регулярок работает. Находит строку. А в ПМ нет.
Что может быть?





 
  • Спасибо
Реакции: orka13

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Было бы супер. Т.к. активно работаю с Азиатскими сайтами и очень не хватает в данном шабе простой переконвертации... Парсит нормально, но на выходе уже ???? вместо иероглифов)))
Увы, с моим базовым знанием C# не получилось существующий алгоритм подправить. Могу разве что посоветовать убрать там блок "C#: авто-определения ("авто-исправления") кодировки", и посылать запросы с utf-8 кодировкой, либо добавить дополнительный запрос с нужной кодировкой, а ее значение искать в результатах первого запроса в заголовках, мета-тегах...
@orka13
Салют!
Почему то пропускает строки при фильтрации текста:
Код:
Please complete the security check to access www.hoosiersportsreport.com.

Код:
// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова:
regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.IgnoreCase );
В конструкторе регулярок работает. Находит строку. А в ПМ нет.
Что может быть?




Там немного через попу все сделано, и как видно есть косяки, а я все не могу времени найти переделать нормально, стыдно стает за такой говнокод. Походу поможет вот такой код с добавлением Multiline:
C#:
// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова:
regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.Multiline|System.Text.RegularExpressions.RegexOptions.IgnoreCase );
 
  • Спасибо
Реакции: Сибиряк

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 375
Благодарностей
2 040
Баллы
113
попробуй самое короткое совпадение
.*?
 
  • Спасибо
Реакции: Сибиряк

bad robot

Client
Регистрация
07.03.2011
Сообщения
203
Благодарностей
51
Баллы
28
Спасибо за шаблон. Если можно, сделайте в будущих версиях, чтобы он понимал кириллические ссылки вида %D0%B0%D0%BA%D0%B0%D1%84%D0%B8%D1%81%D1%82
 

bismark132

Client
Регистрация
19.05.2016
Сообщения
47
Благодарностей
2
Баллы
8
Я так понял этот шаблон парсит только текстовую часть страницы, то есть описание и отфильтровывает текст из шапки, сайдбаров и футера, правильно?
 
Регистрация
12.07.2014
Сообщения
916
Благодарностей
373
Баллы
63
Я так понял этот шаблон парсит только текстовую часть страницы, то есть описание и отфильтровывает текст из шапки, сайдбаров и футера, правильно?
Он кажется весь текст парсит который проходит фильтры.
 

bismark132

Client
Регистрация
19.05.2016
Сообщения
47
Благодарностей
2
Баллы
8
Понятно, тогда пробуем на практике.)
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Шаблон не умеет распознавать где футер, где шапка... Он просто ищет длинные предложения по всей верстке страницы. То есть если в футере присутствует длинный текст то он и его захавает.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)