4 место Быстрый парсер RU + ENG текстового контента на Get-запросах

Шаблон супер. Орка, спасибо. Есть вопрос по кодировке - пытаюсь парсить азиатские всякие сайты через boilerpipe (там везде utf-8-), но в результатах пустота.
Пример таких сайтов:
bk8thai.com
ebet88.com
 
Шаблон супер. Орка, спасибо. Есть вопрос по кодировке - пытаюсь парсить азиатские всякие сайты через boilerpipe (там везде utf-8-), но в результатах пустота.
Пример таких сайтов:
bk8thai.com
ebet88.com
1. Шаблон рассчитан только на 2 языка текстовки, что указано в заголовке темы, поэтому под другие алфавиты\языки надо править регулярки и правила нахождения популярных слов.
2. Вижу шаблон коряво все-же проводить конвертацию кодировки для нестандартных языков (иероглифов и т.д.), возвращая тупо «?????» вместо нестандартных букв, хз смогу ли исправить, ибо тут и так нет смысла в них.
3. В версии «1.02» вижу есть моя ошибка с дублированием переменной урл {-Variable.url-} \ {-Variable.Url-}.

До нового года попробую погонять и выкатить обновленную версию.
 
  • Спасибо
Реакции: d4k
Было бы супер. Т.к. активно работаю с Азиатскими сайтами и очень не хватает в данном шабе простой переконвертации... Парсит нормально, но на выходе уже ???? вместо иероглифов)))
 
1. Шаблон рассчитан только на 2 языка текстовки, что указано в заголовке темы, поэтому под другие алфавиты\языки надо править регулярки и правила нахождения популярных слов.
2. Вижу шаблон коряво все-же проводить конвертацию кодировки для нестандартных языков (иероглифов и т.д.), возвращая тупо «?????» вместо нестандартных букв, хз смогу ли исправить, ибо тут и так нет смысла в них.
3. В версии «1.02» вижу есть моя ошибка с дублированием переменной урл {-Variable.url-} \ {-Variable.Url-}.

До нового года попробую погонять и выкатить обновленную версию.
Orka, С прошедшими! Не было времени глянуть? Намекните хотя бы куда копать и где нужно внести правки, чтобы с кодировкой нормальные символы были а не "????". Заранее спасибо!
 
Неа, не успел еще, на днях сделаю.
 
@orka13
Салют!
Почему то пропускает строки при фильтрации текста:
Код:
Развернуть Свернуть Копировать
Please complete the security check to access www.hoosiersportsreport.com.


Код:
Развернуть Свернуть Копировать
// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова:
regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.IgnoreCase );

В конструкторе регулярок работает. Находит строку. А в ПМ нет.
Что может быть?





 
  • Спасибо
Реакции: orka13
Было бы супер. Т.к. активно работаю с Азиатскими сайтами и очень не хватает в данном шабе простой переконвертации... Парсит нормально, но на выходе уже ???? вместо иероглифов)))
Увы, с моим базовым знанием C# не получилось существующий алгоритм подправить. Могу разве что посоветовать убрать там блок "C#: авто-определения ("авто-исправления") кодировки", и посылать запросы с utf-8 кодировкой, либо добавить дополнительный запрос с нужной кодировкой, а ее значение искать в результатах первого запроса в заголовках, мета-тегах...
@orka13
Салют!
Почему то пропускает строки при фильтрации текста:
Код:
Развернуть Свернуть Копировать
Please complete the security check to access www.hoosiersportsreport.com.


Код:
Развернуть Свернуть Копировать
// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова:
regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.IgnoreCase );

В конструкторе регулярок работает. Находит строку. А в ПМ нет.
Что может быть?




Там немного через попу все сделано, и как видно есть косяки, а я все не могу времени найти переделать нормально, стыдно стает за такой говнокод. Походу поможет вот такой код с добавлением Multiline:
C#:
Развернуть Свернуть Копировать
// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова:
regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.Multiline|System.Text.RegularExpressions.RegexOptions.IgnoreCase );
 
  • Спасибо
Реакции: Сибиряк
попробуй самое короткое совпадение
.*?
 
  • Спасибо
Реакции: Сибиряк
Спасибо за шаблон. Если можно, сделайте в будущих версиях, чтобы он понимал кириллические ссылки вида %D0%B0%D0%BA%D0%B0%D1%84%D0%B8%D1%81%D1%82
 
Я так понял этот шаблон парсит только текстовую часть страницы, то есть описание и отфильтровывает текст из шапки, сайдбаров и футера, правильно?
 
Я так понял этот шаблон парсит только текстовую часть страницы, то есть описание и отфильтровывает текст из шапки, сайдбаров и футера, правильно?
Он кажется весь текст парсит который проходит фильтры.
 
Понятно, тогда пробуем на практике.)
 
Шаблон не умеет распознавать где футер, где шапка... Он просто ищет длинные предложения по всей верстке страницы. То есть если в футере присутствует длинный текст то он и его захавает.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)