1. Шаблон рассчитан только на 2 языка текстовки, что указано в заголовке темы, поэтому под другие алфавиты\языки надо править регулярки и правила нахождения популярных слов.Шаблон супер. Орка, спасибо. Есть вопрос по кодировке - пытаюсь парсить азиатские всякие сайты через boilerpipe (там везде utf-, но в результатах пустота.
Пример таких сайтов:
bk8thai.com
ebet88.com
Orka, С прошедшими! Не было времени глянуть? Намекните хотя бы куда копать и где нужно внести правки, чтобы с кодировкой нормальные символы были а не "????". Заранее спасибо!1. Шаблон рассчитан только на 2 языка текстовки, что указано в заголовке темы, поэтому под другие алфавиты\языки надо править регулярки и правила нахождения популярных слов.
2. Вижу шаблон коряво все-же проводить конвертацию кодировки для нестандартных языков (иероглифов и т.д.), возвращая тупо «?????» вместо нестандартных букв, хз смогу ли исправить, ибо тут и так нет смысла в них.
3. В версии «1.02» вижу есть моя ошибка с дублированием переменной урл {-Variable.url-} \ {-Variable.Url-}.
До нового года попробую погонять и выкатить обновленную версию.
Please complete the security check to access www.hoosiersportsreport.com.
// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова:
regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.IgnoreCase );
Увы, с моим базовым знанием C# не получилось существующий алгоритм подправить. Могу разве что посоветовать убрать там блок "C#: авто-определения ("авто-исправления") кодировки", и посылать запросы с utf-8 кодировкой, либо добавить дополнительный запрос с нужной кодировкой, а ее значение искать в результатах первого запроса в заголовках, мета-тегах...Было бы супер. Т.к. активно работаю с Азиатскими сайтами и очень не хватает в данном шабе простой переконвертации... Парсит нормально, но на выходе уже ???? вместо иероглифов)))
Там немного через попу все сделано, и как видно есть косяки, а я все не могу времени найти переделать нормально, стыдно стает за такой говнокод. Походу поможет вот такой код с добавлением Multiline:@orka13
Салют!
Почему то пропускает строки при фильтрации текста:
Код:Please complete the security check to access www.hoosiersportsreport.com.
В конструкторе регулярок работает. Находит строку. А в ПМ нет.Код:// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова: regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.IgnoreCase );
Что может быть?
// удаляем строки где есть ссылки(www. или http), или популярные испанские\немецкие слова:
regexTest = System.Text.RegularExpressions.Regex.Replace(regexTest, @"^.*(www\.|http|\[URL=\S+|\w\.(com|org|net|biz|info|de|ru|uk|tk)\W|\b(de|el|la|que|para|un|si|se|los|dispositivo|und|treiber|treibers|die|dies|auf|den|von|der|das|nicht)\b).*(\r\n|$)", "", System.Text.RegularExpressions.RegexOptions.Multiline|System.Text.RegularExpressions.RegexOptions.IgnoreCase );
Он кажется весь текст парсит который проходит фильтры.Я так понял этот шаблон парсит только текстовую часть страницы, то есть описание и отфильтровывает текст из шапки, сайдбаров и футера, правильно?