Поиск статей

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 142
Реакции
196
Баллы
63
Всем привет
Можете подсказать, в каком направлении думать по следующему вопросу:

я нашел регулярку, которая чисто парсит тексты, без мусора с любого сайта. У меня один вопрос только остался - как искать именно информационные статьи на этих сайтах? Пока мысль такая - выделить теги, в которые завернуты статьи и по ним искать..

Еще вопрос - есть ли возможность взять дом модель всего сайта, а не только ту страницу, на которую зашел?
 
Всем привет
Можете подсказать, в каком направлении думать по следующему вопросу:

я нашел регулярку, которая чисто парсит тексты, без мусора с любого сайта. У меня один вопрос только остался - как искать именно информационные статьи на этих сайтах? Пока мысль такая - выделить теги, в которые завернуты статьи и по ним искать..

Еще вопрос - есть ли возможность взять дом модель всего сайта, а не только ту страницу, на которую зашел?
Можно брать текст со страниц в результате проверки на кол-во слов или символов, а также в результате проверки кол-ва слов или символов в отд. предложениях.
Если кол-во меньше какого то указанного порога, то выбрасывать такой текст.

Насчет DOM сайта, такого понятия нет, есть DOM именно страницы.
 
Можно брать текст со страниц в результате проверки на кол-во слов или символов, а также в результате проверки кол-ва слов или символов в отд. предложениях.
Если кол-во меньше какого то указанного порога, то выбрасывать такой текст.

Насчет DOM сайта, такого понятия нет, есть DOM именно страницы.
Понял. Про дом сайта спрашивал, потому что статьи всегда находятся не сразу на главной, а например в разделе статьи. Те в раздел статьи зайти сначала надо, а потом парсить
 
Понял. Про дом сайта спрашивал, потому что статьи всегда находятся не сразу на главной, а например в разделе статьи. Те в раздел статьи зайти сначала надо, а потом парсить

Ну да, это только, как сказал Сергоджан, - искать отличительные особенности информационных статей. Наверное там что-то да найдется, и можно будет исключить треш. Стоп-слова посмотри, может поможет.

А про загрузку DOM - это естественно, структура сайтов такая, не чтобы все на главной было )) Обычно так и делают - рубрикация контента тоже важна любому вебмастеру.

А вот насчёт парсинга - можно попробовать такую логику.
В разделе - есть статьи.
1)Если есть пагинация - закидываешь все пагинации в листок. К каждому URL применяешь GET - спарсил DOM всех страниц рубрики.
2) Потом(или если нет паги) парсишь все ссылки на внутренние статьи - так же, Regexom. Складываешь в список - получаешь ещё один список - ссылки на все статьи.
3) Тут же GETом парсишь по списку статей - все DOM'ы статей. Применяешь регулярку свою и вуа-ля. Все тексты у тебя "на лицо". Кладёшь каждый результат в новый файл/список/как удобно.

На шаге 2, к слову, можно все DOMы рубрики записать в один файл, и потом этот файл - тем же образом REGEX'ом чикнуть на составляющие - и сложить куда хочешь :-)

Прости если банальщину левую написал) Чё-то понесло меня на форум читать, писать, да уму набираться.

P.S. Шаблоны с GET лучше использовать без браузера - быстрее работает, как я заметил, а обработка текстов - вообще в касание вылетает.
 
Ну да, это только, как сказал Сергоджан, - искать отличительные особенности информационных статей. Наверное там что-то да найдется, и можно будет исключить треш. Стоп-слова посмотри, может поможет.

А про загрузку DOM - это естественно, структура сайтов такая, не чтобы все на главной было )) Обычно так и делают - рубрикация контента тоже важна любому вебмастеру.

А вот насчёт парсинга - можно попробовать такую логику.
В разделе - есть статьи.
1)Если есть пагинация - закидываешь все пагинации в листок. К каждому URL применяешь GET - спарсил DOM всех страниц рубрики.
2) Потом(или если нет паги) парсишь все ссылки на внутренние статьи - так же, Regexom. Складываешь в список - получаешь ещё один список - ссылки на все статьи.
3) Тут же GETом парсишь по списку статей - все DOM'ы статей. Применяешь регулярку свою и вуа-ля. Все тексты у тебя "на лицо". Кладёшь каждый результат в новый файл/список/как удобно.

На шаге 2, к слову, можно все DOMы рубрики записать в один файл, и потом этот файл - тем же образом REGEX'ом чикнуть на составляющие - и сложить куда хочешь :-)

Прости если банальщину левую написал) Чё-то понесло меня на форум читать, писать да уму набираться.

P.S. Шаблоны с GET лучше использовать без браузера - быстрее работает, как я заметил, а обработка текстов - вообще в касание вылетает.
Или такая идея еще есть - выделить признаки сайтов на wordpress, либо взять у хрумоводов например и парсить статьи уже по известным признакам
 
Или такая идея еще есть - выделить признаки сайтов на wordpress, либо взять у хрумоводов например и парсить статьи уже по известным признакам

Если есть стак признаков - то почему бы и да! :-) А так у тебя все домы под рукой - поискал признак, проверил, не понравился - удалил :do:
 
Если есть стак признаков - то почему бы и да! :-) А так у тебя все домы под рукой - поискал признак, проверил, не понравился - удалил :do:
Спасибо за помощь)
У меня по таким признакам нормально ищет (много статей выходит те) -
* Торговля на форекс inurl:”wordpress"
* Торговля на форекс inurl:”blog"
ключи любые

"блог" не универсальный, просто для теста
WP лучше всего
 
Вопрос решен
 
Спасибо за помощь)
У меня по таким признакам нормально ищет (много статей выходит те) -
* Торговля на форекс inurl:”wordpress"
* Торговля на форекс inurl:”blog"
ключи любые

"блог" не универсальный, просто для теста
WP лучше всего
Я заказал парсинг выдачи по ключам здесь
https://zennolab.com/discussion/threads/parsing-vydachi-gugla-i-ne-tolko.62592/#post-453157
потом почистил дубли и спарсил статей.
Вышло почти 700к статей
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)