Поиск статей

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 136
Благодарностей
196
Баллы
63
Всем привет
Можете подсказать, в каком направлении думать по следующему вопросу:

я нашел регулярку, которая чисто парсит тексты, без мусора с любого сайта. У меня один вопрос только остался - как искать именно информационные статьи на этих сайтах? Пока мысль такая - выделить теги, в которые завернуты статьи и по ним искать..

Еще вопрос - есть ли возможность взять дом модель всего сайта, а не только ту страницу, на которую зашел?
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 438
Благодарностей
9 136
Баллы
113
Всем привет
Можете подсказать, в каком направлении думать по следующему вопросу:

я нашел регулярку, которая чисто парсит тексты, без мусора с любого сайта. У меня один вопрос только остался - как искать именно информационные статьи на этих сайтах? Пока мысль такая - выделить теги, в которые завернуты статьи и по ним искать..

Еще вопрос - есть ли возможность взять дом модель всего сайта, а не только ту страницу, на которую зашел?
Можно брать текст со страниц в результате проверки на кол-во слов или символов, а также в результате проверки кол-ва слов или символов в отд. предложениях.
Если кол-во меньше какого то указанного порога, то выбрасывать такой текст.

Насчет DOM сайта, такого понятия нет, есть DOM именно страницы.
 

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 136
Благодарностей
196
Баллы
63
Можно брать текст со страниц в результате проверки на кол-во слов или символов, а также в результате проверки кол-ва слов или символов в отд. предложениях.
Если кол-во меньше какого то указанного порога, то выбрасывать такой текст.

Насчет DOM сайта, такого понятия нет, есть DOM именно страницы.
Понял. Про дом сайта спрашивал, потому что статьи всегда находятся не сразу на главной, а например в разделе статьи. Те в раздел статьи зайти сначала надо, а потом парсить
 

TwistDanceR

Client
Регистрация
30.05.2019
Сообщения
479
Благодарностей
200
Баллы
43
Понял. Про дом сайта спрашивал, потому что статьи всегда находятся не сразу на главной, а например в разделе статьи. Те в раздел статьи зайти сначала надо, а потом парсить
Ну да, это только, как сказал Сергоджан, - искать отличительные особенности информационных статей. Наверное там что-то да найдется, и можно будет исключить треш. Стоп-слова посмотри, может поможет.

А про загрузку DOM - это естественно, структура сайтов такая, не чтобы все на главной было )) Обычно так и делают - рубрикация контента тоже важна любому вебмастеру.

А вот насчёт парсинга - можно попробовать такую логику.
В разделе - есть статьи.
1)Если есть пагинация - закидываешь все пагинации в листок. К каждому URL применяешь GET - спарсил DOM всех страниц рубрики.
2) Потом(или если нет паги) парсишь все ссылки на внутренние статьи - так же, Regexom. Складываешь в список - получаешь ещё один список - ссылки на все статьи.
3) Тут же GETом парсишь по списку статей - все DOM'ы статей. Применяешь регулярку свою и вуа-ля. Все тексты у тебя "на лицо". Кладёшь каждый результат в новый файл/список/как удобно.

На шаге 2, к слову, можно все DOMы рубрики записать в один файл, и потом этот файл - тем же образом REGEX'ом чикнуть на составляющие - и сложить куда хочешь :-)

Прости если банальщину левую написал) Чё-то понесло меня на форум читать, писать, да уму набираться.

P.S. Шаблоны с GET лучше использовать без браузера - быстрее работает, как я заметил, а обработка текстов - вообще в касание вылетает.
 

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 136
Благодарностей
196
Баллы
63
Ну да, это только, как сказал Сергоджан, - искать отличительные особенности информационных статей. Наверное там что-то да найдется, и можно будет исключить треш. Стоп-слова посмотри, может поможет.

А про загрузку DOM - это естественно, структура сайтов такая, не чтобы все на главной было )) Обычно так и делают - рубрикация контента тоже важна любому вебмастеру.

А вот насчёт парсинга - можно попробовать такую логику.
В разделе - есть статьи.
1)Если есть пагинация - закидываешь все пагинации в листок. К каждому URL применяешь GET - спарсил DOM всех страниц рубрики.
2) Потом(или если нет паги) парсишь все ссылки на внутренние статьи - так же, Regexom. Складываешь в список - получаешь ещё один список - ссылки на все статьи.
3) Тут же GETом парсишь по списку статей - все DOM'ы статей. Применяешь регулярку свою и вуа-ля. Все тексты у тебя "на лицо". Кладёшь каждый результат в новый файл/список/как удобно.

На шаге 2, к слову, можно все DOMы рубрики записать в один файл, и потом этот файл - тем же образом REGEX'ом чикнуть на составляющие - и сложить куда хочешь :-)

Прости если банальщину левую написал) Чё-то понесло меня на форум читать, писать да уму набираться.

P.S. Шаблоны с GET лучше использовать без браузера - быстрее работает, как я заметил, а обработка текстов - вообще в касание вылетает.
Или такая идея еще есть - выделить признаки сайтов на wordpress, либо взять у хрумоводов например и парсить статьи уже по известным признакам
 

TwistDanceR

Client
Регистрация
30.05.2019
Сообщения
479
Благодарностей
200
Баллы
43
Или такая идея еще есть - выделить признаки сайтов на wordpress, либо взять у хрумоводов например и парсить статьи уже по известным признакам
Если есть стак признаков - то почему бы и да! :-) А так у тебя все домы под рукой - поискал признак, проверил, не понравился - удалил :do:
 

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 136
Благодарностей
196
Баллы
63
Если есть стак признаков - то почему бы и да! :-) А так у тебя все домы под рукой - поискал признак, проверил, не понравился - удалил :do:
Спасибо за помощь)
У меня по таким признакам нормально ищет (много статей выходит те) -
* Торговля на форекс inurl:”wordpress"
* Торговля на форекс inurl:”blog"
ключи любые

"блог" не универсальный, просто для теста
WP лучше всего
 

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 136
Благодарностей
196
Баллы
63
Вопрос решен
 

Шива

Client
Регистрация
05.02.2018
Сообщения
1 088
Благодарностей
341
Баллы
83
Спасибо за помощь)
У меня по таким признакам нормально ищет (много статей выходит те) -
* Торговля на форекс inurl:”wordpress"
* Торговля на форекс inurl:”blog"
ключи любые

"блог" не универсальный, просто для теста
WP лучше всего
Я заказал парсинг выдачи по ключам здесь
https://zennolab.com/discussion/threads/parsing-vydachi-gugla-i-ne-tolko.62592/#post-453157
потом почистил дубли и спарсил статей.
Вышло почти 700к статей
 

artsmm

Client
Регистрация
03.10.2018
Сообщения
1 136
Благодарностей
196
Баллы
63

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)