Поиск статей

artsmm · 30.08.2019

Всем привет
Можете подсказать, в каком направлении думать по следующему вопросу:

я нашел регулярку, которая чисто парсит тексты, без мусора с любого сайта. У меня один вопрос только остался - как искать именно информационные статьи на этих сайтах? Пока мысль такая - выделить теги, в которые завернуты статьи и по ним искать..

Еще вопрос - есть ли возможность взять дом модель всего сайта, а не только ту страницу, на которую зашел?

Sergodjan · 30.08.2019

artsmm написал(а):
Всем привет
Можете подсказать, в каком направлении думать по следующему вопросу:

я нашел регулярку, которая чисто парсит тексты, без мусора с любого сайта. У меня один вопрос только остался - как искать именно информационные статьи на этих сайтах? Пока мысль такая - выделить теги, в которые завернуты статьи и по ним искать..

Еще вопрос - есть ли возможность взять дом модель всего сайта, а не только ту страницу, на которую зашел?

Можно брать текст со страниц в результате проверки на кол-во слов или символов, а также в результате проверки кол-ва слов или символов в отд. предложениях.
Если кол-во меньше какого то указанного порога, то выбрасывать такой текст.

Насчет DOM сайта, такого понятия нет, есть DOM именно страницы.

artsmm · 30.08.2019

sergodjan66 написал(а):
Можно брать текст со страниц в результате проверки на кол-во слов или символов, а также в результате проверки кол-ва слов или символов в отд. предложениях.
Если кол-во меньше какого то указанного порога, то выбрасывать такой текст.

Насчет DOM сайта, такого понятия нет, есть DOM именно страницы.

Понял. Про дом сайта спрашивал, потому что статьи всегда находятся не сразу на главной, а например в разделе статьи. Те в раздел статьи зайти сначала надо, а потом парсить

TwistDanceR · 30.08.2019

artsmm написал(а):
Понял. Про дом сайта спрашивал, потому что статьи всегда находятся не сразу на главной, а например в разделе статьи. Те в раздел статьи зайти сначала надо, а потом парсить

Ну да, это только, как сказал Сергоджан, - искать отличительные особенности информационных статей. Наверное там что-то да найдется, и можно будет исключить треш. Стоп-слова посмотри, может поможет.

А про загрузку DOM - это естественно, структура сайтов такая, не чтобы все на главной было )) Обычно так и делают - рубрикация контента тоже важна любому вебмастеру.

А вот насчёт парсинга - можно попробовать такую логику.
В разделе - есть статьи.
1)Если есть пагинация - закидываешь все пагинации в листок. К каждому URL применяешь GET - спарсил DOM всех страниц рубрики.
2) Потом(или если нет паги) парсишь все ссылки на внутренние статьи - так же, Regexom. Складываешь в список - получаешь ещё один список - ссылки на все статьи.
3) Тут же GETом парсишь по списку статей - все DOM'ы статей. Применяешь регулярку свою и вуа-ля. Все тексты у тебя "на лицо". Кладёшь каждый результат в новый файл/список/как удобно.

На шаге 2, к слову, можно все DOMы рубрики записать в один файл, и потом этот файл - тем же образом REGEX'ом чикнуть на составляющие - и сложить куда хочешь :-)

Прости если банальщину левую написал) Чё-то понесло меня на форум читать, писать, да уму набираться.

P.S. Шаблоны с GET лучше использовать без браузера - быстрее работает, как я заметил, а обработка текстов - вообще в касание вылетает.

artsmm · 30.08.2019

TwistDanceR написал(а):
Ну да, это только, как сказал Сергоджан, - искать отличительные особенности информационных статей. Наверное там что-то да найдется, и можно будет исключить треш. Стоп-слова посмотри, может поможет.

А про загрузку DOM - это естественно, структура сайтов такая, не чтобы все на главной было )) Обычно так и делают - рубрикация контента тоже важна любому вебмастеру.

А вот насчёт парсинга - можно попробовать такую логику.
В разделе - есть статьи.
1)Если есть пагинация - закидываешь все пагинации в листок. К каждому URL применяешь GET - спарсил DOM всех страниц рубрики.
2) Потом(или если нет паги) парсишь все ссылки на внутренние статьи - так же, Regexom. Складываешь в список - получаешь ещё один список - ссылки на все статьи.
3) Тут же GETом парсишь по списку статей - все DOM'ы статей. Применяешь регулярку свою и вуа-ля. Все тексты у тебя "на лицо". Кладёшь каждый результат в новый файл/список/как удобно.

На шаге 2, к слову, можно все DOMы рубрики записать в один файл, и потом этот файл - тем же образом REGEX'ом чикнуть на составляющие - и сложить куда хочешь

Прости если банальщину левую написал) Чё-то понесло меня на форум читать, писать да уму набираться.

P.S. Шаблоны с GET лучше использовать без браузера - быстрее работает, как я заметил, а обработка текстов - вообще в касание вылетает.

Или такая идея еще есть - выделить признаки сайтов на wordpress, либо взять у хрумоводов например и парсить статьи уже по известным признакам

TwistDanceR · 30.08.2019

artsmm написал(а):
Или такая идея еще есть - выделить признаки сайтов на wordpress, либо взять у хрумоводов например и парсить статьи уже по известным признакам

Если есть стак признаков - то почему бы и да! :-)

А так у тебя все домы под рукой - поискал признак, проверил, не понравился - удалил :do:

artsmm · 30.08.2019

TwistDanceR написал(а):
Если есть стак признаков - то почему бы и да! А так у тебя все домы под рукой - поискал признак, проверил, не понравился - удалил

Спасибо за помощь)
У меня по таким признакам нормально ищет (много статей выходит те) -
* Торговля на форекс inurl:”wordpress"
* Торговля на форекс inurl:”blog"
ключи любые

"блог" не универсальный, просто для теста
WP лучше всего

artsmm · 31.08.2019

Вопрос решен

Шива · 31.08.2019

artsmm написал(а):
Спасибо за помощь)
У меня по таким признакам нормально ищет (много статей выходит те) -
* Торговля на форекс inurl:”wordpress"
* Торговля на форекс inurl:”blog"
ключи любые

"блог" не универсальный, просто для теста
WP лучше всего

Я заказал парсинг выдачи по ключам здесь
https://zennolab.com/discussion/threads/parsing-vydachi-gugla-i-ne-tolko.62592/#post-453157
потом почистил дубли и спарсил статей.
Вышло почти 700к статей

artsmm · 31.08.2019

Шива написал(а):
Я заказал парсинг выдачи по ключам здесь
https://zennolab.com/discussion/threads/parsing-vydachi-gugla-i-ne-tolko.62592/#post-453157
потом почистил дубли и спарсил статей.
Вышло почти 700к статей

спасибо. Не удобный вариант под мои задачи

Поиск

Поиск статей

artsmm

Client

Sergodjan

Administrator

artsmm

Client

TwistDanceR

Client

artsmm

Client

TwistDanceR

Client

artsmm

Client

artsmm

Client

Шива

Client

artsmm

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)