пасринг статей на разных сайтах

  • Автор темы Автор темы KingPin_ak
  • Дата начала Дата начала

KingPin_ak

Новичок
Регистрация
15.10.2011
Сообщения
2
Реакции
0
Баллы
0
подскажите пожалуйста, мне нужно спарсить статью по ссылке, но так чтобы парсился только текст статьи без всякого мусора, при этом совершенно неизвестно, что это за сайт (ссылка спарсена из выдачи гугла)
 
это практически не возможно, если в выдаче сайты на разных движках. Программа - не человек, она не может самостоятельно делать выбор и принимать решения. только то, что ты ей сказал она и сделает. скажешь - брать текст между тегами <div> и </div> , и вырезать всё что содержит < тут что-то > - она так и сделает . .но это не избавит тебя от всего остального (
 
Частично можно реализовать, если сделать навороченный шаблон, который будет по признакам определять движок сайта и в зависимости от результата применять нужную регулярку. Но врядли кто-то за это возьмется, а если и возьмется, то вас не устроит цена такого шаблона и/или результат его работы.
 
ну а может можно как то регулярными выражениями определить количество слов в предложении и тогда как то из этого получить нормальный текст?
 
ну а может можно как то регулярными выражениями определить количество слов в предложении и тогда как то из этого получить нормальный текст?
Определить количество слов труда не составит, но получить чистый текст статьи не получится.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)