пасринг статей на разных сайтах

KingPin_ak

Новичок
Регистрация
15.10.2011
Сообщения
2
Благодарностей
0
Баллы
0
подскажите пожалуйста, мне нужно спарсить статью по ссылке, но так чтобы парсился только текст статьи без всякого мусора, при этом совершенно неизвестно, что это за сайт (ссылка спарсена из выдачи гугла)
 

abuser

Client
Регистрация
02.06.2010
Сообщения
223
Благодарностей
16
Баллы
18
это практически не возможно, если в выдаче сайты на разных движках. Программа - не человек, она не может самостоятельно делать выбор и принимать решения. только то, что ты ей сказал она и сделает. скажешь - брать текст между тегами <div> и </div> , и вырезать всё что содержит < тут что-то > - она так и сделает . .но это не избавит тебя от всего остального (
 

step85

Client
Регистрация
19.02.2010
Сообщения
1 839
Благодарностей
287
Баллы
83
Частично можно реализовать, если сделать навороченный шаблон, который будет по признакам определять движок сайта и в зависимости от результата применять нужную регулярку. Но врядли кто-то за это возьмется, а если и возьмется, то вас не устроит цена такого шаблона и/или результат его работы.
 

KingPin_ak

Новичок
Регистрация
15.10.2011
Сообщения
2
Благодарностей
0
Баллы
0
ну а может можно как то регулярными выражениями определить количество слов в предложении и тогда как то из этого получить нормальный текст?
 

step85

Client
Регистрация
19.02.2010
Сообщения
1 839
Благодарностей
287
Баллы
83
ну а может можно как то регулярными выражениями определить количество слов в предложении и тогда как то из этого получить нормальный текст?
Определить количество слов труда не составит, но получить чистый текст статьи не получится.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)