Как Сравнивать Блоки Текстов

Alexandr2012

Новичок
Регистрация
05.08.2012
Сообщения
5
Благодарностей
0
Баллы
0
Добрый день, прогу еще не купил, я на стадии тестирования. И вот столкнулся с проблемой, которую пока никак не могу решить.

Задача: заходить на сайт и проверять не убрали ли оттуда мою информацию.

Все примеры проверок текстов, которые я нашел на форуме, относятся к однострочным текстам. Мне же надо проверить наличие нескольких абзацев на странице.

Уважаемые специалисты, подскажите пожалуйста каким образом можно реализовать подобную задачу?
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 714
Баллы
113
А в чем смысл проверки всех абзацев? На странице присутствуют чужие тексты, идентичные вашему и различающиеся на минимальный процент? Или что?
 

RealDiGi

Client
Регистрация
21.12.2010
Сообщения
188
Благодарностей
13
Баллы
18
а нельзя просто заменять абзац(знак абзаца) на пробел и таким образом текст получиться в одну строку? или я не о том?
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 714
Баллы
113
Просто не представляю задание, которое требуеть идентификации всего текста. :(
 

RealDiGi

Client
Регистрация
21.12.2010
Сообщения
188
Благодарностей
13
Баллы
18
ну может человек ссылок понатыкал в тексте. или объявлений проспамил много:-))))
 

nuaru

Main Administrator
Команда форума
Регистрация
14.01.2009
Сообщения
3 645
Благодарностей
2 511
Баллы
113
Можно большую регулярку написать, включив в нее последовательно несколько десятков слов или фраз, идентифицирующих статью.
 

Alexandr2012

Новичок
Регистрация
05.08.2012
Сообщения
5
Благодарностей
0
Баллы
0
Спасибо за совет, но большая регулярка не подойдет. Да, я могу сделать проверку всех интересующих строк, но это будет не самым эффектывным решением проблемы.

Да и что-то мне подсказывает, что я не последний раз сталкиваюсь с необходимостью проверки нескольних абзацев. Так что интересует именно разобраться в функционале проги.
 

Alexandr2012

Новичок
Регистрация
05.08.2012
Сообщения
5
Благодарностей
0
Баллы
0
А в чем смысл проверки всех абзацев? На странице присутствуют чужие тексты, идентичные вашему и различающиеся на минимальный процент? Или что?
просто тексты несут некую смысловую нагрузку и важно сохранить их в таком виде, а не с правками владельцев блогов (речь о проплаченных блог постах)
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 714
Баллы
113
просто тексты несут некую смысловую нагрузку и важно сохранить их в таком виде, а не с правками владельцев блогов (речь о проплаченных блог постах)
Ну если текст к примеру один, можно раздраконить его регуляркой на предложения и потом пройтись циклом в поиске каждого предложения?
 

Alexandr2012

Новичок
Регистрация
05.08.2012
Сообщения
5
Благодарностей
0
Баллы
0
Ваш вариант сильно сложный. Мне вот надо проверять много сайтов, для каждого писать сложную регулярку - не выход :(
 

OXPEHETb

Client
Регистрация
17.02.2012
Сообщения
124
Благодарностей
24
Баллы
18
Задача вроде простая. Парсим регуляркой текст с сайта, где указано начало и конец текста. Загоняем в переменную. Готовим переменную к js проверке. Берем аналогичный текст из файла в переменную. Готовим его к js сравниваем два результата. Если текст абсолютно идентичен выходит труя, если изменен выходит фался.

У способа есть минус - если, например, в тексте на сайте есть больше переносов при абзаце. Но это ж решается махом.
 

Alexandr2012

Новичок
Регистрация
05.08.2012
Сообщения
5
Благодарностей
0
Баллы
0
Идея интересная, только, честно говоря, я js не владею совершенно. Выпарсить нужный текст со страницы и взять блок из файла я могу, а вот сравнить их на идентичность с помощью js мне не под силу :(
 

OXPEHETb

Client
Регистрация
17.02.2012
Сообщения
124
Благодарностей
24
Баллы
18
Идея интересная, только, честно говоря, я js не владею совершенно. Выпарсить нужный текст со страницы и взять блок из файла я могу, а вот сравнить их на идентичность с помощью js мне не под силу :(
Есть шаг Обработка текста - подготовка к JavaScript.

Одна переменная {-Variable.sait-} - стыриный с сайта текст, вторая переменная {-Variable.file-} - текст из файла.

ставим шаг if в нем пишем '{-Variable.sait-}'=='{-Variable.file-}'

При таком раскладе если переменная сайт равна переменной файл - будет результат true если они различаются - будет результат false

Можно написать вот так: '{-Variable.sait-}'!='{-Variable.file-}'

При таком раскладе если переменная сайт не равна переменной файл - будет результат true если они одинаковые - будет результат false
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)