Задача с сортировкой сайтов

gorin1

Новичок
Регистрация
08.01.2017
Сообщения
10
Благодарностей
0
Баллы
1
Кто-то сталкивался с подобной задачей?
Есть список сайтов в формате .txt. Нужно сортировать его отдельным списком на рабочие сайты и отдельным на НЕрабочие. Под нерабочими подразумевается что угодно, а-ля "ошибка сервера", "домен продается".... и тому подобное.
Парсить регуляркой конкретные выражения смысла нет - все сайты разные. Может есть какое-то глобальное решение?
Заранее - благодарю за помощь!
 

BAZAg

Client
Регистрация
08.11.2015
Сообщения
1 798
Благодарностей
2 482
Баллы
113
Если работа не на один раз, а постоянно - то я наверно просто использовал бы базу данных.
Для примера в базе данных будет всего одна табличка. В ней поля:
ID сайта (генерируем автоматически - и используем в дальнейшем для всех запросов).
URL (где собственно будет ссылка на сайт)
STATUS - в ней будем хранить тот статус, который вернет запрос при проходе (например статус 200, 500, 404 и так далее).
STATUS_SITE (параметр который содержит допустим 0, когда никакой поток зеннопостера не работает с данным сайтом, а если работает - устанавливает в значение 1 - это даст возможность работать в многопотоке).
Время проверки (собственно использовать время последнего обновления информации).

Таким образом шаблон может работать примерно так - взял самую старую строчку с таблички с STATUS_SITE = 0.
Вторым действием установили STATUS_SITE = 1.
Дальше отправили запрос на сайт (проверили что он нам вернет) - после чего обновили поле STATUS = 200 и STATUS_SITE =0 (освободили) + время установили в значение Сейчас.

А дальше при необходимости получить только рабочие сайты - делаем выборку с базы по параметру STATUS = 200.
 

AloneSlamer

Client
Регистрация
29.01.2013
Сообщения
1 404
Благодарностей
362
Баллы
83

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с AloneSlamer какие-либо сделки.

Проверка нсов. Чистим седо и прочих.
Если они привязаны то чекаем ответ сервера 200 не всегда отдает то что нужно. Могут быть также редиректы www.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)