Как чекнуть сотню тысяч сайтов на валидность?

Sambo7

Client
Регистрация
23.05.2018
Сообщения
313
Благодарностей
15
Баллы
18
Всем доброго дня.
Есть список сайтов, сотня тысяч...
Как можно их все чекнуть на валидность, и оставить только работоспособные?
 

Roman*

Client
Регистрация
25.09.2013
Сообщения
1 657
Благодарностей
656
Баллы
113
Делайте GET запрос к каждому домену и получайте 200 OK о работоспособности сайта, часть нерабочих должна отвалиться.
 
  • Спасибо
Реакции: Sambo7

Sambo7

Client
Регистрация
23.05.2018
Сообщения
313
Благодарностей
15
Баллы
18
Благодарю, конечно за ответ. Только мне это не очень понятно... Если у Вас мало времени, может быть, кто другой, будет добр, объяснить попонятней, как это сделать? С Post Get, пока еще не работал, поэтому не понятно!
В любом случае, благодарю Вас от души, за ответ, спасибо!
 

Nord

Client
Регистрация
22.03.2012
Сообщения
2 406
Благодарностей
1 473
Баллы
113
  • Спасибо
Реакции: Sambo7

Sambo7

Client
Регистрация
23.05.2018
Сообщения
313
Благодарностей
15
Баллы
18
Когда начинал писать эту тему, обдумывал это слово...
Работающий сайт, который можно посетить, и найти на нем необходимую информацию...
 

Roman*

Client
Регистрация
25.09.2013
Сообщения
1 657
Благодарностей
656
Баллы
113
Благодарю, конечно за ответ. Только мне это не очень понятно... Если у Вас мало времени, может быть, кто другой, будет добр, объяснить попонятней, как это сделать? С Post Get, пока еще не работал, поэтому не понятно!
В любом случае, благодарю Вас от души, за ответ, спасибо!

120687


Примерно вот так, но как я вижу нынешние сайты, очень часто есть защита клауда, которая при гет запросе с зенки отдает 403 ошибку или как авито 302 редирект в заголовке, это все можно учитывать, когда парсите с гет запроса какие то фразы отвечающие за работоспособность самого сайта, бывает что домен продается, но тоже будет 200 OK, а страница будет не этого домена, а регистратора, короче нюансов море.​
 
  • Спасибо
Реакции: Sambo7

Sambo7

Client
Регистрация
23.05.2018
Сообщения
313
Благодарностей
15
Баллы
18
Может где то на форуме, есть хотя-бы примерный пример подобного шаблона, который можно было бы переделать под себя?...
Гуглил, ничего путнего не нашел. Есть какая-то ветка, с подобным вопросом, но там ничего не понятно... Вот тут
Вот смотрю на Ваш пример, аж руки опускаются... Нет, то что Вы конечно ответили, это здорово... Однако, я многого не понимаю..
Мне почему-то казалось, что чтобы проверить сайты на работоспособность, нужно буквально несколько кубиков, со строкой кода...
Однако всё не так легко... как кажется.... :(
 

Sambo7

Client
Регистрация
23.05.2018
Сообщения
313
Благодарностей
15
Баллы
18
А если попытаться написать простой шаб на кубиках:
1. Переход на сайт (тянем ссылки со списка).
2. Если сайт загружается, т.е. проверка какого то текста....
А какой текст можно искать на работающем сайте???
3. Работающий сайт записываем в отдельный список.
И вуаля... Да возможно сожгем не мало электроэнергии, но для меня подобный способ лучше, чем сидеть без дела, и "ждать когда рак на горе свиснет"...

Если Вам не сложно, обозначьте пожалуйста, по каким признакам можно определить что сайт работающий??? Пункт 2.
 

oOmp

Client
Регистрация
22.01.2018
Сообщения
198
Благодарностей
94
Баллы
28
  • Спасибо
Реакции: Sambo7

Sok0lov

Client
Регистрация
25.11.2021
Сообщения
117
Благодарностей
58
Баллы
28
  • Спасибо
Реакции: Sambo7

Alexbrush

Client
Регистрация
20.11.2020
Сообщения
164
Благодарностей
144
Баллы
43
121009

Весь чекер это 5 блоков в цикле или без цикла и в многопотоке, но с этим сам разберёшься наверно.

Сделал за пару минут, но лучше тебе особенно на таких простых задачках самостоятельно изучать и пробовать собирать шаблоны. Больше практики - больше возможностей в использовании зеннопостер.
 

Вложения

  • Спасибо
Реакции: Sambo7

heks

Client
Регистрация
01.10.2013
Сообщения
1 203
Благодарностей
316
Баллы
83
(?<=HTTP/1\.1\ )[\w\W]*?(?=\ O) регулярку только такую сделать нужно иногда ответ Ok встречается и в список указать фал куда будет сохраняться если в многопотоке запускать
 
  • Спасибо
Реакции: Sambo7 и Alexbrush

Alexbrush

Client
Регистрация
20.11.2020
Сообщения
164
Благодарностей
144
Баллы
43
(?<=HTTP/1\.1\ )[\w\W]*?(?=\ O) регулярку только такую сделать нужно иногда ответ Ok встречается и в список указать фал куда будет сохраняться если в многопотоке запускать
Согласен по регулярке. По файлам откуда брать и куда ложить наверно разберётся как привязать. Здесь не было задачи сделать готовый шаблон за него, а оставить немного маневра самостоятельно доделать под себя. Я больше хотел показать простоту самой сборки такого типового шаблона чекера, а дальше уже сам :-)
 
  • Спасибо
Реакции: Sambo7

Sambo7

Client
Регистрация
23.05.2018
Сообщения
313
Благодарностей
15
Баллы
18
Посмотреть вложение 121009
Весь чекер это 5 блоков в цикле или без цикла и в многопотоке, но с этим сам разберёшься наверно.

Сделал за пару минут, но лучше тебе особенно на таких простых задачках самостоятельно изучать и пробовать собирать шаблоны. Больше практики - больше возможностей в использовании зеннопостер.
Я конечно Вам от души благодарен, однако, проверил Ваш файл через вирустотал...
Показывает вирусы...
 

Вложения

Alexbrush

Client
Регистрация
20.11.2020
Сообщения
164
Благодарностей
144
Баллы
43
Я конечно Вам от души благодарен, однако, проверил Ваш файл через вирустотал...
Показывает вирусы...
Обычный файл проекта zp, какие там вирусы?) Чуть меньше паранойи с левым софтом антивирусом и будет жить легче.

На сегодня встроенная защита от Windows справляется достаточно хорошо. Антивирусы и прочие сканеры принимают за вирусы слишком много лишнего, что они просто не могут определить и помечают это как вирусы.
 
Последнее редактирование:
  • Спасибо
Реакции: Sambo7 и heks

heks

Client
Регистрация
01.10.2013
Сообщения
1 203
Благодарностей
316
Баллы
83
Я конечно Вам от души благодарен, однако, проверил Ваш файл через вирустотал...
Показывает вирусы...
ты файл чекни который тебе человек дал зачем ты чекаешь ссылку ?
Файлы которыйе находятся на форуме вирустотал скачать не может чекни вон домен https://zenno.club тебе тоже покажетчто вирусы тут. Ты уже под колпаком. Видимо встроенные средства виндовс тебе не помогли обезопаситься от вирусов
 
  • Спасибо
Реакции: Sambo7 и Alexbrush

Sambo7

Client
Регистрация
23.05.2018
Сообщения
313
Благодарностей
15
Баллы
18
От души благодарю, всех кто делал мне пендали в этой теме... Особенно человека, который сделал шаб для чеканья доменов...
Всем спасибо, всем удачи!...
 

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)