Получение наборов доменов из ICANN (1173 зоны) и базовая обработка списков.

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63

Nord

Client
Регистрация
22.03.2012
Сообщения
2 408
Благодарностей
1 474
Баллы
113
(ПРОФФЕССИОНАЛЬНОЕ ПОИСКОВОЕ NO-CODE РЕШЕНИЕ | ВАЖНО ПРО CLOUDFLARE В КОНЦЕ ВИДЕО)
Для @seodamage - Ответ на ваш вопрос
"
привет, хотел уточнить, а не планируется разобрать кейс с фильтрацией зон по нескольким фаилам, например
wordpress, cloudflare, hcaptcha, recaptcha, blogger, bitrix и подобных разнообразных выборок. "


Также ответ будет полезен и для сеошников, вебмастеров которые помогают с настройками/доведением сайтов "до ума", директологам ну и по теме статьи ответ также имеет значение.

Одним из моментов в контексте вопроса от @seodamage было "я давно думаю о таком комбаине, и впринципе есть мысли как это реализовать, но к сожалению пока так не умею так писать, чтобы работало максимально быстро как у вас и с многопотоком есть недостаток опыта. ". Конечно же, по плану разработки нашего SaaS решения это все будет программно реализовано, но если нужно "прямо сейчас", то можно сделать и без кодирования. Скажу так, иногда когда очень нужно - но не умеешь, сделай как умеешь и максимально быстро. Решение по выборкам опередит многие программные решения новичков.


Объясняю и показываю


Сайт

PS Вопросы и предложения на Телеграмм @Shock_cybersystems
Кстати.

Клауд у большинства "простых" сайтов настроен по минималке, и их можно спокойно парсить и пинговать.
Большинство ( по крайней мере те, кого я пинговал и не в десятко-миллионных обьемах, а поменьше) просто скрывают клаудом IP хоста, чтоб не палить всю сетку сайтов на одном IP

А так - спасибо за информацию.
Захожу почитать ваш подкаст))
 
  • Спасибо
Реакции: AlisaZ, seodamage и DevOps

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
Продолжайте, я читаю
[/QUO
Продолжайте, я читаю
Кстати.

Клауд у большинства "простых" сайтов настроен по минималке, и их можно спокойно парсить и пинговать.
Большинство ( по крайней мере те, кого я пинговал и не в десятко-миллионных обьемах, а поменьше) просто скрывают клаудом IP хоста, чтоб не палить всю сетку сайтов на одном IP

А так - спасибо за информацию.
Захожу почитать ваш подкаст))
Вы правы. Тут два момента первый - я беру максимально негативный сценарий, что и показал
Второй - я настраиваю скоростные решения так, чтобы при любом чихе уходить в сторону ( try/catch if/else)
Подкаст, епта :-)
 
  • Спасибо
Реакции: Nord

cocieri

Client
Регистрация
14.04.2016
Сообщения
65
Благодарностей
12
Баллы
8
  • Спасибо
Реакции: DevOps

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
  • Спасибо
Реакции: cocieri

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63

Вложения

Koqpe

Client
Регистрация
23.12.2014
Сообщения
1 099
Благодарностей
648
Баллы
113
Всегда можно найти решение которое будет гораздо проще, эффективней и более информативно. Как вам 1 200 000 000 + адресов IPv4 которые на 100%
Привет, я где-то пропустил, хотя два раза перечитал топик и посмотрел видео :-), или Вы не раскрыли откуда взялись миллиард двести миллионов адресов IPv4?
 
  • Спасибо
Реакции: DevOps

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
Привет, я где-то пропустил, хотя два раза перечитал топик и посмотрел видео :-), или Вы не раскрыли откуда взялись миллиард двести миллионов адресов IPv4?
Приношу извинения за ваше потраченное время, и извиняюсь перед форумчанами, вылетело из головы (одновременно веду несколько разработок)
Идете сюда https://app.netlas.io/datastore/ проматываете вниз и находите вот это

108437


И сразу поясню - не стоит поступать так - чур чур его, база старая, на кол этого еретика - не нужно. Я был бы рад если она была бы старее на пару тройку лет. Почему? Все чуть дальше. База ~ 60Гб
 
  • Спасибо
Реакции: silverx, sydoow и Koqpe

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
Дополнение к предыдыдущему комментарию для Koqpe
Работать с большими файлами трудно (для новичков), а иногда и не целесообразно (для профи)
Вот код для ZP который "нарежет" файлы. Значение 2500000 можете поменять на более "комфортное" для вас
Резка:
        // Получаем количество строк от пользователя
          int linesPerFile = 25000000; // тут  поставуьте количество строк для каждого файла, 25М примерно соотвествует 1,2 Гб

        // Получаем путь к рабочему столу пользователя
        string desktopPath = Environment.GetFolderPath(Environment.SpecialFolder.Desktop);

        // Создаем папку на рабочем столе с именем пользователя
        string userFolder = Path.Combine(desktopPath, Environment.UserName);
        Directory.CreateDirectory(userFolder);

        // Путь к исходному файлу
        string sourceFilePath = "путь_к_исходному_файлу.txt";// укажите полный путь к РАСПАКОВАННОМУ файлу

        // Открываем исходный файл для чтения
        using (StreamReader reader = new StreamReader(sourceFilePath))
        {
            int fileCount = 1;
            int lineCount = 0;

            // Создаем новый файл для записи
            string outputFilePath = Path.Combine(userFolder, $"file{fileCount}.txt");
            StreamWriter writer = new StreamWriter(outputFilePath);

            string line;
            while ((line = reader.ReadLine()) != null)
            {
                // Записываем строку в текущий файл
                writer.WriteLine(line);
                lineCount++;

                // Если достигнуто указанное количество строк, закрываем текущий файл и создаем новый
                if (lineCount >= linesPerFile)
                {
                    writer.Close();
                    fileCount++;
                    outputFilePath = Path.Combine(userFolder, $"file{fileCount}.txt");
                    writer = new StreamWriter(outputFilePath);
                    lineCount = 0;
                }
            }

            // Закрываем последний файл
            writer.Close();
        }
 

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
Мужики, 99$ на месяц можете уделить?
Возврат гарантирию
 

seodamage

Client
Регистрация
08.09.2014
Сообщения
227
Благодарностей
69
Баллы
28
(ПРОФФЕССИОНАЛЬНОЕ ПОИСКОВОЕ NO-CODE РЕШЕНИЕ | ВАЖНО ПРО CLOUDFLARE В КОНЦЕ ВИДЕО)
Для @seodamage - Ответ на ваш вопрос
"
привет, хотел уточнить, а не планируется разобрать кейс с фильтрацией зон по нескольким фаилам, например
wordpress, cloudflare, hcaptcha, recaptcha, blogger, bitrix и подобных разнообразных выборок. "


Также ответ будет полезен и для сеошников, вебмастеров которые помогают с настройками/доведением сайтов "до ума", директологам ну и по теме статьи ответ также имеет значение.

Одним из моментов в контексте вопроса от @seodamage было "я давно думаю о таком комбаине, и впринципе есть мысли как это реализовать, но к сожалению пока так не умею так писать, чтобы работало максимально быстро как у вас и с многопотоком есть недостаток опыта. ". Конечно же, по плану разработки нашего SaaS решения это все будет программно реализовано, но если нужно "прямо сейчас", то можно сделать и без кодирования. Скажу так, иногда когда очень нужно - но не умеешь, сделай как умеешь и максимально быстро. Решение по выборкам опередит многие программные решения новичков.


Объясняю и показываю


Сайт

PS Вопросы и предложения на Телеграмм @Shock_cybersystems

способ интересный но для меня к сожалению не подходит. я наоборот выпиливаю из своих баз всякие сервисы, аля .wordpress.com wix, ucoz, и подобные им т.к. они централизованно защищаются от спама. и пробив в том софте в котором я использую такого рода базы смешной.

у меня наоборот на блоге есть материалы как выпиливать такого рода ресурсы из своих баз.

также на счёт детекта цмсок есть разного рдоа софт, например у меня есть вот такой https://antoshabrain.blogspot.com/p/gsa-pi.html но в нём например нет детекта hcaptcha, или других интересных вещей.

после того как я ознакомился с конкурсной статьёй, понял что у меня не хватает опыта с многопотоком и какими то определёнными вещами, поэтому и написал в качестве идеи для продолжения поста.
 
  • Спасибо
Реакции: DevOps

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
способ интересный но для меня к сожалению не подходит. я наоборот выпиливаю из своих баз всякие сервисы, аля .wordpress.com wix, ucoz, и подобные им т.к. они централизованно защищаются от спама. и пробив в том софте в котором я использую такого рода базы смешной.

у меня наоборот на блоге есть материалы как выпиливать такого рода ресурсы из своих баз.

также на счёт детекта цмсок есть разного рдоа софт, например у меня есть вот такой https://antoshabrain.blogspot.com/p/gsa-pi.html но в нём например нет детекта hcaptcha, или других интересных вещей.

после того как я ознакомился с конкурсной статьёй, понял что у меня не хватает опыта с многопотоком и какими то определёнными вещами, поэтому и написал в качестве идеи для продолжения поста.
И вы говорили что не понимаете тему и испытываете проблемы с многопотоком
Угу :-)
Ознакомился с вашей ссылкой и ПО
Уважение и респект
По поводу критики- разрешите отвечу как буду у компа?
 
  • Спасибо
Реакции: seodamage

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
способ интересный но для меня к сожалению не подходит. я наоборот выпиливаю из своих баз всякие сервисы, аля .wordpress.com wix, ucoz, и подобные им т.к. они централизованно защищаются от спама. и пробив в том софте в котором я использую такого рода базы смешной.

у меня наоборот на блоге есть материалы как выпиливать такого рода ресурсы из своих баз.

также на счёт детекта цмсок есть разного рдоа софт, например у меня есть вот такой https://antoshabrain.blogspot.com/p/gsa-pi.html но в нём например нет детекта hcaptcha, или других интересных вещей.

после того как я ознакомился с конкурсной статьёй, понял что у меня не хватает опыта с многопотоком и какими то определёнными вещами, поэтому и написал в качестве идеи для продолжения поста.
Сколько времени занял чек 350М ?
 

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
способ интересный но для меня к сожалению не подходит. я наоборот выпиливаю из своих баз всякие сервисы, аля .wordpress.com wix, ucoz, и подобные им т.к. они централизованно защищаются от спама. и пробив в том софте в котором я использую такого рода базы смешной.

у меня наоборот на блоге есть материалы как выпиливать такого рода ресурсы из своих баз.

также на счёт детекта цмсок есть разного рдоа софт, например у меня есть вот такой https://antoshabrain.blogspot.com/p/gsa-pi.html но в нём например нет детекта hcaptcha, или других интересных вещей.

после того как я ознакомился с конкурсной статьёй, понял что у меня не хватает опыта с многопотоком и какими то определёнными вещами, поэтому и написал в качестве идеи для продолжения поста.
Извините за флуд, но многопоток это 6 строк кода
 

seodamage

Client
Регистрация
08.09.2014
Сообщения
227
Благодарностей
69
Баллы
28
Сколько времени занял чек 350М ?
к сожалению точно уже не могу сказать. по несколько миллионов доменов в день. к сожалению пока чекалась вся база, большое количество доменов отмирало.
в какой то момент я начал составлять всевозможные блеклисты и вайтлисты, и на это так же ушло очень много времени. я и сейчас время от времени делаю такие листы.
 

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
к сожалению точно уже не могу сказать. по несколько миллионов доменов в день. к сожалению пока чекалась вся база, большое количество доменов отмирало.
в какой то момент я начал составлять всевозможные блеклисты и вайтлисты, и на это так же ушло очень много времени. я и сейчас время от времени делаю такие листы.
В теме пробив CMS закрыт, ни кода ни инструкций. Нет желания переходить дорогу
Чек на 350М - 6 часов с домашнего компа ( DNSClient отMicha Conrad)
 

seodamage

Client
Регистрация
08.09.2014
Сообщения
227
Благодарностей
69
Баллы
28
Чек на 350М - 6 часов с домашнего компа
что то не укладывается этот момент в голове. я для того чтобы оптимизировать значительную часть чека поднимаю множество своих днс серваков, к которым обращаюсь в процессе чека. если взять 350.000.000 и поделить на 6 часов то получится чуть больше 58.000.000 доменов в час или если поделить на 60 то 972.000 домена в минуту. на сколько я понимаю, ни 1 днс сервер не позволит резолвить домены с такой скоростью.
 
  • Спасибо
Реакции: Nord

Nord

Client
Регистрация
22.03.2012
Сообщения
2 408
Благодарностей
1 474
Баллы
113
В теме пробив CMS закрыт, ни кода ни инструкций. Нет желания переходить дорогу
Чек на 350М - 6 часов с домашнего компа ( DNSClient отMicha Conrad)
108466


260М за 3 недели, сервер дымел)
 
  • Спасибо
Реакции: AlisaZ, seodamage и DevOps

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
  • Спасибо
Реакции: Nord

seodamage

Client
Регистрация
08.09.2014
Сообщения
227
Благодарностей
69
Баллы
28
  • Спасибо
Реакции: Nord

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
Видимо придется пилить про IANA, без их данных это бег по кругу. Данные меняются и причем порой кардинально в плане ip диапазонов и ГЕО что необходимо не только решение но и "демон"
Видимо пока пауза
 
  • Спасибо
Реакции: Koqpe и dis210

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
что то не укладывается этот момент в голове. я для того чтобы оптимизировать значительную часть чека поднимаю множество своих днс серваков, к которым обращаюсь в процессе чека. если взять 350.000.000 и поделить на 6 часов то получится чуть больше 58.000.000 доменов в час или если поделить на 60 то 972.000 домена в минуту. на сколько я понимаю, ни 1 днс сервер не позволит резолвить домены с такой скоростью.
1 миллион в минуту с домашнего компа 6 часов на 350 миллионов
С сервера минут 40
 

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
что то не укладывается этот момент в голове. я для того чтобы оптимизировать значительную часть чека поднимаю множество своих днс серваков, к которым обращаюсь в процессе чека. если взять 350.000.000 и поделить на 6 часов то получится чуть больше 58.000.000 доменов в час или если поделить на 60 то 972.000 домена в минуту. на сколько я понимаю, ни 1 днс сервер не позволит резолвить домены с такой скоростью.
Главная ошибка "пингаторов " - это все усложнять
Во первых - зачем нужны свои dns серверы? Возьмите авторитетные и сделайте что то наподобие следующего, отправляем запросы через авторитеные сервера зон и сервисы. Сервера провайдеров и телекомов в этом случае не будут участвовать в трассирорвке и не отрубят связь. В то же время не создавая нагрузку на определенный сервер вы можете рандомно менять их "на лету". Ну или вообще собирать сразу все ресурсные записи с домена включая A, AAAA, PTR, MX, TXT e.t.c. и таким образом создавая еще более мощный инструмент, сервис или бизнес каталог на продажу


Но лучше вообще не парить "моск" и пользоваться готовыми ns которых у нас 2 800 000+. Плюс к этому, так как Вы будете обращаться к серверу у которого в листинге уже прописан адрес домена то за счет снижения трассировки вы кратно поднимаете скорость обработки. То есть если Вы даже запустите 100 000 в секунду, то к любому ns который имеет записи конкретных доменов Вы сможете обращаться раз в полминуты. Подробней тут


Написал навскидку, но как говорил - скорость до миллиона в минуту развить на обычном компе - плевое дело. Как то так :-)
 
  • Спасибо
Реакции: sydoow

seodamage

Client
Регистрация
08.09.2014
Сообщения
227
Благодарностей
69
Баллы
28
Главная ошибка "пингаторов " - это все усложнять
Во первых - зачем нужны свои dns серверы? Возьмите авторитетные и сделайте что то наподобие следующего, отправляем запросы через авторитеные сервера зон и сервисы. Сервера провайдеров и телекомов в этом случае не будут участвовать в трассирорвке и не отрубят связь. В то же время не создавая нагрузку на определенный сервер вы можете рандомно менять их "на лету". Ну или вообще собирать сразу все ресурсные записи с домена включая A, AAAA, PTR, MX, TXT e.t.c. и таким образом создавая еще более мощный инструмент, сервис или бизнес каталог на продажу


Но лучше вообще не парить "моск" и пользоваться готовыми ns которых у нас 2 800 000+. Плюс к этому, так как Вы будете обращаться к серверу у которого в листинге уже прописан адрес домена то за счет снижения трассировки вы кратно поднимаете скорость обработки. То есть если Вы даже запустите 100 000 в секунду, то к любому ns который имеет записи конкретных доменов Вы сможете обращаться раз в полминуты. Подробней тут


Написал навскидку, но как говорил - скорость до миллиона в минуту развить на обычном компе - плевое дело. Как то так :-)
по первому варианту я об этом уже выше написал, я поднимаю собственные днс которые разом обращаются сразу к нескольким корневым DNS и получая ответ от первого из них возвращают результат и записывают его в кэш моих DNS серверов.

по нс серверам, ну там же постоянно их меняют и даже то что было получено 1 час назад может быть уже не актуальным. к тому же я не понял куда именно записывается результат, типо просто извлекает ip адрес полученный от нс сервера и куда то его пишет? в таком случае куда? если он пишет это в какой то кастомный днс сервер то у него должно быть прямо прилично оперативке, иначе не поместятся ключ:значение в виде домен:ip.
 

seodamage

Client
Регистрация
08.09.2014
Сообщения
227
Благодарностей
69
Баллы
28
на счёт большого списка днс, они не понятно откуда взяты, скорее всего большая их часть это просто чьи то днс сервера, которые могут не содержать информации по конкретному домену. а помимо этого они могут быть взломанные и отдавать уже вредоносные ответы, что опасно и врятли подойдёт для решения этой задачи.
 

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
по первому варианту я об этом уже выше написал, я поднимаю собственные днс которые разом обращаются сразу к нескольким корневым DNS и получая ответ от первого из них возвращают результат и записывают его в кэш моих DNS серверов.

по нс серверам, ну там же постоянно их меняют и даже то что было получено 1 час назад может быть уже не актуальным. к тому же я не понял куда именно записывается результат, типо просто извлекает ip адрес полученный от нс сервера и куда то его пишет? в таком случае куда? если он пишет это в какой то кастомный днс сервер то у него должно быть прямо прилично оперативке, иначе не поместятся ключ:значение в виде домен:ip.
Хорошие результаты записываются в файл с хорошими результатами, плохие с плохими.
Ns сервера могут у домена не меняться годами так как это ns
Оперативки не много нужно, как только коллекция наполнилась на какое то установленное значение - сброс в файлы, разгрузка и загрузка новой порции на работу.
 

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
на счёт большого списка днс, они не понятно откуда взяты, скорее всего большая их часть это просто чьи то днс сервера, которые могут не содержать информации по конкретному домену. а помимо этого они могут быть взломанные и отдавать уже вредоносные ответы, что опасно и врятли подойдёт для решения этой задачи.
Буду за компом скину, но уже завтра, приболел в одеялке закутался с телефоном
 

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
на счёт большого списка днс, они не понятно откуда взяты, скорее всего большая их часть это просто чьи то днс сервера, которые могут не содержать информации по конкретному домену. а помимо этого они могут быть взломанные и отдавать уже вредоносные ответы, что опасно и врятли подойдёт для решения этой задачи.
Кстати да, использовать ip хер пойми чьих dns опасно. Не подумал что то. Тогда второй вариант когда указываешь конкретный ns конкретного домена. Можно и под ZP написать, там никаких библиотек не нужно и насколько помню я там года 2 назад 10М в час разгонял.
Может как нибудь напишу, сейчас нет ресурсов
 

DevOps

Client
Регистрация
30.11.2020
Сообщения
496
Благодарностей
314
Баллы
63
Нет реурсов развернуть тему
@отправьте в мусор
 

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)