Поиск релевантных таргетированных E-mail используя Google Dork запросы

sps75

Client
Регистрация
13.12.2020
Сообщения
79
Благодарностей
21
Баллы
8
Господа, это первый мой проект на конкурс, прошу не кидаться тапками.
Если что то не нравится или это не соответствует уровню сложности и полезности на ваш предвзятый взгляд, не судите строго.
Увлекаюсь e-mail рассылками, пока у меня это только «академический» интерес, как хобби.

Принцип работы и назначение:
Шаблон на C# отправляет гугл дорк запросы POST/GET, собирает в результатах е-мейлы из заголовков, описания, самой страницы, файлов и сохраняет их в список. Шаблон использует API Key и Search Engine ID для работы с гугл дорк. Их нужно предварительно получить.

Шаблон можно допилить, кому интересно, с точки зрения функциональности и удобности - подключить базу данных, сделать расширенные входные настройки, интегрировать промты в шаблон и т.д.
В данном виде он сыроват и больше как демонстрация идеи.
Итак, кто занимается арбитражем, наверное, знает, что такое гугл дорк. Для остальных –Google Dork — это специальный поисковый запрос, который использует продвинутые операторы Google для поиска скрытой или уязвимой информации на сайтах. Или просто нужной информации.
Например:
  • site:github.com password
  • intitle:"index of" private
  • filetype:sql "DB_PASSWORD"
Мы будем использовать эти запросы для поиска и сохранения e-mai адресов в список.
Наш гул дорк запрос будет содержать в себе требующиеся вводные, и собирать почты нужной нам категории пользователей.
Например: итальянские сайты, пользователи женщины, интересующиеся похудением, диетой.

site:.it "donna" "dieta" "@"
site:.it "donna" "dimagrire" "@"
site:.it "donna" "perdere peso" "@"
site:.it "donna" "obesità" "@"
site:.it "donna" "nutrizionista" "@"

и так далее.
Чем точнее и правильнее задан запрос, тем лучше будут результаты. И эти результаты будут релевантными запросу, и собранные почты будут по большей части действительными, валидными.
Так как собраны будут самостоятельно, а не получены через пятые руки, неизвестно когда и как.
В список с дорками можно вставить любое количество строк, с разными запросами. В конце я выложил скрин, где показано как отработал шаблон. Там было использовано около 60 запросов.

Для работы с гугл дорк, необходимо:
  • API Key (Ключ API) — это уникальный идентификатор, который используется для аутентификации вашего приложения в API Google и для управления квотами и биллингом. Он не привязан напрямую к вашему поисковому движку.
  • Search Engine ID (ID Поисковой системы, cx) — это идентификатор вашей настроенной поисковой системы. Он определяет, по каким сайтам и с какими настройками будет осуществляться поиск.

Квоты и биллинг:

Бесплатная квота на 1 комплект API и SE_ID— 100 поисковых запросов в день.

При желании, можно подключить аккаунт, который потом пополнить и не заморачиваться с лимитами.

Но мы именно бесплатный вариант и будем использовать.

Для бОльшего количества запросов, можно использовать большее количество Api и SE ID. На один аккаунт Google (на одного пользователя) вы можете создать максимум 100 поисковых систем (100 уникальных SE ID).
С API-ключами ситуация иная. Жесткого лимита на количество API-ключей, которые вы можете создать в одном проекте Google Cloud, не существует.

Можно обойти ограничение выдачи или дублирования результатов. Для наиболее полного сбора нужных данных используем фильтры:
site: Some_site.com "donna" "dieta" "Italia" after:2023-01-01 before:2023-02-01
таким образом получим результат только в указанном временном диапазоне. Меняя диапазон, соберем больше не пересекающихся данных.
В зависимости от того, какие именно ресурсы сети вы собираетесь мониторить и в каком объеме, могут пригодиться прокси. По хорошему, они нужны, потому как используя шаблон без прокси, столкнулся с тем, что после некоторого количества запросов, результаты начинают приходить пустые, пока не сменишь прокси.

Результаты получаются в JSON, можно при желании использовать значения переменных из JSON, чтобы улучшить функционал шаблона.
Можно использовать свои прокси, а можно поюзать наработки, выложенные на форуме.
Я использовал для получения прокси конкурсный шаблон от пользователя @Serj566 (респект ему за полезную работу)
https://zenno.club/discussion/threads/tysjachi-kachestvennyx-besplatnyx-proksi-iz-vpn-na-polnom-avtomate-proxyhab-v2.126602/
После выполнения основного шаблона Прокси Хаб ( который запускается раз в день), запустил круглосуточно Тест Джоб, с сохранением прокси в файл. Выставил ожидания действия пользователя на 10 минут в шаблоне Тест Джоб. Т.е он переписывает прокси каждые 10 минут в файле. И каждые 10 минут шаблон гугл дорк берет прокси их этого файла и работает под новым прокси, что почти полностью исключает пустые ответы из-за прокси. Количество собираемых прокси в Прокси Хаб приличное, поэтому время ожидания действий пользователя в Тест Джоб можно сделать меньше – 1-2-3 минуты.
В кубике C# выполняется запрос, поиск и сохранение результатов в файлы. Данный код сгенерен дип сиком, благодаря наработкам другого пользователя форума @zarufakis и его zp_system_prompt.txt, благодаря которому открылись новые горизонты в реализации идей на C#. Также огромный респект ему за это.

Не успел доработать шаблон. По хорошему, нужно сделать входные настройки для работы в двух режимах. В первом он регистрирует API KEY и SE ID. (не более 3-5 в день, как советует дип сик, во избежание бана) А во втором уже работа с гугл дорками.
В первом варианте можно нагенерить 10-100 комплектов API KEY и SE ID на каждый задействованный аккаунт, и далее уже работать с ними по очереди забирая из списка с удалением.
Или вообще сделать многопоточным, где каждый поток работает со своим API KEY и SE ID

Получение API KEY и SE ID в ручном режиме (автоматизировать и вставить эти действия в шаблон не успел, сори). В ручном режиме это займет 2-3 минуты.

Перейдите по ссылке -
https://developers.google.com/custom-search/v1/overview?hl=ru
137787

Нажмите кнопку "Получить ключ".

Создаем проект с рандомным названием и получаем ключ.
Далее нужно получить Google Custom Engine ID. Это движок для поиска.

Переходим по ссылке - https://programmablesearchengine.google.com/controlpanel/all
137785



137789


Вводим рандомное имя и ставим “Search the entire web”, жмем "Создать".
137790

Вы получите код, копируете его.


Жмем "Добавить".
В конце:
  • Вставляем значения «Значения API KEY и SE ID» в первый кубик через запятую
  • Во второй кубик вставляем дорки (сгенерить можно список запросов в том же дип сике)
  • Указываем путь до файла с прокси
  • Запускаем шаблон.
  • Количество найденных почт в зависимости от тематики не слишком большое, но зато все они релевантны запросу.
  • Нужные дорк запросы также можно получить в любой нейронке, скрин с дипсика ниже.
  • Копируем и вставляем эти запросы в кубик «Дорк запросы»
137786



Не тестил особо, но должно работать и для mail.ru
Многие тут работают с этой платформой, в том числе и члены жюри... выкупают мейловские почты свежие на постоянной основе.
Теперь их можно собирать самому.
Ниже скрин отработавшего гугл запроса:

137788
 

Вложения

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)