Нужно срочно найти выход по поиску базы е-мейл, подробнее в теме!

hepner

Client
Регистрация
09.04.2011
Сообщения
154
Благодарностей
10
Баллы
18
Всем привет, столкнулся с такой проблемой, помогите решить вопрос. Вот есть три варианта поиска исходного кода, ну это все в одном коде т.е. 1 страница, 1-ый поиск icq который нужно исключить, второй и третий нужно добавить в файл и сохранить его там но проблема в том что у них разные домены идут после собаки у 2-го @mail.ru а у 3-го @list.ru. Подробнее ниже. Есть еще в коде такой статус как online нужно что бы везде где было так указано что бы записывал в файл а offlain просто игнорировал.

1. <div style='background-image: url("//avt.imgsmail.ru/uin/677822593/_avatarsmall");' class="nwa-add__search-item__userpic" wa-action="userpic" wa-mail="677822593@uin.icq"></div> <div class="nwa-add__search-item__info"> <div class="nwa-add__search-item__name wa-cl-status-icq_online">Александр Скиляжин<div class="nwa-add__search-item__name-fader"></div></div> <div class="nwa-add__search-item__buttons"> <span class="nwa-add__search-item__button nwa-dialog__tools-profile" wa-action="profile" wa-mail="677822593@uin.icq">Анкета</span> <span class="nwa-add__search-item__button nwa-add__btn-add" wa-name="Александр Скиляжин" wa-action="add" wa-mail="677822593@uin.icq">Добавить</span>

2. <div style='background-image: url("//avt.imgsmail.ru/mail.ru/t772020/_avatarsmall");' class="nwa-add__search-item__userpic" wa-action="userpic" wa-mail="t772020@mail.ru"></div> <div class="nwa-add__search-item__info"> <div class="nwa-add__search-item__name wa-cl-status-online">Александр Поплаухин<div class="nwa-add__search-item__name-fader"></div></div> <div class="nwa-add__search-item__buttons"> <span class="nwa-add__search-item__button nwa-dialog__tools-profile" wa-action="profile" wa-mail="t772020@mail.ru">Анкета</span> <span class="nwa-add__search-item__button nwa-add__btn-add" wa-name="Александр Поплаухин" wa-action="add" wa-mail="t772020@mail.ru">Добавить</span>

3. <div style='background-image: url("//avt.imgsmail.ru/list.ru/ivanchenkoaleksandr/_avatarsmall");' class="nwa-add__search-item__userpic" wa-action="userpic" wa-mail="ivanchenkoaleksandr@list.ru"></div> <div class="nwa-add__search-item__info"> <div class="nwa-add__search-item__name wa-cl-status-online">Александр Иванченко<div class="nwa-add__search-item__name-fader"></div></div> <div class="nwa-add__search-item__buttons"> <span class="nwa-add__search-item__button nwa-dialog__tools-profile" wa-action="profile" wa-mail="ivanchenkoaleksandr@list.ru">Анкета</span> <span class="nwa-add__search-item__button nwa-add__btn-add" wa-name="Александр Иванченко" wa-action="add" wa-mail="ivanchenkoaleksandr@list.ru">Добавить</span>

В ИТОГЕ ЧТО НУЖНО СДЕЛАТЬ ЧТО БЫ ОН СОБИРАЛ ТОЛЬКО МЕЙЛЫ КОТОРЫЕ МНЕ НУЖНЫ НА ДАННОМ ПРИМЕРЕ ОН НЕ ДОЛЖЕН СОБИРАТЬ Е-МЕЙЛЫ ТИПА @UIN.ICQ, С ОПРЕДЕЛЕННЫМ СТАТУСОМ В ДАННОМ СЛУЧАЕ ОН-ЛАЙН И ЧТО БЫ ЕСЛИ БЫЛИ ПОВТОРНЫЕ Е-МЕЙЛЫ ОН ИХ УБИРАЛ, И ЧТО БЫ СОХРАНЯЛ ВСЕ ЭТО В ФАЙЛ КАЖДЫЙ МЕЙЛ НА КАЖДОЙ СТРОКЕ. КАК МНЕ ЭТО СДЕЛАТЬ? ОБЪЯСНИТЕ ПЛИЗ ПОШАГОВО, В ДОЛГУ НЕ ОСТАНУСЬ)
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
893
Баллы
113
Парсите все что находится между wa-mail=" и wa-cl-status-online">(включительно)
потом вот этим сниппетом убираете uin.icq

var list = project.Lsts["Список 1"];
var list2 = project.Lists["Список 2"];
foreach (string str in list)
{
if(!str.Contains("@UIN.ICQ"))
{
list2.Add(str);
}
}
return 0;

Потом каждую строку в списке два обрабатываете или заменой или регуляркой чтобы остался только e-mail
чистите от дублей список
сохраняете его в фаил
 

hepner

Client
Регистрация
09.04.2011
Сообщения
154
Благодарностей
10
Баллы
18
Парсите все что находится между wa-mail=" и wa-cl-status-online">(включительно)
потом вот этим сниппетом убираете uin.icq

var list = project.Lsts["Список 1"];
var list2 = project.Lists["Список 2"];
foreach (string str in list)
{
if(!str.Contains("@UIN.ICQ"))
{
list2.Add(str);
}
}
return 0;

Потом каждую строку в списке два обрабатываете или заменой или регуляркой чтобы остался только e-mail
чистите от дублей список
сохраняете его в фаил
Это уже через CodeCreator надо все делать? И еще не много не понял как чистить от дублей список.
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
893
Баллы
113
Нет это можно сделать через вставку своего кода в проджект мейкере
это c#
Удаление дублей - есть такой экшн в операциях со списком
 
  • Спасибо
Реакции: hepner

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)