Пишем парсеры в Zennoposter на C#. Инструкция для новичков от новичка

Sanekk · 21.05.2019

ТС за либу EPPlus.dll респект, давно хотел погуглить что-то такое.. но вечно лень т.к. таблицы редко юзаю

doc · 21.05.2019

Эта либа внутри себя как-то лочит действия?

filatelika · 21.05.2019

Супер!
Мне как новичку все понятно и просто.
Давайте еще статей для новичков в таком духе.
Про Xpath хотелось бы еще материала, если будет желание обязательно пишите, буду ждать.
Благодарю зи инфу

Nike59 · 21.05.2019

Надо еще указать, что в данном случае для составления путей XPath используется плагин XPath Helper Wizard для Chrome. Для новичка статья вполне достойная.

GAGAn · 21.05.2019

На сколько этот способ быстрее чем просто экшенами парсить?

Demiz · 22.05.2019

Отличная статья для новичков. Как раз сейчас изучаю xpath. Буду голосовать за тебя! Годнота! Респект и + в карму

Supergrok · 22.05.2019

filatelika сказал(а):
Супер!
Про Xpath хотелось бы еще материала, если будет желание обязательно пишите

есть видео уроки по XPath
https://cloud.mail.ru/public/2dMD/5kV9aC2hc
также есть по С# уроки от него же
и по написанию спамеров
кому нужно пишите в лс кину остальные ссылки. Видео около15 гиг объемом

gevolushn · 22.05.2019

doc сказал(а):
Эта либа внутри себя как-то лочит действия?

Тестил блочит или нет. Ответ: не блочит. Только при записи package.Save(), наверное.

По сабжу. Годнота!

Master4eg · 22.05.2019

Эх, показал бы хоть кто в примере как парсить инсту, там все классы обновляются

tony11111 · 22.05.2019

Просматривал на днях курс Рогожкина по С#. Статья похоже по мотивам курса ) Автором усвоено хорошо, плюс.

zarufakis · 22.05.2019

Сомнительный метод дрочиться с хпатх, если есть решения из коробки, причем гораздо проще.

Можно гетом взять код страницы в переменную, и кубиком "Парсить данные" вытащить нужное из переменной, так же как из DOM, не прибегая к вебу, тогда все будет летать на многопотоке. Затем все это записать в CSV, который так же прикрасно открывается экселем.

amyboose · 22.05.2019

zarufakis сказал(а):
Сомнительный метод дрочиться с хпатх, если есть решения из коробки, причем гораздо проще.

Можно гетом взять код страницы в переменную, и кубиком "Парсить данные" вытащить нужное из переменной, так же как из DOM, не прибегая к вебу, тогда все будет летать на многопотоке. Затем все это записать в CSV, который так же прикрасно открывается экселем.

в БД записать ещё лучше и быстрее
Я бы взял связку get запросы + htmlagility + БД
Плюс есть способ для продвинутых пользователей парсить через xpath не начиная каждый раз с корня и не проходя по циклу, а использовать LINQ, например

zarufakis · 22.05.2019

amyboose сказал(а):
в БД записать ещё лучше и быстрее
Я бы взял связку get запросы + htmlagility + БД
Плюс есть способ для продвинутых пользователей парсить через xpath не начиная каждый раз с корня и не проходя по циклу, а использовать LINQ, например

с БД все вообще по маслу полетит ))

vrska · 23.05.2019

zarufakis сказал(а):
Сомнительный метод дрочиться с хпатх, если есть решения из коробки, причем гораздо проще.

Можно гетом взять код страницы в переменную, и кубиком "Парсить данные" вытащить нужное из переменной, так же как из DOM, не прибегая к вебу, тогда все будет летать на многопотоке. Затем все это записать в CSV, который так же прикрасно открывается экселем.

А можно соснуть, если данные подгружаются ява-скриптом

tony11111 · 23.05.2019

Нужно просто сначала просмотреть/изучить курс Ростоникса, который в хелпе есть, и все.

bumer · 23.05.2019

Хорошая статья, все так просто написано и приведены такие классные примеры.

russya · 23.05.2019

tony11111 сказал(а):
Просматривал на днях курс Рогожкина по С#. Статья похоже по мотивам курса ) Автором усвоено хорошо, плюс.

тоже смотрел и кажется что автор обучался по его курсам. Хотя могу ошибаться

russya · 23.05.2019

amyboose сказал(а):
в БД записать ещё лучше и быстрее
Я бы взял связку get запросы + htmlagility + БД
Плюс есть способ для продвинутых пользователей парсить через xpath не начиная каждый раз с корня и не проходя по циклу, а использовать LINQ, например

а зачем htmlagility , если у зенки появилась новая функция

Код:

ssilki = ZennoPoster.Parser.ParseByXpath(get,"//div[contains(@class,'s-include-content-margin s-border-bottom')]","outerhtml").ToList();

очень удобно работать с гет запросами и ParseByXpath. Только есть одно но, если xpath не находит, то выходит по ошибки с с#. Но думаю разрабы скоро исправят это.
А так крутая вещь и не нужно никаких библиотек подрубать

Redsmokky · 23.05.2019

Спасибо, крутая статья :ay:

Шива · 23.05.2019

vrska сказал(а):
А можно соснуть, если данные подгружаются ява-скриптом

Если данные подгружаются значит их можно выдернуть запросом.

Gavrosh · 24.05.2019

@volody00 , а почему не привел примеры с парсингом картинок. Хотя бы аватарок. Довольно часто встречается необходимость помимо всего скачать фотки, и добавить адреса расположения на диске, для дальнейшей работы.
Может добавишь инструкцию!?

Gavrosh · 24.05.2019

volody00 сказал(а):
Сначала нам надо скачать пути к картинке и сложить их в таблицу. Т.е. делаешь тоже самое, что описано в статье, только сложить тебе надо будет не текст, а значение атрибута src тега img.
Дальнейший код подразумевает, что у нас подключена библиотека Epplus.dll и мы берем пути к картинкам начиная со 2 строки 2 столбца из таблицы xls

C#:

//начало: подключение таблицы var package = new ExcelPackage(new FileInfo(@"E:\zennoposter - проекты\для конкурса\наша табличка.xlsx")); //путь к табличке ExcelWorksheet tabletest = package.Workbook.Worksheets[1]; //где tabletest - имя(любое) – лучше вообще никогда не менять, а 1 - номер листа в excel //конец: подключение таблицы for(int k = 2; k<=tabletest.Dimension.Rows; k++) //цикл для сохранения картинок { string strImageURL = tabletest.GetValue(k,2).ToString(); //ложим в переменную strImageURL урл картинку из таблицы из k строки 2 столбца string papka_save = @"E:\флешка\"; //папка куда хотим сохранить файлы string strDownloadResult = ZennoPoster.HttpGet(strImageURL,"","UTF-8",ZennoLab.InterfacesLibrary.Enums.Http.ResponceType.File,5000); //get запрос для сохранения изображения (в переменную кладется путь к скаченному файлу) File.Move(strDownloadResult, papka_save + new FileInfo(strDownloadResult).Name); //перемещаем сохраненные файлы в нужную нам папку }

Записать путь в таблицу к сохраненной картинке не подскажешь?

Вроде как так
tabletest.SetValue(a,5,strDownloadResult);

Gavrosh · 24.05.2019

volody00 сказал(а):
Тут у тебя будет записан путь, куда скачиваются картинки по умолчанию (если ничего не напутал я). Можешь так и оставлять а последнюю строчку закомментировать. А как прописать после перемещения тут надо подумать, а сейчас времени уже нету. Напишешь завтра если не получится у тебя реализовать то, что тебе нужно

Все парситься, но вот записать путь к сохраненной картинке так и не получилось
использовал tabletest.SetValue(a,5,strDownloadResult);

В логе пишет все OK! картинки в папке, но путей к ним в таблицу не заносятся.

redman · 24.05.2019

volody00 сказал(а):
как работать с Get запросами

Как пользоваться htmlagility

Как пользоваться БД

Пункт 1 достаточно.
Ну может быть потом ещё пункт 3, если нужно парсить круглосуточно в 100500 потоков.

Пишем парсеры в Zennoposter на C#. Инструкция для новичков от новичка

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Известная личность

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)