Парсер внешних и внутренних ссылок

Hitachi

Creators Template
Регистрация
25.09.2019
Сообщения
384
Благодарностей
347
Баллы
63
Описание

Шаблон переходит по указанной во входных настройках ссылке, парсит все ссылки с загруженной страницы.
В зависимости от установленных галочек записывает в таблицу нужные ссылки.
Далее, в зависимости от выбранной глубины парсинга, либо завершается, либо продолжает таким же образом проверять внутренние ссылки, найденные на предыдущем уровне.
Работа шаблона завершается либо при достижении заданной глубины, либо когда все найденные внутренние ссылки будут проверены.

Глубина:
  • 0 - проверять все найденные внутренние ссылки;
  • 1 - проверять только указанную страницу;
  • 2 - проверять указанную страницу, далее все страницы, найденные на ней;
  • и т. д.
Что сканируем?
  • Внутренние ссылки - в таблицу записываются все найденные внутренние ссылки;
  • Внешние ссылки - в таблицу записываются все найденные внешние ссылки;
  • Контакты (почты, телефоны) - в таблицу записываются найденные почты, телефоны, ссылки на viber, telegram, skype, whatsapp;
  • Изображения, документы - в таблицу записываются ссылки на изображения jpg, png, bmp, gif, а так же документы pdf.

Как пользоваться?

Во входных настройках указать ссылку на сайт, глубину поиска, выбрать ссылки, которые будут записываться в таблицу.

Для работы через прокси, добавить их в файл proxy.txt.

Результаты сохраняются в папку Results в .csv таблицу с именем "Сайт_дата__время" в формате "Уровень вложенности; Страница, где найдена ссылка; Ссылка; Анкор"
 
Категория
Парсинг
Тип шаблона
Открытый
Многопоточность
Нет
Дата обновления
21.09.2020
Описание обновления
Обновлено удаление внешних ссылок из списка проверяемых.
Изменена минимальная версия на 7.1.3.0

Вложения

Для запуска проектов требуется программа ZennoPoster.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...

Для того чтобы запустить шаблон, откройте программу ZennoPoster. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.

  • Спасибо
Реакции: woodoo1, Alexmd и xpyct20

xpyct20

Новичок
Регистрация
08.07.2015
Сообщения
4
Благодарностей
0
Баллы
1
Описание

Шаблон переходит по указанной во входных настройках ссылке, парсит все ссылки с загруженной страницы.
В зависимости от установленных галочек записывает в таблицу нужные ссылки.
Далее, в зависимости от выбранной глубины парсинга, либо завершается, либо продолжает таким же образом проверять внутренние ссылки, найденные на предыдущем уровне.
Работа шаблона завершается либо при достижении заданной глубины, либо когда все найденные внутренние ссылки будут проверены.

Глубина:
  • 0 - проверять все найденные внутренние ссылки;
  • 1 - проверять только указанную страницу;
  • 2 - проверять указанную страницу, далее все страницы, найденные на ней;
  • и т. д.
Что сканируем?
  • Внутренние ссылки - в таблицу записываются все найденные внутренние ссылки;
  • Внешние ссылки - в таблицу записываются все найденные внешние ссылки;
  • Контакты (почты, телефоны) - в таблицу записываются найденные почты, телефоны, ссылки на viber, telegram, skype, whatsapp;
  • Изображения, документы - в таблицу записываются ссылки на изображения jpg, png, bmp, gif, а так же документы pdf.

Как пользоваться?

Во входных настройках указать ссылку на сайт, глубину поиска, выбрать ссылки, которые будут записываться в таблицу.

Для работы через прокси, добавить их в файл proxy.txt.

Результаты сохраняются в папку Results в .csv таблицу с именем "Сайт_дата__время" в формате "Уровень вложенности; Страница, где найдена ссылка; Ссылка; Анкор"


Доброго времени подскажите в чем может быть дело, скачал данный шаблон входных настроек пишет нет http://prntscr.com/s7cf2i
 

Phoenix78

Client
Read only
Регистрация
06.11.2018
Сообщения
11 790
Благодарностей
5 720
Баллы
113

Hitachi

Creators Template
Регистрация
25.09.2019
Сообщения
384
Благодарностей
347
Баллы
63
  • Спасибо
Реакции: xpyct20 и ibred

xpyct20

Новичок
Регистрация
08.07.2015
Сообщения
4
Благодарностей
0
Баллы
1
Да только что проверил тоже самое, да походу версия маленькая сейчас поставлю, у меня деревня версия зенки 5,22 )
 
Последнее редактирование:

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 375
Благодарностей
2 040
Баллы
113
Добрый день. Скорее всего, у Вас версия ниже минимальной. Шаблон работает от версии 5.40
ну а ты возьми и в теме это напиши чтобы люди знали прочитав что да как
 

xpyct20

Новичок
Регистрация
08.07.2015
Сообщения
4
Благодарностей
0
Баллы
1
А как этот шаблон для парсинга перелинкованных топиков форума подойдет Или проще проверенным Xnue ?
(Хотя парсит не плохо спасибо за шаблон буду тестировать )
 

Hitachi

Creators Template
Регистрация
25.09.2019
Сообщения
384
Благодарностей
347
Баллы
63
А как этот шаблон для парсинга перелинкованных топиков форума подойдет Или проще проверенным Xnue ?
(Хотя парсит не плохо спасибо за шаблон буду тестировать )
По идее проблем не должно возникнуть, каждая страница проверяется только один раз
 

xpyct20

Новичок
Регистрация
08.07.2015
Сообщения
4
Благодарностей
0
Баллы
1
А можно его немного модифицировать ? например что бы он брал список ссылок, из фала и парсил именно содержимое из них. А не бегал по всему чему только можно?
 

ZULI

Client
Регистрация
09.09.2020
Сообщения
423
Благодарностей
165
Баллы
43
Результаты сохраняются в папку Results в .csv таблицу с именем "Сайт_дата__время" в формате "Уровень вложенности; Страница, где найдена ссылка; Ссылка; Анкор"
Папку и файлы создает шаблон сам? Что-то я пробовал погонять, проработав час (парсил внутряки одного инет магазина), через час мне вылетело с ошибкой что остановлен из-за лимита превышаемой памяти (хотя лимиты нигде не выставлены) и результатов никаких не увидел
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)