Парсер внешних и внутренних ссылок

  • Автор темы Автор темы Hitachi
  • Дата начала Дата начала
Название тестового шаблона
Парсер внешних и внутренних ссылок test

Hitachi

Creators Template
Регистрация
25.09.2019
Сообщения
384
Реакции
348
Баллы
63
Описание

Шаблон переходит по указанной во входных настройках ссылке, парсит все ссылки с загруженной страницы.
В зависимости от установленных галочек записывает в таблицу нужные ссылки.
Далее, в зависимости от выбранной глубины парсинга, либо завершается, либо продолжает таким же образом проверять внутренние ссылки, найденные на предыдущем уровне.
Работа шаблона завершается либо при достижении заданной глубины, либо когда все найденные внутренние ссылки будут проверены.

Глубина:
  • 0 - проверять все найденные внутренние ссылки;
  • 1 - проверять только указанную страницу;
  • 2 - проверять указанную страницу, далее все страницы, найденные на ней;
  • и т. д.
Что сканируем?
  • Внутренние ссылки - в таблицу записываются все найденные внутренние ссылки;
  • Внешние ссылки - в таблицу записываются все найденные внешние ссылки;
  • Контакты (почты, телефоны) - в таблицу записываются найденные почты, телефоны, ссылки на viber, telegram, skype, whatsapp;
  • Изображения, документы - в таблицу записываются ссылки на изображения jpg, png, bmp, gif, а так же документы pdf.

Как пользоваться?

Во входных настройках указать ссылку на сайт, глубину поиска, выбрать ссылки, которые будут записываться в таблицу.

Для работы через прокси, добавить их в файл proxy.txt.

Результаты сохраняются в папку Results в .csv таблицу с именем "Сайт_дата__время" в формате "Уровень вложенности; Страница, где найдена ссылка; Ссылка; Анкор"
 
Категория
  1. Парсинг
Тип шаблона
Открытый
Многопоточность
Нет
Дата обновления
21.09.2020
Описание обновления
Обновлено удаление внешних ссылок из списка проверяемых.
Изменена минимальная версия на 7.1.3.0

Вложения

  • Спасибо
Реакции: woodoo1, Alexmd и xpyct20
Описание

Шаблон переходит по указанной во входных настройках ссылке, парсит все ссылки с загруженной страницы.
В зависимости от установленных галочек записывает в таблицу нужные ссылки.
Далее, в зависимости от выбранной глубины парсинга, либо завершается, либо продолжает таким же образом проверять внутренние ссылки, найденные на предыдущем уровне.
Работа шаблона завершается либо при достижении заданной глубины, либо когда все найденные внутренние ссылки будут проверены.

Глубина:
  • 0 - проверять все найденные внутренние ссылки;
  • 1 - проверять только указанную страницу;
  • 2 - проверять указанную страницу, далее все страницы, найденные на ней;
  • и т. д.
Что сканируем?
  • Внутренние ссылки - в таблицу записываются все найденные внутренние ссылки;
  • Внешние ссылки - в таблицу записываются все найденные внешние ссылки;
  • Контакты (почты, телефоны) - в таблицу записываются найденные почты, телефоны, ссылки на viber, telegram, skype, whatsapp;
  • Изображения, документы - в таблицу записываются ссылки на изображения jpg, png, bmp, gif, а так же документы pdf.

Как пользоваться?

Во входных настройках указать ссылку на сайт, глубину поиска, выбрать ссылки, которые будут записываться в таблицу.

Для работы через прокси, добавить их в файл proxy.txt.

Результаты сохраняются в папку Results в .csv таблицу с именем "Сайт_дата__время" в формате "Уровень вложенности; Страница, где найдена ссылка; Ссылка; Анкор"



Доброго времени подскажите в чем может быть дело, скачал данный шаблон входных настроек пишет нет http://prntscr.com/s7cf2i
 
точно этот шаблон скачен ?

54659
 
  • Спасибо
Реакции: xpyct20
  • Спасибо
Реакции: xpyct20 и ibred
Да только что проверил тоже самое, да походу версия маленькая сейчас поставлю, у меня деревня версия зенки 5,22 )
 
Последнее редактирование:
Добрый день. Скорее всего, у Вас версия ниже минимальной. Шаблон работает от версии 5.40
ну а ты возьми и в теме это напиши чтобы люди знали прочитав что да как
 
А как этот шаблон для парсинга перелинкованных топиков форума подойдет Или проще проверенным Xnue ?
(Хотя парсит не плохо спасибо за шаблон буду тестировать )
 
А как этот шаблон для парсинга перелинкованных топиков форума подойдет Или проще проверенным Xnue ?
(Хотя парсит не плохо спасибо за шаблон буду тестировать )

По идее проблем не должно возникнуть, каждая страница проверяется только один раз
 
А можно его немного модифицировать ? например что бы он брал список ссылок, из фала и парсил именно содержимое из них. А не бегал по всему чему только можно?
 
Результаты сохраняются в папку Results в .csv таблицу с именем "Сайт_дата__время" в формате "Уровень вложенности; Страница, где найдена ссылка; Ссылка; Анкор"

Папку и файлы создает шаблон сам? Что-то я пробовал погонять, проработав час (парсил внутряки одного инет магазина), через час мне вылетело с ошибкой что остановлен из-за лимита превышаемой памяти (хотя лимиты нигде не выставлены) и результатов никаких не увидел
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)