Шаблон для сбора статистики с каналов Яндекс Дзен

  • Автор темы Автор темы swed
  • Дата начала Дата начала

swed

Client
Регистрация
03.01.2012
Сообщения
31
Реакции
46
Баллы
18
Приветствую.
Сегодня я хотел бы представить вам шаблон, который собирает полную статистику с каналов в Яндекс Дзен, детально с каждого поста. При этом делает это и со статей, и с нарративов.

Готовых сервисов подобного плана я еще не видел, однако подобная статистика может быть очень полезна, например, для анализа конкурентов, анализа ниши в целом, или для составления контент-плана своего канала.

Алгоритм работы несложный.
Сначала заходим на исследуемый канал, при помощи эмуляции нажатия кнопки Down пролистываем вниз, до самых первых записей (Дзен использует ajax подгрузку материалов).
Дальше берем DOM и парсим ссылки на все статьи, складывая их в отдельный список.
После чего, в цикле берем каждую ссылку, заходим по ней на страницу со статьей, и так же набором регулярных выражений собираем необходимую информацию: заголовок статьи, время публикации, количество просмотров и дочитываний, количество комментариев. К сожалению, приходится использовать для этого браузер, так как GET запросом можно получить только заголовок и количество комментариев, остальное видимо подгружается через javascript.
А дальше, остается только почистить немного полученную информацию, и записать ее в файл.

В файле, в качестве разделителей, я использую таб, для удобного открытия полученной статистики в гугл таблицах. Если же вы используете, например, ексель, то надо будет поменять разделители при сохранении.
zenno SH3-1.jpg

Их входящих настроек в шаблоне только ссылка на исследуемый канал, ну и еще можно поправить количество циклов подгрузки статей, уменьшив ее, если анализируемый канал слишком молод.

Надеюсь кому то данный шаблон будет полезен.
 
Номер конкурса шаблонов
  1. Третий конкурс шаблонов
Уровень сложности
Лёгкий
Категория
  1. Парсинг
  2. SMM

Вложения

Последнее редактирование модератором:
Для чего это может пригодится ?
 
из 1000+ статей спарсилось лишь 500 с лишним, а регулярками разобралось чуть менее 50. шаблон работал часа 3 и завершил с ошибкой.
Выполнение действия WebBrowserData Ошибка обращения к Instance.ActiveTab

а сама идея хорошая. жене плотно занимается дзеном и ей понравилось. теперь придется состряпать такой же
 
Я пока не понял как можно произвести анализ конкурентов. ЯДзен льет всем показы как хочет и дочитки идут тоже по разному.
 
  • Спасибо
Реакции: specialist
из 1000+ статей спарсилось лишь 500 с лишним, а регулярками разобралось чуть менее 50. шаблон работал часа 3 и завершил с ошибкой.
Выполнение действия WebBrowserData Ошибка обращения к Instance.ActiveTab
Про количество спаршеных - тогда стоит добавить количество итераций, возможно установленных по дефолту не хватило для того, что бы отмотать к самому началу канала.
Про ошибку же - странно, там обычный переход по ссылкам, падать вроде нечему. Может инет пошаливает?
В любом случае, ссылки спаршеные остаются, можно вынести сбор статистики в отдельный шаблон, выпилив просто проход по каналу. Тогда и парсить можно во много потоков будет, что ускорит сбор.

Я просто собирал с определенных каналов, мне скорость была не важна, и работает все стабильно.
 
Я просто собирал с определенных каналов
Расскажите, как анализируете конкурентов. Мне тоже стало интересно. Даже внутри канала, на одну статью дали больше показов, на вторую меньше, но это не показывает её популярность у читателей.

1) Как сопоставить каналы, яндекс трафик распределяет не равномерно, это не форум, чтобы по просмотрам и датам сравнить популярность.
2) Как определить прочие факторы, которые увеличивают счетчик, но по факту пустышки.
 
К сожалению не работает, скорее всего из-за того что нахожусь в Украине. Как поставить прокси?
 
Поставил ВПН на комп, естественно заработало, но оно почему то парсит только первые 9-10 статей и все и заканчивает работу
 
У меня работает стабильно.
Количество итераций прокрутки не уменьшали?
 
У меня работает стабильно.
Количество итераций прокрутки не уменьшали?
К сожалению, я плохо знаком с зенкой, я подозреваю что проблема в моей зенке у меня старая версия 5.11, а скачал демку затестить и работает, очень полезный шаблон, спасибо.

А есть возможность докрутить его? Есть вот такие предложения
1) Добавить возможность работать через свои прокси
2) Возможность парсить сразу несколько каналов
3) И очень интересная идея, есть ли возможность ее реализовать? парсить не по каналу а по тегу к примеру вот так https://zen.yandex.ru/t/финансы понятное дело что там и сайты будут попадаться их просто не учитывать, и лента по тегу бесконечная, поэтому сделать просто какое то ограниченное количество карточек
 
  • Спасибо
Реакции: kamysh
Видимо Дзен что то поменял. У меня вот такой результат... Хотя в канале посты есть и их много
63235
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)