Вопрос по парсингу

miir1981

Client
Регистрация
13.12.2019
Сообщения
102
Благодарностей
19
Баллы
18
Подскажите пожалуйста, где-то видел и забыл, а сообразить не могу. Статейник с урлами вида https://сайт.рф/page{} как поставить условие не зная точно кол-во страниц, чтобы после крайней страницы шаблон завершал работу
 

Вложения

one

Client
Регистрация
22.09.2015
Сообщения
6 833
Благодарностей
1 275
Баллы
113
Надо сначала собрать ко-во страниц, оно должно быть а потом уже подставлять используя счетчик.
 

miir1981

Client
Регистрация
13.12.2019
Сообщения
102
Благодарностей
19
Баллы
18
Надо сначала собрать ко-во страниц, оно должно быть а потом уже подставлять используя счетчик.
Зачем? На сайте 10 рубрик, в каждой рубрике N количество статей по 20 шт на страницу, нужно спарсить названия статей с сохранением в файл, отдельный для каждой рубрики. На скрине видно в одной рубрике 470 страниц * по 20 статей, а в другой рубрике будет 1200 страниц
 

miir1981

Client
Регистрация
13.12.2019
Сообщения
102
Благодарностей
19
Баллы
18
Делал {-Variable.i-}<470 , будет ли правильным {-Variable.i-}!=null ?
 

BAZAg

Client
Регистрация
08.11.2015
Сообщения
1 787
Благодарностей
2 453
Баллы
113
Делал {-Variable.i-}<470 , будет ли правильным {-Variable.i-}!=null ?
Так создайте новую переменную {-Variable.count-} и поместите в нее это значение 470.
А когда попадёте в другую категорию - поместите туда 1200.
Получится примерно то что Вы хотите. Или нет?

Условие будет такое:
{-Variable.i-}<{-Variable.count-}
 

miir1981

Client
Регистрация
13.12.2019
Сообщения
102
Благодарностей
19
Баллы
18
Так создайте новую переменную {-Variable.count-} и поместите в нее это значение 470.
А когда попадёте в другую категорию - поместите туда 1200.
Получится примерно то что Вы хотите. Или нет?

Условие будет такое:
{-Variable.i-}<{-Variable.count-}
я хотел бы, чтобы в автоматическом режиме осуществлялся обход всех страниц в рубрике( не знаю как это правильно выразить, когда закончатся страницы, чтобы бот переходил к выполнению следующего задания. Но я не могу задать условие (((
 

miir1981

Client
Регистрация
13.12.2019
Сообщения
102
Благодарностей
19
Баллы
18

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 357
Благодарностей
9 093
Баллы
113
Можно привязаться к ошибке, выводимой на странице, когда страницы закончились.
Либо на некоторых сайтах бывает что если стр. закончились, то выводится контент самой последней страницы. В этом случае можно проверять спарсились ли новые данные, если нет, то значит достигли конца рубрики и новых страниц нет, пора менять рубрику.
 

ZULI

Client
Регистрация
09.09.2020
Сообщения
423
Благодарностей
165
Баллы
43

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 357
Благодарностей
9 093
Баллы
113
  • Спасибо
Реакции: miir1981

miir1981

Client
Регистрация
13.12.2019
Сообщения
102
Благодарностей
19
Баллы
18

backoff

Client
Регистрация
20.04.2015
Сообщения
6 042
Благодарностей
6 476
Баллы
113
1. лезешь сюда - https://androidinsider.ru/robots.txt
2. находишь это - https://androidinsider.ru/sitemap.xml
3. парсишь все ссылки типа https://androidinsider.ru/sitemap-pt-post-2023-11.xml
4. парсишь все ссылки на посты типа https://androidinsider.ru/smartfony/10-argumentov-pediatra-v-polzu-zapreta-ispolzovaniya-detmi-mobilnyih-devaysov.html
5. переходишь в пост и парсишь его
6. из поста парсишь все нужное, категорию, теги и тп что надо
7. добавляешь спаршенную страницу в текстовик типа "done.txt"
8. когда надо будет спарсить заново сайт, парсишь все ссылки на посты, сравниваешь с ссылками что УЖЕ парсил, удаляешь не нужное, парсишь нужное

113931


ps \ жаль отключен rest api на сайте, было бы еще проще )
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 357
Благодарностей
9 093
Баллы
113
  • Спасибо
Реакции: miir1981

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)