сбор ссылок для парсинга до определенного вхождения, на котором нужно остановиться

m-power

Новичок
Регистрация
25.10.2023
Сообщения
16
Благодарностей
1
Баллы
3
есть у меня источник, который периодически планирую прогонять парсером повторно и добирать добавленные записи.
страницы - статика, их просто добавляют ежедневно и дальше висят без изменений.

как оптимальнее реализовать в шаблоне, что бы парсер ссылок останавливался при прохождении последней ссылки из уже отработанного списка которую я добавлю, сохранял результат и останавливал работу, а не продолжал сбор дальше?
 

m-power

Новичок
Регистрация
25.10.2023
Сообщения
16
Благодарностей
1
Баллы
3
еще вопрос попутно, столкнулся с ситуацией, бывает у записей совпадает идентификатор, который уже присутствует.
я его использую для персонализации при сохранении скриншота, что бы потом можно было найти при необходимости.

можно ли как то задать условие, что бы при сохранении скриншота инстанса если уже есть файл с таким же именем он записывался не поверх, а с добавлением цифры например?
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 625
Благодарностей
4 610
Баллы
113
там наверняка есть даты публикаций. Хранить самую свежую. Дойдя до ссылки с такой датой - останавливаться и перезаписать на саму свежую из новоспаршенных

повторяются айди - лучше генерировать свои. Ну а так, можно конечно. Имя файла будущего известно. Нужно только проверить его существование и если есть, то сделать замену в имени будущего файла. Но это мутор, если там могут по несколько раз айди повторятся
 
  • Спасибо
Реакции: m-power

m-power

Новичок
Регистрация
25.10.2023
Сообщения
16
Благодарностей
1
Баллы
3
там наверняка есть даты публикаций. Хранить самую свежую. Дойдя до ссылки с такой датой - останавливаться и перезаписать на саму свежую из новоспаршенных

повторяются айди - лучше генерировать свои. Ну а так, можно конечно. Имя файла будущего известно. Нужно только проверить его существование и если есть, то сделать замену в имени будущего файла. Но это мутор, если там могут по несколько раз айди повторятся
даты публикации увы нет.
раз нет какой то готовой функции для этого, решил как изначально и задумывал реализацию интуитивно, описываю на случай если возникнет схожая задача:
операции над таблицей >> выбрать список в который сохраняются ссылки >> получить строку >> содержит текст (поместить крайнюю ссылку из последнего парсинга)

у меня идет парсинг страницы, потом происходит контрольная проверка, при неудаче срабатывает переход на следующую страницу и продолжается сбор ссылок и так до тех пор, пока в результатах не будет найдена указанная ссылка.
 

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)