Как при парсинге, не допустить дубли?

Roman48

Client
Регистрация
28.02.2016
Сообщения
2 058
Благодарностей
745
Баллы
113
Нужно пару сайтов спарсить, вот как не допустить дубли новостей?
Собираю новости с сайта в список, чтобы каждый раз сайт заново не парсить, а со временем просто добавлять, в готовый список. Как это сделать лучше всего, как вариант ссылки записывать в список, именно то что уже спарсил, и от этого уже строить логику. Подскажите пожалуйста, какие еще есть варианты?
 

ZULI

Client
Регистрация
09.09.2020
Сообщения
423
Благодарностей
165
Баллы
43
как по мне так или ссылки или id новостей (для DLE) сохранять в список и при проходе сравнивать была такая страница или нет
 

Roman48

Client
Регистрация
28.02.2016
Сообщения
2 058
Благодарностей
745
Баллы
113
Но этот вариант, буду делать, если других вариантов не будет.
 

Alexmd

Client
Регистрация
10.12.2018
Сообщения
1 021
Благодарностей
1 423
Баллы
113
я бы в таблицу собирал. в первой колонке все ссылки на новости, во второй напротив каждой спаршенной новости какое-то значение(будь то + или url опубликованной на своем сайте новости - не важно - "маркер")
так вот при парсинге ссылок с доноров, проверять url по первому столбцу и добавлять/не добавлять в него, а при дальнейшей обработке брать по порядку из первого столбца ячейки под тем номером, где нет значения во втором столбце и соответственно записывать во второй столбец "маркер".
как-то так. накидаю сниппет, если надо.
 
  • Спасибо
Реакции: Roman48

Roman48

Client
Регистрация
28.02.2016
Сообщения
2 058
Благодарностей
745
Баллы
113
я бы в таблицу собирал. в первой колонке все ссылки на новости, во второй напротив каждой спаршенной новости какое-то значение(будь то + или url опубликованной на своем сайте новости - не важно - "маркер")
так вот при парсинге ссылок с доноров, проверять url по первому столбцу и добавлять/не добавлять в него, а при дальнейшей обработке брать по порядку из первого столбца ячейки под тем номером, где нет значения во втором столбце и соответственно записывать во второй столбец "маркер".
как-то так. накидаю сниппет, если надо.
Файл, я сайт спарсил, 36к новостей (он скоро закроется, контента будет:-) ) вот он весит 70 мб, обычный файл txt, таблица Excel хороший вариант, но новостей будет много тысяч 40 примерно с сайта.
Можете накидать сниппет/пример
 

radv

Client
Регистрация
11.05.2015
Сообщения
3 789
Благодарностей
1 954
Баллы
113
Лучше использовать БД, так как при использовании списков или таблиц, они будут расти в размерах и скорость проверки будет падать. В конкурсных статьях были примеры по работе с БД.
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 438
Благодарностей
9 135
Баллы
113
Нужно пару сайтов спарсить, вот как не допустить дубли новостей?
"Операции над списком - Удалить дубли" не подходит по каким то причинам?
Спарсил порцию статей, почистил на дубли, спарсил еще - еще раз почистил.
То есть каждый сеанс парсинга заканчивать удалением дублей.
 
  • Спасибо
Реакции: Roman48

rpla

Client
Регистрация
06.10.2017
Сообщения
12
Благодарностей
2
Баллы
3
Я так сделал. :ah:
 

Вложения

  • Спасибо
Реакции: Roman48

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)