Всем привет. Есть проект парсинга объявлений недвижимости с разных сайтов. Проект складывает данные с разных источников (досок объявлений)в БД.
Необходимо перед добавлением найденного объекта проверить, добавляли ли объект с такими же фото ранее с этого или других сайтов.
Понимаю что 100% от дублей избавиться не удастся, т.к. фото могут быть и разными, но как правило авторы в объявлениях используют одни и те же снимки.
Искал в поиске и понимаю, что нужно преобразовывать изображения в hash. В этой теме https://zennolab.com/discussion/threads/bolshoj-pak-dlja-raboty-s-izobrazhenijami-unikalizacija-narezka-i-analiz-sxozhesti-izobrazhenij.64826/ проект который по hash сравнивает изображения и выдает числовое значение.
Примерно понимаю, что в момент добавления мне необходимо сохранять hash каждого изображения в таблицу и при каждом последующем добавлении нового объекта сравнивать hash нового изображения с hash ранее добавленными.
Прикрепил пример фото одной и той же квартиры, но с разных сайтов источников (наложены водяные знаки сайтов).
Проект преобразовывает их в hash
hash1: 4484514556742998046
hash2: 9096200575170385950
hashdiv: 1
Не совсем ясно как сравнивать hash1 добавляемого изображения с 1-10К hash2 ранее добавленных изображений. Может кто-нибудь ткнуть в нужном направлении?
Необходимо перед добавлением найденного объекта проверить, добавляли ли объект с такими же фото ранее с этого или других сайтов.
Понимаю что 100% от дублей избавиться не удастся, т.к. фото могут быть и разными, но как правило авторы в объявлениях используют одни и те же снимки.
Искал в поиске и понимаю, что нужно преобразовывать изображения в hash. В этой теме https://zennolab.com/discussion/threads/bolshoj-pak-dlja-raboty-s-izobrazhenijami-unikalizacija-narezka-i-analiz-sxozhesti-izobrazhenij.64826/ проект который по hash сравнивает изображения и выдает числовое значение.
Примерно понимаю, что в момент добавления мне необходимо сохранять hash каждого изображения в таблицу и при каждом последующем добавлении нового объекта сравнивать hash нового изображения с hash ранее добавленными.
Прикрепил пример фото одной и той же квартиры, но с разных сайтов источников (наложены водяные знаки сайтов).
Проект преобразовывает их в hash
hash1: 4484514556742998046
hash2: 9096200575170385950
hashdiv: 1
Не совсем ясно как сравнивать hash1 добавляемого изображения с 1-10К hash2 ранее добавленных изображений. Может кто-нибудь ткнуть в нужном направлении?