1 место Большой пак для работы с изображениями: уникализация, нарезка и анализ схожести изображений

spesy · 10.09.2019

Всем привет!
Наверное многие знают меня по темам по ВК, ФБ и Инсте. Но если не знаете, не суть)

При работе с социальными сетями очень много внимания приходится уделять работе с изображениями. Обрезка, уникализация, очистка екзифа и многое другое. Многое, подсмотрел из апи соцсетей. Кое-что делал исходя из собственных гипотез. Сегодня я хотел бы поделиться некоторыми своими наработками по такому плану:
1. Простейшая уникализация (по большому счету для обучения работы графикой на зенке+c#)
2. Шаб по разрезке картинок для лендинга Инсты (практическая применимость на уровне медиум. Можно переделать под разные задачи)
3. Уникальный шаблон по поиску и анализу похожести изображений на основе подсчета расстояния Хемминга. (здесь практическая применимость максимальна: можно использовать в любых коммерческих проектах по работе с изображениями, создавать свои нейронки, включать в свои проекты и не бояться повторов изображений при постинге (как например делаю я). Если прикинуть, то с легкостью можно найти ещё до десятка применений)

1. Простейшая уникализация.

Алгоритм взял из одного сервиса по постингу в соцсеть.
Суть следующая:
1 Генерим массив координат картинки (пикселей), в примере 1000 значений
2 Прогоняем в цикле этот массив и присваиваем пикселю, который находится по значению массива, цвет соседнего пикселя.
На выходе картинка практически не меняется визуально, но уже другая. Для большей уникализации можно менять не на соседний, а через несколько пикселей. В этом случае картинка будет меняться визуально больше, но и уникализация выше.
Сделано максимально на c#

2. Шаб по разрезке картинок для лендинга Инсты

Была такая мода делать ленгинги для Инсты разрезанием на несколько картинок большой картинки.
Алгоритм:
1 Рассчитывается картинка как резать
2 Разрезается на 12 квадратов
3 Заполняются поля
Получаем картинки для загрузки в аккаунт. Также можно делать и для ВК, если изменить циферки. Довольно часто приходится что то резать, заполнять в изображениях. Поэтому разобраться в алгоритме думаю будет полезно.
Сделано максимально на c#

3. Уникальный шаблон по поиску и анализу похожести изображений

Ну и наконец, серьезная научная штука)
Изначально мне надо было НЕ постить в свои группы похожие посты. Т.е. собирал я их из разных групп/доноров, но похожих тематик. И вероятность того, что со временем попадется одинаковый пост стремилась к 99.99999% . Что для меня было просто возмутительно. Можно было бы конечно искать по тексту поста, но это так себе способ. Всё таки картинка может быть и с другим текстом. Поэтому было принято решение - рыть! В итоге нашелся способ определеня похожих картинок. Вот здесь он описан очень подробно.
Краткий алгоритм:
1. Уменьшаем размер картинки, чтобы видны были только наиболее выделяющиеся контуры.
Самый быстрый способ избавиться от высоких частот — уменьшить изображение. В данном случае мы уменьшаем его до 8х8, так что общее число пикселей составляет 64. Можно не заботиться о пропорциях, просто загоняйте его в квадрат восемь на восемь. Таким образом, хэш будет соответствовать всем вариантам изображения, независимо от размера и соотношения сторон.
2. Убираем цвет. Маленькое изображение переводится в градации серого, так что хэш уменьшается втрое: с 64 пикселей (64 значения красного, 64 зелёного и 64 синего) всего до 64 значений цвета.
3. Находим среднее значение яркости получившегося изображения.
4. Бинаризация картинки. Оставляем только те пиксели, которые больше среднего (считаем их за 1, а все остальные за 0).
5. Строим хэш. Переводим полученные 64 значений 1 и 0 картинки в одно 64-битное значение хэша.
Теперь осталось самая малость)) Закодить его в зенке, точнее большая часть на c#. Сказано-сделано-затестировано. Работает замечательно. Чем меньше разница хешей, тем более похожее изображение.
Сделано максимально на c#

Спасибо за внимание! Будут вопросы - пишите!

Master4eg · 10.09.2019

Лайк. 3 Способ как раз есть куда применить, только наоборот в поиске похожего изображения)

DrunkDeath · 10.09.2019

Шикарно!

Juniorcpa · 10.09.2019

Кайф, запилю к себе в проект полюбому что-то

Nike59 · 10.09.2019

Отлично! Особенно впечатлил и порадовал алгоритм проверки изображений на похожесть. Прикручу к своим шаблонам.

Zennovods · 11.09.2019

Огонь!

Dr.Pipetka · 11.09.2019

Годно! Как раз надо похожие изобрадения фильтровать.

spesy · 11.09.2019

Спасибо за хорошие отзывы! Если интересно, то можем совместно накидать варианты куда можно приделать проверку изображений)

Danko33 · 11.09.2019

Не пойму, как пользоваться первым шаблоном (простая уникализация). Путь к первой картинке, путь ко второй картинке. Шаблон сравнивает их или уникализирует?

spesy · 11.09.2019

Danko33 написал(а):
Не пойму, как пользоваться первым шаблоном (простая уникализация). Путь к первой картинке, путь ко второй картинке. Шаблон сравнивает их или уникализирует?

первый путь - исходная картинка
второй путь - уникализированная

Master4eg · 11.09.2019

Можно ли как-то "Увеличить четкость распознавания"? Я сейчас сравниваю разные части на одной картинке, выдало 3 места с минимальным значением, но мне нужно обязательно только одно самое подходящее

spesy · 12.09.2019

Master4eg написал(а):
Можно ли как-то "Увеличить четкость распознавания"? Я сейчас сравниваю разные части на одной картинке, выдало 3 места с минимальным значением, но мне нужно обязательно только одно самое подходящее

в этом алгоритме достаточно сложно увеличить градацию. Для увеличения четкости нужно использовать алгоритм основанный на расчете pHash. Он будет гораздо медленнее, но будет более терпимее к изменениям картинки. Но я подумаю как тут можно увеличить шаг.

Master4eg · 12.09.2019

spesy написал(а):
Но я подумаю как тут можно увеличить шаг.

Буду признателен

Zheka84 · 18.09.2019

spesy написал(а):
Для большей уникализации можно менять не на соседний, а через несколько пикселей

Здравствуйте, подскажите пожалуйста какие параметры менять, что бы добиться большей уникализации, что-то никак не пойму. И спасибо за шаблоны.

tatarin · 18.09.2019

Попробывал уникализатор, для яндекса не помогло!

spesy · 18.09.2019

Zheka84 написал(а):
Здравствуйте, подскажите пожалуйста какие параметры менять, что бы добиться большей уникализации, что-то никак не пойму. И спасибо за шаблоны.

Приветствую! Для более точного сравнения надо использовать алгоритм с вычислением pHash он похож (он в статье есть), но требует доработки. запланировал его сделать, т.к. попросило уже 4 человека. Поэтому примерно через 2 недели выложу его здесь. Пока просто ахтунг по времени.

tatarin написал(а):
Попробывал уникализатор, для яндекса не помогло!

яндекс и вообще поисковики используют алгоритм сравнения изображений из п.3 статьи. Поэтому надо или увеличивать шум или делать вращения/отображения картинки.

Zheka84 · 19.09.2019

spesy написал(а):
Приветствую! Для более точного сравнения надо использовать алгоритм с вычислением pHash он похож (он в статье есть), но требует доработки. запланировал его сделать, т.к. попросило уже 4 человека. Поэтому примерно через 2 недели выложу его здесь. Пока просто ахтунг по времени.

Вероятно не правильно меня поняли... или я не понял

я спрашивал за первый шаблон - уникализатор. Вы написали "Для большей уникализации можно менять не на соседний, а через несколько пикселей ". Как это реализовать? Если я чего-то не понял - извините)

Eduard · 21.09.2019

spesy написал(а):
яндекс и вообще поисковики используют алгоритм сравнения изображений из п.3 статьи. Поэтому надо или увеличивать шум или делать вращения/отображения картинки.

А в чем тогда смысл такой уникализации?

spesy · 22.09.2019

Zheka84 написал(а):
Вероятно не правильно меня поняли... или я не понял я спрашивал за первый шаблон - уникализатор. Вы написали "Для большей уникализации можно менять не на соседний, а через несколько пикселей ". Как это реализовать? Если я чего-то не понял - извините)

Вот эта строчка отвечает за замену на соседний пиксель - http://joxi.ru/nAyO6BPtgDpn1m +1 это смещение координаты на 1 . Если сделть смещение на +10 то будет картинка не такая четкая и более уникализированная.
Также совсем просто можно добавить инструментами кубика зенки Обработка изображений - поворот картинки, отображение и генерация exif . Это я не стал делать в примере, потому как реализации этого уже есть на форуме.
Всё в сочетании дает хороший универсальный результат.

She · 24.09.2019

Здраствуйте @spesy.
2. Шаб по разрезке картинок для лендинга Инсты - режет картинки. У вас 3м пунктом указано, 3 Заполняются поля.
У меня получилось только разрезать. Подскажите как заполнять поля, где увидеть поля, как их редактировать?

She · 25.09.2019

Здраствуйте @spesy

spesy · 26.09.2019

She написал(а):
2. Шаб по разрезке картинок для лендинга Инсты - режет картинки. У вас 3м пунктом указано, 3 Заполняются поля.

ага да, заполняем посты с этими картинками в аккаунте инсты. Только последовательность не перепутать

клок · 02.10.2019

spesy написал(а):
первый путь - исходная картинка
второй путь - уникализированная

извиняюсь,всё таки, - шаблон сам уникализирует изображения, или вычисляет разницу между хэшами?

Анатолий · 02.10.2019

это нечто на уровне: лишь бы ляпнуть...
из первого шаба - то что ты взял массив координат и пристроил ему сбоку пиксель это всё супер, можно внятно объяснить - зенка этого кренделя побрила сама или всё же нашла похожее фото в сети?
я к примеру потестил только первый шаб и нигде ничего уникализированного не нашёл, все поисковики прекрасно видят неуникальность фоток, к тому же фотки теряют качество многократно...
сам то прочти свой пост глазами стороннего наблюдателя, тут далеко не экстрасексы и не всем ясно что у кого в голове...

proffman · 12.10.2019

spesy написал(а):
Для более точного сравнения надо использовать алгоритм с вычислением pHash... запланировал его сделать, т.к. попросило уже 4 человека.

Еще не передумали? Попробуете? Третий вариант работает совсем непредсказуемо, и точность.... Ну совсем никакая, как и определяет сходство с полностью другим текстом, так и сами копии текстов.

spesy · 13.10.2019

riptup написал(а):
Еще не передумали? Попробуете? Третий вариант работает совсем непредсказуемо, и точность.... Ну совсем никакая, как и определяет сходство с полностью другим текстом, так и сами копии текстов.

да, разбираюсь, непредсказуемо почему? вроде бы дубликаты очень хорошо отсеивает

proffman · 13.10.2019

spesy написал(а):
да, разбираюсь, непредсказуемо почему? вроде бы дубликаты очень хорошо отсеивает

Хорошо, продолжай )) Одинаковые по размеру скриншоты из соц-сетей, скорее всего отсеивать будет хорошо. А изобраджения разного размера, с разницей в иконках или фото одного и того же человека, почти одни и те же цифры может показывать. Т. к., абсолютно разные человек на фото, но показатель схожести может быть выше (т. е., ближе к нулю), чем фото одного и того же человека. Но это так, с текстами такое же, для обычных постов из соц-сети я думаю будет норм. Я пробовал например скопировать часть текста с форума, помещать в word и менять стили, часто совсем разные тексты показывает, что они ближе похожие, чем одни и те же тексты, но уже с разными стилями, размер шрифта, картинки и т. п.

DarkSky · 11.11.2019

Здравствуйте ребят, может поможете.
хотим убрать лого с картинки, как переделать код чтоб уникализатор работал конкретно в определенных местах (там где лого)?

spesy · 12.11.2019

DarkSky написал(а):
хотим убрать лого с картинки, как переделать код чтоб уникализатор работал конкретно в определенных местах (там где лого)?

нужно разделить картинку на части = размеру лого и прогнать

smartwisard · 14.02.2020

Шаб Unik.xmlz не делает рандом. Правильно?
(P.S. Прошу прощения, что C# не умею читать)

1 место Большой пак для работы с изображениями: уникализация, нарезка и анализ схожести изображений

Активный пользователь

Вложения

Client

Client

Client

Client

Client

Client

Активный пользователь

Client

Активный пользователь

Client

Активный пользователь

Client

Client

Client

Активный пользователь

Client

Новичок

Активный пользователь

Client

Client

Активный пользователь

Client

Client

Client

Активный пользователь

Client

Client

Активный пользователь

Client

Похожие темы

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)