Всем привет, решил попарсить данные спорт событий и столкнулся с проблемой написания (названия играющих команд)
суть: беру 2 разных источника, оба спарсил и потом сверяю информацию, но чтобы сопоставить игры я могу использовать только точные совпадения команд.
Примеры не решенной проблемы
источник 1:
Legion Dinamo - Anzhi Makhachkala
источник 2:
Legion Dynamo - FK Anzi Makhackala
источник1:
Platense (w) - Huracan (w)
источник2:
Platense W - Huracan W
зенка считает что Legion Dinamo - Anzhi Makhachkala != Legion Dynamo - FK Anzi Makhackala и Platense (w) - Huracan (w) != Platense W - Huracan W
а я знаю что Legion Dinamo - Anzhi Makhachkala == Legion Dynamo - FK Anzi Makhackala и Platense (w) - Huracan (w) == Platense W - Huracan W
и таких примеров масса, по факту совпадает около 50%, а это половина не обработанной информации =(
искать в ручную все варианты не совпадений и писать для них регулярки чтобы потом обработать текст и привести к максимально схожим данным - это не выход, так как регулярками можно навносить ненужных изменений.
существуют ли какие то базы похожих правописаний? можно ли сделать если 95% текста совпадает то считать его одинаковым?
может существуют какие то другие варианты? даже не могу сформировать поисковый запрос в какую сторону гуглить))))
подскажите в какую сторону копать?
суть: беру 2 разных источника, оба спарсил и потом сверяю информацию, но чтобы сопоставить игры я могу использовать только точные совпадения команд.
Примеры не решенной проблемы
источник 1:
Legion Dinamo - Anzhi Makhachkala
источник 2:
Legion Dynamo - FK Anzi Makhackala
источник1:
Platense (w) - Huracan (w)
источник2:
Platense W - Huracan W
зенка считает что Legion Dinamo - Anzhi Makhachkala != Legion Dynamo - FK Anzi Makhackala и Platense (w) - Huracan (w) != Platense W - Huracan W
а я знаю что Legion Dinamo - Anzhi Makhachkala == Legion Dynamo - FK Anzi Makhackala и Platense (w) - Huracan (w) == Platense W - Huracan W
и таких примеров масса, по факту совпадает около 50%, а это половина не обработанной информации =(
искать в ручную все варианты не совпадений и писать для них регулярки чтобы потом обработать текст и привести к максимально схожим данным - это не выход, так как регулярками можно навносить ненужных изменений.
существуют ли какие то базы похожих правописаний? можно ли сделать если 95% текста совпадает то считать его одинаковым?
может существуют какие то другие варианты? даже не могу сформировать поисковый запрос в какую сторону гуглить))))
подскажите в какую сторону копать?