Парсинг вордстат

Sewanew

Пользователь
Регистрация
28.01.2017
Сообщения
134
Благодарностей
3
Баллы
18
При парсинге все страницы выдачи парсятся нормально, но с последней захватываются рекомендуемые запросы, которые не нужны. Эти рекомендуемые запросы всегда находятся в конце списка их не более 15 штук, как их удалить из списка ума не дам. Их число постоянно плавает, и число спарсеных, нужных ключей тоже постоянно плавает, т.е. к нему не привяжешься. Я вижу только одну закономерность, ключи в списке идут со значениями по количеству запросов от большего к меньшему, т.е. от скажем 1000 у верхних в списке ключей до 5 у нижних, и дальше идут эти рекомендованные, у них кол-во запросов всегда больше 5, их как я уже говорил не больше 15 штук, и кол-во их разное от 0-15. Как этот хвост идентифицировать и удалить, что бы применить возможный алгоритм (которого я ещё не знаю), к именно последним строкам в списке?
 

Bablozavr

Client
Регистрация
26.01.2018
Сообщения
310
Благодарностей
164
Баллы
43
Спарсил страницу, циклом прошелся и проверил каждую строку, чтобы следующее число (кол-во) запросов было меньше или равно предыдущему.
Если подходит по условию, сохраняешь строку, иначе останавливаешь все.
Как-то так наверно :-)
 

Sewanew

Пользователь
Регистрация
28.01.2017
Сообщения
134
Благодарностей
3
Баллы
18
Спарсил страницу, циклом прошелся и проверил каждую строку, чтобы следующее число (кол-во) запросов было меньше или равно предыдущему.
Если подходит по условию, сохраняешь строку, иначе останавливаешь все.
Как-то так наверно :-)
так а как это сделать технически?)
 

Bablozavr

Client
Регистрация
26.01.2018
Сообщения
310
Благодарностей
164
Баллы
43
так а как это сделать технически?)
Я (и не только) в соседней теме тебе ответил, как можно удалить последние 15 (или сколько тебе нужно строк) с конца, с реализацией (технически) :-)
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)