Здравствуйте всем!
Программой до этого момента не пользовался, но со стороны слышал, что она невероятно универсальна для парсинга.
Собственно задача моя по сути проста - парсить URL с изменением его пути.
Поясню
К примеру есть URL
Я не могу посмотреть есть ли в этом URL еще страницы, но предполагаю, что есть.
Собственно задача пропарсить другие имена вложенных папок (рандомные, по шаблону или варианты из заранее подготовленного списка). Чтобы найти еще какие-либо доступные рабочие страницы на этом домене.
Примеры
Вариант 1
Парсим последовательно варианты названия первой папки:
http://exclusive-rewards.betterwomantoday.com/ld0001/pl/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld0002/pl/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld0003/pl/1a/?voluumdata=
и тд.
Вариант 2
Парсим рандомно первую папку:
http://exclusive-rewards.betterwomantoday.com/ld5288/pl/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld0392/pl/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/kl4682/pl/1a/?voluumdata=
Вариант 3
Парсим вторую папку рандомно по двум буквам или из своего списка этих букв
au at az al dz vi as ai ao ad aq ag ar am aw af bs bd bb
Получаем парсинг
http://exclusive-rewards.betterwomantoday.com/ld1502/au/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld1502/at/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld1502/az/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld1502/al/1a/?voluumdata=
Ну и четвертый вариант
парсим последнюю папку подставляя пару рандомных знаков.
На выходе того или иного парсинга необходимо иметь список рабочих URL, где был обнаружен какой либо контент отличный от страниц 404 или "not found".
Нет необходимости задавать задачу парсинга сразу всех вложений, достаточно запускать задачи одна за другой. Собственно нужно просто понять принцип создания подобных задач, если это возможно.
Для теста , если это необходимо, последняя папка имеет как минимум два варианта:
http://exclusive-rewards.betterwomantoday.com/ld1502/pl/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld1502/pl/2a/?voluumdata=
Программой до этого момента не пользовался, но со стороны слышал, что она невероятно универсальна для парсинга.
Собственно задача моя по сути проста - парсить URL с изменением его пути.
Поясню
К примеру есть URL
HTML:
http://exclusive-rewards.betterwomantoday.com/ld1502/pl/1a/?voluumdata=
Собственно задача пропарсить другие имена вложенных папок (рандомные, по шаблону или варианты из заранее подготовленного списка). Чтобы найти еще какие-либо доступные рабочие страницы на этом домене.
Примеры
Вариант 1
Парсим последовательно варианты названия первой папки:
http://exclusive-rewards.betterwomantoday.com/ld0001/pl/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld0002/pl/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld0003/pl/1a/?voluumdata=
и тд.
Вариант 2
Парсим рандомно первую папку:
http://exclusive-rewards.betterwomantoday.com/ld5288/pl/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld0392/pl/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/kl4682/pl/1a/?voluumdata=
Вариант 3
Парсим вторую папку рандомно по двум буквам или из своего списка этих букв
au at az al dz vi as ai ao ad aq ag ar am aw af bs bd bb
Получаем парсинг
http://exclusive-rewards.betterwomantoday.com/ld1502/au/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld1502/at/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld1502/az/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld1502/al/1a/?voluumdata=
Ну и четвертый вариант
парсим последнюю папку подставляя пару рандомных знаков.
На выходе того или иного парсинга необходимо иметь список рабочих URL, где был обнаружен какой либо контент отличный от страниц 404 или "not found".
Нет необходимости задавать задачу парсинга сразу всех вложений, достаточно запускать задачи одна за другой. Собственно нужно просто понять принцип создания подобных задач, если это возможно.
Для теста , если это необходимо, последняя папка имеет как минимум два варианта:
http://exclusive-rewards.betterwomantoday.com/ld1502/pl/1a/?voluumdata=
http://exclusive-rewards.betterwomantoday.com/ld1502/pl/2a/?voluumdata=