Доброго дня.
Помогите советом как лучше справиться с задачей парсинга данных со страницы.
Казалось, задача вполне простая - определить область по её признакам, определить переменную и поместить туда необходимые данные.
Демонстрирую по шагам.
Исходная страница и нужная область данных,
Да, оригинальный URL откуда берутся данные - https://www.browserscan.net/
По классике - нахожу часть кода "до" и "после", которая гарантирует точное и единственное попадание.
Пожалуйста, "до",
пожалуйста, "после",
Тестирую в конструкторе рег. выражений,
Всё чётко, единственные результат - то, что нужно.
Переношу рег. выражение в экшен парсинга,
Запускаю экшен,
Результат как видно из скриншота нулевой.
Это уже далеко не первый случай по данной странице, закономерности здесь следующие.
Если последовательность "до" в регулярном выражении достаточно длинная,
то не смотря на то, что в конструкторе тестовых регулярных выражений результат матчится, то в проекте результат не находится, вот выдержка из лога,
Однако я упорный, думаю, ладно, не хочется мачится по регулярке, попробую взять через Xpath.
Заряжаю конструктор действий, указываю область, перевожу в вариант Xpath, тестирую,
Вроде бы всё чётко - забираю данные по внутреннему тексту, текст корректный.
Формирую экшен, переношу в проект, редактирую экшен, чтобы он клал результат парсинга в нужную мне переменную (по умолчанию кладёт во временную).
Запускаю экшен
и результат матчинга - совершенно другие данные.
Измучился уже.
Причём такой результат не со всеми случаями обработки, а именно с теми, где код "до" приходится брать заметно больше.
Так, где код небольшой и данные матчатся без избыточной части "до", всё нормально,
я забираю - всё отлично.
Но в обработки части полей - прям мучаюсь уже второй день. И так, и сяк, и регулярка, и Xpath, нет корректного результата
И главное непонятно, что теперь с этим делать...
Помогите пожалуйста советом, может быть я что-то упускаю или неправильно делаю.
Помогите советом как лучше справиться с задачей парсинга данных со страницы.
Казалось, задача вполне простая - определить область по её признакам, определить переменную и поместить туда необходимые данные.
Демонстрирую по шагам.
Исходная страница и нужная область данных,
Да, оригинальный URL откуда берутся данные - https://www.browserscan.net/
По классике - нахожу часть кода "до" и "после", которая гарантирует точное и единственное попадание.
Пожалуйста, "до",
пожалуйста, "после",
Тестирую в конструкторе рег. выражений,
Всё чётко, единственные результат - то, что нужно.
Переношу рег. выражение в экшен парсинга,
Запускаю экшен,
Результат как видно из скриншота нулевой.
Это уже далеко не первый случай по данной странице, закономерности здесь следующие.
Если последовательность "до" в регулярном выражении достаточно длинная,
то не смотря на то, что в конструкторе тестовых регулярных выражений результат матчится, то в проекте результат не находится, вот выдержка из лога,
Однако я упорный, думаю, ладно, не хочется мачится по регулярке, попробую взять через Xpath.
Заряжаю конструктор действий, указываю область, перевожу в вариант Xpath, тестирую,
Вроде бы всё чётко - забираю данные по внутреннему тексту, текст корректный.
Формирую экшен, переношу в проект, редактирую экшен, чтобы он клал результат парсинга в нужную мне переменную (по умолчанию кладёт во временную).
Запускаю экшен
и результат матчинга - совершенно другие данные.
Измучился уже.
Причём такой результат не со всеми случаями обработки, а именно с теми, где код "до" приходится брать заметно больше.
Так, где код небольшой и данные матчатся без избыточной части "до", всё нормально,
я забираю - всё отлично.
Но в обработки части полей - прям мучаюсь уже второй день. И так, и сяк, и регулярка, и Xpath, нет корректного результата
И главное непонятно, что теперь с этим делать...
Помогите пожалуйста советом, может быть я что-то упускаю или неправильно делаю.