Добрый день. Кто готов помочь с реализацией шаблона, просьба писать в личные сообщения с ориентировочной ценой/сроками.
Основная задача шаблона:
Собирать статистические и аналитические данные по предстоящему футбольному событию. Сохранять в удобном, пригодном для дальнейшего использования виде.
Принцип работы шаблона:
Я даю программе текстовый файл с ссылками для парсинга (или копирую/вставляю список ссылок в соответствующее поле во входных настройках шаблона). Ссылки в таком форма: *some-name*|*ссылка на страницу футбольного события*
Например:
milan-inter|http://whoscore.com/match/milan-inter-456456456
arsenal-everton|http://whoscore.com/match/arsenal-everton-456456456
real-barsa|http://whoscore.com/match/real-barsa-456456456
Приставка «milan-inter» далее должна использоваться во всех выходных файлах, чтобы я мог легко понять к какому футбольному событию относится та или иная таблица или текстовый файл, который шаблон будет выдавать в результате парсинга.
Например:
milan-inter|http://whoscore.com/match/milan-inter-456456456
В результате, после выполнения парсинга по ссылке все файлы имеют приставку milan-inter:
milan-inter_general-info.txt
milan-inter_head-to-head.xslx
milan-inter_betting.xslx
milan-inter_preview.xslx
Примечание 1. Оформлять все спаршенные данные в один файл или разбивать на несколько, пока не определился. Возможно, вы дадите какие рекомендации?
Примечание 2. Так же желательно, чтобы у шаблона был более-менее информативный лог. Который бы информировал, что ведём работу по такой-то ссылке, блок или таблица такая-то успешно спаршена или наоборот определённый блок с информацией или таблица отсутствуют и т.п.
Примечание 3. Я не планирую использовать этот шаблон чтобы парсить данные с Whoscored тысячами страниц в день. И на whoscored, вроде бы, нет какой-то продвинутой системы защиты от ботов и парсинга. Однако, было не плохо иметь возможность подключать прокси и работать в несколько потоков.
Примечание 4. Парсить нужно будет не "всё-всё", что есть на странице, а только часть таблиц и списков, они будут указаны в более детальном ТЗ.
Основная задача шаблона:
Собирать статистические и аналитические данные по предстоящему футбольному событию. Сохранять в удобном, пригодном для дальнейшего использования виде.
Принцип работы шаблона:
Я даю программе текстовый файл с ссылками для парсинга (или копирую/вставляю список ссылок в соответствующее поле во входных настройках шаблона). Ссылки в таком форма: *some-name*|*ссылка на страницу футбольного события*
Например:
milan-inter|http://whoscore.com/match/milan-inter-456456456
arsenal-everton|http://whoscore.com/match/arsenal-everton-456456456
real-barsa|http://whoscore.com/match/real-barsa-456456456
Приставка «milan-inter» далее должна использоваться во всех выходных файлах, чтобы я мог легко понять к какому футбольному событию относится та или иная таблица или текстовый файл, который шаблон будет выдавать в результате парсинга.
Например:
milan-inter|http://whoscore.com/match/milan-inter-456456456
В результате, после выполнения парсинга по ссылке все файлы имеют приставку milan-inter:
milan-inter_general-info.txt
milan-inter_head-to-head.xslx
milan-inter_betting.xslx
milan-inter_preview.xslx
Примечание 1. Оформлять все спаршенные данные в один файл или разбивать на несколько, пока не определился. Возможно, вы дадите какие рекомендации?
Примечание 2. Так же желательно, чтобы у шаблона был более-менее информативный лог. Который бы информировал, что ведём работу по такой-то ссылке, блок или таблица такая-то успешно спаршена или наоборот определённый блок с информацией или таблица отсутствуют и т.п.
Примечание 3. Я не планирую использовать этот шаблон чтобы парсить данные с Whoscored тысячами страниц в день. И на whoscored, вроде бы, нет какой-то продвинутой системы защиты от ботов и парсинга. Однако, было не плохо иметь возможность подключать прокси и работать в несколько потоков.
Примечание 4. Парсить нужно будет не "всё-всё", что есть на странице, а только часть таблиц и списков, они будут указаны в более детальном ТЗ.