- Регистрация
- 19.06.2013
- Сообщения
- 790
- Благодарностей
- 277
- Баллы
- 63
Всем привет.
Давно откладывал в долгий ящик, но время появилось решил разобраться с большим массивом данных без #С
Нашёл сайт для экспериментов e-katalog вроде и не сложный и не простой. Данных точно тут навалом, у всех данных разные характеристики, В общем то что надо.
Первый этап парсим данные со страницы.
Вариант 1 Парсим таблицу на чёт и начёт с атрибутом innerhtml(так как некоторые данные это изображения), собираем в таблицу, предварительно убрав теги.
кому интересно xpath //span[@class="op1-title"]/parent::td/parent::tr//following-sibling::tr/td[contains(@width,'%')] атрибуты oddAll и evenAll
Вариант 2 Парсим строки, тут собственно совсем всё просто, думаю даже расписывать не стоит..
Далее хранение данных.
Вариантов несколько вижу
Одна большая неудобная таблица. - проблемы с нагрузкой если будет много данных.
На каждую группу своя таблица. - уже по легче, но у каждого бренда своя коллекция характеристик, тоже не то.
варианты с базами и хранение данных по средствам json.
возможно что то ещё упустил.
Собственно, теперь вопрос к знающим людям.
Как всё таки лучше парсить? колонками, строками или отдельными значениями?
Как лучше хранить такую информацию с такой кучей характеристик?
Как формировать информация в json?
Конечно же с условием что работаем с зенкой.
Вопрос как данные перевести в формат json понравился топик
Если есть на просторах простая доступная информация для понимания с удовольствие почитаю.
Давно откладывал в долгий ящик, но время появилось решил разобраться с большим массивом данных без #С
Нашёл сайт для экспериментов e-katalog вроде и не сложный и не простой. Данных точно тут навалом, у всех данных разные характеристики, В общем то что надо.
Первый этап парсим данные со страницы.
Вариант 1 Парсим таблицу на чёт и начёт с атрибутом innerhtml(так как некоторые данные это изображения), собираем в таблицу, предварительно убрав теги.
кому интересно xpath //span[@class="op1-title"]/parent::td/parent::tr//following-sibling::tr/td[contains(@width,'%')] атрибуты oddAll и evenAll
Вариант 2 Парсим строки, тут собственно совсем всё просто, думаю даже расписывать не стоит..
Далее хранение данных.
Вариантов несколько вижу
Одна большая неудобная таблица. - проблемы с нагрузкой если будет много данных.
На каждую группу своя таблица. - уже по легче, но у каждого бренда своя коллекция характеристик, тоже не то.
варианты с базами и хранение данных по средствам json.
возможно что то ещё упустил.
Собственно, теперь вопрос к знающим людям.
Как всё таки лучше парсить? колонками, строками или отдельными значениями?
Как лучше хранить такую информацию с такой кучей характеристик?
Как формировать информация в json?
Конечно же с условием что работаем с зенкой.
Вопрос как данные перевести в формат json понравился топик
Если есть на просторах простая доступная информация для понимания с удовольствие почитаю.