Парсинг данных

baracuda

Client
Регистрация
19.06.2013
Сообщения
790
Благодарностей
277
Баллы
63
Всем привет.

Давно откладывал в долгий ящик, но время появилось решил разобраться с большим массивом данных без #С

Нашёл сайт для экспериментов e-katalog вроде и не сложный и не простой. Данных точно тут навалом, у всех данных разные характеристики, В общем то что надо.



Первый этап парсим данные со страницы.

Вариант 1 Парсим таблицу на чёт и начёт с атрибутом innerhtml(так как некоторые данные это изображения), собираем в таблицу, предварительно убрав теги.

кому интересно xpath //span[@class="op1-title"]/parent::td/parent::tr//following-sibling::tr/td[contains(@width,'%')] атрибуты oddAll и evenAll

Вариант 2 Парсим строки, тут собственно совсем всё просто, думаю даже расписывать не стоит..



Далее хранение данных.

Вариантов несколько вижу

Одна большая неудобная таблица. - проблемы с нагрузкой если будет много данных.

На каждую группу своя таблица. - уже по легче, но у каждого бренда своя коллекция характеристик, тоже не то.

варианты с базами и хранение данных по средствам json.

возможно что то ещё упустил.


Собственно, теперь вопрос к знающим людям.
Как всё таки лучше парсить? колонками, строками или отдельными значениями?
Как лучше хранить такую информацию с такой кучей характеристик?
Как формировать информация в json?
Конечно же с условием что работаем с зенкой.

Вопрос как данные перевести в формат json понравился топик



Если есть на просторах простая доступная информация для понимания с удовольствие почитаю.
 

backoff

Client
Регистрация
20.04.2015
Сообщения
6 013
Благодарностей
6 449
Баллы
113
возможно что то ещё упустил.
а чем классика не алло? я про mysql

я в этом сам не шибко шарю, но парсинг огромного массива делал на sql БД и вроде как это единственный отличный вариант под такое...
либо куча xlsx таблиц :-) - щютка )
 

baracuda

Client
Регистрация
19.06.2013
Сообщения
790
Благодарностей
277
Баллы
63
Все в чем то, что то делают. Суть самообучение. "Как то" каждый может, а как хорошо, не каждый! Суть то увидите одним глазком правильность подхода к вопросу.
 

backoff

Client
Регистрация
20.04.2015
Сообщения
6 013
Благодарностей
6 449
Баллы
113
как по мне, это как с xpath
я сначала дупля не отбивал как и что с ним, а как понял, оказалось все очень просто и логично, то только им теперь и пользуюсь.
с sql так же, это не сложно и очень просто, надо лишь начать разбираться и задавать вопросы и все получится
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)