Помогите с парсингом сайта в 2 подхода

seomiks

Client
Регистрация
13.09.2014
Сообщения
369
Благодарностей
124
Баллы
43
Мир Вам сео-братья, бьюсь уже 3 дня над задачкой, парсинга сайта (флеш игры) h_ttp://www.era-igr.ru/,

хочу сначала спарсить превьюшки картинок, тайтл, ниже метки категорий и сылку на полную новость, и это все поместить в csv файлик, по второму подходу попытаться зайти на полные новости и забрать код swf игр (флеш). Вот собствено и все, В Контент Довландере не могу это реализовать так как на странице есть целых 25 превьюшек новостей с каждой из которых нужно спарсить по 4 елемента за один подход и по второму кругу полную новость. Вожможно ли реализовать на ZP (у меня парсит но не могу упорядочить собраную информацию). С програмой работать умею. Спасибо за советы.
 

Jerard

Client
Регистрация
11.04.2013
Сообщения
506
Благодарностей
225
Баллы
43
Отвечаю на вопрос: Можно, без проблем.
Других вопросов не увидел )
 
  • Спасибо
Реакции: Nick и seomiks

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Наверняка превьюшка название урл и что то там еще лежат внутри какого то одного блока, характеризующего игрушку вот с этими блоками и надо работать
 
  • Спасибо
Реакции: seomiks

seomiks

Client
Регистрация
13.09.2014
Сообщения
369
Благодарностей
124
Баллы
43
Наверняка превьюшка название урл и что то там еще лежат внутри какого то одного блока, характеризующего игрушку вот с этими блоками и надо работать
Да... домустим я спарсил одну страницу (там есть 25 превьюшек) каждая регулярка спарсит 25 картинок (за один цикл), 25 тайтлов (за один цикл), 25 блоков с метками (за один цикл), 25 урлов на полную новость (за один цикл), - вопрос как обьединить всю информацию чтобы она совпадала друг с другом - в какой файл (построчно в тхт или csv), не могу понять. В какое направление смотреть в сохранении информации.
 

Jerard

Client
Регистрация
11.04.2013
Сообщения
506
Благодарностей
225
Баллы
43
Как бы сделал я. Каждая запись идет в столбце и заключена в тэгах <td class="game"></td>, я бы сначало просто выпарсил бы всё это и пихнул бы в список. Когда все будут собраны, каждую запись распарсил по нужным критериям и всё. Не будет никакой путаницы в записях тогда точно.
Надеюсь понятно объяснил)
 
  • Спасибо
Реакции: seomiks

Jerard

Client
Регистрация
11.04.2013
Сообщения
506
Благодарностей
225
Баллы
43
Блин, пропустил что Lexicon написал...суть таже, только я чуть подробней расписал )
 
  • Спасибо
Реакции: seomiks

seomiks

Client
Регистрация
13.09.2014
Сообщения
369
Благодарностей
124
Баллы
43
Благодарю вас ребята, о результатах отпишусь
 

Nick

Client
Регистрация
22.07.2014
Сообщения
1 983
Благодарностей
817
Баллы
113
В общем, тебе нужна таблица. Одна строка - одна игрушка. В этой строке ячейки (столбцы) - всевозможные детали.
Грабишь страничку большими блоками, потом внутри цикла каждый блок раздербаниваешь на элементы и в конце шага цикла все их укладываешь в одну строку таблицы.
 
  • Спасибо
Реакции: seomiks

seomiks

Client
Регистрация
13.09.2014
Сообщения
369
Благодарностей
124
Баллы
43
В общем, тебе нужна таблица. Одна строка - одна игрушка. В этой строке ячейки (столбцы) - всевозможные детали.
Грабишь страничку большими блоками, потом внутри цикла каждый блок раздербаниваешь на элементы и в конце шага цикла все их укладываешь в одну строку таблицы.
ФУФ... внутри цикла каждый блок раздербаниваешь на элементы... нужно задуматься)))
 

seomiks

Client
Регистрация
13.09.2014
Сообщения
369
Благодарностей
124
Баллы
43
В общем, тебе нужна таблица. Одна строка - одна игрушка. В этой строке ячейки (столбцы) - всевозможные детали.
Грабишь страничку большими блоками, потом внутри цикла каждый блок раздербаниваешь на элементы и в конце шага цикла все их укладываешь в одну строку таблицы.
взял ДОМ, при парсинге 25 елементов (скажем сначала кртинки), результат можно положить только в список (возможность сделать переменную и записать ее в таблицу отсутствует - только при парсинге первого совпадения можно создать переменную для записи в таблицу) имено поетому я не понимаю вас Nick как блоки записівать в таблицу но все равно спасибо.
 
Последнее редактирование:

seomiks

Client
Регистрация
13.09.2014
Сообщения
369
Благодарностей
124
Баллы
43
регулярки сделал
картинка (?<="\ target="_blank"><img\ src=")http://media\.era-igr\.ru/.*?(?="\ alt=")
тайтл (?<=/"\ title=").*?(?="\ target="_blank">)
юрл (?<=\ <a\ href=")/games/game/.*?(?=/"\ title=")

начал парсить по каждой регулярке в отдельный файл (спарсил несколько страниц - 4)

результат
картинка - 98 шт.
тайтл - 100 шт.
юрл на полную новость - 100 шт.

опускаю руки тему можно закрыть(
 

Jerard

Client
Регистрация
11.04.2013
Сообщения
506
Благодарностей
225
Баллы
43
Быстро руки опускаешь.
Тайтл (бери последнее совпадение) - (?<=target="_blank">)[\w\W]*?(?=</a>)
URL картинки - (?<=src=")[\w\W]*?(?=")
URL поста - (?<=\ href=")[\w\W]*?(?=")
 
  • Спасибо
Реакции: seomiks

seomiks

Client
Регистрация
13.09.2014
Сообщения
369
Благодарностей
124
Баллы
43
Быстро руки опускаешь.
Тайтл (бери последнее совпадение) - (?<=target="_blank">)[\w\W]*?(?=</a>)
URL картинки - (?<=src=")[\w\W]*?(?=")
URL поста - (?<=\ href=")[\w\W]*?(?=")
спасибо не подходит - в результатах разнобой шкалит, та ладно забейте.
Скоро война нужно про что-то серьезнее думать я ведь укр.
 

Jerard

Client
Регистрация
11.04.2013
Сообщения
506
Благодарностей
225
Баллы
43
Ну хз, у меня вроде норм парсится всё
 
  • Спасибо
Реакции: seomiks

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)