универсальную регулярку не получится составить, если сайты разношерстные, на разных движках..Ну например есть у меня список url на статьи которые я спарсил из яндекса, а мне нужна регулярка чтобы спарсить статью с картинками, абзацами, заголовками, метатегами и т.д. Как это сделать?
Почему не получится, x-parser как-то же работает.универсальную регулярку не получится составить, если сайты разношерстные, на разных движках..
ну и даже если на одном движке, то тоже проблематичным может быть..
x-parser картинки тоже собирает?Почему не получится, x-parser как-то же работает.
xparser картинки не парсит! Но хоть без картинок как можно сделать?x-parser картинки тоже собирает?
ну не буду спорить, действительно - ничего невозможного нет..
я просто указал, что это будет проблематично..
кстати, как то делал универсальный парсер контента на зенке, но качественный универсальный парсер статей с иллюстрациями - это совсем другое..
у зеннопостера, кстати есть интересный инструмент - article extraction, но он картинки не тянет..
x-parser картинки тоже собирает?
проще всего подсмотреть у x-parser его регулярки, если там есть такая возможность, точно не помню, есть или нет..xparser картинки не парсит! Но хоть без картинок как можно сделать?
Такой возможности нет!проще всего подсмотреть у x-parser его регулярки, если там есть такая возможность, точно не помню, есть или нет..
Ваша задача сейчас написать функции другой программы под себя самостоятельно. Понятно что придется посидеть и поразрабатыватьПочему не получится, x-parser как-то же работает.
А можно как-то в одном регулярном выражении прописать какие теги разрешить, а какие удалить?Ваша задача сейчас написать функции другой программы под себя самостоятельно. Понятно что придется посидеть и поразрабатывать
Ну это я знаю, но я еще хотел бы узнать возможно ли сделать регулярку чтоб выпарсить за один раз все что мне нужно?тут не только про теги история. Лишнее содержание данных на странице разнится от сайта к сайту