Severip
Client
- Регистрация
- 17.10.2013
- Сообщения
- 346
- Благодарностей
- 98
- Баллы
- 28
Когда я РИА парсил, то шел таким путем: 1- Сначала через regex берем всю новость по тегам в отдельную переменную, 2- потом уже из этой переменной регулярками ее разбираем на зоголовок, теги, картинку и текст, 3- и уже в заголовке, тексте и тегах просто убивается весь html и все левые символы просто через замену. Для удаления html регулярка вот: <[\w\W]*?>