Severip
Client
- Joined
- Oct 17, 2013
- Messages
- 346
- Reaction score
- 99
- Points
- 28
Когда я РИА парсил, то шел таким путем: 1- Сначала через regex берем всю новость по тегам в отдельную переменную, 2- потом уже из этой переменной регулярками ее разбираем на зоголовок, теги, картинку и текст, 3- и уже в заголовке, тексте и тегах просто убивается весь html и все левые символы просто через замену. Для удаления html регулярка вот: <[\w\W]*?>