Как чистить текст регулярками, пытаюсь извлечь по ссылкам текста, но сайты разные, парсить пытаюсь через распознование контента, текст парсить но по мимо с ним много мусора и абзацев, слов с пробелами, короткими предложениями и текстами с анкоров, ссылки текстовые на источник статьи.. как это...