Регулярным выражением от начала текста на условие количества символов
^.{120,480}
До закрывающего html тега </p> или </div> если они есть, или до точки с пробелом ". "
Если абзацы в текстовке построены по принципу одной строки - каждый абзац с новой строки и весть текст абзаца в одну строку, то вот такой регуляркой можно взять первое вхождение: .+(?=\r?\n)
А как можно взять из текста поочередно все абзацы с удалением, чтобы длина каждого взятого не превышала 5000 символов?
Но брать не по одному короткому, скажем по 1000, а чтобы длина от начала взятия по приближалась к 5000.
А как можно взять из текста поочередно все абзацы с удалением, чтобы длина каждого взятого не превышала 5000 символов?
Но брать не по одному короткому, скажем по 1000, а чтобы длина от начала взятия по приближалась к 5000.
Проверяю на вашем тексте, все отлично берется, согласно разным критериям, включая критерий от 4000 до 5000, но пришлось в ваш текст добавить такой большой абзац. Приложил свой тестовый проект, попробуйте с ним проверить.