- Регистрация
- 02.01.2021
- Сообщения
- 52
- Благодарностей
- 17
- Баллы
- 8
Нужен шаблон ZP для парсинга постов из ТГ и дальнейшего постинга в WP
Написал ТЗ как его вижу я, но прислушаюсь к любым исправлениям.
1. Авторизация в TG, из списка аккаунтов, с использованием прокси. Для работы нужно будет выставлять задержки между заданиями.
2. Парсить как с публичных каналов так и с закрытых после вступления в него. Парсить так же защищённый контент.
3. Структура папок: канал донор=папка с названием канала, в которой каждый пост отдельной папкой с содержанием поста, фото, видео, текст в текстовом файле.
4. Работа в многопотоке, 1 поток = 1 канал.
4. Логика работы, в текстовый файл с произвольным названием я прописываю названия каналов (ссылки, имена, id групп(пы), каждый канал с новой строки, в папке input (сделать возможность указывать произвольное название этой папки во входных настройках) создаются папки с названием канала откуда парсятся посты, в эту папку скачивается каждый пост в отдельную папку, название папки может состоять из зоголовка поста либо из первых 2-3 слов если нет заголовка либо дата. В папку с постом парсится содержимое поста, все что есть, документы-аудио-фото-gif-видео (не зависимо от размера файла) заголовок и текст в отдельные txt (сделать возможность указывать произвольное название файлов во входных настройках, в качестве заголовка первая строчка поста, далее сам пост полностью включая первую строку т.к. при постинге первая строка будет заголовком записи.) Спарсенный текст записывается в два текстовых файла, один с HTML разметкой, второй просто текстом.
5. Указать дату с какой скачиваем и по какую, и так же количество постов, к примеру нужно скачать все начиная с 01.01.2023 года по 12.01.23, ставлю эту дату и скачивается все за этот период, если окончания даты нет и шаблон стоит делать бесконечно то при добавлении нового поста у донора он скачивается. Если дату не ставить а выбрать количество постов то скачает последние посты в указанном количестве.
6. В настройках шаблона отмечать галочкой что качаем, документы-аудио-фото-gif-видео
7. Параметр задержка в сек. на скачивание, что бы не банили
8. Количество попыток скачивания записи, вдруг с первого раза не сможет
9. Список слов которые игнорируются (стоп слова, пропускаем пост). Список игнорируемых слов указываем в файле stop_words.txt Одна запись на строку.
10. Любые ссылки заменятся на мои ссилки (в ТГ есть внутренние и внешние ссылки) , список ссылок указываем в файлах .txt отдельные файлы для внешних и внутренних Одна запись на строку.
11. Нужно то сделать блэк лист с постами которые уже скачаны, что бы не качал одно и тоже.
12. Все скачанное постить на сайт wordpress в записи. Шаблон обходит спарсенные папки и публикует содержимое, из текстового файла с HTML разметкой где первая строка идёт заголовком а фото-видео-файлы в том порядке как и в канале доноре.
Предложения можно в ТГ https://t.me/senderhoff
Написал ТЗ как его вижу я, но прислушаюсь к любым исправлениям.
1. Авторизация в TG, из списка аккаунтов, с использованием прокси. Для работы нужно будет выставлять задержки между заданиями.
2. Парсить как с публичных каналов так и с закрытых после вступления в него. Парсить так же защищённый контент.
3. Структура папок: канал донор=папка с названием канала, в которой каждый пост отдельной папкой с содержанием поста, фото, видео, текст в текстовом файле.
4. Работа в многопотоке, 1 поток = 1 канал.
4. Логика работы, в текстовый файл с произвольным названием я прописываю названия каналов (ссылки, имена, id групп(пы), каждый канал с новой строки, в папке input (сделать возможность указывать произвольное название этой папки во входных настройках) создаются папки с названием канала откуда парсятся посты, в эту папку скачивается каждый пост в отдельную папку, название папки может состоять из зоголовка поста либо из первых 2-3 слов если нет заголовка либо дата. В папку с постом парсится содержимое поста, все что есть, документы-аудио-фото-gif-видео (не зависимо от размера файла) заголовок и текст в отдельные txt (сделать возможность указывать произвольное название файлов во входных настройках, в качестве заголовка первая строчка поста, далее сам пост полностью включая первую строку т.к. при постинге первая строка будет заголовком записи.) Спарсенный текст записывается в два текстовых файла, один с HTML разметкой, второй просто текстом.
5. Указать дату с какой скачиваем и по какую, и так же количество постов, к примеру нужно скачать все начиная с 01.01.2023 года по 12.01.23, ставлю эту дату и скачивается все за этот период, если окончания даты нет и шаблон стоит делать бесконечно то при добавлении нового поста у донора он скачивается. Если дату не ставить а выбрать количество постов то скачает последние посты в указанном количестве.
6. В настройках шаблона отмечать галочкой что качаем, документы-аудио-фото-gif-видео
7. Параметр задержка в сек. на скачивание, что бы не банили
8. Количество попыток скачивания записи, вдруг с первого раза не сможет
9. Список слов которые игнорируются (стоп слова, пропускаем пост). Список игнорируемых слов указываем в файле stop_words.txt Одна запись на строку.
10. Любые ссылки заменятся на мои ссилки (в ТГ есть внутренние и внешние ссылки) , список ссылок указываем в файлах .txt отдельные файлы для внешних и внутренних Одна запись на строку.
11. Нужно то сделать блэк лист с постами которые уже скачаны, что бы не качал одно и тоже.
12. Все скачанное постить на сайт wordpress в записи. Шаблон обходит спарсенные папки и публикует содержимое, из текстового файла с HTML разметкой где первая строка идёт заголовком а фото-видео-файлы в том порядке как и в канале доноре.
Предложения можно в ТГ https://t.me/senderhoff
Последнее редактирование: