one
Client
- Регистрация
- 22.09.2015
- Сообщения
- 6 831
- Благодарностей
- 1 275
- Баллы
- 113
Какую конкретно?производную формулу для КейКоллектора, что проще.
Какую конкретно?производную формулу для КейКоллектора, что проще.
Есть похожая формула для Колектора, похожая на ту, что использует Мутаген. Где то её выкладывали. Основана на математических вычислениях ранжирования сайтов для Яндекса. Смотрел, довольно близко.Всё меняется - как сейчас, не знаю, но думаю, как прежде.Какую конкретно?
Это первичный файл, после скачки всех текстов каждый текст формируется в свой файл, а этот удалится.А как сделать так что бы он складывал не все в кучу, каждая статья в отдельный файл
а то помойка какая-то получается у меня
Там происходит слишком много процессов с перезаписью. В многопотоке можно работать так: клонировать папки и назвать их Вебархив1..Вебархив10 и каждую папку запустить в отдельном потоке, чтобы они не пересекались.А можно работать в многопоточку ?
Нет, там другое. Вебархив - это ручное, а мне лень. Улететь может любой канал за стоп-слова, кликбейт или картинку, ссылку, или модератору что-то не понравится, поэтому нужно делать несколько каналов с разными тематиками. Ну и весь народ попер в Дзен, алгоритмы постоянно меняются. Видел крутейшие каналы с авторским текстом о жизни с просмотрами 50-100. И кучу шлака с просмотрами 1000-10000. Как оно работает и что именно выстрелит, никто не знает, можно только предполагать.Дзен кормишь как я понимаю исключительно из архива?
Как он интересно с копи\пастом ?
Быстро вылетают бложики, или какое то время держутся....?
Нет, некоторые ссылки не ведут напрямую на страницу с текстом, поэтому, если стандартно текст не берется, запускается перепроверка через Вебархив по снепшоту. Таких сайтов с редиректом немного, для них дополнительная проверка. Сбой сети - возможно, прерывается доступ к скрипту на Опен Сервере. Прокси не нужны, если нет множественных запросов (один поток).Ок, а вот у меня вопрос по Краулеру
И вот такая Картина
Я так понимаю ему хочется прокси?
А когда рассылка была? Что то нету у меня в миэле.Так он есть в рассылке с небольшим видеообзором - Восстановление сайтов из Вебархива.
В ЛС написал.А когда рассылка была? Что то нету у меня в миэле.
Новички не могут писать в лс.Комрады! Как в ЛС тут писать? Капец туплю...
Отписал на почту.Почему-то я так и подумал....ладно, буду заколёбывать вопросами человека по почте и тут ))
Не пойму о какой методике речь?Кто работает по Вебархиву - не используйте парсинг доменов, у вас не хватит времени и ресурсов обработать данные и отсеять шлак. Используйте мою методику на вероятностях
Та, которая видео. Основана на вероятностях того, что сообщество по интересам рекламируют свои сайты на сайтах близкой тематики.Не пойму о какой методике речь?
но часто это блоги от 1го лица, или блоги о себе, такие тексты особо ни кому не нужныТа, которая видео. Основана на вероятностях того, что сообщество по интересам рекламируют свои сайты на сайтах близкой тематики.
Много и от третьего лица, я называю их "заточенные под семантику", в основном для открутки контекста, лично меня они раздражают. Всегда были авторские тексты, направленные на взаимодействие с аудиторией с последующей продажей (курсов, сбора подписчиков и т.д.). Как правило, такие тексты наиболее комментируемые, а не прочитал и забыл.но часто это блоги от 1го лица, или блоги о себе, такие тексты особо ни кому не нужны
Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с iskrakovrov какие-либо сделки.
далее…
Далее...
Читать дальше
read more
Read more
Read More
Read more…
Read the rest of this entry
Читать продолжение записи
[...]
[Читать далее]
(далее…)
Сейчас делаю видео, где покажу, как это работает - выложу через 2-3 часа, не пропустите. Мой основной контент на Дзене - Вебархив. И сегодня разошлю обновление - нет дополнительных запросов к Вебархиву, скорость не замедляется, отсеивается 90% ненужных категорий.Через 2-3 дня будет глобальное обновление. Теперь можно отсекать категории на списках стоп слов, которые вы можете дополнять для себя:
Это позволит отсечь 90% шлака. Все данные будут дополнительно сохраняться в папку этого же домена с префиксом для анализа. Также небольшая оптимизация кода. Работает на v. 5.9.9.1, остальные версии нестабильны. Одна из ошибок старших версий - остановка инстанса и нереагирование на задания.Код:далее… Далее... Читать дальше read more Read more Read More Read more… Read the rest of this entry Читать продолжение записи [...] [Читать далее] (далее…)