Автоматический статейный прогон по движкам Joomla K2

какая ссылка правильная должна быть в файле domains.txt?

_ttp://abc.ru
или
_ttp://abc.ru/component/k2/
 
http://a-parser.com/ - пожалуйста )
Дороговата получается, есть аналог контент довлоадер, про версия стоит 2000р для 50 потоков, практически под любой вид парсинга можно настроить, как пример парсер групп в вк, с автоматической прокруткой вниз. Я там у специалистов заказал сейчас шаблон для гугла для поиска движков к2, кому интересно могу продать за 3$, этот шаблон можно в дальнейшем настроить под любой парсер, только лишь изменить значение DOMa.
 
какая ссылка правильная должна быть в файле domains.txt?

_ttp://abc.ru
или
_ttp://abc.ru/component/k2/


h_ttp://abc.ru
http://a-parser.com/ - пожалуйста )
Дороговата получается, есть аналог контент довлоадер, про версия стоит 2000р для 50 потоков, практически под любой вид парсинга можно настроить, как пример парсер групп в вк, с автоматической прокруткой вниз. Я там у специалистов заказал сейчас шаблон для гугла для поиска движков к2, кому интересно могу продать за 3$, этот шаблон можно в дальнейшем настроить под любой парсер, только лишь изменить значение DOMa.
Им не получится так гибко как зенкой. Да и капчи он не обходит, насколько я помню.
 
А-парсером не получится как зенкой??? Мне кажется наоборот ))
 
Народ, чем привести ссылки abc.ru/index/blablalbla/sdf/dfgr к виду ttp://abc.ru софт
 
Да той же зенкой, в 2 действия. В одном действии берешь строку, в другом записываешь, но уже с ttp:// впереди
 
Да той же зенкой, в 2 действия. В одном действии берешь строку, в другом записываешь, но уже с ttp:// впереди
Прошу прощения, я неявно выразился, http спереди подставить не сложно, можно и в notepad++ это сделать, меня волнует как убрать хвост, т.е. привести домен к индексу
было : _ttp://ya.ru/aaaaa/cccc/ddd/fg.html
стало: _ttp://ya.ru/
Зенкой тут нужно регулярками поработать, может у кого есть наработка?
 
Прошу прощения, я неявно выразился, http спереди подставить не сложно, можно и в notepad++ это сделать, меня волнует как убрать хвост, т.е. привести домен к индексу
было : _ttp://ya.ru/aaaaa/cccc/ddd/fg.html
стало: _ttp://ya.ru/
Зенкой тут нужно регулярками поработать, может у кого есть наработка?


На сколько я знаю адрес можно найти: зайти в переменные (окружение) {-Page.Domain-} или {-Page.FullDomain-} они сохраняются автоматически как только переходят на страницу
 
Подскажите пожалуйста, а как вы парсите сайты? искать все сайты и смотреть чтобы в исходном коде было option=com_k2? Но даже так не во всех сайтах из списка в шаблоне он находится
Запрос в Гугле - inurl:option=com_k2 ключевое слово
 
Ребят кто нибудь подскажет что там надо поменять что бы он нормально прогон делал?
 
Парсишь ссылку на сайт из поиска гугл/яд/тд по нужным забросам , потом берешь код по этой ссылке при помощи get запроса и regexp ищешь нужные критерии в коде . В идеале ,для большей скорости парсинга - всё делается на post/get запросах .
Или просто погугли софт для этих целей ,раньше был butterfly парсер.
Я вот этим паршу http://ascent.pro/ru/selka.html
 
  • Спасибо
Реакции: global63 и Roman*
Прошу прощения, я неявно выразился, http спереди подставить не сложно, можно и в notepad++ это сделать, меня волнует как убрать хвост, т.е. привести домен к индексу
было : _ttp://ya.ru/aaaaa/cccc/ddd/fg.html
стало: _ttp://ya.ru/
Зенкой тут нужно регулярками поработать, может у кого есть наработка?


На сколько я знаю адрес можно найти: зайти в переменные (окружение) {-Page.Domain-} или {-Page.FullDomain-} они сохраняются автоматически как только переходят на страницу
Notepadом за пару секунд делается
 
Не понимаю в чем проблема, - на зенке парсер гугла пишется за 5 минут. За 7 - вместе со сниппетами. После авторизации с распределением прокси (1 прокси на 1 аккаунт-поток) и соблюдения пауз - всё парсится без капч и во все 5 потоков стандартной версии.
 
регулярное выражение (aaaaa.+)$ - удаляет все до конца строки, начиная с ааааа
Спасибо ), тоже сделал нотепадом регулярками но вот так
Строка поиск: \.ru.*$
Строка замена: .ru
 
Собственно мои результаты прогона
Писем на почту пришло 743
8lvFqCZ7P1vCFdnNioJc5Up-9opJApmHY4R67LWuTlU40Z6rKZxBoqIJQDeScq9v8AmtdnAq_bpyc0s343iSZA%3D%3D

Успешно упало в отчет 643 штуки
0p8rWzzWvL6jfPCQOsIaf97l5OKzx-bYh_pXGNYMkH6MZJf42nQPC6jHFAqpk1OegpDqlH8ydYDVpKKlUusK_A%3D%3D

Шаблон полностью на GET/POST кому интересна покупка пишите в skype: jerardn
 
Собственно мои результаты прогона
Писем на почту пришло 743
8lvFqCZ7P1vCFdnNioJc5Up-9opJApmHY4R67LWuTlU40Z6rKZxBoqIJQDeScq9v8AmtdnAq_bpyc0s343iSZA%3D%3D

Успешно упало в отчет 643 штуки
0p8rWzzWvL6jfPCQOsIaf97l5OKzx-bYh_pXGNYMkH6MZJf42nQPC6jHFAqpk1OegpDqlH8ydYDVpKKlUusK_A%3D%3D

Шаблон полностью на GET/POST кому интересна покупка пишите в skype: jerardn
Это за сколько он запостил все это?
 
Думаю если в 100 потоков гнать, то минут за 30. Точно сказать не могу, не засекал как то )
 
Есть результаты прогона? Позиции тиц?
 
То что статистику скинул, по ней результата не будет, т.к. чекал только пробив, соответственно сайт там не указан.
По поводу актуальности, тут тяжело сказать, т.к. прогонять можно по разному, статьи могут быть разного качества. Никто не мешает сделать перелинковку статей между собой + ссылки эти прогонять по профилям или блогах, в общем делать некую сетку.
Так же можно фильтровать домены по таким параметрам как CF,TF,DA,PA про которые мало кто вспоминает, сейчас ТИЦ и PR не так важен как раньше.
Я согласен с тем что щас от них толку и эффективности не так много как было 2-3 года назад, но я не согласен с тем что толк от них нулевой. Главное найти подход.
 
Не понимаю как вы ищите

hnmGr7x1wEvv00GLX0ajgyDZx1RH41xdfmwBp5nFVBu72JdtOMf1Czha7FDPDHFS-avKOP9HOkZgfdMvWn0wIg==
 
Друзья, что бы 2 раза не вставать - с удовольствием куплю шаблон для прогона статей по K2. Предложения в личку, пожалуйста.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)