Плутишка
Client
- Регистрация
- 29.03.2013
- Сообщения
- 39
- Благодарностей
- 12
- Баллы
- 8
Парсера не осталось поделиться?То что список приложен к проекту, он парсился в момент написания статьи +/- 2 дня
Парсера не осталось поделиться?То что список приложен к проекту, он парсился в момент написания статьи +/- 2 дня
какая ссылка правильная должна быть в файле domains.txt?
_ttp://abc.ru
или
_ttp://abc.ru/component/k2/
Им не получится так гибко как зенкой. Да и капчи он не обходит, насколько я помню.http://a-parser.com/ - пожалуйста )
Дороговата получается, есть аналог контент довлоадер, про версия стоит 2000р для 50 потоков, практически под любой вид парсинга можно настроить, как пример парсер групп в вк, с автоматической прокруткой вниз. Я там у специалистов заказал сейчас шаблон для гугла для поиска движков к2, кому интересно могу продать за 3$, этот шаблон можно в дальнейшем настроить под любой парсер, только лишь изменить значение DOMa.
значит правильно все делал.h_ttp://abc.ru
Прошу прощения, я неявно выразился, http спереди подставить не сложно, можно и в notepad++ это сделать, меня волнует как убрать хвост, т.е. привести домен к индексуДа той же зенкой, в 2 действия. В одном действии берешь строку, в другом записываешь, но уже с ttp:// впереди
Запрос в Гугле - inurl:option=com_k2 ключевое словоПодскажите пожалуйста, а как вы парсите сайты? искать все сайты и смотреть чтобы в исходном коде было option=com_k2? Но даже так не во всех сайтах из списка в шаблоне он находится
Я вот этим паршу http://ascent.pro/ru/selka.htmlПарсишь ссылку на сайт из поиска гугл/яд/тд по нужным забросам , потом берешь код по этой ссылке при помощи get запроса и regexp ищешь нужные критерии в коде . В идеале ,для большей скорости парсинга - всё делается на post/get запросах .
Или просто погугли софт для этих целей ,раньше был butterfly парсер.
Notepadом за пару секунд делаетсяПрошу прощения, я неявно выразился, http спереди подставить не сложно, можно и в notepad++ это сделать, меня волнует как убрать хвост, т.е. привести домен к индексу
было : _ttp://ya.ru/aaaaa/cccc/ddd/fg.html
стало: _ttp://ya.ru/
Зенкой тут нужно регулярками поработать, может у кого есть наработка?
На сколько я знаю адрес можно найти: зайти в переменные (окружение) {-Page.Domain-} или {-Page.FullDomain-} они сохраняются автоматически как только переходят на страницу
Спасибо ), тоже сделал нотепадом регулярками но вот такрегулярное выражение (aaaaa.+)$ - удаляет все до конца строки, начиная с ааааа
Это за сколько он запостил все это?Собственно мои результаты прогона
Писем на почту пришло 743
Успешно упало в отчет 643 штуки
Шаблон полностью на GET/POST кому интересна покупка пишите в skype: jerardn
inurl:option=com_k2 гугль похоже пофильтровалгугль похоже пофильтровал выдачу по com_k2