Парсер статей по ключевым запросам

asusa651

Client
Регистрация
18.03.2015
Сообщения
31
Реакции
0
Баллы
6
Доброго время суток, интересует отдельна услуга по парсеру статей, всего ключей будет 1863, разбиты на 11 категорий

1. Парсер статей по ключевым запросам
2. Парсить на 1 ключ по 30 статей
3. Если идет картинка в статье то копировать урл картинки для этой статьи
4. Определять и не парсить тексты с доров
5. Оставлять только нужные теги <p><div><strong><H1> и так далее.. Остальное удалять
6. Статьи парсить только от 2500 знаков б/п
 
4. Определять и не парсить тексты с доров
Это только вручную смотреть, иначе ни как
С остальным справится xparser или контент даунлоадер
Приобрети и не будет проблем
Тем более что за работу с тебя возьмут сумму сопоставимую со стоимостью программы
 
Все можно, но как вы видете алгоритм?
Думаю нужно будет посмотреть что будет парсить, будет цеплять мусор или нет и если будет то в каком количестве, может все терпимо будет
 
Думаю нужно будет посмотреть что будет парсить, будет цеплять мусор или нет и если будет то в каком количестве, может все терпимо будет
Скажу вам так, делал я себе очень похожий шаблон.
В итоге, если тематика хоть как-то связана с офферами на партнерках - то на выходе получим 99% шлака - доры, одни и те же статьи с автосинонимайзингом и прочее подобное.
Просмотрев под тысячу файлов такого спаршенного шлака и убив несколько часов пошел на биржу и купил себе статей
 
Все еще актуально
 
Все еще актуально
ВОт упертый человек. не ломайте себе голову. берите как сказали выше готовые парсеры. Она годами под это дело затачивались. Никто адекватный Вам не напишет подобного в зенке, просто не возьмется за это.
 
Для адекватного и упертого, и для того кто в танке, мне нужна услуга, а не шаблон или парсер!

ВОт упертый человек. не ломайте себе голову. берите как сказали выше готовые парсеры. Она годами под это дело затачивались. Никто адекватный Вам не напишет подобного в зенке, просто не возьмется за это.
 
X-Parser-Light http://x-parser.ru/
Хочешь с картинками и тегами, хочешь без, с дорами правда хз.
4bff8a136cc1f03702ea23c9ff75eb69.png
 
  • Спасибо
Реакции: Nord
Добрый день!

Около 4х лет занимаюсь парсингом текста для своих проектов.
Парсинг/чистка/своя уникальная программа "Фильтр" основанная на последовательности RegExp.
(delete/replace на основе регулярных выражений)
XParser/ZennoPoster

Была заказана приватная доработка RegExFilter у автора программы + конструктор (подробности в ЛС).

SwgAVPxr.png


Если заинтересованы можем попробовать.

Для этого укажите примеры ключей (на тест), я попробую предоставить Вам варианты текстовки.
Если Вас устроит - думаю сработаемся. Благодарю.

Для оценки: заказы беру от 1т.р, средняя цена проекта 2т.р (довольно крупные проекты от 3т.р)
Продублировал в ЛС.
 
Последнее редактирование:
  • Спасибо
Реакции: Roman* и Sergodjan
друзья, взял заказ.
 
  • Спасибо
Реакции: Nord
Лично я ставлю на сбор: минимальное значение парсинга параграфов от 150-200 символов (X-Parser) + свои Фильтры под каждого заказчика.
И приличное кол-во символов в самой статье (например, заказчик попросил от 2500+ это более, чем достаточно)

Ну а так да, Вы правы, тематика очень сильно влияет на качество парсинга.
Лично сам делаю дорвеи приближенные к СДЛ (и никак их не отличить от белых сайтов, с учетом хорошей чистки текста).

Кстати, есть в наличии Дорген, думаю после Праздников его еще обкатаю и выложу на данном форуме релиз, если никто не против :-)
(примеры проектов в Профиле, буду рад сотрудничать)
 
Последнее редактирование:
  • Спасибо
Реакции: GreenWay, popobawa и Nord

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)