Парсер статей по ключевым запросам

asusa651

Client
Регистрация
18.03.2015
Сообщения
31
Благодарностей
0
Баллы
6
Доброго время суток, интересует отдельна услуга по парсеру статей, всего ключей будет 1863, разбиты на 11 категорий

1. Парсер статей по ключевым запросам
2. Парсить на 1 ключ по 30 статей
3. Если идет картинка в статье то копировать урл картинки для этой статьи
4. Определять и не парсить тексты с доров
5. Оставлять только нужные теги <p><div><strong><H1> и так далее.. Остальное удалять
6. Статьи парсить только от 2500 знаков б/п
 

Nord

Client
Регистрация
22.03.2012
Сообщения
2 408
Благодарностей
1 474
Баллы
113

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 562
Благодарностей
9 177
Баллы
113

FreeSite

Client
Регистрация
01.04.2011
Сообщения
101
Благодарностей
65
Баллы
28
4. Определять и не парсить тексты с доров
Это только вручную смотреть, иначе ни как
С остальным справится xparser или контент даунлоадер
Приобрети и не будет проблем
Тем более что за работу с тебя возьмут сумму сопоставимую со стоимостью программы
 

asusa651

Client
Регистрация
18.03.2015
Сообщения
31
Благодарностей
0
Баллы
6
Все можно, но как вы видете алгоритм?
Думаю нужно будет посмотреть что будет парсить, будет цеплять мусор или нет и если будет то в каком количестве, может все терпимо будет
 

Nord

Client
Регистрация
22.03.2012
Сообщения
2 408
Благодарностей
1 474
Баллы
113
Думаю нужно будет посмотреть что будет парсить, будет цеплять мусор или нет и если будет то в каком количестве, может все терпимо будет
Скажу вам так, делал я себе очень похожий шаблон.
В итоге, если тематика хоть как-то связана с офферами на партнерках - то на выходе получим 99% шлака - доры, одни и те же статьи с автосинонимайзингом и прочее подобное.
Просмотрев под тысячу файлов такого спаршенного шлака и убив несколько часов пошел на биржу и купил себе статей
 

asusa651

Client
Регистрация
18.03.2015
Сообщения
31
Благодарностей
0
Баллы
6
Все еще актуально
 

one

Client
Регистрация
22.09.2015
Сообщения
6 834
Благодарностей
1 275
Баллы
113
Все еще актуально
ВОт упертый человек. не ломайте себе голову. берите как сказали выше готовые парсеры. Она годами под это дело затачивались. Никто адекватный Вам не напишет подобного в зенке, просто не возьмется за это.
 

asusa651

Client
Регистрация
18.03.2015
Сообщения
31
Благодарностей
0
Баллы
6
Для адекватного и упертого, и для того кто в танке, мне нужна услуга, а не шаблон или парсер!

ВОт упертый человек. не ломайте себе голову. берите как сказали выше готовые парсеры. Она годами под это дело затачивались. Никто адекватный Вам не напишет подобного в зенке, просто не возьмется за это.
 

popobawa

Client
Регистрация
23.02.2016
Сообщения
31
Благодарностей
24
Баллы
18
X-Parser-Light http://x-parser.ru/
Хочешь с картинками и тегами, хочешь без, с дорами правда хз.
 
  • Спасибо
Реакции: Nord

FreeSite

Client
Регистрация
01.04.2011
Сообщения
101
Благодарностей
65
Баллы
28
бюджет то какой?
могу снять с полки xparser и запустить, но это не будет стоить 5 копеек
(кидай скайп в личку если что)
 

zenno.xxx

Client
Регистрация
05.10.2016
Сообщения
262
Благодарностей
248
Баллы
43
Добрый день!

Около 4х лет занимаюсь парсингом текста для своих проектов.
Парсинг/чистка/своя уникальная программа "Фильтр" основанная на последовательности RegExp.
(delete/replace на основе регулярных выражений)
XParser/ZennoPoster

Была заказана приватная доработка RegExFilter у автора программы + конструктор (подробности в ЛС).



Если заинтересованы можем попробовать.

Для этого укажите примеры ключей (на тест), я попробую предоставить Вам варианты текстовки.
Если Вас устроит - думаю сработаемся. Благодарю.

Для оценки: заказы беру от 1т.р, средняя цена проекта 2т.р (довольно крупные проекты от 3т.р)
Продублировал в ЛС.
 
Последнее редактирование:
  • Спасибо
Реакции: Roman* и Sergodjan

zenno.xxx

Client
Регистрация
05.10.2016
Сообщения
262
Благодарностей
248
Баллы
43
друзья, взял заказ.
 

Nord

Client
Регистрация
22.03.2012
Сообщения
2 408
Благодарностей
1 474
Баллы
113

one

Client
Регистрация
22.09.2015
Сообщения
6 834
Благодарностей
1 275
Баллы
113
  • Спасибо
Реакции: Nord

zenno.xxx

Client
Регистрация
05.10.2016
Сообщения
262
Благодарностей
248
Баллы
43
Лично я ставлю на сбор: минимальное значение парсинга параграфов от 150-200 символов (X-Parser) + свои Фильтры под каждого заказчика.
И приличное кол-во символов в самой статье (например, заказчик попросил от 2500+ это более, чем достаточно)

Ну а так да, Вы правы, тематика очень сильно влияет на качество парсинга.
Лично сам делаю дорвеи приближенные к СДЛ (и никак их не отличить от белых сайтов, с учетом хорошей чистки текста).

Кстати, есть в наличии Дорген, думаю после Праздников его еще обкатаю и выложу на данном форуме релиз, если никто не против :-)
(примеры проектов в Профиле, буду рад сотрудничать)
 
Последнее редактирование:
  • Спасибо
Реакции: GreenWay, popobawa и Nord

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)