Скопировать адреса всех сайтов из лайвинтернет.ру

  • Автор темы Автор темы Sonic_md
  • Дата начала Дата начала

Sonic_md

Новичок
Регистрация
01.07.2015
Сообщения
13
Реакции
1
Баллы
1
Всем привет

Как/чем можно скопировать адреса всех сайтов из: http://www.liveinternet.ru/rating/ru/

По ссылке 413179 сайтов

Как можно скопировать АДРЕСА этих сайтов?

Т.е. получить список вида:
вк.ком
ок.ру
авито.ру
гисметео.
Майл.ру
ит.д.
до самого последнего 413179-го сайта

Мне подсказали, что можно Zennoposter`ом это сделать.

Данной программой раньше не пользовался.

Подскажите
 
Похоже не в той ветке создал тему. Извиняюсь. Если нужно - перенесите в соответствующую тему
 
Ну можно в принцпе сделать парсер на ZennoPoster. Структура страницы вроде простая.
 
А как это делается?
Про Zennoposter узнал вчера))
 
А как это делается?
Про Zennoposter узнал вчера))
:az: Начать самому изучать зенно, попросить добрых самаритян сделать шаблон или заказать изготовление шаблона за деньги.
Да и самое нужное это приобрести лицензию или начинать на демо :de: версии.
 
Zennoposter, Content Downloader, Datacol - самые популярные программы, помогут вам.
п.с. считаю что в Content Downloader проще и быстрее, поскольку софт специально создан для парсинга информации
 
:az: Начать самому изучать зенно, попросить добрых самаритян сделать шаблон или заказать изготовление шаблона за деньги.
Да и самое нужное это приобрести лицензию или начинать на демо :de: версии.

Спасибо, попробую обратиться)
 
Zennoposter, Content Downloader, Datacol - самые популярные программы, помогут вам.
п.с. считаю что в Content Downloader проще и быстрее, поскольку софт специально создан для парсинга информации

Первые 2 программы у меня есть. Похоже они демо-версия, т.к. не платил за них

Во второй CD - не получилось почему-то. Помощь пересмотрел - нет нигде подсказок как это сделать

Datacol - скачаю-попробую
 
Скачайте (если нету) с офф сайта sbfactory.ru демо версию программы.
Откройте в CD через сочетание клавишь ctrl+o этот готовый проект https://cloud.mail.ru/public/816a/EYpDPF1i3 (второй вариант проекта парсит названия сайтов построчно в txt https://cloud.mail.ru/public/JtDU/o2CKtgpWm)
Нажмите F5 (начнется процесс парсинга) и подождите, в папке "c:\\content\liveiternet-ru\rating\RU\" примерно через полчаса/час будет текстовик со всеми доменами с лайвинтернет рейтинга.
п.с. на составление проекта ушло 2 минуты:-)
 
  • Спасибо
Реакции: Sonic_md
kagorec, спасибо

CD у меня был - демоверсия однако
Открыл файл (готовый проект), нажал F5 - появилась надпись: В демо-версии спарсится 1 документ.

Придется 13 тысяч раз нажать F5

Потому что, если я правильно понял нажимаю F5 - и все адреса сайто с page=8 копируются в текстовик
и строка исчезает.. потом сайты с 9 страницы дописываются снизу и т.д.

http://www.liveinternet.ru/rating/ru/index.html?page=8
http://www.liveinternet.ru/rating/ru/index.html?page=9
 
Sonic_md
Держи пример на коленке набросал. Это для обучения так сказать. Ссылку лишнюю захватил http://mastertalk.ru/forum13.html потрёшь её просто
 

Вложения

budora, ага спасибо
в текстовом файле 6262 адреса... это не все? лайвинтернет запретил больше?)
 
budora, ага спасибо
в текстовом файле 6262 адреса... это не все? лайвинтернет запретил больше?)
Нет просто мне не надо. Парсит и далее и без пауз вроде.... я же говорю на коленке набросал. Да и конца у шаблона нету :-)

а вот и ответ
Too many requests from one IP: 178.122.219.152.
Access denied for 60 minutes.
Limit: 500 requests per 10 minutes.
Denial till: Wed, 01 Jul 2015 13:26:39 GMT
Current time: Wed, 01 Jul 2015 12:28:16 GMT

если надо сделаю по людски но попозже
 
  • Спасибо
Реакции: Sonic_md
kagorec, что-то и тот и тот файл если открыть одинаково они работают. И тот и тот построчно в текстовый файл добавляют адреса сайтов
 
budora, было бы здорово))
это не к спеху мне.
Привет из солнечной Молдавии;)
 
Незнаю в чем была сложность найти человека с лицензией или приобрести самому...))
вот готовый файл 416.000 строк https://cloud.mail.ru/public/H2ws/8HYgjzQoo
 
Обновил под тенденции так сказать 2020 года. Вдруг кому понадобится для нагула. Спасибо за пример. жаль я не знаю как обрабатывать json на зеке. Есть блее быстрый вариант с
 

Вложения

  • live.xmlz
    live.xmlz
    16,8 KB · Просмотры: 234
  • sites.txt
    sites.txt
    28,1 KB · Просмотры: 408
  • Спасибо
Реакции: Роман Михайлов

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)