Скопировать адреса всех сайтов из лайвинтернет.ру

Sonic_md

Новичок
Регистрация
01.07.2015
Сообщения
13
Благодарностей
1
Баллы
1
Всем привет

Как/чем можно скопировать адреса всех сайтов из: http://www.liveinternet.ru/rating/ru/

По ссылке 413179 сайтов

Как можно скопировать АДРЕСА этих сайтов?

Т.е. получить список вида:
вк.ком
ок.ру
авито.ру
гисметео.
Майл.ру
ит.д.
до самого последнего 413179-го сайта

Мне подсказали, что можно Zennoposter`ом это сделать.

Данной программой раньше не пользовался.

Подскажите
 

Sonic_md

Новичок
Регистрация
01.07.2015
Сообщения
13
Благодарностей
1
Баллы
1
Похоже не в той ветке создал тему. Извиняюсь. Если нужно - перенесите в соответствующую тему
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113
Ну можно в принцпе сделать парсер на ZennoPoster. Структура страницы вроде простая.
 

Sonic_md

Новичок
Регистрация
01.07.2015
Сообщения
13
Благодарностей
1
Баллы
1
А как это делается?
Про Zennoposter узнал вчера))
 

budora

Client
Регистрация
13.08.2012
Сообщения
831
Благодарностей
556
Баллы
93
А как это делается?
Про Zennoposter узнал вчера))
:az: Начать самому изучать зенно, попросить добрых самаритян сделать шаблон или заказать изготовление шаблона за деньги.
Да и самое нужное это приобрести лицензию или начинать на демо :de: версии.
 

kagorec

Client
Регистрация
24.08.2013
Сообщения
979
Благодарностей
525
Баллы
93
Zennoposter, Content Downloader, Datacol - самые популярные программы, помогут вам.
п.с. считаю что в Content Downloader проще и быстрее, поскольку софт специально создан для парсинга информации
 

Sonic_md

Новичок
Регистрация
01.07.2015
Сообщения
13
Благодарностей
1
Баллы
1
:az: Начать самому изучать зенно, попросить добрых самаритян сделать шаблон или заказать изготовление шаблона за деньги.
Да и самое нужное это приобрести лицензию или начинать на демо :de: версии.
Спасибо, попробую обратиться)
 

Sonic_md

Новичок
Регистрация
01.07.2015
Сообщения
13
Благодарностей
1
Баллы
1
Zennoposter, Content Downloader, Datacol - самые популярные программы, помогут вам.
п.с. считаю что в Content Downloader проще и быстрее, поскольку софт специально создан для парсинга информации
Первые 2 программы у меня есть. Похоже они демо-версия, т.к. не платил за них

Во второй CD - не получилось почему-то. Помощь пересмотрел - нет нигде подсказок как это сделать

Datacol - скачаю-попробую
 

kagorec

Client
Регистрация
24.08.2013
Сообщения
979
Благодарностей
525
Баллы
93
Скачайте (если нету) с офф сайта sbfactory.ru демо версию программы.
Откройте в CD через сочетание клавишь ctrl+o этот готовый проект https://cloud.mail.ru/public/816a/EYpDPF1i3 (второй вариант проекта парсит названия сайтов построчно в txt https://cloud.mail.ru/public/JtDU/o2CKtgpWm)
Нажмите F5 (начнется процесс парсинга) и подождите, в папке "c:\\content\liveiternet-ru\rating\RU\" примерно через полчаса/час будет текстовик со всеми доменами с лайвинтернет рейтинга.
п.с. на составление проекта ушло 2 минуты:-)
 
  • Спасибо
Реакции: Sonic_md

Sonic_md

Новичок
Регистрация
01.07.2015
Сообщения
13
Благодарностей
1
Баллы
1
kagorec, спасибо

CD у меня был - демоверсия однако
Открыл файл (готовый проект), нажал F5 - появилась надпись: В демо-версии спарсится 1 документ.

Придется 13 тысяч раз нажать F5

Потому что, если я правильно понял нажимаю F5 - и все адреса сайто с page=8 копируются в текстовик
и строка исчезает.. потом сайты с 9 страницы дописываются снизу и т.д.

http://www.liveinternet.ru/rating/ru/index.html?page=8
http://www.liveinternet.ru/rating/ru/index.html?page=9
 

budora

Client
Регистрация
13.08.2012
Сообщения
831
Благодарностей
556
Баллы
93
Sonic_md
Держи пример на коленке набросал. Это для обучения так сказать. Ссылку лишнюю захватил http://mastertalk.ru/forum13.html потрёшь её просто
 

Вложения

Sonic_md

Новичок
Регистрация
01.07.2015
Сообщения
13
Благодарностей
1
Баллы
1
budora, ага спасибо
в текстовом файле 6262 адреса... это не все? лайвинтернет запретил больше?)
 

budora

Client
Регистрация
13.08.2012
Сообщения
831
Благодарностей
556
Баллы
93
budora, ага спасибо
в текстовом файле 6262 адреса... это не все? лайвинтернет запретил больше?)
Нет просто мне не надо. Парсит и далее и без пауз вроде.... я же говорю на коленке набросал. Да и конца у шаблона нету :-)

а вот и ответ
Too many requests from one IP: 178.122.219.152.
Access denied for 60 minutes.
Limit: 500 requests per 10 minutes.
Denial till: Wed, 01 Jul 2015 13:26:39 GMT
Current time: Wed, 01 Jul 2015 12:28:16 GMT

если надо сделаю по людски но попозже
 
  • Спасибо
Реакции: Sonic_md

Sonic_md

Новичок
Регистрация
01.07.2015
Сообщения
13
Благодарностей
1
Баллы
1
kagorec, что-то и тот и тот файл если открыть одинаково они работают. И тот и тот построчно в текстовый файл добавляют адреса сайтов
 

Sonic_md

Новичок
Регистрация
01.07.2015
Сообщения
13
Благодарностей
1
Баллы
1
budora, было бы здорово))
это не к спеху мне.
Привет из солнечной Молдавии;-)
 

kagorec

Client
Регистрация
24.08.2013
Сообщения
979
Благодарностей
525
Баллы
93
Незнаю в чем была сложность найти человека с лицензией или приобрести самому...))
вот готовый файл 416.000 строк https://cloud.mail.ru/public/H2ws/8HYgjzQoo
 

surrealmix

Client
Регистрация
07.03.2013
Сообщения
715
Благодарностей
409
Баллы
63

Sonic_md

Новичок
Регистрация
01.07.2015
Сообщения
13
Благодарностей
1
Баллы
1
kagorec, спасибо)
 
  • Спасибо
Реакции: kagorec

NIKNN

Client
Регистрация
12.02.2020
Сообщения
16
Благодарностей
13
Баллы
3
Обновил под тенденции так сказать 2020 года. Вдруг кому понадобится для нагула. Спасибо за пример. жаль я не знаю как обрабатывать json на зеке. Есть блее быстрый вариант с
 

Вложения

  • Спасибо
Реакции: Роман Михайлов

heks

Client
Регистрация
01.10.2013
Сообщения
1 205
Благодарностей
316
Баллы
83
писал как то для себя
 

Вложения

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)