Как быстро парсить ?

  • Автор темы Автор темы Svyat
  • Дата начала Дата начала

Svyat

Client
Регистрация
10.04.2012
Сообщения
97
Реакции
8
Баллы
8
Есть у меня 220000 страниц для парсинга.

Настроил я все, чтоб все поля сохранялись. Протестил все вроде гуд.

Теперь проблема, ставлю 20 потоков, но больше 5-10 не поднимается.

Как сделать чтоб подгужать только код html, может как нибуть get запросом, или еще как-то.
А то я повыключал уже и javascript и картинки, но все равно медлено страницу грузит, наврено css грузит, да и компилирует html код для браузера.

Одним словом, можно ли грузить html код страницы каким-то другим макросом, не использую макрос (переходы на страницу, потом взять Dom) может через C# есть готовые скрипты.

Короче нужно сделать паука, а не полноценного серфера.
 
Только GET запросами.
Берешь страницу и регулярными выражениями берешь нужные ссылки ссылки и переходишь на них.
 
Все верно, толь ко GET запросами или использовать специализированный софт для парсинга.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)