- Регистрация
- 20.05.2014
- Сообщения
- 122
- Благодарностей
- 4
- Баллы
- 18
Написал шаблон,
В шаблоне 2 таблицы с настройками "Загружать из файла, сохранять изменения",
Из одной таблицы берём ссылку, запускаем её, парсим всё что нужно, в другую таблицу пишем результат. Отключил картинки, стили, флеш.
Самих ссылок в таблице1 около миллиона. Запускаю в Зенке на 40 потоков, но больше 8 никак не получается, скачет от 0 до 8 потоков. 1000 ссылок обрабатывает около 10 - 20 минут. Подумал что может быть потоки ждут очереди на запись в файлы источника ссылок и результат, и из-за этого Зенка не может больше потоков запустить. Решил скопировать шаблон в 5 копиях, и подвязал для каждого из них свой файл источник ссылок, и файл результат (для таблиц). Запустил 5 проектов, на 10 потоков каждому. Результат тот же, общее количество потоков не подымается больше 7-8.
Как правильно организовать парсинг в данном случае ? Может попробовать сделать цикл в шаблоне, не перезапускать его каждый раз?
В шаблоне 2 таблицы с настройками "Загружать из файла, сохранять изменения",
Из одной таблицы берём ссылку, запускаем её, парсим всё что нужно, в другую таблицу пишем результат. Отключил картинки, стили, флеш.
Самих ссылок в таблице1 около миллиона. Запускаю в Зенке на 40 потоков, но больше 8 никак не получается, скачет от 0 до 8 потоков. 1000 ссылок обрабатывает около 10 - 20 минут. Подумал что может быть потоки ждут очереди на запись в файлы источника ссылок и результат, и из-за этого Зенка не может больше потоков запустить. Решил скопировать шаблон в 5 копиях, и подвязал для каждого из них свой файл источник ссылок, и файл результат (для таблиц). Запустил 5 проектов, на 10 потоков каждому. Результат тот же, общее количество потоков не подымается больше 7-8.
Как правильно организовать парсинг в данном случае ? Может попробовать сделать цикл в шаблоне, не перезапускать его каждый раз?