14-летний Core i7 (ноутбук) VS новые i7,i9,Ryzen 9 (desktop) в Zennoposter

Yablokoed

Client
Регистрация
08.03.2015
Сообщения
159
Благодарностей
2
Баллы
18
Простой regex ищет 30 минут в 40GB файле на 14-летнем Core i7 (ноутбук).

Хоть ReadAllText, хоть StreamReader. Какая производительность будет на новых машинах, например Core i5-14600K, Core i7-14700K, Ryzen 9 9950X3D или мощнее?
Как за 5-10 секунд искать regex в 200GB файле?
 
Последнее редактирование:

heks

Client
Регистрация
01.10.2013
Сообщения
1 585
Благодарностей
486
Баллы
83
Простой regex ищет 30 минут в 40GB файле на 14-летнем Core i7 (ноутбук).

Хоть ReadAllText, хоть StreamReader. Какая производительность будет на новых машинах, например Core i5-14600K, Core i7-14700K, Ryzen 9 9950X3D или мощнее?
Как за 5-10 секунд искать regex в 200GB файле?
питон используй зенка под это не заточена. Дели на более мелкие файлы и их обрабатывай
 
  • Спасибо
Реакции: Yablokoed

Yablokoed

Client
Регистрация
08.03.2015
Сообщения
159
Благодарностей
2
Баллы
18

heks

Client
Регистрация
01.10.2013
Сообщения
1 585
Благодарностей
486
Баллы
83
Выбирал на зенке регуляркой из файла 10 гигов занимало минут 40, на питоне тот же файл обработал минуты за 3
 
  • Спасибо
Реакции: Yablokoed

Dmitriy Ka

Client
Регистрация
03.05.2016
Сообщения
948
Благодарностей
728
Баллы
93

izubr

Client
Регистрация
11.05.2011
Сообщения
643
Благодарностей
302
Баллы
63

Dobriyk0t

Client
Регистрация
28.12.2016
Сообщения
118
Благодарностей
73
Баллы
28
Простой regex ищет 30 минут в 40GB файле на 14-летнем Core i7 (ноутбук).

Хоть ReadAllText, хоть StreamReader. Какая производительность будет на новых машинах, например Core i5-14600K, Core i7-14700K, Ryzen 9 9950X3D или мощнее?
Как за 5-10 секунд искать regex в 200GB файле?
А вы знаете толк в мазохизме :ay:
 
  • Спасибо
Реакции: Dmitriy Ka и Yablokoed

Yablokoed

Client
Регистрация
08.03.2015
Сообщения
159
Благодарностей
2
Баллы
18

Yablokoed

Client
Регистрация
08.03.2015
Сообщения
159
Благодарностей
2
Баллы
18
GPT пишет

Сравнение CPU (упрощённо):

CPUГодЯдра / потокиIPC/архитектураОценка прироста
i7-1xxx (старый)~20114 / 8Sandy Bridgeбазовая точка
i5-14600K202314 (6P+8E)Raptor Lake+4–6x быстрее в однопотоке, до +10–15x при многопоточности
i7-14700K202320 (8P+12E)Raptor Lakeещё выше в параллели
Ryzen 9 9950X3D202416 / 32Zen 5 + 3D V-Cacheлучший кэш → быстрые regex, до 20–25x ускорение
Предлагает код на C#, который читает файл чанками и запускает regex в параллели. Как в зенке сделать Hyperscan через обёртку?
 

radv

Client
Регистрация
11.05.2015
Сообщения
3 875
Благодарностей
2 109
Баллы
113
Пробовали перенести все данные из файла в БД (пусть даже локальную) типа MySQL?
 

izubr

Client
Регистрация
11.05.2011
Сообщения
643
Благодарностей
302
Баллы
63
Без перехода на скоростной ssd , при таких размерах файла, половина времени будет тратиться на считывание его. пока дело дойдет до обработки инфы кодом. ну и пропорционально для 200Гб *5 раз.
40Гб/120мб в сек для HDD = 33 с = 5,5 минут.
SSD-SATA = 40/550 = 72секунды
SSD-M2 которые можно вставить в современный ноут или с завода, от 3000 мб/сек = 12 сек или быстрее.
 

Dobriyk0t

Client
Регистрация
28.12.2016
Сообщения
118
Благодарностей
73
Баллы
28
В сколько раз будет прирост производительности в regex при переходе на Core i5-14600K например?
На мой взгляд вы неправильно ставите себе задачу. Как мне кажется ваша задача должна заключаться в разделении задачи на составляющие, а после решения.

Чтобы сделал я:
Разделение большого файла на небольшие и после поиск по ним. Причем, поиск регуляркой - это однопоток. Поэтому многопоток вам в помощь по разным файлам;
В какую еще сторону можно подумать: использование альтернативу регуляркам, например Aho-Corasick для поиска шаблонов, а уже после обрабатывайте.
 
  • Спасибо
Реакции: Yablokoed

Yablokoed

Client
Регистрация
08.03.2015
Сообщения
159
Благодарностей
2
Баллы
18

Dobriyk0t

Client
Регистрация
28.12.2016
Сообщения
118
Благодарностей
73
Баллы
28
  • Спасибо
Реакции: Yablokoed

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)