14-летний Core i7 (ноутбук) VS новые i7,i9,Ryzen 9 (desktop) в Zennoposter

Yablokoed

Client
Регистрация
08.03.2015
Сообщения
149
Благодарностей
2
Баллы
18
Простой regex ищет 30 минут в 40GB файле на 14-летнем Core i7 (ноутбук).

Хоть ReadAllText, хоть StreamReader. Какая производительность будет на новых машинах, например Core i5-14600K, Core i7-14700K, Ryzen 9 9950X3D или мощнее?
Как за 5-10 секунд искать regex в 200GB файле?
 
Последнее редактирование:

heks

Client
Регистрация
01.10.2013
Сообщения
1 332
Благодарностей
373
Баллы
83
Простой regex ищет 30 минут в 40GB файле на 14-летнем Core i7 (ноутбук).

Хоть ReadAllText, хоть StreamReader. Какая производительность будет на новых машинах, например Core i5-14600K, Core i7-14700K, Ryzen 9 9950X3D или мощнее?
Как за 5-10 секунд искать regex в 200GB файле?
питон используй зенка под это не заточена. Дели на более мелкие файлы и их обрабатывай
 
  • Спасибо
Реакции: Yablokoed

Yablokoed

Client
Регистрация
08.03.2015
Сообщения
149
Благодарностей
2
Баллы
18

heks

Client
Регистрация
01.10.2013
Сообщения
1 332
Благодарностей
373
Баллы
83
Выбирал на зенке регуляркой из файла 10 гигов занимало минут 40, на питоне тот же файл обработал минуты за 3
 
  • Спасибо
Реакции: Yablokoed

Dmitriy Ka

Client
Регистрация
03.05.2016
Сообщения
822
Благодарностей
567
Баллы
93
132321
 

Dobriyk0t

Client
Регистрация
28.12.2016
Сообщения
106
Благодарностей
62
Баллы
28
Простой regex ищет 30 минут в 40GB файле на 14-летнем Core i7 (ноутбук).

Хоть ReadAllText, хоть StreamReader. Какая производительность будет на новых машинах, например Core i5-14600K, Core i7-14700K, Ryzen 9 9950X3D или мощнее?
Как за 5-10 секунд искать regex в 200GB файле?
А вы знаете толк в мазохизме :ay:
 
  • Спасибо
Реакции: Dmitriy Ka и Yablokoed

Yablokoed

Client
Регистрация
08.03.2015
Сообщения
149
Благодарностей
2
Баллы
18

Yablokoed

Client
Регистрация
08.03.2015
Сообщения
149
Благодарностей
2
Баллы
18
GPT пишет

Сравнение CPU (упрощённо):

CPUГодЯдра / потокиIPC/архитектураОценка прироста
i7-1xxx (старый)~20114 / 8Sandy Bridgeбазовая точка
i5-14600K202314 (6P+8E)Raptor Lake+4–6x быстрее в однопотоке, до +10–15x при многопоточности
i7-14700K202320 (8P+12E)Raptor Lakeещё выше в параллели
Ryzen 9 9950X3D202416 / 32Zen 5 + 3D V-Cacheлучший кэш → быстрые regex, до 20–25x ускорение
Предлагает код на C#, который читает файл чанками и запускает regex в параллели. Как в зенке сделать Hyperscan через обёртку?
 

radv

Client
Регистрация
11.05.2015
Сообщения
3 853
Благодарностей
2 082
Баллы
113
Пробовали перенести все данные из файла в БД (пусть даже локальную) типа MySQL?
 

izubr

Client
Регистрация
11.05.2011
Сообщения
589
Благодарностей
267
Баллы
63
Без перехода на скоростной ssd , при таких размерах файла, половина времени будет тратиться на считывание его. пока дело дойдет до обработки инфы кодом. ну и пропорционально для 200Гб *5 раз.
40Гб/120мб в сек для HDD = 33 с = 5,5 минут.
SSD-SATA = 40/550 = 72секунды
SSD-M2 которые можно вставить в современный ноут или с завода, от 3000 мб/сек = 12 сек или быстрее.
 

Dobriyk0t

Client
Регистрация
28.12.2016
Сообщения
106
Благодарностей
62
Баллы
28
В сколько раз будет прирост производительности в regex при переходе на Core i5-14600K например?
На мой взгляд вы неправильно ставите себе задачу. Как мне кажется ваша задача должна заключаться в разделении задачи на составляющие, а после решения.

Чтобы сделал я:
Разделение большого файла на небольшие и после поиск по ним. Причем, поиск регуляркой - это однопоток. Поэтому многопоток вам в помощь по разным файлам;
В какую еще сторону можно подумать: использование альтернативу регуляркам, например Aho-Corasick для поиска шаблонов, а уже после обрабатывайте.
 
  • Спасибо
Реакции: Yablokoed

Yablokoed

Client
Регистрация
08.03.2015
Сообщения
149
Благодарностей
2
Баллы
18

Dobriyk0t

Client
Регистрация
28.12.2016
Сообщения
106
Благодарностей
62
Баллы
28

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)