ИИ анализатор html / dom

JanCarlo

Client
Регистрация
04.03.2018
Сообщения
355
Благодарностей
40
Баллы
28
Добрый день!

Никто не прикручивал к зенке ИИ по анализу текста / кода html или dom моделей?

Сам еще не разбирался, не знаю с каких продуктов ии начать изучать этот момент.

Хотелось бы, что бы решение было чисто на локальном устройстве, то есть не через облачные решения с подпиской.

Берем код страницы, указываем какие данные нужно распарсить, ии сама их собирает без написания регулярок и прочего.

Очень часто бывает довольно геморойно переписывать регулярки если поля имеют меняющиеся идентификаторы. Часто бывало так, что бы быстро и без гемороя, но криво, парсил кусок кода, и через несколько регулярок отсеивал данные до тех которые нужны, тогда и обходились ньюансы в виде меняющихся идентификаторов. Либо привязывался к соседним тегам именно меняющихся идентификаторов, парсил идентификаторы, и по ним уже выдирал данные :D

С Шарпом на Вы, мусьё если что ))

Может быть ИИ можно передать задачу на деобфускацию JS кода.

В общем кто то работал в этом направлении?
 
  • Спасибо
Реакции: bizzon

bizzon

Client
Регистрация
08.09.2015
Сообщения
1 100
Благодарностей
129
Баллы
63
Тоже интересно.
 
Последнее редактирование:

Iv1

Client
Регистрация
21.02.2016
Сообщения
1 932
Благодарностей
754
Баллы
113
Утопия.
Верстка бывает меняется, иерархия меняется.
Тут сам не всегда понимаешь как правильно привязаться, а ИИ точно хрени наделает.
Он на требуемых сайтах точно не обучался.
 
  • Спасибо
Реакции: lavachik и Oleg1987

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
278
Благодарностей
66
Баллы
28
Если нужно собирать какие то определенные кусочки страниц с данными то лучше через регулярку. Если же вам нужен парсинг статей, то в конкурсных статьях видел решение.
 

bizzon

Client
Регистрация
08.09.2015
Сообщения
1 100
Благодарностей
129
Баллы
63
Вы читайте пост.
Парень спросил:

Никто не прикручивал к зенке ИИ по анализу текста / кода html или dom моделей?

Получается, что никто не пробовал, зато куча мнений.
 
  • Спасибо
Реакции: JanCarlo

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
278
Благодарностей
66
Баллы
28
Вы читайте пост.
Парень спросил:

Никто не прикручивал к зенке ИИ по анализу текста / кода html или dom моделей?

Получается, что никто не пробовал, зато куча мнений.
по факту ему нужно решение которое бы парсило информацию, без рутины с регулярками. Но не вижу разницы будет это ии или либа, а может какое другое решение если это решит его боль.
 

JanCarlo

Client
Регистрация
04.03.2018
Сообщения
355
Благодарностей
40
Баллы
28
Вобще да, выше написали, мало того что верстка меняется, так еще и логика и в целом структура может поменяться. Тут самому сложно понять так ИИ тут не доедет вобще. Хотя, я бы попробовал какие нибудь приблеженные к этой тематике репозитории качнуть, потестить, но понятия не имею какие.

Если что то сложное ИИ не разберет, почему бы нейронке не начать разбирать что то более простое, от чего будет проще шабы писать?)
 

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
278
Благодарностей
66
Баллы
28
Вобще да, выше написали, мало того что верстка меняется, так еще и логика и в целом структура может поменяться. Тут самому сложно понять так ИИ тут не доедет вобще. Хотя, я бы попробовал какие нибудь приблеженные к этой тематике репозитории качнуть, потестить, но понятия не имею какие.

Если что то сложное ИИ не разберет, почему бы нейронке не начать разбирать что то более простое, от чего будет проще шабы писать?)
По этому и говорю, что в конкурсных статьях была то ли либа, то ли репозиторий который парсит статьи и другие данные без html
 
  • Спасибо
Реакции: JanCarlo

bizzon

Client
Регистрация
08.09.2015
Сообщения
1 100
Благодарностей
129
Баллы
63
Еще раз.
Парень в посте попросил поделиться мнением ТЕХ КТО пробовал ИИ в этом направлении.
Просьба "теоретиков" не засирать ветку.
 
  • Спасибо
Реакции: JanCarlo

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
278
Благодарностей
66
Баллы
28
Еще раз.
Парень в посте попросил поделиться мнением ТЕХ КТО пробовал ИИ в этом направлении.
Просьба "теоретиков" не засирать ветку.
:D На данный момент вижу, что только вы засоряете ветку, пытаясь кому то что то указывать. Хотя от вас не одного толкового совета не поступила.

Автор поста спросил совета, я ему ответил. Дальше у него есть два варианта либо идти и искать и читать статью и пробовать, тестировать. Ну или забить болт на советы от "теоретиков". И про ИИ уже ответили, что оно вряд ли справится да и на рынке ии ничего подобного не встречал. Хотя постоянно мониторю сервисы ИИ и отбираю бесплатные.

 

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
278
Благодарностей
66
Баллы
28
:D На данный момент вижу, что только вы засоряете ветку, пытаясь кому то что то указывать. Хотя от вас не одного толкового совета не поступила.

Автор поста спросил совета, я ему ответил. Дальше у него есть два варианта либо идти и искать и читать статью и пробовать, тестировать. Ну или забить болт на советы от "теоретиков". И про ИИ уже ответили, что оно вряд ли справится да и на рынке ии ничего подобного не встречал. Хотя постоянно мониторю сервисы ИИ и отбираю бесплатные.

Основную массу html кода можно удалить, а там дальше регулярной удалить все теги которые есть в <*>.Думаю под решение задачи должно подойти
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)