Как спарсить клиентскую базу?

qwadra

Client
Регистрация
21.11.2017
Сообщения
264
Благодарностей
42
Баллы
28
Не сталкивался еще с парсингом подобных страниц, да и пользуюсь редко.
Задача спарсить базу из битрикс, я могу это сделать заходя в каждый профиль, но это очень долго и, возможно, палевно, т.к. база на десятки тысяч профилей. А вот как со страницы, как по ссылке выше, типа:

Подписка на смс Город мылоТелефон
ДаКиев[email protected] 1234546
[email protected] 5745344
НетМосква[email protected]
[TBODY] [/TBODY]

Где на странице много строк и часть ячеек не заполнена, спарсить все в таком же виде в таблицу, я не догоняю.
 

Чешир

Client
Регистрация
27.06.2014
Сообщения
1 633
Благодарностей
963
Баллы
113
перебирать страницы, брать строчки, раскидывать по ячейкам.
Желательно сначала в текст файл
Задача элементарная.
В чем тут палево? Кто-то следит за серфингом?
 

bad robot

Client
Регистрация
07.03.2011
Сообщения
203
Благодарностей
51
Баллы
28
на гет-запросах делается шаблон, и даже в один поток (если страшно) база в пару десятков тысяч обработается довольно шустро
 

Шива

Client
Регистрация
05.02.2018
Сообщения
1 088
Благодарностей
341
Баллы
83
Если страниц не много то просто руками сохранить и регулярками выдрать
 

Чешир

Client
Регистрация
27.06.2014
Сообщения
1 633
Благодарностей
963
Баллы
113

qwadra

Client
Регистрация
21.11.2017
Сообщения
264
Благодарностей
42
Баллы
28
Блин, WTF? Смотрю в браузере исходный код, там есть такое:

HTML:
ENABLE_COLLAPSIBLE_ROWS':false,'EDITABLE_DATA':{'6456':{'UF_SUBSCRIBE_SMS':'','PERSONAL_GENDER':'','PERSONAL_STREET':'','PERSONAL_PROFESSION':'','PERSONAL_WWW':'','PERSONAL_ICQ':'','SECOND_NAME':'','TITLE':'','PERSONAL_CITY':'','WORK_COMPANY':'','WORK_DEPARTMENT':'','WORK_POSITION':'','WORK_WWW':'','WORK_PHONE':'','WORK_CITY':'','XML_ID':'','LOGIN':'','EMAIL':'[email protected]','NAME':'Илья','LAST_NAME':'Иванов','ACTIVE':'','PERSONAL_PHONE':'7 (111) 111-52-32','PERSONAL_MOBILE':''},'385689':
В зенке ни в DOM ни в коде страницы нет. Там таблица только </td><td> классы одинаковые, зацепиться не за что (с моими знаниями).

P.S. спалиться боялся, думая на запросах делать, но завяз даже тут.
 

zarufakis

Client
Регистрация
22.03.2019
Сообщения
1 705
Благодарностей
1 081
Баллы
113

qwadra

Client
Регистрация
21.11.2017
Сообщения
264
Благодарностей
42
Баллы
28
Повторюсь, не то что в браузере в исходном коде, а мыло нахожу только тут. Как так?

HTML:
<span class="main-grid-cell-content" data-prevent-default="true"><a class="txttohtmllink" href="mailto:[email protected]" title="Написать письмо">[email protected]</a></span></td><td class="main-grid-cell main-grid-cell-left"><span class="main-grid-cell-content" data-prevent-default="true"></span></td><td class="main-grid-cell main-grid-cell-left"><span class="main-grid-cell-content" data-prevent-default="true">Иванов
 

TwistDanceR

Client
Регистрация
30.05.2019
Сообщения
479
Благодарностей
200
Баллы
43
Повторюсь, не то что в браузере в исходном коде, а мыло нахожу только тут. Как так?

HTML:
<span class="main-grid-cell-content" data-prevent-default="true"><a class="txttohtmllink" href="mailto:[email protected]" title="Написать письмо">[email protected]</a></span></td><td class="main-grid-cell main-grid-cell-left"><span class="main-grid-cell-content" data-prevent-default="true"></span></td><td class="main-grid-cell main-grid-cell-left"><span class="main-grid-cell-content" data-prevent-default="true">Иванов
Привет. Я тоже новичок, но недавно с таблицами работал, у меня нормально всё парсилось. Могу попробовать ещё раз сделать, аж самому интересно стало. Сможешь как-нибудь скинуть DOM страницы с таблицей, с которой нужно спарсить? Постараюсь помочь afap.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)