Вопрос по обработке текста

money4honey · 01.07.2014

Есть файл в xml формате,
и мне нужно получить из него только то, что находится внутри тегов <domain></domain> см. скриншот (в файле всего 30 совпадений)
как это сделать используя regex?
насколько я понимаю нужно использовать номера совпадений.. но пока не могу разобраться.

rostonix · 01.07.2014

Код:

(?<=<domain>).*?(?=</domain>)

money4honey · 01.07.2014

rostonix написал(а):
Код:

(?<=<domain>).*?(?=</domain>)

попробовал выражение - теперь уже берет текст, но при этом захватывает весь массив, т.е. начиная от первого тега <domain> до последнего.

а мне нужно чтобы захватывалось только то, что внутри каждого отдельного тега <domain> (всего 30 доменов)

то есть на выходе я хочу получить список с 30 доменами, каждый с новой строки.
вот так выглядит сейчас regex

насколько я понимаю можно решить этот вопрос при помощи пунктов "одно совпадение" и "номера совпадений"
вариант "Первое" при выводе в список выдает целый масив (скрин выше)
вариант "все" при выводе в список выдает тоже самое.
Также пробовал оставшиеся 2 варианта:
пробовал вставлять переменную с цифрой ({-Variable.Counter-}, к примеру=0) в поле "одно совпадение" - не работает.
номера совпадений пробовал перечислять цифрами через запятую (1,2,3) - не работает.

вопрос в том, как в данном случае получить на выходе список с 30 доменами

rostonix · 01.07.2014

Моя регулярка другая

money4honey · 01.07.2014

rostonix написал(а):
Моя регулярка другая

блин, точно =) - 1 знак "?" пропустил

вставил эту регулярку - получил список из 30 доменов :-)

rostonix, ты классный, спасибо тебе

для тех, у кого похожая ситуация.
так выглядит правильная регулярка:

на выходе получаются домены:

Sergodjan · 01.07.2014

насколько я понял нужно вот так:

и потом список объединить в переменную..

money4honey · 01.07.2014

sergodjan66 написал(а):
насколько я понял нужно вот так:
Посмотреть вложение 5693

и потом список объединить в переменную..

да, так уже догадался сделать, можно сказать методом тыка.
вообще с зено разбираюсь методом тыка :-)

, т.к. лень документацию читать

money4honey · 01.07.2014

кстати, это я пытаюсь сделать zenno-шаб под yandex xml - в задумке проверка позиций по ключам и анализ выдачи в целом.
единственный минус этого метода парсинга выдачи - лимиты. с другой стороны - без капчи.

Lexicon · 01.07.2014

Немножко попиарю, если никто не против, мой любимый сервис - xmlproxy.ru
А что касается анализа выдачи в целом - поделитесь методами наблюдений....

money4honey · 01.07.2014

Lexicon написал(а):
xmlproxy.ru

нормальный такой сервис. покупай - продавай :-)

цены вроде не кусачие.

Lexicon написал(а):
поделитесь методами наблюдений....

использую xml yandex в основном для сбора позиций и анализа конкуренции по ключам, используя запросы вида:
title:"<запрос>"
также получаю из выдачи тайтлы сайтов по искомым запросам и выделяю из них словосочетания.
для автоматизации процесса написал семантический модуль, который делит тайтлы на слова и генерирует из слов все возможные варианты словосочетаний.
как ещё использовать yandex xml я пока не придумал :-)

если у вас есть идеи, предложения, буду рад их услышать

кстати, заметил интересную особенность в разметке документов в xml:

в теге <size> находится подсчитанное количество символов без пробелов между тегами <body> в source документа.
а сама основная разметка банальна проста. но стоит обратить внимание на пассажи..
что в title, что в description они разделены на ключевые слова, по которым видимо и ранжируется данная страница.
думаю, следующим шабом под yandex xml напишу именно такой, чтобы выделял пассажи

Lexicon · 01.07.2014

гм... ну я из XML получаю средневзвешенные позиции, выделение основного конкурента, неожиданные выборосы в топ по ВЧ, кластеризация зарпосов... чуточку через попу, но работает все равно))))
Ну и опять же таки да - еще пилю долго и лениво, но таки анализатор динамики весов внутренних факторов, опять же поиск системных выбросов и т.п...)))))

money4honey · 01.07.2014

спасибо что рассказали о вашем опыте.
да, с xml можно много всего придумать.
анализ внутренних весов - классная вещь.
по таким данным можно и скрипт автоматической линковки написать.

вот только про кластеризацию запросов не понял.
на мой взгляд в том же wordstat они лучше структурированы получаются. или мы говорим о разных вещах?)

Lexicon · 01.07.2014

ну немножко да))) вот есть у вас 3000 запросов на одну тему, и нужно вам их как то распределить по страницам)))) и вот как раз исопльзуя наработки яши в семантике и морфологии можно их группировать не по вхождениям слов, а по фактическому смыслу. Есть конечно и косяки... но я лучше час посплю, пока скрипт работает, чем буду час семантику руками разгребать.

money4honey · 01.07.2014

Lexicon написал(а):
ну немножко да))) вот есть у вас 3000 запросов на одну тему, и нужно вам их как то распределить по страницам)))) и вот как раз исопльзуя наработки яши в семантике и морфологии можно их группировать не по вхождениям слов, а по фактическому смыслу. Есть конечно и косяки... но я лучше час посплю, пока скрипт работает, чем буду час семантику руками разгребать.

а.. так вы о такой кластеризации, т.е. это подбор релевантных ключу страниц на основе алгоритма яндекса..

Код:

<запрос> site:site.ru
или
"<запрос>" site:site.ru

если поиск вхождений по тайтлам в пределах сайта:

title:<запрос> site:site.ru
или
title:"<запрос>" site:site.ru

но последнее скорее для проверки оптимизации конкурентов

у агрегаторов же уже реализована такая же плюшка:
добавляешь список ключей и url и они автоматически, на основе выдачи распределяют. (результат экспортируется)
ну там конечно не всё гладко тоже. но я раньше именно таким распределением и пользовался. если сайт уже существует, конечно же :-)

Lexicon · 01.07.2014

не совсем)) определение релевантных страниц через яндекс возможно, если он их уже проиндексировал и знает что где. А вот, допустим лепите вы дор... и у вас ключей 100 000 и хотелось бы их упаковать так, чтобы яша не просек, что у нас 1 страница 1 ключ и рядом находится вторая такая же страница но чуть в другой форме) а в остальном да

Поиск

Вопрос по обработке текста

money4honey

Client

Вложения

rostonix

Мистер

money4honey

Client

rostonix

Мистер

money4honey

Client

Sergodjan

Administrator

money4honey

Client

money4honey

Client

Lexicon

Client

money4honey

Client

Lexicon

Client

money4honey

Client

Lexicon

Client

money4honey

Client

Lexicon

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)