findElement

Поиск элементов в HTML

Свернуть все на странице

Синтаксис

subtrees = findElement(tree,selector)

Описание

пример

subtrees = findElement(tree,selector) возвращает элементы в tree соответствие селектору CSS.

Примеры

свернуть все

Поиск элементов в HTML

Открыть Live Script

Чтение HTML кода из URL- https://www.mathworks.com/help/textanalytics использование webread функция.

url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);

Проанализируйте HTML кода с помощью htmlTree.

tree = htmlTree(code);

Найти все гиперссылки в HTML можно используя findElement. Гиперссылки являются узлами с именем элемента "A".

selector = "A";
subtrees = findElement(tree,selector);

Просмотрите первые несколько поддеревьев.

subtrees(1:10)

ans = 
  10×1 htmlTree:

    <A class="skip_link sr-only" href="#content_container">Skip to content</A>
    <A href="https://www.mathworks.com?s_tid=gn_logo" class="svg_link navbar-brand"><IMG src="/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorks"/></A>
    <A href="https://www.mathworks.com/products.html?s_tid=gn_ps">Products</A>
    <A href="https://www.mathworks.com/solutions.html?s_tid=gn_sol">Solutions</A>
    <A href="https://www.mathworks.com/academia.html?s_tid=gn_acad">Academia</A>
    <A href="https://www.mathworks.com/support.html?s_tid=gn_supp">Support</A>
    <A href="https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc">Community</A>
    <A href="https://www.mathworks.com/company/events.html?s_tid=gn_ev">Events</A>
    <A href="https://www.mathworks.com/products/get-matlab.html?s_tid=gn_getml">Get MATLAB</A>
    <A href="https://www.mathworks.com?s_tid=gn_logo" class="svg_link pull-left"><IMG src="/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorks"/></A>

Извлечь текст из поддеревьев можно используя extractHTMLText. Результат содержит текст ссылки из каждой ссылки на странице.

str = extractHTMLText(subtrees);
str(1:10)

ans = 10×1 string
    "Skip to content"
    ""
    "Products"
    "Solutions"
    "Academia"
    "Support"
    "Community"
    "Events"
    "Get MATLAB"
    ""

Входные параметры

свернуть все

`tree` - HTML
скалярные `htmlTree` объект

HTML дерево, заданное как скаляр htmlTree объект.

`selector` - селектор CSS
строковый скаляр | вектор символов

Селектор CSS, заданный как строковый скаляр или вектор символов. Для получения дополнительной информации см. раздел «Выбор CSS».

Выходные аргументы

свернуть все

`subtrees` - Соответствие HTML
`htmlTree` массив

Совпадающие HTML, возвращенные как htmlTree массив.

Подробнее о

свернуть все

Элементы HTML

Типичный элемент HTML содержит следующие компоненты:

Имя элемента - Имя тега HTML. Имя элемента соответствует Name свойство HTML.
Атрибуты - Дополнительная информация о теге. Атрибуты HTML имеют форму name= «value", где name и value обозначить имя и значение атрибута соответственно. Атрибуты появляются в открывающем HTML. Чтобы получить значения атрибутов из HTML, используйте getAttribute.
Содержимое - Содержимое элемента. Содержимое отображается между открытием и закрытием HTML. Содержимым могут быть текстовые данные или вложенные элементы HTML. Чтобы извлечь текст из htmlTree объект, использование extractHTMLText. Чтобы получить вложенный HTML элементов htmlTree объект, используйте Children свойство.

Например, элемент HTML <a href="https://www.mathworks.com">Home</a> содержит следующие компоненты:

Компонент		Значение	Описание
Имя элемента		`a`	Элемент является гиперссылкой
Признак	Имя атрибута	`href`	Ссылка на гиперссылку
Признак	Значение атрибута	`"https://www.mathworks.com"`	Значение ссылки гиперссылки
Содержимое		`Home`	Текст для отображения

Селекторы CSS

Селекторы CSS задают шаблоны, соответствующие элементам дерева.

В этой таблице показаны некоторые примеры, показывающие, как извлечь различные элементы HTML из HTML-дерева:

Задача	Селектор CSS	Пример
Найти все абзацы (`<p>`) элементы.	`"p"`	`findElement(tree,"p")`
Найти все абзацы (`<p>`) и элемент списка (`<li>`) элементы.	`"p,li"`	`findElement(tree,"p,li")`
Найти все абзацы (`<p>`) элементы, которые находятся внутри таблицы (`<table>`) элементы.	`"table p"`	`findElement(tree,"table p")`
Найти всю гиперссылку (`<a>`) элементы с атрибутом ссылки гиперссылки (`href`) значения, заканчивающиеся `".pdf"`.	`"a[href$="".pdf""]"`	`findElement(tree,"a[href$="".pdf""]")`
Найти все абзацы (`<p>`) элементы, которые являются первым дочерним элементом их родительского элемента.	`"p:first-child"`	`findElement(tr,"p:first-child")`
Найти все абзацы (`<p>`) элементы, которые являются элементом первого абзаца их родительского элемента.	`"p:first-of-type"`	`findElement(tr,"p:first-of-type")`
Найти все акценты (`<em>`) элементы, в которых родительский элемент является абзацем (`<p>`) элемент.	`"p > em"`	`findElement(tr,"p > em")`
Найти все абзацы (`<p>`) элементы, появляющиеся сразу после заголовка 1 (`<h1>`) элемент	`"h1 + p"`	`findElement(tr,"h1 + p")`
Найти все пустые элементы.	`":empty"`	`findElement(tr,":empty")`
Найти все непустые метки (`<label>`) элементы.	`"label:not(:empty)"`	`findElement(tr,"label:not(:empty)")`

findElement функция поддерживает весь уровень CSS 3, за исключением селекторов ":lang", ":checked", ":link", ":active", ":hover", ":focus", ":target", ":enabled", и ":disabled".

Для получения дополнительной информации о селекторах CSS см. [1].

Ссылки

[1] Ссылка на селектор CSS. https://www.w3schools.com/cssref/css_selectors.asp

См. также

Темы

Введенный в R2018b

Документация

findElement

Синтаксис

Описание

Примеры

Поиск элементов в HTML

Входные параметры

`tree` - HTML
скалярные `htmlTree` объект

`selector` - селектор CSS
строковый скаляр | вектор символов

Выходные аргументы

`subtrees` - Соответствие HTML
`htmlTree` массив

Подробнее о

Элементы HTML

Селекторы CSS

Ссылки

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

findElement

Синтаксис

Описание

Примеры

Поиск элементов в HTML

Входные параметры

tree - HTML скалярные htmlTree объект

selector - селектор CSS строковый скаляр | вектор символов

Выходные аргументы

subtrees - Соответствие HTML htmlTree массив

Подробнее о

Элементы HTML

Селекторы CSS

Ссылки

См. также

Темы

Symbolic Math Toolbox

Поддержка

`tree` - HTML
скалярные `htmlTree` объект

`selector` - селектор CSS
строковый скаляр | вектор символов

`subtrees` - Соответствие HTML
`htmlTree` массив