findElement

Поиск элементов в HTML

Описание

пример

subtrees = findElement(tree,selector) возвращает элементы в tree соответствие селектору CSS.

Примеры

свернуть все

Чтение HTML кода из URL- https://www.mathworks.com/help/textanalytics использование webread функция.

url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);

Проанализируйте HTML кода с помощью htmlTree.

tree = htmlTree(code);

Найти все гиперссылки в HTML можно используя findElement. Гиперссылки являются узлами с именем элемента "A".

selector = "A";
subtrees = findElement(tree,selector);

Просмотрите первые несколько поддеревьев.

subtrees(1:10)
ans = 
  10×1 htmlTree:

    <A class="skip_link sr-only" href="#content_container">Skip to content</A>
    <A href="https://www.mathworks.com?s_tid=gn_logo" class="svg_link navbar-brand"><IMG src="/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorks"/></A>
    <A href="https://www.mathworks.com/products.html?s_tid=gn_ps">Products</A>
    <A href="https://www.mathworks.com/solutions.html?s_tid=gn_sol">Solutions</A>
    <A href="https://www.mathworks.com/academia.html?s_tid=gn_acad">Academia</A>
    <A href="https://www.mathworks.com/support.html?s_tid=gn_supp">Support</A>
    <A href="https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc">Community</A>
    <A href="https://www.mathworks.com/company/events.html?s_tid=gn_ev">Events</A>
    <A href="https://www.mathworks.com/products/get-matlab.html?s_tid=gn_getml">Get MATLAB</A>
    <A href="https://www.mathworks.com?s_tid=gn_logo" class="svg_link pull-left"><IMG src="/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorks"/></A>

Извлечь текст из поддеревьев можно используя extractHTMLText. Результат содержит текст ссылки из каждой ссылки на странице.

str = extractHTMLText(subtrees);
str(1:10)
ans = 10×1 string
    "Skip to content"
    ""
    "Products"
    "Solutions"
    "Academia"
    "Support"
    "Community"
    "Events"
    "Get MATLAB"
    ""

Входные параметры

свернуть все

HTML дерево, заданное как скаляр htmlTree объект.

Селектор CSS, заданный как строковый скаляр или вектор символов. Для получения дополнительной информации см. раздел «Выбор CSS».

Выходные аргументы

свернуть все

Совпадающие HTML, возвращенные как htmlTree массив.

Подробнее о

свернуть все

Элементы HTML

Типичный элемент HTML содержит следующие компоненты:

  • Имя элемента - Имя тега HTML. Имя элемента соответствует Name свойство HTML.

  • Атрибуты - Дополнительная информация о теге. Атрибуты HTML имеют форму name= «value", где name и value обозначить имя и значение атрибута соответственно. Атрибуты появляются в открывающем HTML. Чтобы получить значения атрибутов из HTML, используйте getAttribute.

  • Содержимое - Содержимое элемента. Содержимое отображается между открытием и закрытием HTML. Содержимым могут быть текстовые данные или вложенные элементы HTML. Чтобы извлечь текст из htmlTree объект, использование extractHTMLText. Чтобы получить вложенный HTML элементов htmlTree объект, используйте Children свойство.

Например, элемент HTML <a href="https://www.mathworks.com">Home</a> содержит следующие компоненты:

КомпонентЗначениеОписание
Имя элементаaЭлемент является гиперссылкой
ПризнакИмя атрибутаhrefСсылка на гиперссылку
Значение атрибута"https://www.mathworks.com"Значение ссылки гиперссылки
СодержимоеHomeТекст для отображения

Селекторы CSS

Селекторы CSS задают шаблоны, соответствующие элементам дерева.

В этой таблице показаны некоторые примеры, показывающие, как извлечь различные элементы HTML из HTML-дерева:

ЗадачаСелектор CSSПример
Найти все абзацы (<p>) элементы."p"findElement(tree,"p")
Найти все абзацы (<p>) и элемент списка (<li>) элементы."p,li"findElement(tree,"p,li")
Найти все абзацы (<p>) элементы, которые находятся внутри таблицы (<table>) элементы."table p"findElement(tree,"table p")
Найти всю гиперссылку (<a>) элементы с атрибутом ссылки гиперссылки (href) значения, заканчивающиеся ".pdf"."a[href$="".pdf""]"findElement(tree,"a[href$="".pdf""]")
Найти все абзацы (<p>) элементы, которые являются первым дочерним элементом их родительского элемента."p:first-child"findElement(tr,"p:first-child")
Найти все абзацы (<p>) элементы, которые являются элементом первого абзаца их родительского элемента."p:first-of-type"findElement(tr,"p:first-of-type")
Найти все акценты (<em>) элементы, в которых родительский элемент является абзацем (<p>) элемент."p > em"findElement(tr,"p > em")
Найти все абзацы (<p>) элементы, появляющиеся сразу после заголовка 1 (<h1>) элемент"h1 + p"findElement(tr,"h1 + p")
Найти все пустые элементы.":empty"findElement(tr,":empty")
Найти все непустые метки (<label>) элементы."label:not(:empty)"findElement(tr,"label:not(:empty)")

findElement функция поддерживает весь уровень CSS 3, за исключением селекторов ":lang", ":checked", ":link", ":active", ":hover", ":focus", ":target", ":enabled", и ":disabled".

Для получения дополнительной информации о селекторах CSS см. [1].

Ссылки

[1] Ссылка на селектор CSS. https://www.w3schools.com/cssref/css_selectors.asp

Введенный в R2018b