getAttribute

Считайте HTML-атрибут корневого узла дерева HTML

Описание

пример

str = getAttribute(tree,attr) возвращает атрибут attr из корневого узла tree. Если тот атрибут не установлен, то функция возвращает missing значение.

Примеры

свернуть все

Считайте код HTML из https://www.mathworks.com/help/textanalytics URL использование webread.

url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);

Проанализируйте код HTML с помощью htmlTree.

tree = htmlTree(code);

Найдите все гиперссылки в дереве HTML использованием findElement. Гиперссылки являются узлами с именем элемента "A".

selector = "A";
subtrees = findElement(tree,selector);
subtrees(1:10)
ans = 
  10×1 htmlTree:

    <A class="svg_link navbar-brand" href="https://www.mathworks.com?s_tid=gn_logo"><IMG alt="MathWorks" class="mw_logo" src="/images/responsive/global/pic-header-mathworks-logo.svg"/></A>
    <A class="mwa-nav_login" href="https://www.mathworks.com/login?uri=http://www.mathworks.com/help/textanalytics/index.html">Sign In</A>
    <A href="https://www.mathworks.com/products.html?s_tid=gn_ps">Products</A>
    <A href="https://www.mathworks.com/solutions.html?s_tid=gn_sol">Solutions</A>
    <A href="https://www.mathworks.com/academia.html?s_tid=gn_acad">Academia</A>
    <A href="https://www.mathworks.com/support.html?s_tid=gn_supp">Support</A>
    <A href="https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc">Community</A>
    <A href="https://www.mathworks.com/company/events.html?s_tid=gn_ev">Events</A>
    <A href="https://www.mathworks.com/company/aboutus/contact_us.html?s_tid=gn_cntus">Contact Us</A>
    <A href="https://www.mathworks.com/store?s_cid=store_top_nav&amp;s_tid=gn_store">How to Buy</A>

Получите ссылки гиперссылки с помощью getAttribute. Задайте название атрибута "href".

attr = "href";
str = getAttribute(subtrees,attr);
str(1:10)
ans = 10×1 string array
    "https://www.mathworks.com?s_tid=gn_logo"
    "https://www.mathworks.com/login?uri=http://www.mathworks.com/help/textanalytics/index.html"
    "https://www.mathworks.com/products.html?s_tid=gn_ps"
    "https://www.mathworks.com/solutions.html?s_tid=gn_sol"
    "https://www.mathworks.com/academia.html?s_tid=gn_acad"
    "https://www.mathworks.com/support.html?s_tid=gn_supp"
    "https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc"
    "https://www.mathworks.com/company/events.html?s_tid=gn_ev"
    "https://www.mathworks.com/company/aboutus/contact_us.html?s_tid=gn_cntus"
    "https://www.mathworks.com/store?s_cid=store_top_nav&s_tid=gn_store"

Входные параметры

свернуть все

Дерево HTML в виде htmlTree массив.

Название атрибута в виде строкового скаляра, вектора символов или скалярного массива ячеек, содержащего вектор символов.

Выходные аргументы

свернуть все

HTML-атрибут, возвращенный как массив строк

Больше о

свернуть все

Элементы HTML

Типичный элемент HTML содержит следующие компоненты:

  • Имя элемента – Имя HTML-тэга. Имя элемента соответствует Name свойство дерева HTML.

  • Атрибуты – Дополнительная информация о теге. HTML-атрибуты имеют форму name= "value", где name и value обозначьте название атрибута и значение соответственно. Атрибуты появляются во вводном HTML-тэге. Чтобы получить значения атрибута от дерева HTML, использовать getAttribute.

  • Содержимое – содержимое Элемента. Содержимое появляется между открытием и закрытием HTML-тэгов. Содержимое может быть текстовыми данными или вложенными элементами HTML. Извлекать текст из htmlTree объект, использовать extractHTMLText. Получить вложенные элементы HTML htmlTree объект, используйте Children свойство.

Например, элемент HTML <a href="https://www.mathworks.com">Home</a> включает следующие компоненты:

КомпонентЗначениеОписание
Имя элементаaЭлементом является гиперссылка
АтрибутНазвание атрибутаhrefСсылка гиперссылки
Значение атрибута"https://www.mathworks.com"Значение ссылки гиперссылки
СодержимоеHomeТекст, чтобы отобразиться

Введенный в R2018b