exponenta event banner

getAttribute

Считывание атрибута HTML корневого узла дерева HTML

Описание

пример

str = getAttribute(tree,attr) возвращает атрибут attr корневого узла tree. Если этот атрибут не установлен, то функция возвращает missing значение.

Примеры

свернуть все

Считывание HTML-кода с URL-адреса https://www.mathworks.com/help/textanalytics использование webread.

url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);

Анализ кода HTML с помощью htmlTree.

tree = htmlTree(code);

Поиск всех гиперссылок в дереве HTML с помощью findElement. Гиперссылки - это узлы с именем элемента "A".

selector = "A";
subtrees = findElement(tree,selector);
subtrees(1:10)
ans = 
  10×1 htmlTree:

    <A class="svg_link navbar-brand" href="https://www.mathworks.com?s_tid=gn_logo"><IMG alt="MathWorks" class="mw_logo" src="/images/responsive/global/pic-header-mathworks-logo.svg"/></A>
    <A class="mwa-nav_login" href="https://www.mathworks.com/login?uri=http://www.mathworks.com/help/textanalytics/index.html">Sign In</A>
    <A href="https://www.mathworks.com/products.html?s_tid=gn_ps">Products</A>
    <A href="https://www.mathworks.com/solutions.html?s_tid=gn_sol">Solutions</A>
    <A href="https://www.mathworks.com/academia.html?s_tid=gn_acad">Academia</A>
    <A href="https://www.mathworks.com/support.html?s_tid=gn_supp">Support</A>
    <A href="https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc">Community</A>
    <A href="https://www.mathworks.com/company/events.html?s_tid=gn_ev">Events</A>
    <A href="https://www.mathworks.com/company/aboutus/contact_us.html?s_tid=gn_cntus">Contact Us</A>
    <A href="https://www.mathworks.com/store?s_cid=store_top_nav&amp;s_tid=gn_store">How to Buy</A>

Получение ссылок на гиперссылки с помощью getAttribute. Укажите имя атрибута "href".

attr = "href";
str = getAttribute(subtrees,attr);
str(1:10)
ans = 10×1 string array
    "https://www.mathworks.com?s_tid=gn_logo"
    "https://www.mathworks.com/login?uri=http://www.mathworks.com/help/textanalytics/index.html"
    "https://www.mathworks.com/products.html?s_tid=gn_ps"
    "https://www.mathworks.com/solutions.html?s_tid=gn_sol"
    "https://www.mathworks.com/academia.html?s_tid=gn_acad"
    "https://www.mathworks.com/support.html?s_tid=gn_supp"
    "https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc"
    "https://www.mathworks.com/company/events.html?s_tid=gn_ev"
    "https://www.mathworks.com/company/aboutus/contact_us.html?s_tid=gn_cntus"
    "https://www.mathworks.com/store?s_cid=store_top_nav&s_tid=gn_store"

Входные аргументы

свернуть все

HTML-дерево, указанное как htmlTree массив.

Имя атрибута, указанное как строковый скаляр, символьный вектор или массив скалярных ячеек, содержащий символьный вектор.

Выходные аргументы

свернуть все

HTML-атрибут, возвращаемый как строковый массив

Подробнее

свернуть все

Элементы HTML

Типичный элемент HTML содержит следующие компоненты:

  • Имя элемента - имя HTML-тега. Имя элемента соответствует Name свойства HTML-дерева.

  • Атрибуты (Attributes) - дополнительная информация о теге. Атрибуты HTML имеют форму name="value", где name и value обозначают имя атрибута и значение соответственно. Атрибуты отображаются в открывающемся теге HTML. Чтобы получить значения атрибутов из HTML-дерева, используйте getAttribute.

  • Содержимое - содержимое элемента. Содержимое отображается между открывающими и закрывающими тегами HTML. Содержимое может представлять собой текстовые данные или вложенные элементы HTML. Извлечение текста из htmlTree объект, использование extractHTMLText. Получение вложенных элементов HTML htmlTree объект, используйте Children собственность.

Например, элемент HTML <a href="https://www.mathworks.com">Home</a> содержит:

КомпонентСтоимостьОписание
Имя элементаaЭлемент является гиперссылкой
ПризнакНаименование атрибутаhrefСсылка на гиперссылку
Значение атрибута"https://www.mathworks.com"Ссылочное значение гиперссылки
СодержаниеHomeТекст для отображения

Представлен в R2018b