getAttribute

Чтение HTML корневого узла HTML

Описание

пример

str = getAttribute(tree,attr) возвращает атрибут attr корневого узла tree. Если этот атрибут не установлен, то функция возвращает missing значение.

Примеры

свернуть все

Чтение HTML кода из URL- https://www.mathworks.com/help/textanalytics использование webread.

url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);

Проанализируйте HTML кода с помощью htmlTree.

tree = htmlTree(code);

Найти все гиперссылки в HTML можно используя findElement. Гиперссылки являются узлами с именем элемента "A".

selector = "A";
subtrees = findElement(tree,selector);
subtrees(1:10)
ans = 
  10×1 htmlTree:

    <A class="svg_link navbar-brand" href="https://www.mathworks.com?s_tid=gn_logo"><IMG alt="MathWorks" class="mw_logo" src="/images/responsive/global/pic-header-mathworks-logo.svg"/></A>
    <A class="mwa-nav_login" href="https://www.mathworks.com/login?uri=http://www.mathworks.com/help/textanalytics/index.html">Sign In</A>
    <A href="https://www.mathworks.com/products.html?s_tid=gn_ps">Products</A>
    <A href="https://www.mathworks.com/solutions.html?s_tid=gn_sol">Solutions</A>
    <A href="https://www.mathworks.com/academia.html?s_tid=gn_acad">Academia</A>
    <A href="https://www.mathworks.com/support.html?s_tid=gn_supp">Support</A>
    <A href="https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc">Community</A>
    <A href="https://www.mathworks.com/company/events.html?s_tid=gn_ev">Events</A>
    <A href="https://www.mathworks.com/company/aboutus/contact_us.html?s_tid=gn_cntus">Contact Us</A>
    <A href="https://www.mathworks.com/store?s_cid=store_top_nav&amp;s_tid=gn_store">How to Buy</A>

Получите ссылки на гиперссылки с помощью getAttribute. Укажите имя атрибута "href".

attr = "href";
str = getAttribute(subtrees,attr);
str(1:10)
ans = 10×1 string array
    "https://www.mathworks.com?s_tid=gn_logo"
    "https://www.mathworks.com/login?uri=http://www.mathworks.com/help/textanalytics/index.html"
    "https://www.mathworks.com/products.html?s_tid=gn_ps"
    "https://www.mathworks.com/solutions.html?s_tid=gn_sol"
    "https://www.mathworks.com/academia.html?s_tid=gn_acad"
    "https://www.mathworks.com/support.html?s_tid=gn_supp"
    "https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc"
    "https://www.mathworks.com/company/events.html?s_tid=gn_ev"
    "https://www.mathworks.com/company/aboutus/contact_us.html?s_tid=gn_cntus"
    "https://www.mathworks.com/store?s_cid=store_top_nav&s_tid=gn_store"

Входные параметры

свернуть все

HTML, заданное как htmlTree массив.

Имя атрибута, заданное как строковый скаляр, вектор символов или скалярный массив ячеек, содержащий символьный вектор.

Выходные аргументы

свернуть все

HTML, возвращенный как строковые массивы

Подробнее о

свернуть все

Элементы HTML

Типичный элемент HTML содержит следующие компоненты:

  • Имя элемента - Имя тега HTML. Имя элемента соответствует Name свойство HTML.

  • Атрибуты - Дополнительная информация о теге. Атрибуты HTML имеют форму name= «value", где name и value обозначить имя и значение атрибута соответственно. Атрибуты появляются в открывающем HTML. Чтобы получить значения атрибутов из HTML, используйте getAttribute.

  • Содержимое - Содержимое элемента. Содержимое отображается между открытием и закрытием HTML. Содержимым могут быть текстовые данные или вложенные элементы HTML. Чтобы извлечь текст из htmlTree объект, использование extractHTMLText. Чтобы получить вложенный HTML элементов htmlTree объект, используйте Children свойство.

Например, элемент HTML <a href="https://www.mathworks.com">Home</a> содержит следующие компоненты:

КомпонентЗначениеОписание
Имя элементаaЭлемент является гиперссылкой
ПризнакИмя атрибутаhrefСсылка на гиперссылку
Значение атрибута"https://www.mathworks.com"Значение ссылки гиперссылки
СодержимоеHomeТекст для отображения

Введенный в R2018b