Считайте код HTML из https://www.mathworks.com/help/textanalytics
URL с помощью функции webread
.
Проанализируйте код HTML с помощью htmlTree
.
Найдите все гиперссылки в дереве HTML использованием findElement
. Гиперссылки являются узлами с именем элемента "A"
.
Просмотрите первые несколько поддеревьев.
ans =
10×1 htmlTree:
(1,1) <A class="svg_link navbar-brand" href="https://www.mathworks.com?s_ti…
(2,1) <A class="mwa-nav_login" href="https://www.mathworks.com/login?uri=ht…
(3,1) <A href="https://www.mathworks.com/products.html?s_tid=gn_ps">Product…
(4,1) <A href="https://www.mathworks.com/solutions.html?s_tid=gn_sol">Solut…
(5,1) <A href="https://www.mathworks.com/academia.html?s_tid=gn_acad">Acade…
(6,1) <A href="https://www.mathworks.com/support.html?s_tid=gn_supp">Suppor…
(7,1) <A href="https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc">Commu…
(8,1) <A href="https://www.mathworks.com/company/events.html?s_tid=gn_ev">E…
(9,1) <A href="https://www.mathworks.com/company/aboutus/contact_us.html?s_…
(10,1) <A href="https://www.mathworks.com/store?s_cid=store_top_nav&s_ti…
Извлеките текст от поддеревьев с помощью extractHTMLText
. Результат содержит текст ссылки от каждой ссылки на странице.
ans = 10×1 string array
""
"Sign In"
"Products"
"Solutions"
"Academia"
"Support"
"Community"
"Events"
"Contact Us"
"How to Buy"