Извлеките текст от HTML
str = extractHTMLText(code)
str = extractHTMLText(tree)
str = extractHTMLText(___,'ExtractionMethod',ex)
Чтобы извлечь текстовые данные непосредственно из кода HTML, используйте extractHTMLText
и задайте код HTML как строку.
code = "<html><body><h1>THE SONNETS</h1><p>by William Shakespeare</p></body></html>";
str = extractHTMLText(code)
str = "THE SONNETS by William Shakespeare"
Чтобы извлечь текстовые данные из веб-страницы, сначала используйте функцию webread
, чтобы считать код HTML. Затем используйте функцию extractHTMLText
на возвращенном коде.
url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);
str = extractHTMLText(code)
str = 'Text Analytics Toolbox™ provides algorithms and visualizations for preprocessing, analyzing, and modeling text data. Models created with the toolbox can be used in applications such as sentiment analysis, predictive maintenance, and topic modeling. Text Analytics Toolbox includes tools for processing raw text from sources such as equipment logs, news feeds, surveys, operator reports, and social media. You can extract text from popular file formats, preprocess raw text, extract individual words, convert text into numerical representations, and build statistical models. Using machine learning techniques such as LSA, LDA, and word embeddings, you can find clusters and create features from high-dimensional text datasets. Features created with Text Analytics Toolbox can be combined with features from other data sources to build machine learning models that take advantage of textual, numeric, and other types of data.'
Считайте код HTML из https://www.mathworks.com/help/textanalytics
URL с помощью функции webread
.
url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);
Проанализируйте код HTML с помощью htmlTree
.
tree = htmlTree(code);
Найдите все гиперссылки в дереве HTML использованием findElement
. Гиперссылки являются узлами с именем элемента "A"
.
selector = "A";
subtrees = findElement(tree,selector);
Просмотрите первые несколько поддеревьев.
subtrees(1:10)
ans = 10×1 htmlTree: (1,1) <A class="svg_link navbar-brand" href="https://www.mathworks.com?s_ti… (2,1) <A class="mwa-nav_login" href="https://www.mathworks.com/login?uri=ht… (3,1) <A href="https://www.mathworks.com/products.html?s_tid=gn_ps">Product… (4,1) <A href="https://www.mathworks.com/solutions.html?s_tid=gn_sol">Solut… (5,1) <A href="https://www.mathworks.com/academia.html?s_tid=gn_acad">Acade… (6,1) <A href="https://www.mathworks.com/support.html?s_tid=gn_supp">Suppor… (7,1) <A href="https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc">Commu… (8,1) <A href="https://www.mathworks.com/company/events.html?s_tid=gn_ev">E… (9,1) <A href="https://www.mathworks.com/company/aboutus/contact_us.html?s_… (10,1) <A href="https://www.mathworks.com/store?s_cid=store_top_nav&s_ti…
Извлеките текст от поддеревьев с помощью extractHTMLText
. Результат содержит текст ссылки от каждой ссылки на странице.
str = extractHTMLText(subtrees); str(1:10)
ans = 10×1 string array
""
"Sign In"
"Products"
"Solutions"
"Academia"
"Support"
"Community"
"Events"
"Contact Us"
"How to Buy"
code
— Код HTMLКод HTML, заданный как массив строк, вектор символов или массив ячеек из символьных векторов.
Чтобы считать код HTML из веб-страницы, используйте webread
.
Чтобы извлечь текст из файла HTML, используйте extractFileText
.
Пример: "<a href='https://www.mathworks.com'>MathWorks</a>"
Типы данных: char
| string
| cell
tree
— Дерево HTMLhtmlTree
Дерево HTML, заданное как массив htmlTree
.
ex
— Метод экстракции'tree'
(значение по умолчанию) | 'article'
| 'all-text'
Метод экстракции, заданный как одно из следующего:
Опция | Описание |
---|---|
'tree' | Анализируйте дерево DOM и текстовое содержимое, затем извлеките блок абзацев. |
'article' | Обнаружьте текст статьи и извлеките блок абзацев. |
'all-text' | Извлеките весь текст в теле HTML, за исключением стилей CSS и скриптов. |
extractFileText
| htmlTree
| readPDFFormData
| tokenizedDocument
| webread
| writeTextDocument
Вы щелкнули по ссылке, которая соответствует команде MATLAB:
Выполните эту команду, введя её в командном окне MATLAB.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.