extractHTMLText

Извлеките текст из HTML

свернуть все на странице

Синтаксис

str = extractHTMLText(code)

str = extractHTMLText(tree)

str = extractHTMLText(___,'ExtractionMethod',ex)

Описание

пример

str = extractHTMLText(code) анализирует код HTML в code и извлекает текст.

пример

str = extractHTMLText(tree) извлекает текст из дерева HTML.

str = extractHTMLText(___,'ExtractionMethod',ex) также задает метод экстракции, чтобы использовать.

Примеры

свернуть все

Извлеките текст из HTML

Скрипт Open Live Script

Чтобы извлечь текстовые данные непосредственно из кода HTML, используйте extractHTMLText и задайте код HTML как строку.

code = "<html><body><h1>THE SONNETS</h1><p>by William Shakespeare</p></body></html>";
str = extractHTMLText(code)

str = 
    "THE SONNETS
     
     by William Shakespeare"

Извлеките текст из веб-сайта

Скрипт Open Live Script

Чтобы извлечь текстовые данные из веб-страницы, сначала используйте webread функционируйте, чтобы считать код HTML. Затем используйте extractHTMLText функция на возвращенном коде.

url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);
str = extractHTMLText(code)

str = 
    'Text Analytics Toolbox
     
     Analyze and model text data 
     
     Release Notes
     
     PDF Documentation
     
     Release Notes
     
     PDF Documentation
     
     Text Analytics Toolbox™ provides algorithms and visualizations for preprocessing, analyzing, and modeling text data. Models created with the toolbox can be used in applications such as sentiment analysis, predictive maintenance, and topic modeling.
     
     Text Analytics Toolbox includes tools for processing raw text from sources such as equipment logs, news feeds, surveys, operator reports, and social media. You can extract text from popular file formats, preprocess raw text, extract individual words, convert text into numerical representations, and build statistical models.
     
     Using machine learning techniques such as LSA, LDA, and word embeddings, you can find clusters and create features from high-dimensional text datasets. Features created with Text Analytics Toolbox can be combined with features from other data sources to build machine learning models that take advantage of textual, numeric, and other types of data.
     
     Get Started
     
     Learn the basics of Text Analytics Toolbox
     
     Text Data Preparation
     
     Import text data into MATLAB® and preprocess it for analysis
     
     Modeling and Prediction
     
     Develop predictive models using topic models and word embeddings
     
     Display and Presentation
     
     Visualize text data and models using word clouds and text scatter plots
     
     Language Support
     
     Information on language support in Text Analytics Toolbox'

Найдите элементы в дереве HTML

Скрипт Open Live Script

Считайте код HTML из https://www.mathworks.com/help/textanalytics URL использование webread функция.

url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);

Проанализируйте код HTML с помощью htmlTree.

tree = htmlTree(code);

Найдите все гиперссылки в дереве HTML использованием findElement. Гиперссылки являются узлами с именем элемента "A".

selector = "A";
subtrees = findElement(tree,selector);

Просмотрите первые несколько поддеревьев.

subtrees(1:10)

ans = 
  10×1 htmlTree:

    <A class="skip_link sr-only" href="#content_container">Skip to content</A>
    <A href="https://www.mathworks.com?s_tid=gn_logo" class="svg_link navbar-brand"><IMG src="/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorks"/></A>
    <A href="https://www.mathworks.com/products.html?s_tid=gn_ps">Products</A>
    <A href="https://www.mathworks.com/solutions.html?s_tid=gn_sol">Solutions</A>
    <A href="https://www.mathworks.com/academia.html?s_tid=gn_acad">Academia</A>
    <A href="https://www.mathworks.com/support.html?s_tid=gn_supp">Support</A>
    <A href="https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc">Community</A>
    <A href="https://www.mathworks.com/company/events.html?s_tid=gn_ev">Events</A>
    <A href="https://www.mathworks.com/products/get-matlab.html?s_tid=gn_getml">Get MATLAB</A>
    <A href="https://www.mathworks.com?s_tid=gn_logo" class="svg_link pull-left"><IMG src="/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorks"/></A>

Извлеките текст из поддеревьев с помощью extractHTMLText. Результат содержит текст ссылки от каждой ссылки на странице.

str = extractHTMLText(subtrees);
str(1:10)

ans = 10×1 string
    "Skip to content"
    ""
    "Products"
    "Solutions"
    "Academia"
    "Support"
    "Community"
    "Events"
    "Get MATLAB"
    ""

Входные параметры

свернуть все

`code` — Код HTML
строковый скаляр | вектор символов | массив ячеек, содержащий один вектор

Код HTML в виде строкового скаляра, вектора символов или массива ячеек, содержащего односимвольный вектор.

Совет

Чтобы считать код HTML из веб-страницы, использовать webread.
Чтобы извлечь текст из файла HTML, использовать extractFileText.

Пример: "<a href='https://www.mathworks.com'>MathWorks</a>"

Типы данных: char | string | cell

`tree` — Дерево HTML
`htmlTree` массив

Дерево HTML в виде htmlTree массив.

`ex` — Метод экстракции
`'tree'` (значение по умолчанию) | `'article'` | `'all-text'`

Метод экстракции в виде одного из следующего:

Опция	Описание
`'tree'`	Анализируйте дерево DOM и текстовое содержимое, затем извлеките блок абзацев.
`'article'`	Обнаружьте текст статьи и извлеките блок абзацев.
`'all-text'`	Извлеките весь текст в теле HTML, за исключением стилей CSS и скриптов.

Темы

Введенный в R2018a

Документация

extractHTMLText

Синтаксис

Описание

Примеры

Извлеките текст из HTML

Извлеките текст из веб-сайта

Найдите элементы в дереве HTML

Входные параметры

`code` — Код HTML
строковый скаляр | вектор символов | массив ячеек, содержащий один вектор

`tree` — Дерево HTML
`htmlTree` массив

`ex` — Метод экстракции
`'tree'` (значение по умолчанию) | `'article'` | `'all-text'`

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

Документация

extractHTMLText

Синтаксис

Описание

Примеры

Извлеките текст из HTML

Извлеките текст из веб-сайта

Найдите элементы в дереве HTML

Входные параметры

code — Код HTML строковый скаляр | вектор символов | массив ячеек, содержащий один вектор

tree — Дерево HTML htmlTree массив

ex — Метод экстракции 'tree' (значение по умолчанию) | 'article' | 'all-text'

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

`code` — Код HTML
строковый скаляр | вектор символов | массив ячеек, содержащий один вектор

`tree` — Дерево HTML
`htmlTree` массив

`ex` — Метод экстракции
`'tree'` (значение по умолчанию) | `'article'` | `'all-text'`