extractHTMLText

Извлечение текста из HTML

Свернуть все на странице

Синтаксис

str = extractHTMLText(code)

str = extractHTMLText(tree)

str = extractHTMLText(___,'ExtractionMethod',ex)

Описание

пример

str = extractHTMLText(code) анализирует HTML кода в code и извлекает текст.

пример

str = extractHTMLText(tree) извлекает текст из HTML.

str = extractHTMLText(___,'ExtractionMethod',ex) также задает метод извлечения, который будет использоваться.

Примеры

свернуть все

Извлечение текста из HTML

Открыть Live Script

Чтобы извлечь текстовые данные непосредственно из HTML кода, используйте extractHTMLText и задайте HTML кода как строку.

code = "<html><body><h1>THE SONNETS</h1><p>by William Shakespeare</p></body></html>";
str = extractHTMLText(code)

str = 
    "THE SONNETS
     
     by William Shakespeare"

Извлечение текста с веб-сайта

Открыть Live Script

Чтобы извлечь текстовые данные с веб-страницы, сначала используйте webread функция для чтения HTML кода. Затем используйте extractHTMLText функция на возвращенном коде.

url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);
str = extractHTMLText(code)

str = 
    'Text Analytics Toolbox™ provides algorithms and visualizations for preprocessing, analyzing, and modeling text data. Models created with the toolbox can be used in applications such as sentiment analysis, predictive maintenance, and topic modeling.
     
     Text Analytics Toolbox includes tools for processing raw text from sources such as equipment logs, news feeds, surveys, operator reports, and social media. You can extract text from popular file formats, preprocess raw text, extract individual words, convert text into numerical representations, and build statistical models.
     
     Using machine learning techniques such as LSA, LDA, and word embeddings, you can find clusters and create features from high-dimensional text datasets. Features created with Text Analytics Toolbox can be combined with features from other data sources to build machine learning models that take advantage of textual, numeric, and other types of data.'

Поиск элементов в HTML

Открыть Live Script

Чтение HTML кода из URL- https://www.mathworks.com/help/textanalytics использование webread функция.

url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);

Проанализируйте HTML кода с помощью htmlTree.

tree = htmlTree(code);

Найти все гиперссылки в HTML можно используя findElement. Гиперссылки являются узлами с именем элемента "A".

selector = "A";
subtrees = findElement(tree,selector);

Просмотрите первые несколько поддеревьев.

subtrees(1:10)

ans = 
  10×1 htmlTree:

    <A class="skip_link sr-only" href="#content_container">Skip to content</A>
    <A href="https://www.mathworks.com?s_tid=gn_logo" class="svg_link navbar-brand"><IMG src="/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorks"/></A>
    <A href="https://www.mathworks.com/products.html?s_tid=gn_ps">Products</A>
    <A href="https://www.mathworks.com/solutions.html?s_tid=gn_sol">Solutions</A>
    <A href="https://www.mathworks.com/academia.html?s_tid=gn_acad">Academia</A>
    <A href="https://www.mathworks.com/support.html?s_tid=gn_supp">Support</A>
    <A href="https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc">Community</A>
    <A href="https://www.mathworks.com/company/events.html?s_tid=gn_ev">Events</A>
    <A href="https://www.mathworks.com/products/get-matlab.html?s_tid=gn_getml">Get MATLAB</A>
    <A href="https://www.mathworks.com?s_tid=gn_logo" class="svg_link pull-left"><IMG src="/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorks"/></A>

Извлечь текст из поддеревьев можно используя extractHTMLText. Результат содержит текст ссылки из каждой ссылки на странице.

str = extractHTMLText(subtrees);
str(1:10)

ans = 10×1 string
    "Skip to content"
    ""
    "Products"
    "Solutions"
    "Academia"
    "Support"
    "Community"
    "Events"
    "Get MATLAB"
    ""

Входные параметры

свернуть все

`code` - HTML
массив строк | символьный вектор | ячеек из символьных векторов

HTML кода, заданная как строковые массивы, вектор символов или массив ячеек векторов символов.

Совет

Чтобы считать HTML кода с веб-страницы, используйте webread.
Чтобы извлечь текст из HTML файла, используйте extractFileText.

Пример: "<a href='https://www.mathworks.com'>MathWorks</a>"

Типы данных: char | string | cell

`tree` - HTML
`htmlTree` массив

HTML, заданное как htmlTree массив.

`ex` - Метод извлечения
`'tree'` (по умолчанию) | `'article'` | `'all-text'`

Метод извлечения, заданный как один из следующих:

Опция	Описание
`'tree'`	Проанализируйте дерево DOM и текстовое содержимое, а затем извлеките блок абзацев.
`'article'`	Обнаружение текста статьи и извлечение блока абзацев.
`'all-text'`	Извлечение всего текста в HTML, за исключением скриптов и стилей CSS.

См. также

Темы

Введенный в R2018a

Документация

extractHTMLText

Синтаксис

Описание

Примеры

Извлечение текста из HTML

Извлечение текста с веб-сайта

Поиск элементов в HTML

Входные параметры

`code` - HTML
массив строк | символьный вектор | ячеек из символьных векторов

`tree` - HTML
`htmlTree` массив

`ex` - Метод извлечения
`'tree'` (по умолчанию) | `'article'` | `'all-text'`

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

extractHTMLText

Синтаксис

Описание

Примеры

Извлечение текста из HTML

Извлечение текста с веб-сайта

Поиск элементов в HTML

Входные параметры

code - HTML массив строк | символьный вектор | ячеек из символьных векторов

tree - HTML htmlTree массив

ex - Метод извлечения 'tree' (по умолчанию) | 'article' | 'all-text'

См. также

Темы

Symbolic Math Toolbox

Поддержка

`code` - HTML
массив строк | символьный вектор | ячеек из символьных векторов

`tree` - HTML
`htmlTree` массив

`ex` - Метод извлечения
`'tree'` (по умолчанию) | `'article'` | `'all-text'`