extractHTMLText

Извлечение текста из HTML

свернуть все на странице

Синтаксис

str = extractHTMLText (код)

str = extractHTMLText (дерево)

str = extractHTMLText (___, «Метод анализа», ex)

Описание

пример

str = extractHTMLText(code) анализирует HTML-код в code и извлекает текст.

пример

str = extractHTMLText(tree) извлекает текст из дерева HTML.

str = extractHTMLText(___,'ExtractionMethod',ex) также указывает используемый метод извлечения.

Примеры

свернуть все

Извлечь текст из HTML

Открыть сценарий в реальном времени

Для извлечения текстовых данных непосредственно из кода HTML используйте extractHTMLText и укажите HTML-код в виде строки.

code = "<html><body><h1>THE SONNETS</h1><p>by William Shakespeare</p></body></html>";
str = extractHTMLText(code)

str = 
    "THE SONNETS
     
     by William Shakespeare"

Извлечь текст с веб-сайта

Открыть сценарий в реальном времени

Чтобы извлечь текстовые данные с веб-страницы, сначала используйте webread для чтения кода HTML. Затем используйте extractHTMLText функция в возвращенном коде.

url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);
str = extractHTMLText(code)

str = 
    'Text Analytics Toolbox™ provides algorithms and visualizations for preprocessing, analyzing, and modeling text data. Models created with the toolbox can be used in applications such as sentiment analysis, predictive maintenance, and topic modeling.
     
     Text Analytics Toolbox includes tools for processing raw text from sources such as equipment logs, news feeds, surveys, operator reports, and social media. You can extract text from popular file formats, preprocess raw text, extract individual words, convert text into numerical representations, and build statistical models.
     
     Using machine learning techniques such as LSA, LDA, and word embeddings, you can find clusters and create features from high-dimensional text datasets. Features created with Text Analytics Toolbox can be combined with features from other data sources to build machine learning models that take advantage of textual, numeric, and other types of data.'

Поиск элементов в дереве HTML

Открыть сценарий в реальном времени

Считывание HTML-кода с URL-адреса https://www.mathworks.com/help/textanalytics с использованием webread функция.

url = "https://www.mathworks.com/help/textanalytics";
code = webread(url);

Анализ кода HTML с помощью htmlTree.

tree = htmlTree(code);

Поиск всех гиперссылок в дереве HTML с помощью findElement. Гиперссылки представляют собой узлы с именем элемента "A".

selector = "A";
subtrees = findElement(tree,selector);

Просмотрите первые несколько поддеревьев.

subtrees(1:10)

ans = 
  10×1 htmlTree:

    <A class="skip_link sr-only" href="#content_container">Skip to content</A>
    <A href="https://www.mathworks.com?s_tid=gn_logo" class="svg_link navbar-brand"><IMG src="/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorks"/></A>
    <A href="https://www.mathworks.com/products.html?s_tid=gn_ps">Products</A>
    <A href="https://www.mathworks.com/solutions.html?s_tid=gn_sol">Solutions</A>
    <A href="https://www.mathworks.com/academia.html?s_tid=gn_acad">Academia</A>
    <A href="https://www.mathworks.com/support.html?s_tid=gn_supp">Support</A>
    <A href="https://www.mathworks.com/matlabcentral/?s_tid=gn_mlc">Community</A>
    <A href="https://www.mathworks.com/company/events.html?s_tid=gn_ev">Events</A>
    <A href="https://www.mathworks.com/products/get-matlab.html?s_tid=gn_getml">Get MATLAB</A>
    <A href="https://www.mathworks.com?s_tid=gn_logo" class="svg_link pull-left"><IMG src="/images/responsive/global/pic-header-mathworks-logo.svg" class="mw_logo" alt="MathWorks"/></A>

Извлечение текста из поддеревьев с помощью extractHTMLText. Результат содержит текст ссылки из каждой ссылки на странице.

str = extractHTMLText(subtrees);
str(1:10)

ans = 10×1 string
    "Skip to content"
    ""
    "Products"
    "Solutions"
    "Academia"
    "Support"
    "Community"
    "Events"
    "Get MATLAB"
    ""

Входные аргументы

свернуть все

`code` - HTML-код
строковый массив | символьный вектор | клеточный массив символьных векторов

HTML-код, заданный как строковый массив, символьный вектор или массив ячеек символьных векторов.

Совет

Чтобы прочитать HTML-код с веб-страницы, используйте webread.
Для извлечения текста из HTML-файла используйте extractFileText.

Пример: "<a href='https://www.mathworks.com'>MathWorks</a>"

Типы данных: char | string | cell

`tree` - дерево HTML
`htmlTree` множество

HTML-дерево, указанное как htmlTree массив.

`ex` - Метод извлечения
`'tree'` (по умолчанию) | `'article'` | `'all-text'`

Метод извлечения, указанный как один из следующих:

Выбор	Описание
`'tree'`	Проанализируйте дерево DOM и содержимое текста, а затем извлеките блок абзацев.
`'article'`	Обнаружение текста статьи и извлечение блока абзацев.
`'all-text'`	Извлеките весь текст в тексте HTML, за исключением сценариев и стилей CSS.

См. также

Темы

Представлен в R2018a

Документация

extractHTMLText

Синтаксис

Описание

Примеры

Извлечь текст из HTML

Извлечь текст с веб-сайта

Поиск элементов в дереве HTML

Входные аргументы

`code` - HTML-код
строковый массив | символьный вектор | клеточный массив символьных векторов

`tree` - дерево HTML
`htmlTree` множество

`ex` - Метод извлечения
`'tree'` (по умолчанию) | `'article'` | `'all-text'`

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

Документация

extractHTMLText

Синтаксис

Описание

Примеры

Извлечь текст из HTML

Извлечь текст с веб-сайта

Поиск элементов в дереве HTML

Входные аргументы

code - HTML-код строковый массив | символьный вектор | клеточный массив символьных векторов

tree - дерево HTML htmlTree множество

ex - Метод извлечения 'tree' (по умолчанию) | 'article' | 'all-text'

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

`code` - HTML-код
строковый массив | символьный вектор | клеточный массив символьных векторов

`tree` - дерево HTML
`htmlTree` множество

`ex` - Метод извлечения
`'tree'` (по умолчанию) | `'article'` | `'all-text'`