replace

Замените подстроки в документах

Синтаксис

newDocuments = replace(documents,old,new)

Описание

newDocuments = replace(documents,old,new) замены все случаи подстроки или шаблона old в documents с new.

Совет

Используйте replace функционируйте, чтобы заменить подстроки слов в документах путем определения подстрок или шаблонов. Чтобы заменить целые слова и N-граммы в документах, используйте replaceWords и replaceNgrams функции соответственно.

Примеры

свернуть все

Замените подстроки в документах

Скрипт Open Live Script

Замените слова в массиве документа.

documents = tokenizedDocument([
    "an extreme example"
    "another extreme example"])

documents = 
  2x1 tokenizedDocument:

    3 tokens: an extreme example
    3 tokens: another extreme example

newDocuments = replace(documents,"example","sentence")

newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an extreme sentence
    3 tokens: another extreme sentence

Замените подстроки слов.

newDocuments = replace(documents,"ex","X-")

newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an X-treme X-ample
    3 tokens: another X-treme X-ample

Замените подстроки в документах Используя шаблоны

Скрипт Open Live Script

Удалите цифры из документа с помощью шаблона цифр.

Создайте массив маркируемых документов.

textData = [
    "Text Analytics Toolbox provides over 50 functions to analyze text data."
    "The bm25Similarity function measures document similarity."];
documents = tokenizedDocument(textData);

Замените экземпляры последовательных цифр с маркерным "<NUMBER>" использование replace функция. Задайте шаблон цифр с помощью digitsPattern функция.

pat = digitsPattern;
newDocuments = replace(documents,pat,"<NUMBER>")

newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm<NUMBER>Similarity function measures document similarity .

Заметьте, что функция заменяет цифры в маркерном "bm25Similarity".

Чтобы заменить лексемы, состоящие полностью из цифр, используйте replace функционируйте и задайте шаблон, который также включает текстовые контуры. Задайте текстовые контуры с помощью textBoundary функция.

pat = textBoundary + digitsPattern + textBoundary;
newDocuments = replace(documents,pat,"<NUMBER>")

newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm25Similarity function measures document similarity .

В этом случае функция не заменяет цифры в маркерном "bm25Similarity".

Входные параметры

свернуть все

`documents` — Введите документы
`tokenizedDocument` массив

Введите документы в виде tokenizedDocument массив.

`old` — Подстрока или шаблон, чтобы заменить
массив строк | вектор символов | массив ячеек из символьных векторов | `pattern` массив

Подстрока или шаблон, чтобы заменить в виде одного из следующего:

Массив строк
Символьный вектор
Массив ячеек из символьных векторов
pattern массив

`new` — Новая подстрока
массив строк | вектор символов | массив ячеек из символьных векторов

Новая подстрока в виде массива строк, вектора символов или массива ячеек из символьных векторов.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

`newDocuments` — Выведите документы
`tokenizedDocument` массив

Выведите документы, возвращенные как tokenizedDocument массив.

Темы

Введенный в R2017b

Документация

replace

Синтаксис

Описание

Примеры

Замените подстроки в документах

Замените подстроки в документах Используя шаблоны

Входные параметры

`documents` — Введите документы
`tokenizedDocument` массив

`old` — Подстрока или шаблон, чтобы заменить
массив строк | вектор символов | массив ячеек из символьных векторов | `pattern` массив

`new` — Новая подстрока
массив строк | вектор символов | массив ячеек из символьных векторов

Выходные аргументы

`newDocuments` — Выведите документы
`tokenizedDocument` массив

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

Документация

replace

Синтаксис

Описание

Примеры

Замените подстроки в документах

Замените подстроки в документах Используя шаблоны

Входные параметры

documents — Введите документы tokenizedDocument массив

old — Подстрока или шаблон, чтобы заменить массив строк | вектор символов | массив ячеек из символьных векторов | pattern массив

new — Новая подстрока массив строк | вектор символов | массив ячеек из символьных векторов

Выходные аргументы

newDocuments — Выведите документы tokenizedDocument массив

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

`documents` — Введите документы
`tokenizedDocument` массив

`old` — Подстрока или шаблон, чтобы заменить
массив строк | вектор символов | массив ячеек из символьных векторов | `pattern` массив

`new` — Новая подстрока
массив строк | вектор символов | массив ячеек из символьных векторов

`newDocuments` — Выведите документы
`tokenizedDocument` массив