replace

Замените подстроки в документах

Синтаксис

newDocuments = replace(documents,old,new)

Описание

newDocuments = replace(documents,old,new) заменяет все вхождения подстроки или шаблона old в documents с new.

Совет

Используйте replace функция для замены подстрок слов в документах путем определения подстрок или шаблонов. Чтобы заменить целые слова и n-граммы в документах, используйте replaceWords и replaceNgrams функций соответственно.

Примеры

свернуть все

Замена подстрок в документах

Открыть Live Script

Замените слова в массиве документов.

documents = tokenizedDocument([
    "an extreme example"
    "another extreme example"])

documents = 
  2x1 tokenizedDocument:

    3 tokens: an extreme example
    3 tokens: another extreme example

newDocuments = replace(documents,"example","sentence")

newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an extreme sentence
    3 tokens: another extreme sentence

Замените подстроки слов.

newDocuments = replace(documents,"ex","X-")

newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an X-treme X-ample
    3 tokens: another X-treme X-ample

Замена подстрок в документах с помощью шаблонов

Открыть Live Script

Удалите цифры из документа с помощью шаблона цифр.

Создайте массив токенизированных документов.

textData = [
    "Text Analytics Toolbox provides over 50 functions to analyze text data."
    "The bm25Similarity function measures document similarity."];
documents = tokenizedDocument(textData);

Замените образцы последовательных цифр на лексему "<NUMBER>" использование replace функция. Задайте шаблон цифр, используя digitsPattern функция.

pat = digitsPattern;
newDocuments = replace(documents,pat,"<NUMBER>")

newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm<NUMBER>Similarity function measures document similarity .

Заметьте, что функция заменяет цифры в лексеме "bm25Similarity".

Чтобы заменить лексемы, состоящие полностью из цифр, используйте replace и задайте шаблон, который также включает контуры. Задайте текстовые контуры с помощью textBoundary функция.

pat = textBoundary + digitsPattern + textBoundary;
newDocuments = replace(documents,pat,"<NUMBER>")

newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm25Similarity function measures document similarity .

В этом случае функция не заменяет цифры в лексеме "bm25Similarity".

Входные параметры

свернуть все

`documents` - Входные документы
`tokenizedDocument` массив

Входные документы, заданные как tokenizedDocument массив.

`old` - Заменяемая подстрока или шаблон
массив строк | символьный вектор | ячеек из символьных векторов | `pattern` массив

Подстрока или шаблон для замены, заданные как одно из следующего:

Строковые массивы
Вектор символов
Массив ячеек из символьных векторов
pattern массив

`new` - Новая подстрока
массив строк | символьный вектор | ячеек из символьных векторов

Новая подстрока, заданная как строковые массивы, вектор символов или массив ячеек из векторов символов.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

`newDocuments` - Выходные документы
`tokenizedDocument` массив

Выходные документы, возвращенные как tokenizedDocument массив.

См. также

Темы

Введенный в R2017b

Документация

replace

Синтаксис

Описание

Примеры

Замена подстрок в документах

Замена подстрок в документах с помощью шаблонов

Входные параметры

`documents` - Входные документы
`tokenizedDocument` массив

`old` - Заменяемая подстрока или шаблон
массив строк | символьный вектор | ячеек из символьных векторов | `pattern` массив

`new` - Новая подстрока
массив строк | символьный вектор | ячеек из символьных векторов

Выходные аргументы

`newDocuments` - Выходные документы
`tokenizedDocument` массив

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

replace

Синтаксис

Описание

Примеры

Замена подстрок в документах

Замена подстрок в документах с помощью шаблонов

Входные параметры

documents - Входные документы tokenizedDocument массив

old - Заменяемая подстрока или шаблон массив строк | символьный вектор | ячеек из символьных векторов | pattern массив

new - Новая подстрока массив строк | символьный вектор | ячеек из символьных векторов

Выходные аргументы

newDocuments - Выходные документы tokenizedDocument массив

См. также

Темы

Symbolic Math Toolbox

Поддержка

`documents` - Входные документы
`tokenizedDocument` массив

`old` - Заменяемая подстрока или шаблон
массив строк | символьный вектор | ячеек из символьных векторов | `pattern` массив

`new` - Новая подстрока
массив строк | символьный вектор | ячеек из символьных векторов

`newDocuments` - Выходные документы
`tokenizedDocument` массив