заменить

Заменить подстроки в документах

Синтаксис

newDocuments = заменить (документы, старые, новые)

Описание

newDocuments = replace(documents,old,new) заменяет все вхождения подстроки или массива old в documents с new.

Совет

Используйте replace для замены подстрок слов в документах путем указания подстрок или шаблонов. Чтобы заменить все слова и n-граммы в документах, используйте replaceWords и replaceNgrams соответственно.

Примеры

свернуть все

Заменить подстроки в документах

Открыть сценарий в реальном времени

Замена слов в массиве документов.

documents = tokenizedDocument([
    "an extreme example"
    "another extreme example"])

documents = 
  2x1 tokenizedDocument:

    3 tokens: an extreme example
    3 tokens: another extreme example

newDocuments = replace(documents,"example","sentence")

newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an extreme sentence
    3 tokens: another extreme sentence

Замените подстроки слов.

newDocuments = replace(documents,"ex","X-")

newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an X-treme X-ample
    3 tokens: another X-treme X-ample

Замена подстрок в документах с использованием шаблонов

Открыть сценарий в реальном времени

Удаление цифр из документа с помощью шаблона цифр.

Создание массива маркированных документов.

textData = [
    "Text Analytics Toolbox provides over 50 functions to analyze text data."
    "The bm25Similarity function measures document similarity."];
documents = tokenizedDocument(textData);

Заменить экземпляры последовательных цифр маркером "<NUMBER>" с использованием replace функция. Укажите шаблон цифр с помощью digitsPattern функция.

pat = digitsPattern;
newDocuments = replace(documents,pat,"<NUMBER>")

newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm<NUMBER>Similarity function measures document similarity .

Обратите внимание, что функция заменяет цифры в маркере "bm25Similarity".

Для замены маркеров, полностью состоящих из цифр, используйте replace и укажите образец, который также включает границы текста. Задание границ текста с помощью textBoundary функция.

pat = textBoundary + digitsPattern + textBoundary;
newDocuments = replace(documents,pat,"<NUMBER>")

newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm25Similarity function measures document similarity .

В этом случае функция не заменяет цифры в маркере "bm25Similarity".

Входные аргументы

свернуть все

`documents` - Исходные документы
`tokenizedDocument` множество

Исходные документы, указанные как tokenizedDocument массив.

`old` - Подстрока или шаблон для замены
строковый массив | символьный вектор | клеточный массив символьных векторов | `pattern` множество

Подстрока или шаблон для замены, указанный как одно из следующих значений:

Строковый массив
Символьный вектор
Массив ячеек символьных векторов
pattern множество

`new` - Новая подстрока
строковый массив | символьный вектор | клеточный массив символьных векторов

Новая подстрока, заданная как строковый массив, символьный вектор или массив ячеек символьных векторов.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

`newDocuments` - Выходные документы
`tokenizedDocument` множество

Выходные документы, возвращенные как tokenizedDocument массив.

См. также

Темы

Представлен в R2017b

Документация

заменить

Синтаксис

Описание

Примеры

Заменить подстроки в документах

Замена подстрок в документах с использованием шаблонов

Входные аргументы

`documents` - Исходные документы
`tokenizedDocument` множество

`old` - Подстрока или шаблон для замены
строковый массив | символьный вектор | клеточный массив символьных векторов | `pattern` множество

`new` - Новая подстрока
строковый массив | символьный вектор | клеточный массив символьных векторов

Выходные аргументы

`newDocuments` - Выходные документы
`tokenizedDocument` множество

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

Документация

заменить

Синтаксис

Описание

Примеры

Заменить подстроки в документах

Замена подстрок в документах с использованием шаблонов

Входные аргументы

documents - Исходные документы tokenizedDocument множество

old - Подстрока или шаблон для замены строковый массив | символьный вектор | клеточный массив символьных векторов | pattern множество

new - Новая подстрока строковый массив | символьный вектор | клеточный массив символьных векторов

Выходные аргументы

newDocuments - Выходные документы tokenizedDocument множество

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

`documents` - Исходные документы
`tokenizedDocument` множество

`old` - Подстрока или шаблон для замены
строковый массив | символьный вектор | клеточный массив символьных векторов | `pattern` множество

`new` - Новая подстрока
строковый массив | символьный вектор | клеточный массив символьных векторов

`newDocuments` - Выходные документы
`tokenizedDocument` множество