replace

Замените подстроки в документах

Описание

пример

newDocuments = replace(documents,old,new) заменяет все вхождения подстроки или шаблона old в documents с new.

Совет

Используйте replace функция для замены подстрок слов в документах путем определения подстрок или шаблонов. Чтобы заменить целые слова и n-граммы в документах, используйте replaceWords и replaceNgrams функций соответственно.

Примеры

свернуть все

Замените слова в массиве документов.

documents = tokenizedDocument([
    "an extreme example"
    "another extreme example"])
documents = 
  2x1 tokenizedDocument:

    3 tokens: an extreme example
    3 tokens: another extreme example

newDocuments = replace(documents,"example","sentence")
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an extreme sentence
    3 tokens: another extreme sentence

Замените подстроки слов.

newDocuments = replace(documents,"ex","X-")
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an X-treme X-ample
    3 tokens: another X-treme X-ample

Удалите цифры из документа с помощью шаблона цифр.

Создайте массив токенизированных документов.

textData = [
    "Text Analytics Toolbox provides over 50 functions to analyze text data."
    "The bm25Similarity function measures document similarity."];
documents = tokenizedDocument(textData);

Замените образцы последовательных цифр на лексему "<NUMBER>" использование replace функция. Задайте шаблон цифр, используя digitsPattern функция.

pat = digitsPattern;
newDocuments = replace(documents,pat,"<NUMBER>")
newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm<NUMBER>Similarity function measures document similarity .

Заметьте, что функция заменяет цифры в лексеме "bm25Similarity".

Чтобы заменить лексемы, состоящие полностью из цифр, используйте replace и задайте шаблон, который также включает контуры. Задайте текстовые контуры с помощью textBoundary функция.

pat = textBoundary + digitsPattern + textBoundary;
newDocuments = replace(documents,pat,"<NUMBER>")
newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm25Similarity function measures document similarity .

В этом случае функция не заменяет цифры в лексеме "bm25Similarity".

Входные параметры

свернуть все

Входные документы, заданные как tokenizedDocument массив.

Подстрока или шаблон для замены, заданные как одно из следующего:

  • Строковые массивы

  • Вектор символов

  • Массив ячеек из символьных векторов

  • pattern массив

Новая подстрока, заданная как строковые массивы, вектор символов или массив ячеек из векторов символов.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

Выходные документы, возвращенные как tokenizedDocument массив.

Введенный в R2017b