replace

Замените подстроки в документах

Описание

пример

newDocuments = replace(documents,old,new) замены все случаи подстроки или шаблона old в documents с new.

Совет

Используйте replace функционируйте, чтобы заменить подстроки слов в документах путем определения подстрок или шаблонов. Чтобы заменить целые слова и N-граммы в документах, используйте replaceWords и replaceNgrams функции соответственно.

Примеры

свернуть все

Замените слова в массиве документа.

documents = tokenizedDocument([
    "an extreme example"
    "another extreme example"])
documents = 
  2x1 tokenizedDocument:

    3 tokens: an extreme example
    3 tokens: another extreme example

newDocuments = replace(documents,"example","sentence")
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an extreme sentence
    3 tokens: another extreme sentence

Замените подстроки слов.

newDocuments = replace(documents,"ex","X-")
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an X-treme X-ample
    3 tokens: another X-treme X-ample

Удалите цифры из документа с помощью шаблона цифр.

Создайте массив маркируемых документов.

textData = [
    "Text Analytics Toolbox provides over 50 functions to analyze text data."
    "The bm25Similarity function measures document similarity."];
documents = tokenizedDocument(textData);

Замените экземпляры последовательных цифр с маркерным "<NUMBER>" использование replace функция. Задайте шаблон цифр с помощью digitsPattern функция.

pat = digitsPattern;
newDocuments = replace(documents,pat,"<NUMBER>")
newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm<NUMBER>Similarity function measures document similarity .

Заметьте, что функция заменяет цифры в маркерном "bm25Similarity".

Чтобы заменить лексемы, состоящие полностью из цифр, используйте replace функционируйте и задайте шаблон, который также включает текстовые контуры. Задайте текстовые контуры с помощью textBoundary функция.

pat = textBoundary + digitsPattern + textBoundary;
newDocuments = replace(documents,pat,"<NUMBER>")
newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm25Similarity function measures document similarity .

В этом случае функция не заменяет цифры в маркерном "bm25Similarity".

Входные параметры

свернуть все

Введите документы в виде tokenizedDocument массив.

Подстрока или шаблон, чтобы заменить в виде одного из следующего:

  • Массив строк

  • Символьный вектор

  • Массив ячеек из символьных векторов

  • pattern массив

Новая подстрока в виде массива строк, вектора символов или массива ячеек из символьных векторов.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

Выведите документы, возвращенные как tokenizedDocument массив.

Введенный в R2017b