exponenta event banner

заменить

Заменить подстроки в документах

Описание

пример

newDocuments = replace(documents,old,new) заменяет все вхождения подстроки или массива old в documents с new.

Совет

Используйте replace для замены подстрок слов в документах путем указания подстрок или шаблонов. Чтобы заменить все слова и n-граммы в документах, используйте replaceWords и replaceNgrams соответственно.

Примеры

свернуть все

Замена слов в массиве документов.

documents = tokenizedDocument([
    "an extreme example"
    "another extreme example"])
documents = 
  2x1 tokenizedDocument:

    3 tokens: an extreme example
    3 tokens: another extreme example

newDocuments = replace(documents,"example","sentence")
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an extreme sentence
    3 tokens: another extreme sentence

Замените подстроки слов.

newDocuments = replace(documents,"ex","X-")
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an X-treme X-ample
    3 tokens: another X-treme X-ample

Удаление цифр из документа с помощью шаблона цифр.

Создание массива маркированных документов.

textData = [
    "Text Analytics Toolbox provides over 50 functions to analyze text data."
    "The bm25Similarity function measures document similarity."];
documents = tokenizedDocument(textData);

Заменить экземпляры последовательных цифр маркером "<NUMBER>" с использованием replace функция. Укажите шаблон цифр с помощью digitsPattern функция.

pat = digitsPattern;
newDocuments = replace(documents,pat,"<NUMBER>")
newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm<NUMBER>Similarity function measures document similarity .

Обратите внимание, что функция заменяет цифры в маркере "bm25Similarity".

Для замены маркеров, полностью состоящих из цифр, используйте replace и укажите образец, который также включает границы текста. Задание границ текста с помощью textBoundary функция.

pat = textBoundary + digitsPattern + textBoundary;
newDocuments = replace(documents,pat,"<NUMBER>")
newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm25Similarity function measures document similarity .

В этом случае функция не заменяет цифры в маркере "bm25Similarity".

Входные аргументы

свернуть все

Исходные документы, указанные как tokenizedDocument массив.

Подстрока или шаблон для замены, указанный как одно из следующих значений:

  • Строковый массив

  • Символьный вектор

  • Массив ячеек символьных векторов

  • pattern множество

Новая подстрока, заданная как строковый массив, символьный вектор или массив ячеек символьных векторов.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

Выходные документы, возвращенные как tokenizedDocument массив.

Представлен в R2017b