exponenta event banner

replaceNgrams

Заменить n-грамм в документах

Описание

пример

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams) обновляет указанные документы, заменяя n-grams oldNgrams с соответствующими n-граммами в newNgrams. Функция по умолчанию чувствительна к регистру.

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams,'IgnoreCase',true) заменяет n-грамм oldNgrams игнорирование случая.

Примеры

свернуть все

Используйте replaceNgrams функция замены аббревиатур соответствующими развернутыми формами.

Создание массива маркированных документов.

str = [ ...
    "Currently in Cambridge, MA."
    "Next stop, NY!"];
documents = tokenizedDocument(str)
documents = 
  2x1 tokenizedDocument:

    6 tokens: Currently in Cambridge , MA .
    5 tokens: Next stop , NY !

Заменить маркеры "MA" и "NY" с "Massachusetts" и ["New" "York"] соответственно. Если n-граммы имеют различную длину, строки должны быть заполнены пустой строкой "". В этом случае необходимо установить "Massachusetts" с одной пустой строкой "".

oldNgrams = [
    "MA"
    "NY"];
newNgrams = [
    "Massachusetts" ""
    "New" "York"];
documents = replaceNgrams(documents,oldNgrams,newNgrams)
documents = 
  2x1 tokenizedDocument:

    6 tokens: Currently in Cambridge , Massachusetts .
    6 tokens: Next stop , New York !

Входные аргументы

свернуть все

Исходные документы, указанные как tokenizedDocument массив.

N-грамм для замены, указанный как строковый массив, символьный вектор или массив ячеек символьных векторов.

Если oldNgrams является строковым массивом или массивом ячеек, то он имеет размер NumNgramsоколо-maxN , где NumNgrams - число n-граммов, и maxN - длина наибольшего n-грамма. Если oldNgrams является символьным вектором, то он представляет одно слово (unigram).

Значение oldNgrams(i,j) является jпятое слово iН-грамм. Если количество слов в in-грамм меньше maxN, то остальные записи iтретий ряд oldNgrams должно быть заполнено пустой строкой "".

Например, для задания обоих параметров "Massachusetts", и биграм ["New" "York"], укажите массив строк 2 на 2 ["Massachusetts" ""; "New" "York"], где "Massachusetts" заполняется одной пустой строкой "".

Типы данных: string | char | cell

Новые n-граммы, указанные как строковый массив, символьный вектор или массив ячеек символьных векторов.

Если newNgrams является строковым массивом или массивом ячеек, то он имеет размер NumNgramsоколо-maxN , где NumNgrams - число n-граммов, и maxN - длина наибольшего n-грамма. Если newNgrams является символьным вектором, то он представляет одно слово (unigram).

Значение newNgrams(i,j) является jпятое слово iН-грамм. Если количество слов в in-грамм меньше maxN, то остальные записи iтретий ряд newNgrams пусты.

newNgrams должна иметь одну строку или такое же количество строк, как oldNgrams.

Например, для задания обоих параметров "Massachusetts", и биграм ["New" "York"], укажите массив строк 2 на 2 ["Massachusetts" ""; "New" "York"], где "Massachusetts" заполняется одной пустой строкой "".

Типы данных: string | char | cell

Выходные аргументы

свернуть все

Выходные документы, возвращенные как tokenizedDocument массив.

Представлен в R2019a