replaceNgrams

Замените N-граммы в документах

Синтаксис

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams)

Описание

пример

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams) обновляет заданные документы, заменяя N-граммы в документах oldNgrams с соответствующими N-граммами в newNgrams.

Примеры

свернуть все

Используйте функцию replaceNgrams, чтобы заменить сокращения на их соответствующие расширенные формы.

Создайте массив маркируемых документов.

str = [ ...
    "Currently in Cambridge, MA."
    "Next stop, NY!"];
documents = tokenizedDocument(str)
documents = 
  2x1 tokenizedDocument:

    6 tokens: Currently in Cambridge , MA .
    5 tokens: Next stop , NY !

Замените лексемы "MA" и "NY" с "Massachusetts" и ["New" "York"] соответственно. Если N-граммы имеют differnt длины, необходимо заполнить строки пустой строкой "". В этом случае необходимо заполнить "Massachusetts" одной пустой строкой "".

oldNgrams = [
    "MA"
    "NY"];
newNgrams = [
    "Massachusetts" ""
    "New" "York"];
documents = replaceNgrams(documents,oldNgrams,newNgrams)
documents = 
  2x1 tokenizedDocument:

    6 tokens: Currently in Cambridge , Massachusetts .
    6 tokens: Next stop , New York !

Входные параметры

свернуть все

Введите документы, заданные как массив tokenizedDocument.

N-граммы, чтобы заменить, заданный как массив строк, вектор символов или массив ячеек из символьных векторов.

Если oldNgrams является массивом строк или массивом ячеек, то это имеет размер NumNgrams-by-maxN, где NumNgrams является количеством N-грамм, и maxN является длиной самой большой n-граммы. Если oldNgrams является вектором символов, то он представляет отдельное слово (униграмма).

Значением oldNgrams(i,j) является j th слово i th n-грамма. Если количество слов в i th n-грамма является меньше, чем maxN, то остающиеся записи i th строка oldNgrams должны быть дополнены пустой строкой "".

Например, чтобы задать и униграмму "Massachusetts" и биграмма ["New" "York"], задают массив строк 2 на 2 ["Massachusetts" ""; "New" "York"], где "Massachusetts" дополнен одной пустой строкой "".

Типы данных: string | char | cell

Новые N-граммы, заданные как массив строк, вектор символов или массив ячеек из символьных векторов.

Если newNgrams является массивом строк или массивом ячеек, то это имеет размер NumNgrams-by-maxN, где NumNgrams является количеством N-грамм, и maxN является длиной самой большой n-граммы. Если newNgrams является вектором символов, то он представляет отдельное слово (униграмма).

Значением newNgrams(i,j) является j th слово i th n-грамма. Если количество слов в i th n-грамма является меньше, чем maxN, то остающиеся записи i th строка newNgrams пусты.

newNgrams должен поссориться, или одинаковое число строк как oldNgrams.

Например, чтобы задать и униграмму "Massachusetts" и биграмма ["New" "York"], задают массив строк 2 на 2 ["Massachusetts" ""; "New" "York"], где "Massachusetts" дополнен одной пустой строкой "".

Типы данных: string | char | cell

Выходные аргументы

свернуть все

Выведите документы, возвращенные как массив tokenizedDocument.

Введенный в R2019a