replaceNgrams

Замените N-граммы в документах

Описание

пример

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams) обновляет заданные документы, заменяя N-граммы в oldNgrams документы с соответствующими N-граммами в newNgrams.

Примеры

свернуть все

Используйте replaceNgrams функционируйте, чтобы заменить сокращения на их соответствующие расширенные формы.

Создайте массив маркируемых документов.

str = [ ...
    "Currently in Cambridge, MA."
    "Next stop, NY!"];
documents = tokenizedDocument(str)
documents = 
  2×1 tokenizedDocument:

    6 tokens: Currently in Cambridge , MA .
    5 tokens: Next stop , NY !

Замените лексемы "MA" и "NY" с "Massachusetts" и ["New" "York"] соответственно. Если N-граммы имеют различные длины, необходимо заполнить строки пустой строкой "". В этом случае необходимо заполнить "Massachusetts" с одной пустой строкой "".

oldNgrams = [
    "MA"
    "NY"];
newNgrams = [
    "Massachusetts" ""
    "New" "York"];
documents = replaceNgrams(documents,oldNgrams,newNgrams)
documents = 
  2×1 tokenizedDocument:

    6 tokens: Currently in Cambridge , Massachusetts .
    6 tokens: Next stop , New York !

Входные параметры

свернуть все

Введите документы в виде tokenizedDocument массив.

N-граммы, чтобы заменить в виде массива строк, вектора символов или массива ячеек из символьных векторов.

Если oldNgrams массив строк или массив ячеек, затем он имеет размер NumNgrams- maxN , где NumNgrams количество N-грамм и maxN длина самой большой n-граммы. Если oldNgrams вектор символов, затем он представляет отдельное слово (униграмма).

Значение oldNgrams(i,j) jслово th in-грамма th. Если количество слов в in-грамма th меньше maxN, затем остающиеся записи iстрока th oldNgrams должен быть дополнен пустой строкой "".

Например, чтобы задать обоих униграмма "Massachusetts", и биграмма ["New" "York"], задайте массив строк 2 на 2 ["Massachusetts" ""; "New" "York"], где "Massachusetts" дополнен одной пустой строкой "".

Типы данных: string | char | cell

Новые N-граммы в виде массива строк, вектора символов или массива ячеек из символьных векторов.

Если newNgrams массив строк или массив ячеек, затем он имеет размер NumNgrams- maxN , где NumNgrams количество N-грамм и maxN длина самой большой n-граммы. Если newNgrams вектор символов, затем он представляет отдельное слово (униграмма).

Значение newNgrams(i,j) jслово th in-грамма th. Если количество слов в in-грамма th меньше maxN, затем остающиеся записи iстрока th newNgrams пусты.

newNgrams должен поссориться, или одинаковое число строк как oldNgrams.

Например, чтобы задать обоих униграмма "Massachusetts", и биграмма ["New" "York"], задайте массив строк 2 на 2 ["Massachusetts" ""; "New" "York"], где "Massachusetts" дополнен одной пустой строкой "".

Типы данных: string | char | cell

Выходные аргументы

свернуть все

Выведите документы, возвращенные как tokenizedDocument массив.

Введенный в R2019a