replaceNgrams

Замените N-граммы в документах

Синтаксис

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams)

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams,'IgnoreCase',true)

Описание

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams) обновляет заданные документы, заменяя N-граммы oldNgrams с соответствующими N-граммами в newNgrams. Функция, по умолчанию, является чувствительной к регистру.

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams,'IgnoreCase',true) заменяет N-граммы oldNgrams 'IgnoringCase' .

Примеры

свернуть все

Замените N-граммы в документах

Скрипт Open Live Script

Используйте replaceNgrams функционируйте, чтобы заменить сокращения на их соответствующие расширенные формы.

Создайте массив маркируемых документов.

str = [ ...
    "Currently in Cambridge, MA."
    "Next stop, NY!"];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    6 tokens: Currently in Cambridge , MA .
    5 tokens: Next stop , NY !

Замените лексемы "MA" и "NY" с "Massachusetts" и ["New" "York"] соответственно. Если N-граммы имеют различные длины, необходимо заполнить строки пустой строкой "". В этом случае необходимо заполнить "Massachusetts" с одной пустой строкой "".

oldNgrams = [
    "MA"
    "NY"];
newNgrams = [
    "Massachusetts" ""
    "New" "York"];
documents = replaceNgrams(documents,oldNgrams,newNgrams)

documents = 
  2x1 tokenizedDocument:

    6 tokens: Currently in Cambridge , Massachusetts .
    6 tokens: Next stop , New York !

Входные параметры

свернуть все

`documents` — Введите документы
`tokenizedDocument` массив

Введите документы в виде tokenizedDocument массив.

`oldNgrams` — N-граммы, чтобы заменить
массив строк | вектор символов | массив ячеек из символьных векторов

N-граммы, чтобы заменить в виде массива строк, вектора символов или массива ячеек из символьных векторов.

Если oldNgrams массив строк или массив ячеек, затем он имеет размер NumNgrams- maxN , где NumNgrams количество N-грамм и maxN длина самой большой n-граммы. Если oldNgrams вектор символов, затем он представляет отдельное слово (униграмма).

Значение oldNgrams(i,j) jслово th in-грамма th. Если количество слов в in-грамма th меньше maxN, затем остающиеся записи iстрока th oldNgrams должен быть дополнен пустой строкой "".

Например, чтобы задать обоих униграмма "Massachusetts", и биграмма ["New" "York"], задайте массив строк 2 на 2 ["Massachusetts" ""; "New" "York"], где "Massachusetts" дополнен одной пустой строкой "".

Типы данных: string | char | cell

`newNgrams` — Новые N-граммы
массив строк | вектор символов | массив ячеек из символьных векторов

Новые N-граммы в виде массива строк, вектора символов или массива ячеек из символьных векторов.

Если newNgrams массив строк или массив ячеек, затем он имеет размер NumNgrams- maxN , где NumNgrams количество N-грамм и maxN длина самой большой n-граммы. Если newNgrams вектор символов, затем он представляет отдельное слово (униграмма).

Значение newNgrams(i,j) jслово th in-грамма th. Если количество слов в in-грамма th меньше maxN, затем остающиеся записи iстрока th newNgrams пусты.

newNgrams должен поссориться, или одинаковое число строк как oldNgrams.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

`newDocuments` — Выведите документы
`tokenizedDocument` массив

Выведите документы, возвращенные как tokenizedDocument массив.

Темы

Введенный в R2019a

Документация

replaceNgrams

Синтаксис

Описание

Примеры

Замените N-граммы в документах

Входные параметры

`documents` — Введите документы
`tokenizedDocument` массив

`oldNgrams` — N-граммы, чтобы заменить
массив строк | вектор символов | массив ячеек из символьных векторов

`newNgrams` — Новые N-граммы
массив строк | вектор символов | массив ячеек из символьных векторов

Выходные аргументы

`newDocuments` — Выведите документы
`tokenizedDocument` массив

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

Документация

replaceNgrams

Синтаксис

Описание

Примеры

Замените N-граммы в документах

Входные параметры

documents — Введите документы tokenizedDocument массив

oldNgrams — N-граммы, чтобы заменить массив строк | вектор символов | массив ячеек из символьных векторов

newNgrams — Новые N-граммы массив строк | вектор символов | массив ячеек из символьных векторов

Выходные аргументы

newDocuments — Выведите документы tokenizedDocument массив

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

`documents` — Введите документы
`tokenizedDocument` массив

`oldNgrams` — N-граммы, чтобы заменить
массив строк | вектор символов | массив ячеек из символьных векторов

`newNgrams` — Новые N-граммы
массив строк | вектор символов | массив ячеек из символьных векторов

`newDocuments` — Выведите документы
`tokenizedDocument` массив