replaceNgrams

Замените N-граммы в документах

Синтаксис

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams)

Описание

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams) обновляет заданные документы, заменяя N-граммы в документах oldNgrams с соответствующими N-граммами в newNgrams.

Примеры

свернуть все

Замените N-граммы в документах

Скрипт Open Live Script

Используйте функцию replaceNgrams, чтобы заменить сокращения на их соответствующие расширенные формы.

Создайте массив маркируемых документов.

str = [ ...
    "Currently in Cambridge, MA."
    "Next stop, NY!"];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    6 tokens: Currently in Cambridge , MA .
    5 tokens: Next stop , NY !

Замените лексемы "MA" и "NY" с "Massachusetts" и ["New" "York"] соответственно. Если N-граммы имеют differnt длины, необходимо заполнить строки пустой строкой "". В этом случае необходимо заполнить "Massachusetts" одной пустой строкой "".

oldNgrams = [
    "MA"
    "NY"];
newNgrams = [
    "Massachusetts" ""
    "New" "York"];
documents = replaceNgrams(documents,oldNgrams,newNgrams)

documents = 
  2x1 tokenizedDocument:

    6 tokens: Currently in Cambridge , Massachusetts .
    6 tokens: Next stop , New York !

Входные параметры

свернуть все

`documents` — Введите документы
Массив `tokenizedDocument`

Введите документы, заданные как массив tokenizedDocument.

`oldNgrams` — N-граммы, чтобы заменить
массив строк | вектор символов | массив ячеек из символьных векторов

N-граммы, чтобы заменить, заданный как массив строк, вектор символов или массив ячеек из символьных векторов.

Если oldNgrams является массивом строк или массивом ячеек, то это имеет размер NumNgrams-by-maxN, где NumNgrams является количеством N-грамм, и maxN является длиной самой большой n-граммы. Если oldNgrams является вектором символов, то он представляет отдельное слово (униграмма).

Значением oldNgrams(i,j) является j th слово i th n-грамма. Если количество слов в i th n-грамма является меньше, чем maxN, то остающиеся записи i th строка oldNgrams должны быть дополнены пустой строкой "".

Например, чтобы задать и униграмму "Massachusetts" и биграмма ["New" "York"], задают массив строк 2 на 2 ["Massachusetts" ""; "New" "York"], где "Massachusetts" дополнен одной пустой строкой "".

Типы данных: string | char | cell

`newNgrams` — Новые N-граммы
массив строк | вектор символов | массив ячеек из символьных векторов

Новые N-граммы, заданные как массив строк, вектор символов или массив ячеек из символьных векторов.

Если newNgrams является массивом строк или массивом ячеек, то это имеет размер NumNgrams-by-maxN, где NumNgrams является количеством N-грамм, и maxN является длиной самой большой n-граммы. Если newNgrams является вектором символов, то он представляет отдельное слово (униграмма).

Значением newNgrams(i,j) является j th слово i th n-грамма. Если количество слов в i th n-грамма является меньше, чем maxN, то остающиеся записи i th строка newNgrams пусты.

newNgrams должен поссориться, или одинаковое число строк как oldNgrams.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

`newDocuments` — Выведите документы
Массив `tokenizedDocument`

Выведите документы, возвращенные как массив tokenizedDocument.

Документация

replaceNgrams

Синтаксис

Описание

Примеры

Замените N-граммы в документах

Входные параметры

`documents` — Введите документы
Массив `tokenizedDocument`

`oldNgrams` — N-граммы, чтобы заменить
массив строк | вектор символов | массив ячеек из символьных векторов

`newNgrams` — Новые N-граммы
массив строк | вектор символов | массив ячеек из символьных векторов

Выходные аргументы

`newDocuments` — Выведите документы
Массив `tokenizedDocument`

Смотрите также

Темы

Введенный в R2019a

Документация Text Analytics Toolbox

Поддержка

Документация

replaceNgrams

Синтаксис

Описание

Примеры

Замените N-граммы в документах

Входные параметры

documents — Введите документы Массив tokenizedDocument

oldNgrams — N-граммы, чтобы заменить массив строк | вектор символов | массив ячеек из символьных векторов

newNgrams — Новые N-граммы массив строк | вектор символов | массив ячеек из символьных векторов

Выходные аргументы

newDocuments — Выведите документы Массив tokenizedDocument

Смотрите также

Темы

Введенный в R2019a

Документация Text Analytics Toolbox

Поддержка

`documents` — Введите документы
Массив `tokenizedDocument`

`oldNgrams` — N-граммы, чтобы заменить
массив строк | вектор символов | массив ячеек из символьных векторов

`newNgrams` — Новые N-граммы
массив строк | вектор символов | массив ячеек из символьных векторов

`newDocuments` — Выведите документы
Массив `tokenizedDocument`