removeEmptyDocuments

Удалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов

свернуть все на странице

Синтаксис

newDocuments = removeEmptyDocuments(documents)

newBag = removeEmptyDocuments(bag)

[___,idx] = removeEmptyDocuments(___)

Описание

пример

newDocuments = removeEmptyDocuments(documents) удаляет документы, которые не имеют никаких слов от documents.

пример

newBag = removeEmptyDocuments(bag) удаляет документы, которые не имеют никаких слов или N-грамм от сумки слов или мешка n модели bag граммов.

пример

[___,idx] = removeEmptyDocuments(___) также возвращает индексы удаленных документов.

Примеры

свернуть все

Удалите пустые документы из массива

Скрипт Open Live Script

Удалите документы, содержащие слова от массива маркируемых документов.

Создайте массив маркируемых документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])

documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Удалите пустые документы.

newDocuments = removeEmptyDocuments(documents)

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

Удалите пустые документы из модели сумки слов

Скрипт Open Live Script

Удалите документы, содержащие слова из модели сумки слов.

Создайте модель сумки слов из массива маркируемых документов.

documents = tokenizedDocument([
    "An example of a short sentence."
    ""
    "A second short sentence."
    ""]);
bag = bagOfWords(documents)

bag = 
  bagOfWords with properties:

          Counts: [4x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 4

Удалите пустые документы из модели сумки слов.

newBag = removeEmptyDocuments(bag)

newBag = 
  bagOfWords with properties:

          Counts: [2x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 2

Удалите документы и соответствующие метки

Скрипт Open Live Script

Удалите документы, содержащие слова от массива, и используйте индексы удаленных документов, чтобы удалить соответствующие метки также.

Создайте массив маркируемых документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])

documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Создайте вектор меток.

labels = ["T"; "F"; "F"; "T"]

labels = 4x1 string array
    "T"
    "F"
    "F"
    "T"

Удалите пустые документы и получите индексы удаленных документов.

[newDocuments, idx] = removeEmptyDocuments(documents)

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

idx = 2×1

     2
     4

Удалите соответствующие метки из labels.

labels(idx) = []

labels = 2x1 string array
    "T"
    "F"

Входные параметры

свернуть все

`documents` — Введите документы
Массив `tokenizedDocument`

Введите документы, заданные как массив tokenizedDocument.

`bag` — Введите сумку слов или мешок n модели граммов
Объект `bagOfWords` | объект `bagOfNgrams`

Введите сумку слов или мешок n модели граммов, заданной как объект bagOfWords или объект bagOfNgrams.

Выходные аргументы

свернуть все

`newDocuments` — Выведите документы
Массив `tokenizedDocument`

Выведите документы, возвращенные как массив tokenizedDocument.

Модель `newBag` — Output
Объект `bagOfWords` | объект `bagOfNgrams`

Выведите модель, возвращенную как объект bagOfWords или объект bagOfNgrams. Тип newBag совпадает с типом bag.

`idx` Индексы удаленных документов
вектор положительных целых чисел

Индексы удаленных документов, возвращенных как вектор положительных целых чисел.

Документация

removeEmptyDocuments

Синтаксис

Описание

Примеры

Удалите пустые документы из массива

Удалите пустые документы из модели сумки слов

Удалите документы и соответствующие метки

Входные параметры

`documents` — Введите документы
Массив `tokenizedDocument`

`bag` — Введите сумку слов или мешок n модели граммов
Объект `bagOfWords` | объект `bagOfNgrams`

Выходные аргументы

`newDocuments` — Выведите документы
Массив `tokenizedDocument`

Модель `newBag` — Output
Объект `bagOfWords` | объект `bagOfNgrams`

`idx` Индексы удаленных документов
вектор положительных целых чисел

Смотрите также

Темы

Введенный в R2017b

Документация Text Analytics Toolbox

Поддержка

Документация

removeEmptyDocuments

Синтаксис

Описание

Примеры

Удалите пустые документы из массива

Удалите пустые документы из модели сумки слов

Удалите документы и соответствующие метки

Входные параметры

documents — Введите документы Массив tokenizedDocument

bag — Введите сумку слов или мешок n модели граммов Объект bagOfWords | объект bagOfNgrams

Выходные аргументы

newDocuments — Выведите документы Массив tokenizedDocument

Модель newBag — Output Объект bagOfWords | объект bagOfNgrams

idx Индексы удаленных документов вектор положительных целых чисел

Смотрите также

Темы

Введенный в R2017b

Документация Text Analytics Toolbox

Поддержка

`documents` — Введите документы
Массив `tokenizedDocument`

`bag` — Введите сумку слов или мешок n модели граммов
Объект `bagOfWords` | объект `bagOfNgrams`

`newDocuments` — Выведите документы
Массив `tokenizedDocument`

Модель `newBag` — Output
Объект `bagOfWords` | объект `bagOfNgrams`

`idx` Индексы удаленных документов
вектор положительных целых чисел