removeEmptyDocuments

Удалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов

Синтаксис

newDocuments = removeEmptyDocuments(documents)
newBag = removeEmptyDocuments(bag)
[___,idx] = removeEmptyDocuments(___)

Описание

пример

newDocuments = removeEmptyDocuments(documents) удаляет документы, которые не имеют никаких слов от documents.

пример

newBag = removeEmptyDocuments(bag) удаляет документы, которые не имеют никаких слов или N-грамм от сумки слов или мешка n модели bag граммов.

пример

[___,idx] = removeEmptyDocuments(___) также возвращает индексы удаленных документов.

Примеры

свернуть все

Удалите документы, содержащие слова от массива маркируемых документов.

Создайте массив маркируемых документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])
documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Удалите пустые документы.

newDocuments = removeEmptyDocuments(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

Удалите документы, содержащие слова из модели сумки слов.

Создайте модель сумки слов из массива маркируемых документов.

documents = tokenizedDocument([
    "An example of a short sentence."
    ""
    "A second short sentence."
    ""]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [4x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 4

Удалите пустые документы из модели сумки слов.

newBag = removeEmptyDocuments(bag)
newBag = 
  bagOfWords with properties:

          Counts: [2x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 2

Удалите документы, содержащие слова от массива, и используйте индексы удаленных документов, чтобы удалить соответствующие метки также.

Создайте массив маркируемых документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])
documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Создайте вектор меток.

labels = ["T"; "F"; "F"; "T"]
labels = 4x1 string array
    "T"
    "F"
    "F"
    "T"

Удалите пустые документы и получите индексы удаленных документов.

[newDocuments, idx] = removeEmptyDocuments(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

idx = 2×1

     2
     4

Удалите соответствующие метки из labels.

labels(idx) = []
labels = 2x1 string array
    "T"
    "F"

Входные параметры

свернуть все

Введите документы, заданные как массив tokenizedDocument.

Введите сумку слов или мешок n модели граммов, заданной как объект bagOfWords или объект bagOfNgrams.

Выходные аргументы

свернуть все

Выведите документы, возвращенные как массив tokenizedDocument.

Выведите модель, возвращенную как объект bagOfWords или объект bagOfNgrams. Тип newBag совпадает с типом bag.

Индексы удаленных документов, возвращенных как вектор положительных целых чисел.

Введенный в R2017b

Для просмотра документации необходимо авторизоваться на сайте