removeEmptyDocuments

Удалите пустые документы из токенизированного массива документов, модели мешка слов или модели мешка n-граммов

Описание

пример

newDocuments = removeEmptyDocuments(documents) удаляет документы, у которых нет слов из documents.

пример

newBag = removeEmptyDocuments(bag) удаляет документы, которые не имеют слов или n-граммов из модели мешка слов или мешка n-граммов bag.

пример

[___,idx] = removeEmptyDocuments(___) также возвращает индексы удаленных документов.

Примеры

свернуть все

Удалите документы, не содержащие слов, из массива токенизированных документов.

Создайте массив токенизированных документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])
documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Удалите пустые документы.

newDocuments = removeEmptyDocuments(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

Удалите документы, не содержащие слов, из модели мешка слов.

Создайте модель мешка слов из массива токенизованных документов.

documents = tokenizedDocument([
    "An example of a short sentence."
    ""
    "A second short sentence."
    ""]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [4x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 4

Удалите пустые документы из модели мешка слов.

newBag = removeEmptyDocuments(bag)
newBag = 
  bagOfWords with properties:

          Counts: [2x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 2

Удалите документы, не содержащие слов, из массива и используйте индексы удаленных документов, чтобы также удалить соответствующие метки.

Создайте массив токенизированных документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])
documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Создайте вектор меток.

labels = ["T"; "F"; "F"; "T"]
labels = 4x1 string
    "T"
    "F"
    "F"
    "T"

Удалите пустые документы и получите индексы удаленных документов.

[newDocuments, idx] = removeEmptyDocuments(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

idx = 2×1

     2
     4

Удалите соответствующие метки из labels.

labels(idx) = []
labels = 2x1 string
    "T"
    "F"

Входные параметры

свернуть все

Входные документы, заданные как tokenizedDocument массив.

Входная модель мешка слов или мешка n-граммов, заданная как bagOfWords объект или bagOfNgrams объект.

Выходные аргументы

свернуть все

Выходные документы, возвращенные как tokenizedDocument массив.

Выходная модель, возвращенная как bagOfWords объект или bagOfNgrams объект. Тип newBag совпадает с типом bag.

Индексы удаленных документов, возвращенные как вектор положительных целых чисел.

Введенный в R2017b