removeEmptyDocuments

Удалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов

Описание

пример

newDocuments = removeEmptyDocuments(documents) удаляет документы, которые не имеют никаких слов от documents.

пример

newBag = removeEmptyDocuments(bag) удаляет документы, которые не имеют никаких слов или N-грамм от сумки слов или мешка n модели bag граммов.

пример

[___,idx] = removeEmptyDocuments(___) также возвращает индексы удаленных документов.

Примеры

свернуть все

Удалите документы, содержащие слова от массива маркируемых документов.

Создайте массив маркируемых документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])
documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Удалите пустые документы.

newDocuments = removeEmptyDocuments(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

Удалите документы, содержащие слова из модели сумки слов.

Создайте модель сумки слов из массива маркируемых документов.

documents = tokenizedDocument([
    "An example of a short sentence."
    ""
    "A second short sentence."
    ""]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [4x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 4

Удалите пустые документы из модели сумки слов.

newBag = removeEmptyDocuments(bag)
newBag = 
  bagOfWords with properties:

          Counts: [2x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 2

Удалите документы, содержащие слова от массива, и используйте индексы удаленных документов, чтобы удалить соответствующие метки также.

Создайте массив маркируемых документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])
documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Создайте вектор меток.

labels = ["T"; "F"; "F"; "T"]
labels = 4x1 string
    "T"
    "F"
    "F"
    "T"

Удалите пустые документы и получите индексы удаленных документов.

[newDocuments, idx] = removeEmptyDocuments(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

idx = 2×1

     2
     4

Удалите соответствующие метки из labels.

labels(idx) = []
labels = 2x1 string
    "T"
    "F"

Входные параметры

свернуть все

Введите документы в виде tokenizedDocument массив.

Введите сумку слов или мешок n модели граммов в виде bagOfWords возразите или bagOfNgrams объект.

Выходные аргументы

свернуть все

Выведите документы, возвращенные как tokenizedDocument массив.

Выведите модель, возвращенную как bagOfWords возразите или bagOfNgrams объект. Тип newBag совпадает с типом bag.

Индексы удаленных документов, возвращенных как вектор положительных целых чисел.

Введенный в R2017b