removeEmptyDocuments

Удалите пустые документы из маркируемого массива документа, модель сумки слов или мешок n модели граммов

Описание

пример

newDocuments = removeEmptyDocuments(documents) удаляет документы, которые не имеют никаких слов от documents.

пример

newBag = removeEmptyDocuments(bag) удаляет документы, которые не имеют никаких слов или N-грамм от сумки слов или мешка n модели bag граммов.

пример

[___,idx] = removeEmptyDocuments(___) также возвращает индексы удаленных документов.

Примеры

свернуть все

Удалите документы, содержащие слова от массива маркируемых документов.

Создайте массив маркируемых документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])
documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Удалите пустые документы.

newDocuments = removeEmptyDocuments(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

Удалите документы, содержащие слова из модели сумки слов.

Создайте модель сумки слов из массива маркируемых документов.

documents = tokenizedDocument([
    "An example of a short sentence."
    ""
    "A second short sentence."
    ""]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [4x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 4

Удалите пустые документы из модели сумки слов.

newBag = removeEmptyDocuments(bag)
newBag = 
  bagOfWords with properties:

          Counts: [2x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 2

Удалите документы, содержащие слова от массива, и используйте индексы удаленных документов, чтобы удалить соответствующие метки также.

Создайте массив маркируемых документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])
documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Создайте вектор меток.

labels = ["T"; "F"; "F"; "T"]
labels = 4x1 string array
    "T"
    "F"
    "F"
    "T"

Удалите пустые документы и получите индексы удаленных документов.

[newDocuments, idx] = removeEmptyDocuments(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

idx = 2×1

     2
     4

Удалите соответствующие метки из labels.

labels(idx) = []
labels = 2x1 string array
    "T"
    "F"

Входные параметры

свернуть все

Введите документы, заданные как tokenizedDocument массив.

Введите сумку слов или мешок n модели граммов, заданной как bagOfWords возразите или bagOfNgrams объект.

Выходные аргументы

свернуть все

Выведите документы, возвращенные как tokenizedDocument массив.

Выведите модель, возвращенную как bagOfWords возразите или bagOfNgrams объект. Тип newBag совпадает с типом bag.

Индексы удаленных документов, возвращенных как вектор положительных целых чисел.

Введенный в R2017b