removeDocument

Удалите документы из модели мешка слов или мешка n-граммов

Описание

пример

newBag = removeDocument(bag,idx) удаляет документы с индексами, заданными idx из модели мешка слов или мешка n-граммов bag. Если удаленные документы содержат слова или n-граммы, которые не появляются в остальных документах, то функция также удаляет эти слова или n-граммы из bag.

Примеры

свернуть все

Удалите выбранные документы из модели мешка слов.

documents = tokenizedDocument([ ...
    "an example of a short sentence" 
    "a second short sentence"
    "a third example"
    "a final sentence"]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [4x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 4

Удалите первый и третий документы из bag.

idx = [1 3];
newBag = removeDocument(bag,idx)
newBag = 
  bagOfWords with properties:

          Counts: [2x5 double]
      Vocabulary: ["a"    "short"    "sentence"    "second"    "final"]
        NumWords: 5
    NumDocuments: 2

Удалите те же документы с помощью логических индексов.

idx = logical([1 0 1 0]);
newBag = removeDocument(bag,idx)
newBag = 
  bagOfWords with properties:

          Counts: [2x5 double]
      Vocabulary: ["a"    "short"    "sentence"    "second"    "final"]
        NumWords: 5
    NumDocuments: 2

Входные параметры

свернуть все

Входная модель мешка слов или мешка n-граммов, заданная как bagOfWords объект или bagOfNgrams объект.

Индексы удаляемых документов, заданные как вектор числовых индексов или вектор логических индексов.

Пример: [2 4 6]

Пример: [0 1 0 1 0 1]

Выходные аргументы

свернуть все

Выходная модель, возвращенная как bagOfWords объект или bagOfNgrams объект. Тип newBag совпадает с типом bag.

Введенный в R2017b