removeDocument

Удалите документы из сумки слов или мешка n модели граммов

Описание

пример

newBag = removeDocument(bag,idx) удаляет документы с индексами, заданными idx от сумки слов или мешка n модели bag граммов. Если удаленные документы содержат слова или N-граммы, которые не появляются в остающихся документах, то функция также удаляет эти слова или N-граммы от bag.

Примеры

свернуть все

Удалите выбранные документы из модели сумки слов.

documents = tokenizedDocument([ ...
    "an example of a short sentence" 
    "a second short sentence"
    "a third example"
    "a final sentence"]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [4x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 4

Удалите первые и третьи документы из bag.

idx = [1 3];
newBag = removeDocument(bag,idx)
newBag = 
  bagOfWords with properties:

          Counts: [2x5 double]
      Vocabulary: ["a"    "short"    "sentence"    "second"    "final"]
        NumWords: 5
    NumDocuments: 2

Удалите те же документы с помощью логических индексов.

idx = logical([1 0 1 0]);
newBag = removeDocument(bag,idx)
newBag = 
  bagOfWords with properties:

          Counts: [2x5 double]
      Vocabulary: ["a"    "short"    "sentence"    "second"    "final"]
        NumWords: 5
    NumDocuments: 2

Входные параметры

свернуть все

Введите сумку слов или мешок n модели граммов в виде bagOfWords возразите или bagOfNgrams объект.

Индексы документов, чтобы удалить в виде вектора из числовых индексов или вектора из логических индексов.

Пример: [2 4 6]

Пример: [0 1 0 1 0 1]

Выходные аргументы

свернуть все

Выведите модель, возвращенную как bagOfWords возразите или bagOfNgrams объект. Тип newBag совпадает с типом bag.

Введенный в R2017b