removeInfrequentWords

Удалите слова с низким количеством из модели мешка слов

Описание

пример

newBag = removeInfrequentWords(bag,count) удаляет слова, которые появляются самое большее count всего раз из модели мешка слов bag. Функция по умолчанию чувствительна к регистру.

пример

newBag = removeInfrequentWords(bag,count,'IgnoreCase',true) удаляет слова, которые появляются самое большее count раз в общем проигнорировании случая. Если слова различаются только по регистрам, то соответствующие счетчики объединяются.

Примеры

свернуть все

Удалите слова, которые появляются в два раза или меньше из модели мешка слов.

Создайте модель мешка слов из массива токенизированных документов.

documents = tokenizedDocument([
    "an example of a short sentence"
    "a second short sentence"
    "another example"
    "a short example"]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [4x8 double]
      Vocabulary: [1x8 string]
        NumWords: 8
    NumDocuments: 4

Удалите слова, которые появляются в два раза или меньше из модели мешка слов.

count = 2;
newBag = removeInfrequentWords(bag,count)
newBag = 
  bagOfWords with properties:

          Counts: [4x3 double]
      Vocabulary: ["example"    "a"    "short"]
        NumWords: 3
    NumDocuments: 4

Входные параметры

свернуть все

Вход пакета слов, заданная как bagOfWords объект.

Счетчик порога для удаления слов, заданный как положительное целое число. Функция удаляет появившиеся слова count раз в общей сложности или меньше.

Введенный в R2017b