exponenta event banner

removeInfrequentWords

Удалить слова с низкими счетчиками из модели сумки слов

Описание

пример

newBag = removeInfrequentWords(bag,count) удаляет слова, которые появляются максимум count общее количество раз из модели мешка слов bag. Функция по умолчанию чувствительна к регистру.

пример

newBag = removeInfrequentWords(bag,count,'IgnoreCase',true) удаляет слова, которые появляются максимум count время в общем случае игнорирования. Если слова различаются только по регистру, то соответствующие счётчики объединяются.

Примеры

свернуть все

Удалите слова, появляющиеся в модели пакета слов в два раза или менее.

Создание модели пакета слов из массива маркированных документов.

documents = tokenizedDocument([
    "an example of a short sentence"
    "a second short sentence"
    "another example"
    "a short example"]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [4x8 double]
      Vocabulary: [1x8 string]
        NumWords: 8
    NumDocuments: 4

Удалите слова, появляющиеся в модели сумки слов в два раза или менее.

count = 2;
newBag = removeInfrequentWords(bag,count)
newBag = 
  bagOfWords with properties:

          Counts: [4x3 double]
      Vocabulary: ["example"    "a"    "short"]
        NumWords: 3
    NumDocuments: 4

Входные аргументы

свернуть все

Входная модель сумки слов, заданная как bagOfWords объект.

Пороговое значение счетчика для удаления слов, указанное как положительное целое число. Функция удаляет появляющиеся слова count всего или меньше.

Представлен в R2017b