removeInfrequentWords

Удалите слова с низкими количествами из модели сумки слов

Описание

пример

newBag = removeInfrequentWords(bag,count) удаляет слова, которые появляются в большей части count времена всего из модели bag сумки слов.

Примеры

свернуть все

Удалите слова, которые появляются два раза или меньше из модели сумки слов.

Создайте модель сумки слов из массива маркируемых документов.

documents = tokenizedDocument([
    "an example of a short sentence"
    "a second short sentence"
    "another example"
    "a short example"]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [4x8 double]
      Vocabulary: [1x8 string]
        NumWords: 8
    NumDocuments: 4

Удалите слова, которые появляются два раза или меньше из модели сумки слов.

count = 2;
newBag = removeInfrequentWords(bag,count)
newBag = 
  bagOfWords with properties:

          Counts: [4x3 double]
      Vocabulary: ["example"    "a"    "short"]
        NumWords: 3
    NumDocuments: 4

Входные параметры

свернуть все

Введите модель сумки слов, заданную как bagOfWords объект.

Считайте порог, чтобы удалить слова, заданные как положительное целое число. Функция удаляет слова, которые появляются count времена всего или меньше.

Введенный в R2017b