removeInfrequentWords

Удалите слова с низкими количествами из модели сумки слов

Описание

пример

newBag = removeInfrequentWords(bag,count) удаляет слова, которые появляются в большей части count времена всего из модели bag сумки слов. Функция, по умолчанию, является чувствительной к регистру.

пример

newBag = removeInfrequentWords(bag,count,'IgnoreCase',true) удаляет слова, которые появляются в большей части count времена в общем игнорирующем регистре. Если слова отличаются только случаем, то соответствующие количества объединены.

Примеры

свернуть все

Удалите слова, которые появляются два раза или меньше из модели сумки слов.

Создайте модель сумки слов из массива маркируемых документов.

documents = tokenizedDocument([
    "an example of a short sentence"
    "a second short sentence"
    "another example"
    "a short example"]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [4x8 double]
      Vocabulary: ["an"    "example"    "of"    "a"    "short"    ...    ]
        NumWords: 8
    NumDocuments: 4

Удалите слова, которые появляются два раза или меньше из модели сумки слов.

count = 2;
newBag = removeInfrequentWords(bag,count)
newBag = 
  bagOfWords with properties:

          Counts: [4x3 double]
      Vocabulary: ["example"    "a"    "short"]
        NumWords: 3
    NumDocuments: 4

Входные параметры

свернуть все

Введите модель сумки слов в виде bagOfWords объект.

Считайте порог, чтобы удалить слова в виде положительного целого числа. Функция удаляет слова, которые появляются count времена всего или меньше.

Введенный в R2017b