removeLongWords

Удалите длинные слова из модели сумки слов или документов

Описание

пример

newDocuments = removeLongWords(documents,len) удаляет слова длины len или больше от documents.

пример

newBag = removeLongWords(bag,len) удаляет слова длины len или больше от bagOfWords объект bag.

Примеры

свернуть все

Удалите слова с семь или большие символы из документа.

document = tokenizedDocument("An example of a short sentence");
newDocument = removeLongWords(document,7)
newDocument = 
  tokenizedDocument:

   4 tokens: An of a short

Удалите слова с семь или большие символы из модели сумки слов.

documents = tokenizedDocument([ ...
    "an example of a short sentence"
    "a second short sentence"]);
bag = bagOfWords(documents);
newBag = removeLongWords(bag,7)
newBag = 
  bagOfWords with properties:

          Counts: [2x5 double]
      Vocabulary: ["an"    "of"    "a"    "short"    "second"]
        NumWords: 5
    NumDocuments: 2

Входные параметры

свернуть все

Введите документы в виде tokenizedDocument массив.

Введите модель сумки слов в виде bagOfWords объект.

Минимальная длина слов, чтобы удалить в виде положительного целого числа. Функция удаляет слова с len или большие символы.

Выходные аргументы

свернуть все

Выведите документы, возвращенные как tokenizedDocument массив.

Выведите модель сумки слов, возвращенную как bagOfWords объект.

Введенный в R2017b