removeLongWords

Удалите длинные слова из модели сумки слов или документов

Синтаксис

newDocuments = removeLongWords(documents,len)
newBag = removeLongWords(bag,len)

Описание

пример

newDocuments = removeLongWords(documents,len) удаляет слова длины len или больше от documents.

пример

newBag = removeLongWords(bag,len) удаляет слова длины len или больше от объекта bagOfWords bag.

Примеры

свернуть все

Удалите слова с семь или большие символы из документа.

document = tokenizedDocument("An example of a short sentence");
newDocument = removeLongWords(document,7)
newDocument = 
  tokenizedDocument:

   4 tokens: An of a short

Удалите слова с семь или большие символы из модели сумки слов.

documents = tokenizedDocument([ ...
    "an example of a short sentence"
    "a second short sentence"]);
bag = bagOfWords(documents);
newBag = removeLongWords(bag,7)
newBag = 
  bagOfWords with properties:

          Counts: [2x5 double]
      Vocabulary: ["an"    "of"    "a"    "short"    "second"]
        NumWords: 5
    NumDocuments: 2

Входные параметры

свернуть все

Введите документы, заданные как массив tokenizedDocument.

Введите модель сумки слов, заданную как объект bagOfWords.

Минимальная длина слов, чтобы удалить, заданный как положительное целое число. Функция удаляет слова с len или большими символами.

Выходные аргументы

свернуть все

Выведите документы, возвращенные как массив tokenizedDocument.

Выведите модель сумки слов, возвращенную как объект bagOfWords.

Введенный в R2017b