removeLongWords

Удалите длинные слова из модели сумки слов или документов

Описание

пример

newDocuments = removeLongWords(documents,len) удаляет слова длины len или больше от documents.

пример

newBag = removeLongWords(bag,len) удаляет слова длины len или больше от bagOfWords объект bag.

Примеры

свернуть все

Удалите слова с семь или большие символы из документа.

document = tokenizedDocument("An example of a short sentence");
newDocument = removeLongWords(document,7)
newDocument = 
  tokenizedDocument:

   4 tokens: An of a short

Удалите слова с семь или большие символы из модели сумки слов.

documents = tokenizedDocument([ ...
    "an example of a short sentence"
    "a second short sentence"]);
bag = bagOfWords(documents);
newBag = removeLongWords(bag,7)
newBag = 
  bagOfWords with properties:

          Counts: [2x5 double]
      Vocabulary: ["an"    "of"    "a"    "short"    "second"]
        NumWords: 5
    NumDocuments: 2

Входные параметры

свернуть все

Введите документы, заданные как tokenizedDocument массив.

Введите модель сумки слов, заданную как bagOfWords объект.

Минимальная длина слов, чтобы удалить, заданный как положительное целое число. Функция удаляет слова с len или большие символы.

Выходные аргументы

свернуть все

Выведите документы, возвращенные как tokenizedDocument массив.

Выведите модель сумки слов, возвращенную как bagOfWords объект.

Введенный в R2017b