removeShortWords

Удалите короткие слова из модели сумки слов или документов

Синтаксис

newDocuments = removeShortWords(documents,len)
newBag = removeShortWords(bag,len)

Описание

пример

newDocuments = removeShortWords(documents,len) удаляет слова длины len или меньше от documents.

пример

newBag = removeShortWords(bag,len) удаляет слова длины len или меньше от объекта bagOfWords bag.

Примеры

свернуть все

Удалите слова с двумя или меньшим количеством символов из документа.

document = tokenizedDocument("An example of a short sentence");
newDocument = removeShortWords(document,2)
newDocument = 
  tokenizedDocument:

   3 tokens: example short sentence

Удалите слова с двумя или меньшим количеством символов из модели сумки слов.

documents = tokenizedDocument([ ...
    "an example of a short sentence"
    "a second short sentence"]);
bag = bagOfWords(documents);
newBag = removeShortWords(bag,2)
newBag = 
  bagOfWords with properties:

          Counts: [2x4 double]
      Vocabulary: ["example"    "short"    "sentence"    "second"]
        NumWords: 4
    NumDocuments: 2

Входные параметры

свернуть все

Введите документы, заданные как массив tokenizedDocument.

Введите модель сумки слов, заданную как объект bagOfWords.

Максимальная длина слов, чтобы удалить, заданный как положительное целое число. Функция удаляет слова с len или меньшим количеством символов.

Выходные аргументы

свернуть все

Выведите документы, возвращенные как массив tokenizedDocument.

Выведите модель сумки слов, возвращенную как объект bagOfWords.

Введенный в R2017b