removeShortWords

Удалите короткие слова из модели сумки слов или документов

Описание

пример

newDocuments = removeShortWords(documents,len) удаляет слова длины len или меньше от documents.

пример

newBag = removeShortWords(bag,len) удаляет слова длины len или меньше от bagOfWords объект bag.

Примеры

свернуть все

Удалите слова с двумя или меньшим количеством символов из документа.

document = tokenizedDocument("An example of a short sentence");
newDocument = removeShortWords(document,2)
newDocument = 
  tokenizedDocument:

   3 tokens: example short sentence

Удалите слова с двумя или меньшим количеством символов из модели сумки слов.

documents = tokenizedDocument([ ...
    "an example of a short sentence"
    "a second short sentence"]);
bag = bagOfWords(documents);
newBag = removeShortWords(bag,2)
newBag = 
  bagOfWords with properties:

          Counts: [2x4 double]
      Vocabulary: ["example"    "short"    "sentence"    "second"]
        NumWords: 4
    NumDocuments: 2

Входные параметры

свернуть все

Введите документы, заданные как tokenizedDocument массив.

Введите модель сумки слов, заданную как bagOfWords объект.

Максимальная длина слов, чтобы удалить, заданный как положительное целое число. Функция удаляет слова с len или меньше символов.

Выходные аргументы

свернуть все

Выведите документы, возвращенные как tokenizedDocument массив.

Выведите модель сумки слов, возвращенную как bagOfWords объект.

Введенный в R2017b