exponenta event banner

removeShortWords

Удалить короткие слова из документов или модели мешка слов

Описание

пример

newDocuments = removeShortWords(documents,len) удаляет слова длины len или меньше от documents.

пример

newBag = removeShortWords(bag,len) удаляет слова длины len или меньше от bagOfWords объект bag.

Примеры

свернуть все

Удалите из документа слова, содержащие не более двух символов.

document = tokenizedDocument("An example of a short sentence");
newDocument = removeShortWords(document,2)
newDocument = 
  tokenizedDocument:

   3 tokens: example short sentence

Удалите слова с двумя или менее символами из модели сумки слов.

documents = tokenizedDocument([ ...
    "an example of a short sentence"
    "a second short sentence"]);
bag = bagOfWords(documents);
newBag = removeShortWords(bag,2)
newBag = 
  bagOfWords with properties:

          Counts: [2x4 double]
      Vocabulary: ["example"    "short"    "sentence"    "second"]
        NumWords: 4
    NumDocuments: 2

Входные аргументы

свернуть все

Исходные документы, указанные как tokenizedDocument массив.

Входная модель сумки слов, заданная как bagOfWords объект.

Максимальная длина удаляемых слов, заданная как положительное целое число. Функция удаляет слова с len или меньше символов.

Выходные аргументы

свернуть все

Выходные документы, возвращенные как tokenizedDocument массив.

Выходная модель сумки слов, возвращенная как bagOfWords объект.

Представлен в R2017b