exponenta event banner

removeEmptyDocuments

Удаление пустых документов из маркированного массива документов, модели мешка слов или модели мешка n грамм

Описание

пример

newDocuments = removeEmptyDocuments(documents) удаляет документы, из которых нет слов documents.

пример

newBag = removeEmptyDocuments(bag) удаляет документы, в которых нет слов или n-грамм, из модели мешка слов или мешка n-граммов bag.

пример

[___,idx] = removeEmptyDocuments(___) также возвращает индексы удаленных документов.

Примеры

свернуть все

Удаление документов, не содержащих слов, из массива маркированных документов.

Создайте массив маркированных документов, включающий пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])
documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Удалите пустые документы.

newDocuments = removeEmptyDocuments(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

Удалить документы, не содержащие слов, из модели мешка слов.

Создание модели пакета слов из массива маркированных документов.

documents = tokenizedDocument([
    "An example of a short sentence."
    ""
    "A second short sentence."
    ""]);
bag = bagOfWords(documents)
bag = 
  bagOfWords with properties:

          Counts: [4x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 4

Удалите пустые документы из модели мешка слов.

newBag = removeEmptyDocuments(bag)
newBag = 
  bagOfWords with properties:

          Counts: [2x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 2

Удалите из массива документы, не содержащие слов, и используйте индексы удаленных документов для удаления соответствующих меток.

Создайте массив маркированных документов, включающий пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])
documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Создайте вектор меток.

labels = ["T"; "F"; "F"; "T"]
labels = 4x1 string
    "T"
    "F"
    "F"
    "T"

Удалите пустые документы и получите индексы удаленных документов.

[newDocuments, idx] = removeEmptyDocuments(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

idx = 2×1

     2
     4

Удалить соответствующие метки из labels.

labels(idx) = []
labels = 2x1 string
    "T"
    "F"

Входные аргументы

свернуть все

Исходные документы, указанные как tokenizedDocument массив.

Входная модель сумки слов или сумки n граммов, указанная как bagOfWords объект или bagOfNgrams объект.

Выходные аргументы

свернуть все

Выходные документы, возвращенные как tokenizedDocument массив.

Выходная модель, возвращенная как bagOfWords объект или bagOfNgrams объект. Тип newBag совпадает с типом bag.

Индексы удаленных документов, возвращаемые как вектор положительных целых чисел.

Представлен в R2017b