removeEmptyDocuments

Удалите пустые документы из токенизированного массива документов, модели мешка слов или модели мешка n-граммов

Свернуть все на странице

Синтаксис

newDocuments = removeEmptyDocuments(documents)

newBag = removeEmptyDocuments(bag)

[___,idx] = removeEmptyDocuments(___)

Описание

пример

newDocuments = removeEmptyDocuments(documents) удаляет документы, у которых нет слов из documents.

пример

newBag = removeEmptyDocuments(bag) удаляет документы, которые не имеют слов или n-граммов из модели мешка слов или мешка n-граммов bag.

пример

[___,idx] = removeEmptyDocuments(___) также возвращает индексы удаленных документов.

Примеры

свернуть все

Удаление пустых документов из массива

Открыть Live Script

Удалите документы, не содержащие слов, из массива токенизированных документов.

Создайте массив токенизированных документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])

documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Удалите пустые документы.

newDocuments = removeEmptyDocuments(documents)

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

Удалите пустые документы из модели мешка слов

Открыть Live Script

Удалите документы, не содержащие слов, из модели мешка слов.

Создайте модель мешка слов из массива токенизованных документов.

documents = tokenizedDocument([
    "An example of a short sentence."
    ""
    "A second short sentence."
    ""]);
bag = bagOfWords(documents)

bag = 
  bagOfWords with properties:

          Counts: [4x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 4

Удалите пустые документы из модели мешка слов.

newBag = removeEmptyDocuments(bag)

newBag = 
  bagOfWords with properties:

          Counts: [2x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 2

Удаление документов и соответствующих меток

Открыть Live Script

Удалите документы, не содержащие слов, из массива и используйте индексы удаленных документов, чтобы также удалить соответствующие метки.

Создайте массив токенизированных документов, который включает пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])

documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Создайте вектор меток.

labels = ["T"; "F"; "F"; "T"]

labels = 4x1 string
    "T"
    "F"
    "F"
    "T"

Удалите пустые документы и получите индексы удаленных документов.

[newDocuments, idx] = removeEmptyDocuments(documents)

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

idx = 2×1

     2
     4

Удалите соответствующие метки из labels.

labels(idx) = []

labels = 2x1 string
    "T"
    "F"

Входные параметры

свернуть все

`documents` - Входные документы
`tokenizedDocument` массив

Входные документы, заданные как tokenizedDocument массив.

`bag` - Вход мешка слов или мешка n-граммов
`bagOfWords` | объекта `bagOfNgrams` объект

Входная модель мешка слов или мешка n-граммов, заданная как bagOfWords объект или bagOfNgrams объект.

Выходные аргументы

свернуть все

`newDocuments` - Выходные документы
`tokenizedDocument` массив

Выходные документы, возвращенные как tokenizedDocument массив.

`newBag` - Выходная модель
`bagOfWords` | объекта `bagOfNgrams` объект

Выходная модель, возвращенная как bagOfWords объект или bagOfNgrams объект. Тип newBag совпадает с типом bag.

`idx` - Индексы удаленных документов
вектор положительных целых чисел

Индексы удаленных документов, возвращенные как вектор положительных целых чисел.

См. также

addDocument | bagOfNgrams | bagOfWords | removeDocument | tokenizedDocument

Темы

Введенный в R2017b

Документация

removeEmptyDocuments

Синтаксис

Описание

Примеры

Удаление пустых документов из массива

Удалите пустые документы из модели мешка слов

Удаление документов и соответствующих меток

Входные параметры

`documents` - Входные документы
`tokenizedDocument` массив

`bag` - Вход мешка слов или мешка n-граммов
`bagOfWords` | объекта `bagOfNgrams` объект

Выходные аргументы

`newDocuments` - Выходные документы
`tokenizedDocument` массив

`newBag` - Выходная модель
`bagOfWords` | объекта `bagOfNgrams` объект

`idx` - Индексы удаленных документов
вектор положительных целых чисел

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

removeEmptyDocuments

Синтаксис

Описание

Примеры

Удаление пустых документов из массива

Удалите пустые документы из модели мешка слов

Удаление документов и соответствующих меток

Входные параметры

documents - Входные документы tokenizedDocument массив

bag - Вход мешка слов или мешка n-граммов bagOfWords | объекта bagOfNgrams объект

Выходные аргументы

newDocuments - Выходные документы tokenizedDocument массив

newBag - Выходная модель bagOfWords | объекта bagOfNgrams объект

idx - Индексы удаленных документов вектор положительных целых чисел

См. также

Темы

Symbolic Math Toolbox

Поддержка

`documents` - Входные документы
`tokenizedDocument` массив

`bag` - Вход мешка слов или мешка n-граммов
`bagOfWords` | объекта `bagOfNgrams` объект

`newDocuments` - Выходные документы
`tokenizedDocument` массив

`newBag` - Выходная модель
`bagOfWords` | объекта `bagOfNgrams` объект

`idx` - Индексы удаленных документов
вектор положительных целых чисел