removeEmptyDocuments

Удаление пустых документов из маркированного массива документов, модели мешка слов или модели мешка n грамм

свернуть все на странице

Синтаксис

newDocuments = remeyEmpireDocuments (документы)

newBag = remeyEmpterDocuments (пакет)

[___, idx] = remeyEmpicalDocuments (___)

Описание

пример

newDocuments = removeEmptyDocuments(documents) удаляет документы, из которых нет слов documents.

пример

newBag = removeEmptyDocuments(bag) удаляет документы, в которых нет слов или n-грамм, из модели мешка слов или мешка n-граммов bag.

пример

[___,idx] = removeEmptyDocuments(___) также возвращает индексы удаленных документов.

Примеры

свернуть все

Удалить пустые документы из массива

Открыть сценарий в реальном времени

Удаление документов, не содержащих слов, из массива маркированных документов.

Создайте массив маркированных документов, включающий пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])

documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Удалите пустые документы.

newDocuments = removeEmptyDocuments(documents)

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

Удалить пустые документы из модели мешка слов

Открыть сценарий в реальном времени

Удалить документы, не содержащие слов, из модели мешка слов.

Создание модели пакета слов из массива маркированных документов.

documents = tokenizedDocument([
    "An example of a short sentence."
    ""
    "A second short sentence."
    ""]);
bag = bagOfWords(documents)

bag = 
  bagOfWords with properties:

          Counts: [4x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 4

Удалите пустые документы из модели мешка слов.

newBag = removeEmptyDocuments(bag)

newBag = 
  bagOfWords with properties:

          Counts: [2x9 double]
      Vocabulary: [1x9 string]
        NumWords: 9
    NumDocuments: 2

Удалить документы и соответствующие этикетки

Открыть сценарий в реальном времени

Удалите из массива документы, не содержащие слов, и используйте индексы удаленных документов для удаления соответствующих меток.

Создайте массив маркированных документов, включающий пустые документы.

documents = tokenizedDocument([
    "an example of a short sentence"
    ""
    "a second short sentence"
    ""])

documents = 
  4x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    0 tokens:
    4 tokens: a second short sentence
    0 tokens:

Создайте вектор меток.

labels = ["T"; "F"; "F"; "T"]

labels = 4x1 string
    "T"
    "F"
    "F"
    "T"

Удалите пустые документы и получите индексы удаленных документов.

[newDocuments, idx] = removeEmptyDocuments(documents)

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: an example of a short sentence
    4 tokens: a second short sentence

idx = 2×1

     2
     4

Удалить соответствующие метки из labels.

labels(idx) = []

labels = 2x1 string
    "T"
    "F"

Входные аргументы

свернуть все

`documents` - Исходные документы
`tokenizedDocument` множество

Исходные документы, указанные как tokenizedDocument массив.

`bag` - Модель входного мешка слов или мешка n-граммов
`bagOfWords` объект | `bagOfNgrams` объект

Входная модель сумки слов или сумки n граммов, указанная как bagOfWords объект или bagOfNgrams объект.

Выходные аргументы

свернуть все

`newDocuments` - Выходные документы
`tokenizedDocument` множество

Выходные документы, возвращенные как tokenizedDocument массив.

`newBag` - Выходная модель
`bagOfWords` объект | `bagOfNgrams` объект

Выходная модель, возвращенная как bagOfWords объект или bagOfNgrams объект. Тип newBag совпадает с типом bag.

`idx` - Индексы удаляемых документов
вектор положительных целых чисел

Индексы удаленных документов, возвращаемые как вектор положительных целых чисел.

См. также

addDocument | bagOfNgrams | bagOfWords | removeDocument | tokenizedDocument

Темы

Представлен в R2017b

Документация

removeEmptyDocuments

Синтаксис

Описание

Примеры

Удалить пустые документы из массива

Удалить пустые документы из модели мешка слов

Удалить документы и соответствующие этикетки

Входные аргументы

`documents` - Исходные документы
`tokenizedDocument` множество

`bag` - Модель входного мешка слов или мешка n-граммов
`bagOfWords` объект | `bagOfNgrams` объект

Выходные аргументы

`newDocuments` - Выходные документы
`tokenizedDocument` множество

`newBag` - Выходная модель
`bagOfWords` объект | `bagOfNgrams` объект

`idx` - Индексы удаляемых документов
вектор положительных целых чисел

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

Документация

removeEmptyDocuments

Синтаксис

Описание

Примеры

Удалить пустые документы из массива

Удалить пустые документы из модели мешка слов

Удалить документы и соответствующие этикетки

Входные аргументы

documents - Исходные документы tokenizedDocument множество

bag - Модель входного мешка слов или мешка n-граммов bagOfWords объект | bagOfNgrams объект

Выходные аргументы

newDocuments - Выходные документы tokenizedDocument множество

newBag - Выходная модель bagOfWords объект | bagOfNgrams объект

idx - Индексы удаляемых документов вектор положительных целых чисел

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

`documents` - Исходные документы
`tokenizedDocument` множество

`bag` - Модель входного мешка слов или мешка n-граммов
`bagOfWords` объект | `bagOfNgrams` объект

`newDocuments` - Выходные документы
`tokenizedDocument` множество

`newBag` - Выходная модель
`bagOfWords` объект | `bagOfNgrams` объект

`idx` - Индексы удаляемых документов
вектор положительных целых чисел