removeInfrequentNgrams

Удалите нечасто замечаемые N-граммы из мешка n модели граммов

Синтаксис

newBag = removeInfrequentNgrams(bag,count)

newBag = removeInfrequentNgrams(bag,count,'NgramLengths',lengths)

Описание

newBag = removeInfrequentNgrams(bag,count) удаляет N-граммы, которые появляются в большинство раз count всего от мешка n модели bag граммов.

пример

newBag = removeInfrequentNgrams(bag,count,'NgramLengths',lengths) только удаляет N-граммы с длинами, заданными lengths.

Примеры

свернуть все

Удалите нечастые N-граммы из мешка N модели граммов

Скрипт Open Live Script

Загрузите данные в качестве примера. Файл sonnetsPreprocessed.txt содержит предварительно обработанные версии сонетов Шекспира. Файл содержит один сонет на строку со словами, разделенными пробелом. Извлеките текст от sonnetsPreprocessed.txt, разделите текст в документы в символах новой строки, и затем маркируйте документы.

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

Создайте мешок n модели граммов. Задайте, чтобы считать биграммы (пары слов), и триграммы (утраивается слов).

bag = bagOfNgrams(documents,'NgramLengths',[2 3])

bag = 
  bagOfNgrams with properties:

          Counts: [154x18022 double]
      Vocabulary: [1x3092 string]
          Ngrams: [18022x3 string]
    NgramLengths: [2 3]
       NumNgrams: 18022
    NumDocuments: 154

Удалите N-граммы любой длины, которые появляются два или меньше раз всего.

bag = removeInfrequentNgrams(bag,2)

bag = 
  bagOfNgrams with properties:

          Counts: [154x103 double]
      Vocabulary: [1x73 string]
          Ngrams: [103x3 string]
    NgramLengths: [2 3]
       NumNgrams: 103
    NumDocuments: 154

Удалите биграммы, которые появляются четыре или меньше раз всего.

bag = removeInfrequentNgrams(bag,4,'NgramLengths',2)

bag = 
  bagOfNgrams with properties:

          Counts: [154x41 double]
      Vocabulary: [1x30 string]
          Ngrams: [41x3 string]
    NgramLengths: [2 3]
       NumNgrams: 41
    NumDocuments: 154

Входные параметры

свернуть все

`bag` — Введите мешок n модели граммов
Объект `bagOfNgrams`

Введите мешок n модели граммов, заданной как объект bagOfNgrams.

`количество` Считайте порог
положительное целое число

Считайте порог, заданный как положительное целое число. Функция удаляет N-граммы, которые появляются времена count всего или меньше.

`lengths` — Длины n-граммы
положительное целое число | вектор положительных целых чисел

Длины n-граммы, заданные как положительное целое число или вектор положительных целых чисел.

Если вы задаете lengths, функция удаляет нечастые N-граммы заданных длин только. Если вы не задаете lengths, то функция удаляет нечастые N-граммы независимо от длины.

Пример: [1 2 3]

Выходные аргументы

свернуть все

`newBag` — Выведите мешок n модели граммов
Объект `bagOfNgrams`

Выведите мешок n модели граммов, возвращенной как объект bagOfNgrams.

Документация

removeInfrequentNgrams

Синтаксис

Описание

Примеры

Удалите нечастые N-граммы из мешка N модели граммов

Входные параметры

`bag` — Введите мешок n модели граммов
Объект `bagOfNgrams`

`количество` Считайте порог
положительное целое число

`lengths` — Длины n-граммы
положительное целое число | вектор положительных целых чисел

Выходные аргументы

`newBag` — Выведите мешок n модели граммов
Объект `bagOfNgrams`

Смотрите также

Темы

Введенный в R2018a

Документация Text Analytics Toolbox

Поддержка

Документация

removeInfrequentNgrams

Синтаксис

Описание

Примеры

Удалите нечастые N-граммы из мешка N модели граммов

Входные параметры

bag — Введите мешок n модели граммов Объект bagOfNgrams

количество Считайте порог положительное целое число

lengths — Длины n-граммы положительное целое число | вектор положительных целых чисел

Выходные аргументы

newBag — Выведите мешок n модели граммов Объект bagOfNgrams

Смотрите также

Темы

Введенный в R2018a

Документация Text Analytics Toolbox

Поддержка

`bag` — Введите мешок n модели граммов
Объект `bagOfNgrams`

`количество` Считайте порог
положительное целое число

`lengths` — Длины n-граммы
положительное целое число | вектор положительных целых чисел

`newBag` — Выведите мешок n модели граммов
Объект `bagOfNgrams`