removeInfrequentWords

Удалите слова с низкими количествами из модели сумки слов

Синтаксис

newBag = removeInfrequentWords(bag,count)

newBag = removeInfrequentWords(bag,count,'IgnoreCase',true)

Описание

newBag = removeInfrequentWords(bag,count) удаляет слова, которые появляются в большей части count времена всего из модели bag сумки слов. Функция, по умолчанию, является чувствительной к регистру.

пример

newBag = removeInfrequentWords(bag,count,'IgnoreCase',true) удаляет слова, которые появляются в большей части count времена в общем игнорирующем регистре. Если слова отличаются только случаем, то соответствующие количества объединены.

Примеры

свернуть все

Удалите нечастые слова

Скрипт Open Live Script

Удалите слова, которые появляются два раза или меньше из модели сумки слов.

Создайте модель сумки слов из массива маркируемых документов.

documents = tokenizedDocument([
    "an example of a short sentence"
    "a second short sentence"
    "another example"
    "a short example"]);
bag = bagOfWords(documents)

bag = 
  bagOfWords with properties:

          Counts: [4x8 double]
      Vocabulary: [1x8 string]
        NumWords: 8
    NumDocuments: 4

Удалите слова, которые появляются два раза или меньше из модели сумки слов.

count = 2;
newBag = removeInfrequentWords(bag,count)

newBag = 
  bagOfWords with properties:

          Counts: [4x3 double]
      Vocabulary: ["example"    "a"    "short"]
        NumWords: 3
    NumDocuments: 4

Входные параметры

свернуть все

`bag` — Введите модель сумки слов
`bagOfWords` объект

Введите модель сумки слов в виде bagOfWords объект.

`count` — Считайте порог, чтобы удалить слова
положительное целое число

Считайте порог, чтобы удалить слова в виде положительного целого числа. Функция удаляет слова, которые появляются count времена всего или меньше.

Темы

Введенный в R2017b

Документация Text Analytics Toolbox

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.

Документация