removeStopWords

Удалите слова остановки из документов

Синтаксис

newDocuments = removeStopWords(documents)

newDocuments = removeStopWords(documents,'IgnoreCase',false)

Описание

Слова как "a", "и", "к", и (известный как слова остановки) могут добавить шум в данные. Используйте эту функцию, чтобы удалить слова остановки перед анализом.

Функция поддерживает английский, японский язык, немецкий язык и корейский текст. Изучить, как использовать removeStopWords для других языков смотрите Факторы Языка.

пример

newDocuments = removeStopWords(documents) удаляет слова остановки из tokenizedDocument массив documents. Функция, по умолчанию, использует список слов остановки, данный stopWords функция согласно деталям языка documents и является нечувствительным к регистру.

Чтобы удалить пользовательский список слов, используйте removeWords функция.

newDocuments = removeStopWords(documents,'IgnoreCase',false) удаляет слова остановки со случаем, совпадающим со списком слов остановки, данным stopWords функция.

Совет

Использование removeStopWords перед использованием normalizeWords функция как removeStopWords информация об использовании, которая удалена этой функцией.

Примеры

свернуть все

Удалите слова остановки из документов

Скрипт Open Live Script

Удалите слова остановки из массива документов с помощью removeStopWords. tokenizedDocument функция обнаруживает, что документы находятся на английском языке, таким образом, removeStopWords удаляет английские слова остановки.

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)

newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

Удалите японские слова остановки

Скрипт Open Live Script

Маркируйте японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

Удалите слова остановки с помощью removeStopWords. Функция использует детали языка от documents определить который слова остановки языка удалить.

documents = removeStopWords(documents)

documents = 
  3x1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

Удалите немецкие слова остановки из документов

Скрипт Open Live Script

Маркируйте немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Удалите слова остановки с помощью removeStopWords функция. Функция использует детали языка из документов, чтобы определить который слова остановки языка удалить.

documents = removeStopWords(documents)

documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

Входные параметры

свернуть все

`documents` — Введите документы
`tokenizedDocument` массив

Введите документы в виде tokenizedDocument массив.

Выходные аргументы

свернуть все

`newDocuments` — Выведите документы
`tokenizedDocument` массив

Выведите документы, возвращенные как tokenizedDocument массив.

Больше о

свернуть все

Факторы языка

stopWords и removeStopWords функции поддерживают английский, японский язык, немецкий язык и корейские слова остановки только.

Чтобы удалить слова остановки из других языков, использовать removeWords и задайте свои собственные слова остановки, чтобы удалить.

Алгоритмы

свернуть все

Детали языка

tokenizedDocument объекты содержат детали о лексемах включая детали языка. Детали языка входных документов определяют поведение removeStopWords. tokenizedDocument функция, по умолчанию, автоматически обнаруживает язык входного текста. Чтобы задать детали языка вручную, используйте 'Language' аргумент пары "имя-значение" tokenizedDocument. Чтобы посмотреть маркерные детали, используйте tokenDetails функция.

Темы

Введенный в R2018b

Документация

removeStopWords

Синтаксис

Описание

Примеры

Удалите слова остановки из документов

Удалите японские слова остановки

Удалите немецкие слова остановки из документов

Входные параметры

`documents` — Введите документы
`tokenizedDocument` массив

Выходные аргументы

`newDocuments` — Выведите документы
`tokenizedDocument` массив

Больше о

Факторы языка

Алгоритмы

Детали языка

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

Документация

removeStopWords

Синтаксис

Описание

Примеры

Удалите слова остановки из документов

Удалите японские слова остановки

Удалите немецкие слова остановки из документов

Входные параметры

documents — Введите документы tokenizedDocument массив

Выходные аргументы

newDocuments — Выведите документы tokenizedDocument массив

Больше о

Факторы языка

Алгоритмы

Детали языка

Смотрите также

Темы

Документация Text Analytics Toolbox

Поддержка

`documents` — Введите документы
`tokenizedDocument` массив

`newDocuments` — Выведите документы
`tokenizedDocument` массив