removeStopWords

Удалите слова остановки из документов

Слова как "a", "и", "к", и (известный как слова остановки) могут добавить шум в данные. Используйте эту функцию, чтобы удалить слова остановки перед анализом.

Функция поддерживает английский, японский язык и немецкий текст. Чтобы изучить, как использовать removeStopWords для других языков, смотрите Факторы Языка.

Синтаксис

newDocuments = removeStopWords(documents)

Описание

пример

newDocuments = removeStopWords(documents) удаляет слова остановки из массива tokenizedDocument documents.

Совет

Используйте removeStopWords перед использованием функции normalizeWords как информация использования removeStopWords, которая удалена этой функцией.

Примеры

свернуть все

Удалите слова остановки из документов

Скрипт Open Live Script

Удалите слова остановки из массива документов с помощью removeStopWords. Функция tokenizedDocument обнаруживает, что документы находятся на английском языке, таким образом, removeStopWords удаляет английские слова остановки.

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)

newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

Удалите японские слова остановки

Скрипт Open Live Script

Маркируйте японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

Удалите слова остановки с помощью removeStopWords. Функция использует детали языка от documents, чтобы определить который слова остановки языка удалить.

documents = removeStopWords(documents)

documents = 
  3x1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

Удалите немецкие слова остановки из документов

Скрипт Open Live Script

Маркируйте немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Удалите слова остановки с помощью функции removeStopWords. Функция использует детали языка из документов, чтобы определить который слова остановки языка удалить.

documents = removeStopWords(documents)

documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

Входные параметры

свернуть все

`documents` — Введите документы
Массив `tokenizedDocument`

Введите документы, заданные как массив tokenizedDocument.

Выходные аргументы

свернуть все

`newDocuments` — Выведите документы
Массив `tokenizedDocument`

Выведите документы, возвращенные как массив tokenizedDocument.

Больше о

свернуть все

Факторы языка

stopWords и функции removeStopWords поддерживают английский, японский язык и немецкие слова остановки только.

Чтобы удалить слова остановки из других языков, используйте removeWords и задайте ваши собственные слова остановки, чтобы удалить.

Алгоритмы

свернуть все

Детали языка

Объекты tokenizedDocument содержат детали о лексемах включая детали языка. Детали языка входных документов определяют поведение removeStopWords. Функция tokenizedDocument, по умолчанию, автоматически обнаруживает язык входного текста. Чтобы задать детали языка вручную, используйте аргумент пары "имя-значение" 'Language' tokenizedDocument. Чтобы посмотреть маркерные детали, используйте функцию tokenDetails.

Документация

removeStopWords

Синтаксис

Описание

Совет

Примеры

Удалите слова остановки из документов

Удалите японские слова остановки

Удалите немецкие слова остановки из документов

Входные параметры

`documents` — Введите документы
Массив `tokenizedDocument`

Выходные аргументы

`newDocuments` — Выведите документы
Массив `tokenizedDocument`

Больше о

Факторы языка

Алгоритмы

Детали языка

Смотрите также

Темы

Введенный в R2018b

Документация Text Analytics Toolbox

Поддержка

Документация

removeStopWords

Синтаксис

Описание

Совет

Примеры

Удалите слова остановки из документов

Удалите японские слова остановки

Удалите немецкие слова остановки из документов

Входные параметры

documents — Введите документы Массив tokenizedDocument

Выходные аргументы

newDocuments — Выведите документы Массив tokenizedDocument

Больше о

Факторы языка

Алгоритмы

Детали языка

Смотрите также

Темы

Введенный в R2018b

Документация Text Analytics Toolbox

Поддержка

`documents` — Введите документы
Массив `tokenizedDocument`

`newDocuments` — Выведите документы
Массив `tokenizedDocument`