removeStopWords

Удалите слова остановки из документов

Слова как "a", "и", "к", и (известный как слова остановки) могут добавить шум в данные. Используйте эту функцию, чтобы удалить слова остановки перед анализом.

Функция поддерживает английский, японский язык и немецкий текст. Чтобы изучить, как использовать removeStopWords для других языков, смотрите Факторы Языка.

Синтаксис

newDocuments = removeStopWords(documents)

Описание

пример

newDocuments = removeStopWords(documents) удаляет слова остановки из массива tokenizedDocument documents.

Совет

Используйте removeStopWords перед использованием функции normalizeWords как информация использования removeStopWords, которая удалена этой функцией.

Примеры

свернуть все

Удалите слова остановки из массива документов с помощью removeStopWords. Функция tokenizedDocument обнаруживает, что документы находятся на английском языке, таким образом, removeStopWords удаляет английские слова остановки.

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

Маркируйте японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

Удалите слова остановки с помощью removeStopWords. Функция использует детали языка от documents, чтобы определить который слова остановки языка удалить.

documents = removeStopWords(documents)
documents = 
  3x1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

Маркируйте немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)
documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Удалите слова остановки с помощью функции removeStopWords. Функция использует детали языка из документов, чтобы определить который слова остановки языка удалить.

documents = removeStopWords(documents)
documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

Входные параметры

свернуть все

Введите документы, заданные как массив tokenizedDocument.

Выходные аргументы

свернуть все

Выведите документы, возвращенные как массив tokenizedDocument.

Больше о

свернуть все

Факторы языка

stopWords и функции removeStopWords поддерживают английский, японский язык и немецкие слова остановки только.

Чтобы удалить слова остановки из других языков, используйте removeWords и задайте ваши собственные слова остановки, чтобы удалить.

Алгоритмы

свернуть все

Детали языка

Объекты tokenizedDocument содержат детали о лексемах включая детали языка. Детали языка входных документов определяют поведение removeStopWords. Функция tokenizedDocument, по умолчанию, автоматически обнаруживает язык входного текста. Чтобы задать детали языка вручную, используйте аргумент пары "имя-значение" 'Language' tokenizedDocument. Чтобы посмотреть маркерные детали, используйте функцию tokenDetails.

Введенный в R2018b