removeStopWords

Удалите слова остановки из документов

Описание

Слова как "a", "и", "к", и (известный как слова остановки) могут добавить шум в данные. Используйте эту функцию, чтобы удалить слова остановки перед анализом.

Функция поддерживает английский, японский язык, немецкий язык и корейский текст. Изучить, как использовать removeStopWords для других языков смотрите Факторы Языка.

пример

newDocuments = removeStopWords(documents) удаляет слова остановки из tokenizedDocument массив documents. Функция, по умолчанию, использует список слов остановки, данный stopWords функция согласно деталям языка documents и является нечувствительным к регистру.

Чтобы удалить пользовательский список слов, используйте removeWords функция.

newDocuments = removeStopWords(documents,'IgnoreCase',false) удаляет слова остановки со случаем, совпадающим со списком слов остановки, данным stopWords функция.

Совет

Использование removeStopWords перед использованием normalizeWords функция как removeStopWords информация об использовании, которая удалена этой функцией.

Примеры

свернуть все

Удалите слова остановки из массива документов с помощью removeStopWords. tokenizedDocument функция обнаруживает, что документы находятся на английском языке, таким образом, removeStopWords удаляет английские слова остановки.

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

Маркируйте японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

Удалите слова остановки с помощью removeStopWords. Функция использует детали языка от documents определить который слова остановки языка удалить.

documents = removeStopWords(documents)
documents = 
  3x1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

Маркируйте немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)
documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Удалите слова остановки с помощью removeStopWords функция. Функция использует детали языка из документов, чтобы определить который слова остановки языка удалить.

documents = removeStopWords(documents)
documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

Входные параметры

свернуть все

Введите документы в виде tokenizedDocument массив.

Выходные аргументы

свернуть все

Выведите документы, возвращенные как tokenizedDocument массив.

Больше о

свернуть все

Факторы языка

stopWords и removeStopWords функции поддерживают английский, японский язык, немецкий язык и корейские слова остановки только.

Чтобы удалить слова остановки из других языков, использовать removeWords и задайте свои собственные слова остановки, чтобы удалить.

Алгоритмы

свернуть все

Детали языка

tokenizedDocument объекты содержат детали о лексемах включая детали языка. Детали языка входных документов определяют поведение removeStopWords. tokenizedDocument функция, по умолчанию, автоматически обнаруживает язык входного текста. Чтобы задать детали языка вручную, используйте 'Language' аргумент пары "имя-значение" tokenizedDocument. Чтобы посмотреть маркерные детали, используйте tokenDetails функция.

Введенный в R2018b