removeStopWords

Удалите стоповые слова из документов

Синтаксис

newDocuments = removeStopWords(documents)

newDocuments = removeStopWords(documents,'IgnoreCase',false)

Описание

Такие слова, как «a», «and», «to» и «the» (известные как стоповые слова), могут добавить шум к данным. Используйте эту функцию, чтобы удалить стоповые слова перед анализом.

Функция поддерживает английский, японский, немецкий и корейский текст. Чтобы узнать, как использовать removeStopWords для других языков см. «Языковые факторы».

пример

newDocuments = removeStopWords(documents) удаляет стоповые слова из tokenizedDocument массивы направленности documents. Функция по умолчанию использует список стоповых слов, заданный stopWords функция согласно языковым деталям documents и является нечувствительным к регистру.

Чтобы удалить пользовательский список слов, используйте removeWords функция.

newDocuments = removeStopWords(documents,'IgnoreCase',false) удаляет стоповые слова со случаем, соответствующим списку стоповых слов, заданному stopWords функция.

Совет

Использовать removeStopWords перед использованием normalizeWords функционировать как removeStopWords использует информацию, которая удаляется этой функцией.

Примеры

свернуть все

Удаление стоповых слов из документов

Открыть Live Script

Удалите стоповые слова из массива документов с помощью removeStopWords. The tokenizedDocument функция обнаруживает, что документы на английском языке, поэтому removeStopWords удаляет английские стоп-слова.

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)

newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

Удалить японские стоповые слова

Открыть Live Script

Токенизация японского текста с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

Удалите стоповые слова с помощью removeStopWords. Функция использует детали языка из documents чтобы определить, какой язык остановить слова для удаления.

documents = removeStopWords(documents)

documents = 
  3x1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

Удаление немецких стоповых слов из документов

Открыть Live Script

Токенизация текста на немецком языке с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)

documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Удалите стоповые слова с помощью removeStopWords функция. Функция использует подробные данные языка из документов, чтобы определить, какие слова остановки следует удалить.

documents = removeStopWords(documents)

documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

Входные параметры

свернуть все

`documents` - Входные документы
`tokenizedDocument` массив

Входные документы, заданные как tokenizedDocument массив.

Выходные аргументы

свернуть все

`newDocuments` - Выходные документы
`tokenizedDocument` массив

Выходные документы, возвращенные как tokenizedDocument массив.

Подробнее о

свернуть все

Языковые факторы

stopWords и removeStopWords функции поддерживают только английский, японский, немецкий и корейский стоп-слова.

Чтобы удалить стоповые слова из других языков, используйте removeWords и задайте свои собственные стоповые слова для удаления.

Алгоритмы

свернуть все

Подробная информация о языке

tokenizedDocument объекты содержат подробную информацию о лексемах, включая сведения о языке. Детали языка входных документов определяют поведение removeStopWords. The tokenizedDocument функция по умолчанию автоматически обнаруживает язык входного текста. Чтобы задать детали языка вручную, используйте 'Language' Аргумент пары "имя-значение" из tokenizedDocument. Чтобы просмотреть сведения о лексеме, используйте tokenDetails функция.

См. также

Темы

Введенный в R2018b

Документация

removeStopWords

Синтаксис

Описание

Примеры

Удаление стоповых слов из документов

Удалить японские стоповые слова

Удаление немецких стоповых слов из документов

Входные параметры

`documents` - Входные документы
`tokenizedDocument` массив

Выходные аргументы

`newDocuments` - Выходные документы
`tokenizedDocument` массив

Подробнее о

Языковые факторы

Алгоритмы

Подробная информация о языке

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

removeStopWords

Синтаксис

Описание

Примеры

Удаление стоповых слов из документов

Удалить японские стоповые слова

Удаление немецких стоповых слов из документов

Входные параметры

documents - Входные документы tokenizedDocument массив

Выходные аргументы

newDocuments - Выходные документы tokenizedDocument массив

Подробнее о

Языковые факторы

Алгоритмы

Подробная информация о языке

См. также

Темы

Symbolic Math Toolbox

Поддержка

`documents` - Входные документы
`tokenizedDocument` массив

`newDocuments` - Выходные документы
`tokenizedDocument` массив