removeStopWords

Удалите стоповые слова из документов

Описание

Такие слова, как «a», «and», «to» и «the» (известные как стоповые слова), могут добавить шум к данным. Используйте эту функцию, чтобы удалить стоповые слова перед анализом.

Функция поддерживает английский, японский, немецкий и корейский текст. Чтобы узнать, как использовать removeStopWords для других языков см. «Языковые факторы».

пример

newDocuments = removeStopWords(documents) удаляет стоповые слова из tokenizedDocument массивы направленности documents. Функция по умолчанию использует список стоповых слов, заданный stopWords функция согласно языковым деталям documents и является нечувствительным к регистру.

Чтобы удалить пользовательский список слов, используйте removeWords функция.

newDocuments = removeStopWords(documents,'IgnoreCase',false) удаляет стоповые слова со случаем, соответствующим списку стоповых слов, заданному stopWords функция.

Совет

Использовать removeStopWords перед использованием normalizeWords функционировать как removeStopWords использует информацию, которая удаляется этой функцией.

Примеры

свернуть все

Удалите стоповые слова из массива документов с помощью removeStopWords. The tokenizedDocument функция обнаруживает, что документы на английском языке, поэтому removeStopWords удаляет английские стоп-слова.

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

Токенизация японского текста с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

Удалите стоповые слова с помощью removeStopWords. Функция использует детали языка из documents чтобы определить, какой язык остановить слова для удаления.

documents = removeStopWords(documents)
documents = 
  3x1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

Токенизация текста на немецком языке с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)
documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Удалите стоповые слова с помощью removeStopWords функция. Функция использует подробные данные языка из документов, чтобы определить, какие слова остановки следует удалить.

documents = removeStopWords(documents)
documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

Входные параметры

свернуть все

Входные документы, заданные как tokenizedDocument массив.

Выходные аргументы

свернуть все

Выходные документы, возвращенные как tokenizedDocument массив.

Подробнее о

свернуть все

Языковые факторы

stopWords и removeStopWords функции поддерживают только английский, японский, немецкий и корейский стоп-слова.

Чтобы удалить стоповые слова из других языков, используйте removeWords и задайте свои собственные стоповые слова для удаления.

Алгоритмы

свернуть все

Подробная информация о языке

tokenizedDocument объекты содержат подробную информацию о лексемах, включая сведения о языке. Детали языка входных документов определяют поведение removeStopWords. The tokenizedDocument функция по умолчанию автоматически обнаруживает язык входного текста. Чтобы задать детали языка вручную, используйте 'Language' Аргумент пары "имя-значение" из tokenizedDocument. Чтобы просмотреть сведения о лексеме, используйте tokenDetails функция.

Введенный в R2018b