exponenta event banner

removeStopWords

Удалить слова остановки из документов

Описание

Такие слова, как «a», «and», «to» и «the» (известные как стоп-слова) могут добавлять шум к данным. Эта функция используется для удаления стоп-слов перед анализом.

Функция поддерживает английский, японский, немецкий и корейский тексты. Как использовать removeStopWords для других языков см. Языковые рекомендации.

пример

newDocuments = removeStopWords(documents) удаляет стоп-слова из tokenizedDocument множество documents. Функция по умолчанию использует список стоп-слов, заданный stopWords функция в соответствии с языковыми подробностями documents и является нечувствительным к регистру.

Чтобы удалить пользовательский список слов, используйте removeWords функция.

newDocuments = removeStopWords(documents,'IgnoreCase',false) удаляет стоп-слова со случаем, соответствующим списку стоп-слов, stopWords функция.

Совет

Использовать removeStopWords перед использованием normalizeWords функция как removeStopWords использует информацию, удаленную этой функцией.

Примеры

свернуть все

Удаление стоп-слов из массива документов с помощью removeStopWords. tokenizedDocument функция обнаруживает, что документы на английском языке, поэтому removeStopWords удаляет английские стоп-слова.

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);
newDocuments = removeStopWords(documents)
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: example short sentence
    3 tokens: second short sentence

Токенизировать японский текст с помощью tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "ここは静かなので、とても穏やかです"
    "企業内の顧客データを利用し、今年の売り上げを調べることが出来た。"
    "私は先生です。私は英語を教えています。"];
documents = tokenizedDocument(str);

Удалить стоп-слова с помощью removeStopWords. Функция использует подробные данные языка из documents чтобы определить, какой язык остановить слова для удаления.

documents = removeStopWords(documents)
documents = 
  3x1 tokenizedDocument:

     4 tokens: 静か 、 とても 穏やか
    10 tokens: 企業 顧客 データ 利用 、 今年 売り上げ 調べる 出来 。
     5 tokens: 先生 。 英語 教え 。

Токенизировать немецкий текст с помощью tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str)
documents = 
  2x1 tokenizedDocument:

    8 tokens: Guten Morgen . Wie geht es dir ?
    6 tokens: Heute wird ein guter Tag .

Удалить стоп-слова с помощью removeStopWords функция. Функция использует сведения о языке из документов, чтобы определить, какой язык следует удалить.

documents = removeStopWords(documents)
documents = 
  2x1 tokenizedDocument:

    5 tokens: Guten Morgen . geht ?
    5 tokens: Heute wird guter Tag .

Входные аргументы

свернуть все

Исходные документы, указанные как tokenizedDocument массив.

Выходные аргументы

свернуть все

Выходные документы, возвращенные как tokenizedDocument массив.

Подробнее

свернуть все

Языковые соображения

stopWords и removeStopWords функции поддерживают только английские, японские, немецкие и корейские стоп-слова.

Чтобы удалить стоп-слова из других языков, используйте removeWords и укажите собственные стоп-слова для удаления.

Алгоритмы

свернуть все

Сведения о языке

tokenizedDocument объекты содержат сведения о маркерах, включая сведения о языке. Сведения о языке входных документов определяют поведение removeStopWords. tokenizedDocument функция по умолчанию автоматически определяет язык входного текста. Чтобы указать сведения о языке вручную, используйте 'Language' аргумент пары имя-значение tokenizedDocument. Для просмотра сведений о маркере используйте tokenDetails функция.

Представлен в R2018b