normalizeWords

Происходите или lemmatize слова

Синтаксис

updatedDocuments = normalizeWords(documents)

updatedWords = normalizeWords(words)

updatedWords = normalizeWords(words,'Language',language)

___ = normalizeWords(___,'Style',style)

Описание

Используйте normalizeWords уменьшать слова до исходной формы. К lemmatize английским словам (уменьшают их до их словарных форм), установите 'Style' опция к 'lemma'.

Функция поддерживает английский, японский язык, немецкий язык и корейский текст.

пример

updatedDocuments = normalizeWords(documents) уменьшает слова в documents к исходной форме. Для английского и немецкого текста функция, по умолчанию, останавливает слова с помощью Носильщика stemmer для английского и немецкого текста соответственно. Для японского и корейского текста, функции, по умолчанию, lemmatizes слова с помощью токенизатора MeCab.

пример

updatedWords = normalizeWords(words) уменьшает каждое слово в массиве строк words к исходной форме.

updatedWords = normalizeWords(words,'Language',language) уменьшает слова и также задает язык слова.

пример

___ = normalizeWords(___,'Style',style) также задает стиль нормализации. Например, normalizeWords(documents,'Style','lemma') lemmatizes слова во входных документах.

Примеры

свернуть все

Остановите слова в документах

Попробовать в MATLAB

Остановите слова в массиве документа с помощью Носильщика stemmer.

documents = tokenizedDocument([
    "a strongly worded collection of words"
    "another collection of words"]);
newDocuments = normalizeWords(documents)

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: a strongli word collect of word
    4 tokens: anoth collect of word

Остановите слова в массиве строк

Попробовать в MATLAB

Остановите слова в массиве строк с помощью Носильщика stemmer. Каждый элемент массива строк должен быть отдельным словом.

words = ["a" "strongly" "worded" "collection" "of" "words"];
newWords = normalizeWords(words)

newWords = 1x6 string array
    "a"    "strongli"    "word"    "collect"    "of"    "word"

Слова Lemmatize в документах

Попробовать в MATLAB

Lemmatize слова в массиве документа.

documents = tokenizedDocument([
    "I am building a house."
    "The building has two floors."]);
newDocuments = normalizeWords(documents,'Style','lemma')

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: i be build a house .
    6 tokens: the build have two floor .

Чтобы улучшить lemmatization, сначала добавьте, что часть речи назначает в документы с помощью addPartOfSpeechDetails функция. Например, если документы содержат детали части речи, то normalizeWords уменьшает единственный глагол "создание" а не существительное "создание".

documents = addPartOfSpeechDetails(documents);
newDocuments = normalizeWords(documents,'Style','lemma')

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: i be build a house .
    6 tokens: the building have two floor .

Японский текст Lemmatize

Попробовать в MATLAB

Маркируйте японский текст с помощью tokenizedDocument функция. Функция автоматически обнаруживает японский текст.

str = [
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"
    "駅までは遠くて、歩けない。"
    "遠くの駅まで歩けない。"];
documents = tokenizedDocument(str);

Lemmatize лексемы с помощью normalizeWords.

documents = normalizeWords(documents)

documents = 
  4x1 tokenizedDocument:

    10 tokens: 空 に 星 が 輝く 、 瞬く て いる 。
    10 tokens: 空 の 星 が 輝き を 増す て いる 。
     9 tokens: 駅 まで は 遠い て 、 歩ける ない 。
     7 tokens: 遠く の 駅 まで 歩ける ない 。

Остановите немецкий текст

Попробовать в MATLAB

Маркируйте немецкий текст с помощью tokenizedDocument функция. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str);

Остановите лексемы с помощью normalizeWords.

documents = normalizeWords(documents)

documents = 
  2x1 tokenizedDocument:

    8 tokens: gut morg . wie geht es dir ?
    6 tokens: heut wird ein gut tag .

Входные параметры

свернуть все

`documents` — Введите документы
`tokenizedDocument` массив

Введите документы, заданные как tokenizedDocument массив.

`words` — Введите слова
представьте вектор в виде строки | вектор символов | массив ячеек из символьных векторов

Введите слова, заданные как вектор строки, вектор символов или массив ячеек из символьных векторов. Если вы задаете words как вектор символов, затем функция обрабатывает аргумент как отдельное слово.

Типы данных: string | char | cell

`style` — Стиль нормализации
`'stem'` | `'lemma'`

Стиль нормализации, заданный как одно из следующего:

'stem' – Остановите слова с помощью Носильщика stemmer. Эта опция поддерживает английский и немецкий текст только. Для английского и немецкого текста это значение является значением по умолчанию.
'lemma' – Извлеките словарную форму каждого слова. Эта опция поддерживает английский, японский язык и корейский текст только. Если слово не находится во внутреннем словаре, то функциональные выходные параметры неизменное слово. Для английского текста выход является нижним регистром. Для японского и корейского текста это значение является значением по умолчанию.

Функция только нормирует лексемы с типом 'letters' и 'other'. Для получения дополнительной информации о типах маркера смотрите tokenDetails.

Совет

Для английского текста, чтобы улучшить lemmatization слов в документах, сначала добавляют детали части речи с помощью addPartOfSpeechDetails функция.

`language` — Язык Word
`'en'` | `'de'`

Язык Word, заданный как одно из следующего:

'en' – Английский язык
'de' – Немецкий язык

Если вы не задаете язык, то программное обеспечение обнаруживает язык автоматически. К lemmatize японскому или корейскому тексту используйте tokenizedDocument входной параметр.

Типы данных: char | string

Выходные аргументы

свернуть все

`updatedDocuments` — Обновленные документы
`tokenizedDocument` массив

Обновленные документы, возвращенные как tokenizedDocument массив.

`updatedWords` — Обновленные слова
массив строк | вектор символов | массив ячеек из символьных векторов

Обновленные слова, возвращенные как массив строк, вектор символов или массив ячеек из символьных векторов. words и updatedWords имейте совпадающий тип данных.

Алгоритмы

свернуть все

Детали языка

tokenizedDocument объекты содержат детали о лексемах включая детали языка. Детали языка входных документов определяют поведение normalizeWords. tokenizedDocument функция, по умолчанию, автоматически обнаруживает язык входного текста. Чтобы задать детали языка вручную, используйте 'Language' аргумент пары "имя-значение" tokenizedDocument. Чтобы посмотреть маркерные детали, используйте tokenDetails функция.

Вопросы совместимости

развернуть все

normalizeWords пропускает комплексные лексемы

Поведение изменяется в R2018b

Запуск в R2018b, для tokenizedDocument введите, normalizeWords нормирует лексемы с типом 'letters' или 'other' только. Это поведение препятствует тому, чтобы функция влияла на комплексные лексемы, такие как URL и адреса электронной почты.

В предыдущих версиях, normalizeWords нормирует все лексемы. Чтобы воспроизвести это поведение, используйте команду updatedDocuments = docfun(@(str) normalizeWords(str),documents).

Документация

normalizeWords

Синтаксис

Описание

Примеры

Остановите слова в документах

Остановите слова в массиве строк

Слова Lemmatize в документах

Японский текст Lemmatize

Остановите немецкий текст

Входные параметры

`documents` — Введите документы
`tokenizedDocument` массив

`words` — Введите слова
представьте вектор в виде строки | вектор символов | массив ячеек из символьных векторов

`style` — Стиль нормализации
`'stem'` | `'lemma'`

Совет

`language` — Язык Word
`'en'` | `'de'`

Выходные аргументы

`updatedDocuments` — Обновленные документы
`tokenizedDocument` массив

`updatedWords` — Обновленные слова
массив строк | вектор символов | массив ячеек из символьных векторов

Алгоритмы

Детали языка

Вопросы совместимости

normalizeWords пропускает комплексные лексемы

Смотрите также

Темы

Введенный в R2017b

Документация Text Analytics Toolbox

Поддержка

Документация

normalizeWords

Синтаксис

Описание

Примеры

Остановите слова в документах

Остановите слова в массиве строк

Слова Lemmatize в документах

Японский текст Lemmatize

Остановите немецкий текст

Входные параметры

documents — Введите документы tokenizedDocument массив

words — Введите слова представьте вектор в виде строки | вектор символов | массив ячеек из символьных векторов

style — Стиль нормализации 'stem' | 'lemma'

Совет

language — Язык Word 'en' | 'de'

Выходные аргументы

updatedDocuments — Обновленные документы tokenizedDocument массив

updatedWords — Обновленные слова массив строк | вектор символов | массив ячеек из символьных векторов

Алгоритмы

Детали языка

Вопросы совместимости

normalizeWords пропускает комплексные лексемы

Смотрите также

Темы

Введенный в R2017b

Документация Text Analytics Toolbox

Поддержка

`documents` — Введите документы
`tokenizedDocument` массив

`words` — Введите слова
представьте вектор в виде строки | вектор символов | массив ячеек из символьных векторов

`style` — Стиль нормализации
`'stem'` | `'lemma'`

`language` — Язык Word
`'en'` | `'de'`

`updatedDocuments` — Обновленные документы
`tokenizedDocument` массив

`updatedWords` — Обновленные слова
массив строк | вектор символов | массив ячеек из символьных векторов