normalizeWords

Происходите или lemmatize слова

Используйте normalizeWords, чтобы уменьшать слова до исходной формы. К lemmatize английским словам (уменьшают их до их словарных форм), установите опцию 'Style' на 'lemma'.

Функция поддерживает английский, японский язык и немецкий текст.

Синтаксис

updatedDocuments = normalizeWords(documents)

updatedWords = normalizeWords(words)

updatedWords = normalizeWords(words,'Language',language)

___ = normalizeWords(___,'Style',style)

Описание

пример

updatedDocuments = normalizeWords(documents) уменьшает слова в documents к исходной форме. Для английского и немецкого текста функция, по умолчанию, останавливает слова с помощью Носильщика stemmer для английского и немецкого текста соответственно. Для японского текста, функции, по умолчанию, lemmatizes слова с помощью токенизатора MeCab.

пример

updatedWords = normalizeWords(words) уменьшает каждое слово в массиве строк words к исходной форме.

updatedWords = normalizeWords(words,'Language',language) уменьшает слова и также задает язык слова.

пример

___ = normalizeWords(___,'Style',style) также задает стиль нормализации. Например, normalizeWords(documents,'Style','lemma') lemmatizes слова во входных документах.

Примеры

свернуть все

Остановите слова в документах

Скрипт Open Live Script

Остановите слова в массиве документа с помощью Носильщика stemmer.

documents = tokenizedDocument([
    "a strongly worded collection of words"
    "another collection of words"]);
newDocuments = normalizeWords(documents)

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: a strongli word collect of word
    4 tokens: anoth collect of word

Остановите слова в массиве строк

Скрипт Open Live Script

Остановите слова в массиве строк с помощью Носильщика stemmer. Каждый элемент массива строк должен быть отдельным словом.

words = ["a" "strongly" "worded" "collection" "of" "words"];
newWords = normalizeWords(words)

newWords = 1x6 string array
    "a"    "strongli"    "word"    "collect"    "of"    "word"

Слова Lemmatize в документах

Скрипт Open Live Script

Lemmatize слова в массиве документа.

documents = tokenizedDocument([
    "I am building a house."
    "The building has two floors."]);
newDocuments = normalizeWords(documents,'Style','lemma')

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: i be build a house .
    6 tokens: the build have two floor .

Чтобы улучшить lemmatization, сначала добавьте, что часть речи назначает в документы с помощью функции addPartOfSpeechDetails. Например, если документы содержат детали части речи, то normalizeWords уменьшает единственный глагол "создание" а не существительное "создание".

documents = addPartOfSpeechDetails(documents);
newDocuments = normalizeWords(documents,'Style','lemma')

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: i be build a house .
    6 tokens: the building have two floor .

Японский текст Lemmatize

Скрипт Open Live Script

Маркируйте японский текст с помощью функции tokenizedDocument. Функция автоматически обнаруживает японский текст.

str = [
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"
    "駅までは遠くて、歩けない。"
    "遠くの駅まで歩けない。"];
documents = tokenizedDocument(str);

Lemmatize лексемы с помощью normalizeWords.

documents = normalizeWords(documents)

documents = 
  4x1 tokenizedDocument:

    10 tokens: 空 に 星 が 輝く 、 瞬く て いる 。
    10 tokens: 空 の 星 が 輝き を 増す て いる 。
     9 tokens: 駅 まで は 遠い て 、 歩ける ない 。
     7 tokens: 遠く の 駅 まで 歩ける ない 。

Остановите немецкий текст

Скрипт Open Live Script

Маркируйте немецкий текст с помощью функции tokenizedDocument. Функция автоматически обнаруживает немецкий текст.

str = [
    "Guten Morgen. Wie geht es dir?"
    "Heute wird ein guter Tag."];
documents = tokenizedDocument(str);

Остановите лексемы с помощью normalizeWords.

documents = normalizeWords(documents)

documents = 
  2x1 tokenizedDocument:

    8 tokens: gut morg . wie geht es dir ?
    6 tokens: heut wird ein gut tag .

Входные параметры

свернуть все

`documents` — Введите документы
Массив `tokenizedDocument`

Введите документы, заданные как массив tokenizedDocument.

`words` — Введите слова
представьте вектор в виде строки | вектор символов | массив ячеек из символьных векторов

Введите слова, заданные как вектор строки, вектор символов или массив ячеек из символьных векторов. Если вы задаете words как вектор символов, то функция обрабатывает аргумент как отдельное слово.

Типы данных: string | char | cell

`style` — Стиль нормализации
`'stem'` | `'lemma'`

Стиль нормализации, заданный как одно из следующего:

основа Остановите слова с помощью Носильщика stemmer. Эта опция поддерживает английский и немецкий текст только. Для английского и немецкого текста это значение является значением по умолчанию.
'lemma' – Извлеките словарную форму каждого слова. Эта опция поддерживает английский и японский текст только. Если слово не находится во внутреннем словаре, то функциональные выходные параметры неизменное слово. Для английского текста вывод является нижним регистром. Для японского текста это значение является значением по умолчанию.

Функция только нормирует лексемы с типом 'letters' и 'other'. Для получения дополнительной информации о типах маркера смотрите tokenDetails.

Совет

Для английского текста, чтобы улучшить lemmatization слов в документах, сначала добавляют детали части речи с помощью функции addPartOfSpeechDetails.

`language` — Язык Word
`'en'` | `'de'`

Язык Word, заданный как одно из следующего:

'en' – Английский язык
'de' – Немецкий язык

Если вы не задаете язык, то программное обеспечение обнаруживает язык автоматически. К lemmatize японскому тексту используйте вход tokenizedDocument.

Типы данных: char | string

Выходные аргументы

свернуть все

`updatedDocuments` — Обновленные документы
Массив `tokenizedDocument`

Обновленные документы, возвращенные как массив tokenizedDocument.

`updatedWords` — Обновленные слова
массив строк | вектор символов | массив ячеек из символьных векторов

Обновленные слова, возвращенные как массив строк, вектор символов или массив ячеек из символьных векторов. words и updatedWords имеют совпадающий тип данных.

Алгоритмы

свернуть все

Детали языка

Объекты tokenizedDocument содержат детали о лексемах включая детали языка. Детали языка входных документов определяют поведение normalizeWords. Функция tokenizedDocument, по умолчанию, автоматически обнаруживает язык входного текста. Чтобы задать детали языка вручную, используйте аргумент пары "имя-значение" 'Language' tokenizedDocument. Чтобы посмотреть маркерные детали, используйте функцию tokenDetails.

Вопросы совместимости

развернуть все

normalizeWords пропускает комплексные лексемы

Поведение изменяется в R2018b

Начиная в R2018b, для входа tokenizedDocument, normalizeWords нормирует лексемы с типом 'letters' или 'other' только. Это поведение препятствует тому, чтобы функция влияла на комплексные лексемы, такие как URL и адреса электронной почты.

В предыдущих версиях normalizeWords нормирует все лексемы. Чтобы воспроизвести это поведение, используйте команду updatedDocuments = docfun(@(str) normalizeWords(str),documents).

Документация

normalizeWords

Синтаксис

Описание

Примеры

Остановите слова в документах

Остановите слова в массиве строк

Слова Lemmatize в документах

Японский текст Lemmatize

Остановите немецкий текст

Входные параметры

`documents` — Введите документы
Массив `tokenizedDocument`

`words` — Введите слова
представьте вектор в виде строки | вектор символов | массив ячеек из символьных векторов

`style` — Стиль нормализации
`'stem'` | `'lemma'`

Совет

`language` — Язык Word
`'en'` | `'de'`

Выходные аргументы

`updatedDocuments` — Обновленные документы
Массив `tokenizedDocument`

`updatedWords` — Обновленные слова
массив строк | вектор символов | массив ячеек из символьных векторов

Алгоритмы

Детали языка

Вопросы совместимости

normalizeWords пропускает комплексные лексемы

Смотрите также

Темы

Введенный в R2017b

Документация Text Analytics Toolbox

Поддержка

Документация

normalizeWords

Синтаксис

Описание

Примеры

Остановите слова в документах

Остановите слова в массиве строк

Слова Lemmatize в документах

Японский текст Lemmatize

Остановите немецкий текст

Входные параметры

documents — Введите документы Массив tokenizedDocument

words — Введите слова представьте вектор в виде строки | вектор символов | массив ячеек из символьных векторов

style — Стиль нормализации 'stem' | 'lemma'

Совет

language — Язык Word 'en' | 'de'

Выходные аргументы

updatedDocuments — Обновленные документы Массив tokenizedDocument

updatedWords — Обновленные слова массив строк | вектор символов | массив ячеек из символьных векторов

Алгоритмы

Детали языка

Вопросы совместимости

normalizeWords пропускает комплексные лексемы

Смотрите также

Темы

Введенный в R2017b

Документация Text Analytics Toolbox

Поддержка

`documents` — Введите документы
Массив `tokenizedDocument`

`words` — Введите слова
представьте вектор в виде строки | вектор символов | массив ячеек из символьных векторов

`style` — Стиль нормализации
`'stem'` | `'lemma'`

`language` — Язык Word
`'en'` | `'de'`

`updatedDocuments` — Обновленные документы
Массив `tokenizedDocument`

`updatedWords` — Обновленные слова
массив строк | вектор символов | массив ячеек из символьных векторов