mecabOptions

Опции для токенизации MeCab

Описание

mecabOptions объект задает дополнительные опции для маркирования японского и корейского текста.

Чтобы маркировать использование заданных опций токенизации MeCab, используйте 'TokenizeMethod' опция tokenizedDocument.

Создание

Синтаксис

options = mecabOptions

options = mecabOptions(Name,Value)

Описание

пример

options = mecabOptions создает набор опции токенизации MeCab со значениями по умолчанию для маркирования японского языка.

пример

options = mecabOptions(Name,Value) дополнительно дополнительные свойства наборов с помощью одного или нескольких аргументов пары "имя-значение".

Свойства

развернуть все

`Model` — Путь к обученной модели
представьте скаляр в виде строки | вектор символов

Путь к обученной модели (словарь MeCab), заданный как скаляр строки или вектор символов.

Значением по умолчанию является путь к внутреннему словарю для японской токенизации.

Пример: "C:\myDict"

Типы данных: char | string

`UserModel` — Файл, содержащий расширение модели
`""` (значение по умолчанию) | представляет скаляр в виде строки | вектор символов

Файл, содержащий расширение модели (пользовательский словарь MeCab .dic файл), заданный как скаляр строки или вектор символов.

Пример: "C:\myFile.dic"

Типы данных: char | string

`LemmaExtractor` — Лемма извлечения функции от ответа MeCab
`@textanalytics.ja.mecabToLemma` (значение по умолчанию) | указатель на функцию

Лемма извлечения функции от ответа MeCab, определенного функцией указателя.

Функция должна иметь форму lemmata = fun(words,info), где words вектор строки лексем и info struct со следующими полями:

Feature – Вектор строки лексем одного размера с words содержа MeCab линии выхода в формате ChaSen без самих лексем разделения.
PartOfSpeech – Числовой код, используемый в словаре в классификации частей речи.

Выход lemmata массив строк одного размера с words содержа извлеченные аннотации.

Экстрактором леммы по умолчанию является textanalytics.ja.mecabToLemma функция.

Типы данных: function_handle

`POSExtractor` — Функция, извлекающая информацию о части речи из ответа MeCab
`@textanalytics.ja.mecabToPOS` (значение по умолчанию) | указатель на функцию

Функция, извлекающая информацию о части речи из ответа MeCab, определенного функцией указателя.

Функция должна иметь форму posTags = fun(words,info), где words вектор строки лексем и info struct со следующими полями:

Feature – Вектор строки лексем одного размера с words содержа MeCab линии выхода в формате ChaSen без самих лексем разделения.
PartOfSpeech – Числовой код, используемый в словаре в классификации частей речи.

Выход posTags категориальный массив одного размера с words содержание извлеченной части речи помечает от следующих категорий:

adjective
adposition
adverb
auxiliary-verb
coord-conjunction
determiner
interjection
noun
numeral
pronoun
proper-noun
punctuation
symbol
verb
other

Экстрактором информации о части речи по умолчанию является textanalytics.ja.mecabToPOS функция.

Типы данных: function_handle

`NERExtractor` — Функция, извлекающая информацию об именованной сущности из ответа MeCab
`@textanalytics.ja.mecabToNER` (значение по умолчанию) | указатель на функцию

Функция, извлекающая информацию об именованной сущности из ответа MeCab, определенного функцией указателя.

Функция должна иметь форму entities = fun(words,info), где words вектор строки лексем и info struct со следующими полями:

Feature – Вектор строки лексем одного размера с words содержа MeCab линии выхода в формате ChaSen без самих лексем разделения.
PartOfSpeech – Числовой код, используемый в словаре в классификации частей речи.

Выход entities категориальный массив одного размера с words содержа извлеченные сущности от следующих категорий:

non-entity
person
organization
location
other

Экстрактором информации о части речи по умолчанию является textanalytics.ja.mecabToNER функция.

Типы данных: function_handle

Примеры

свернуть все

Создайте объект опций MeCab

Создайте mecabOptions объект, содержащий опции по умолчанию для японской токенизации.

options = mecabOptions

options = 

  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2019b\sys\share\dict-ipadic"
         UserModel: ""
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

Задайте пользовательский словарь MeCab для токенизации

Маркируйте японский текст с помощью пользовательских опций MeCab.

Создайте массив строк японского текста.

str = [
    "恋に悩み、苦しむ。"
    "恋の悩みで苦しむ。"
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"];

Создайте mecabOptions возразите и задайте пользовательскую модель как .dic файл с помощью 'UserModel' опция.

options = mecabOptions('UserModel','myFile.dic')

options = 

  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2019b\sys\share\dict-ipadic"
         UserModel: "myFile.dic"
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

Маркируйте текст с помощью заданных опций с помощью 'TokenizeMethod' опция.

documents = tokenizedDocument(str,'TokenizeMethod',options)

documents = 

  4×1 tokenizedDocument:

     6 tokens: 恋 に 悩み 、 苦しむ 。
     6 tokens: 恋 の 悩み で 苦しむ 。
    10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。
    10 tokens: 空 の 星 が 輝き を 増し て いる 。

Документация

mecabOptions

Описание

Создание

Синтаксис

Описание

Свойства

`Model` — Путь к обученной модели
представьте скаляр в виде строки | вектор символов

`UserModel` — Файл, содержащий расширение модели
`""` (значение по умолчанию) | представляет скаляр в виде строки | вектор символов

`LemmaExtractor` — Лемма извлечения функции от ответа MeCab
`@textanalytics.ja.mecabToLemma` (значение по умолчанию) | указатель на функцию

`POSExtractor` — Функция, извлекающая информацию о части речи из ответа MeCab
`@textanalytics.ja.mecabToPOS` (значение по умолчанию) | указатель на функцию

`NERExtractor` — Функция, извлекающая информацию об именованной сущности из ответа MeCab
`@textanalytics.ja.mecabToNER` (значение по умолчанию) | указатель на функцию

Примеры

Создайте объект опций MeCab

Задайте пользовательский словарь MeCab для токенизации

Смотрите также

Темы

Введенный в R2019b

Документация Text Analytics Toolbox

Поддержка

Документация

mecabOptions

Описание

Создание

Синтаксис

Описание

Свойства

Model — Путь к обученной модели представьте скаляр в виде строки | вектор символов

UserModel — Файл, содержащий расширение модели "" (значение по умолчанию) | представляет скаляр в виде строки | вектор символов

LemmaExtractor — Лемма извлечения функции от ответа MeCab @textanalytics.ja.mecabToLemma (значение по умолчанию) | указатель на функцию

POSExtractor — Функция, извлекающая информацию о части речи из ответа MeCab @textanalytics.ja.mecabToPOS (значение по умолчанию) | указатель на функцию

NERExtractor — Функция, извлекающая информацию об именованной сущности из ответа MeCab @textanalytics.ja.mecabToNER (значение по умолчанию) | указатель на функцию

Примеры

Создайте объект опций MeCab

Задайте пользовательский словарь MeCab для токенизации

Смотрите также

Темы

Введенный в R2019b

Документация Text Analytics Toolbox

Поддержка

`Model` — Путь к обученной модели
представьте скаляр в виде строки | вектор символов

`UserModel` — Файл, содержащий расширение модели
`""` (значение по умолчанию) | представляет скаляр в виде строки | вектор символов

`LemmaExtractor` — Лемма извлечения функции от ответа MeCab
`@textanalytics.ja.mecabToLemma` (значение по умолчанию) | указатель на функцию

`POSExtractor` — Функция, извлекающая информацию о части речи из ответа MeCab
`@textanalytics.ja.mecabToPOS` (значение по умолчанию) | указатель на функцию

`NERExtractor` — Функция, извлекающая информацию об именованной сущности из ответа MeCab
`@textanalytics.ja.mecabToNER` (значение по умолчанию) | указатель на функцию