mecabOptions

Опции для токенизации MeCab

Описание

mecabOptions объект задает дополнительные опции для маркирования японского и корейского текста.

Чтобы маркировать использование заданных опций токенизации MeCab, используйте 'TokenizeMethod' опция tokenizedDocument.

Создание

Описание

пример

options = mecabOptions создает набор опции токенизации MeCab со значениями по умолчанию для маркирования японского языка.

пример

options = mecabOptions(Name,Value) дополнительно дополнительные свойства наборов с помощью одного или нескольких аргументов пары "имя-значение".

Свойства

развернуть все

Путь к обученной модели (словарь MeCab) в виде строкового скаляра или вектора символов.

Значением по умолчанию является путь к внутреннему словарю для японской токенизации.

Пример: "C:\myDict"

Типы данных: char | string

Файл, содержащий расширение модели (пользовательский словарь MeCab .dic файл) в виде строкового скаляра или вектора символов.

Пример: "C:\myFile.dic"

Типы данных: char | string

Лемма извлечения функции от MeCab отвечает в виде указателя на функцию.

Функция должна иметь форму lemmata = fun(words,info), где words вектор строки из лексем и info struct со следующими полями:

  • Feature – Вектор строки из лексем одного размера с words содержа MeCab линии выхода в формате ChaSen без самих лексем разделения.

  • PartOfSpeech – Числовой код, используемый в словаре для классификации частей речи.

Выход lemmata массив строк одного размера с words содержа извлеченные аннотации.

Экстрактор леммы по умолчанию textanalytics.ja.mecabToLemma функция.

Типы данных: function_handle

Функция, извлекающая информацию о части речи из MeCab, отвечает в виде указателя на функцию.

Функция должна иметь форму posTags = fun(words,info), где words вектор строки из лексем и info struct со следующими полями:

  • Feature – Вектор строки из лексем одного размера с words содержа MeCab линии выхода в формате ChaSen без самих лексем разделения.

  • PartOfSpeech – Числовой код, используемый в словаре для классификации частей речи.

Выход posTags категориальный массив одного размера с words содержание извлеченной части речи помечает от следующих категорий:

  • adjective

  • adposition

  • adverb

  • auxiliary-verb

  • coord-conjunction

  • determiner

  • interjection

  • noun

  • numeral

  • pronoun

  • proper-noun

  • punctuation

  • symbol

  • verb

  • other

Экстрактор информации о части речи по умолчанию textanalytics.ja.mecabToPOS функция.

Типы данных: function_handle

Функция, извлекающая информацию об именованной сущности из MeCab, отвечает в виде указателя на функцию.

Функция должна иметь форму entities = fun(words,info), где words вектор строки из лексем и info struct со следующими полями:

  • Feature – Вектор строки из лексем одного размера с words содержа MeCab линии выхода в формате ChaSen без самих лексем разделения.

  • PartOfSpeech – Числовой код, используемый в словаре для классификации частей речи.

Выход entities категориальный массив одного размера с words содержа извлеченные сущности от следующих категорий:

  • non-entity

  • person

  • organization

  • location

  • other

Экстрактор информации о части речи по умолчанию textanalytics.ja.mecabToNER функция.

Типы данных: function_handle

Примеры

свернуть все

Создайте mecabOptions объект, содержащий опции по умолчанию для японской токенизации.

options = mecabOptions
options = 

  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2019b\sys\share\dict-ipadic"
         UserModel: ""
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

Маркируйте японский текст с помощью пользовательских опций MeCab.

Создайте массив строк японского текста.

str = [
    "恋に悩み、苦しむ。"
    "恋の悩みで苦しむ。"
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"];

Создайте mecabOptions возразите и задайте пользовательскую модель как .dic файл с помощью 'UserModel' опция.

options = mecabOptions('UserModel','myFile.dic')
options = 

  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2019b\sys\share\dict-ipadic"
         UserModel: "myFile.dic"
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

Маркируйте текст с помощью заданных опций с помощью 'TokenizeMethod' опция.

documents = tokenizedDocument(str,'TokenizeMethod',options)
documents = 

  4×1 tokenizedDocument:

     6 tokens: 恋 に 悩み 、 苦しむ 。
     6 tokens: 恋 の 悩み で 苦しむ 。
    10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。
    10 tokens: 空 の 星 が 輝き を 増し て いる 。
Введенный в R2019b