mecabOptions

Опции для токенизации MeCab

Описание

A mecabOptions объект задает дополнительные опции для токенизации текста на японском и корейском языках.

Для токенизации с использованием заданных опций токенизации MeCab используйте 'TokenizeMethod' опция tokenizedDocument.

Создание

Описание

пример

options = mecabOptions создает набор опций токенизации MeCab со значениями по умолчанию для токенизации на японском языке.

пример

options = mecabOptions(Name,Value) дополнительно устанавливает дополнительные Свойства, используя один или несколько аргументы пары "имя-значение".

Свойства

расширить все

Путь к обученной модели (словарь MeCab), заданный как строковый скаляр или вектор символов.

Значение по умолчанию является путем к внутреннему словарю для токенизации на японском языке.

Пример: "C:\myDict"

Типы данных: char | string

Файл, содержащий расширение модели (пользовательский словарь MeCab .dic файл), заданный как строковый скаляр или вектор символов.

Пример: "C:\myFile.dic"

Типы данных: char | string

Функция, извлекающая лемму из ответа MeCab, заданная как указатель на функцию.

Функция должна иметь форму lemmata = fun(words,info), где words является строковым вектором лексем и info - struct со следующими полями:

  • Feature - Строка вектор лексем того же размера, что и words содержащие выходные линии MeCab в формате ChaSen без самих разделённых лексем.

  • PartOfSpeech - Численный код, используемый внутри словаря для классификации части речи.

Область выхода lemmata - строковые массивы того же размера, что и words содержащие экстрагированные лемматы.

Экстрактором леммы по умолчанию является textanalytics.ja.mecabToLemma функция.

Типы данных: function_handle

Функция, извлекающая часть речевой информации из ответа MeCab, заданная как указатель на функцию.

Функция должна иметь форму posTags = fun(words,info), где words является строковым вектором лексем и info - struct со следующими полями:

  • Feature - Строка вектор лексем того же размера, что и words содержащие выходные линии MeCab в формате ChaSen без самих разделённых лексем.

  • PartOfSpeech - Численный код, используемый внутри словаря для классификации части речи.

Область выхода posTags - категориальный массив того же размера, что и words содержащие извлеченную часть речевых тегов из следующих категорий:

  • adjective

  • adposition

  • adverb

  • auxiliary-verb

  • coord-conjunction

  • determiner

  • interjection

  • noun

  • numeral

  • pronoun

  • proper-noun

  • punctuation

  • symbol

  • verb

  • other

Частью извлечения речевой информации по умолчанию является textanalytics.ja.mecabToPOS функция.

Типы данных: function_handle

Функция, извлекающая именованную информацию о сущности из ответа MeCab, заданную как указатель на функцию.

Функция должна иметь форму entities = fun(words,info), где words является строковым вектором лексем и info - struct со следующими полями:

  • Feature - Строка вектор лексем того же размера, что и words содержащие выходные линии MeCab в формате ChaSen без самих разделённых лексем.

  • PartOfSpeech - Численный код, используемый внутри словаря для классификации части речи.

Область выхода entities - категориальный массив того же размера, что и words содержащий извлечённый сущности из следующих категорий:

  • non-entity

  • person

  • organization

  • location

  • other

Частью извлечения речевой информации по умолчанию является textanalytics.ja.mecabToNER функция.

Типы данных: function_handle

Примеры

свернуть все

Создайте mecabOptions объект, содержащий опции по умолчанию для японской токенизации.

options = mecabOptions
options = 

  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2019b\sys\share\dict-ipadic"
         UserModel: ""
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

Токенизация японского текста с помощью пользовательских опций MeCab.

Создайте строковые массивы японского текста.

str = [
    "恋に悩み、苦しむ。"
    "恋の悩みで苦しむ。"
    "空に星が輝き、瞬いている。"
    "空の星が輝きを増している。"];

Создайте mecabOptions и задайте пользовательскую модель как .dic файл с использованием 'UserModel' опция.

options = mecabOptions('UserModel','myFile.dic')
options = 

  MecabOptions with properties:

             Model: "C:\Program Files\MATLAB\R2019b\sys\share\dict-ipadic"
         UserModel: "myFile.dic"
    LemmaExtractor: @textanalytics.ja.mecabToLemma
      POSExtractor: @textanalytics.ja.mecabToPOS
      NERExtractor: @textanalytics.ja.mecabToNER

Токенизация текста с помощью заданных опций с помощью 'TokenizeMethod' опция.

documents = tokenizedDocument(str,'TokenizeMethod',options)
documents = 

  4×1 tokenizedDocument:

     6 tokens: 恋 に 悩み 、 苦しむ 。
     6 tokens: 恋 の 悩み で 苦しむ 。
    10 tokens: 空 に 星 が 輝き 、 瞬い て いる 。
    10 tokens: 空 の 星 が 輝き を 増し て いる 。
Введенный в R2019b