addLanguageDetails

Добавьте идентификаторы языка в документы

свернуть все на странице

Синтаксис

updatedDocuments = addLanguageDetails(documents)

updatedDocuments = addLanguageDetails(documents,Name,Value)

Описание

Используйте addLanguageDetails добавить идентификаторы языка в документы.

Функция поддерживает английский, японский язык, немецкий язык и корейский текст.

пример

updatedDocuments = addLanguageDetails(documents) обнаруживает язык documents и обновляет маркерные детали. Функция добавляет, что детали к лексемам с недостающим языком детализируют только. Получить детали языка от updatedDocuments, используйте tokenDetails.

updatedDocuments = addLanguageDetails(documents,Name,Value) задает дополнительные опции с помощью одной или нескольких пар "имя-значение".

Совет

Используйте addLanguageDetails перед использованием lower и upper функции как addLanguageDetails информация об использовании, которая удалена этим, функционирует.

Примеры

свернуть все

Добавьте, что язык назначает в документы

Скрипт Open Live Script

Вручную маркируйте некоторый текст путем разделения его в массив слов. Преобразуйте вручную маркируемый текст в tokenizedDocument объект путем установки 'TokenizeMethod' опция к 'none'.

str = split("an example of a short sentence")';
documents = tokenizedDocument(str,'TokenizeMethod','none');

Посмотрите маркерные детали с помощью tokenDetails.

tdetails = tokenDetails(documents)

tdetails=6×2 table
      Token       DocumentNumber
    __________    ______________

    "an"                1       
    "example"           1       
    "of"                1       
    "a"                 1       
    "short"             1       
    "sentence"          1

Когда вы задаете 'TokenizeMethod','none', функция автоматически не обнаруживает детали языка документов. Чтобы добавить детали языка, используйте addLanguageDetails функция. Эта функция, по умолчанию, автоматически обнаруживает язык.

documents = addLanguageDetails(documents);

Посмотрите обновленные маркерные детали с помощью tokenDetails.

tdetails = tokenDetails(documents)

tdetails=6×4 table
      Token       DocumentNumber     Type      Language
    __________    ______________    _______    ________

    "an"                1           letters       en   
    "example"           1           letters       en   
    "of"                1           letters       en   
    "a"                 1           letters       en   
    "short"             1           letters       en   
    "sentence"          1           letters       en

Входные параметры

свернуть все

`documents` — Введите документы
`tokenizedDocument` массив

Введите документы в виде tokenizedDocument массив.

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: 'DiscardKnownValues',true задает, чтобы отбросить ранее вычисленные детали и повторно вычислить их.

`'Language'` — Язык
`'en'` | `'ja'` | `'de'` | `'ko'`

Язык в виде одного из следующего:

'en' – Английский язык
'ja' – Японский язык
'de' – Немецкий язык
'ko' – Корейский язык

Если вы не задаете значение, то функция обнаруживает язык из входного текста с помощью corpusLanguage функция.

Эта опция задает детали языка лексем. Чтобы посмотреть детали языка лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на лексемах.

Для получения дополнительной информации о поддержке языка в Text Analytics Toolbox™, смотрите Факторы Языка.

`'DiscardKnownValues'` — Опция, чтобы отбросить ранее вычисленные детали
`false` (значение по умолчанию) | `true`

Опция, чтобы отбросить ранее вычисленные детали и повторно вычислить их в виде true или false.

Типы данных: логический

Выходные аргументы

свернуть все

`updatedDocuments` — Обновленные документы
`tokenizedDocument` массив

Обновленные документы, возвращенные как tokenizedDocument массив. Получить маркерные детали от updatedDocuments, используйте tokenDetails.

Документация

addLanguageDetails

Синтаксис

Описание

Совет

Примеры

Добавьте, что язык назначает в документы

Входные параметры

`documents` — Введите документы
`tokenizedDocument` массив

Аргументы в виде пар имя-значение

`'Language'` — Язык
`'en'` | `'ja'` | `'de'` | `'ko'`

`'DiscardKnownValues'` — Опция, чтобы отбросить ранее вычисленные детали
`false` (значение по умолчанию) | `true`

Выходные аргументы

`updatedDocuments` — Обновленные документы
`tokenizedDocument` массив

Смотрите также

Темы

Введенный в R2018b

Документация Text Analytics Toolbox

Поддержка

Документация

addLanguageDetails

Синтаксис

Описание

Совет

Примеры

Добавьте, что язык назначает в документы

Входные параметры

documents — Введите документы tokenizedDocument массив

Аргументы в виде пар имя-значение

'Language' — Язык 'en' | 'ja' | 'de' | 'ko'

'DiscardKnownValues' — Опция, чтобы отбросить ранее вычисленные детали false (значение по умолчанию) | true

Выходные аргументы

updatedDocuments — Обновленные документы tokenizedDocument массив

Смотрите также

Темы

Введенный в R2018b

Документация Text Analytics Toolbox

Поддержка

`documents` — Введите документы
`tokenizedDocument` массив

`'Language'` — Язык
`'en'` | `'ja'` | `'de'` | `'ko'`

`'DiscardKnownValues'` — Опция, чтобы отбросить ранее вычисленные детали
`false` (значение по умолчанию) | `true`

`updatedDocuments` — Обновленные документы
`tokenizedDocument` массив