addLanguageDetails

Добавление идентификаторов языков к документам

Свернуть все на странице

Синтаксис

updatedDocuments = addLanguageDetails(documents)

updatedDocuments = addLanguageDetails(documents,Name,Value)

Описание

Использовать addLanguageDetails для добавления идентификаторов языков к документам.

Функция поддерживает английский, японский, немецкий и корейский текст.

пример

updatedDocuments = addLanguageDetails(documents) определяет язык documents и обновляет детали лексемы. Функция добавляет детали к лексемам только с отсутствующими деталями языка. Чтобы получить сведения о языке от updatedDocuments, использование tokenDetails.

updatedDocuments = addLanguageDetails(documents,Name,Value) задает дополнительные опции, используя одну или несколько пары "имя-значение".

Совет

Использовать addLanguageDetails перед использованием lower и upper функционирует как addLanguageDetails использует информацию, которая удаляется этими функциями.

Примеры

свернуть все

Добавление сведений о языке к документам

Открыть Live Script

Вручную токенизируйте некоторый текст, разделяя его на массив слов. Преобразуйте вручную маркированный текст в tokenizedDocument объект путем установки 'TokenizeMethod' опция для 'none'.

str = split("an example of a short sentence")';
documents = tokenizedDocument(str,'TokenizeMethod','none');

Просмотр сведений о лексеме с помощью tokenDetails.

tdetails = tokenDetails(documents)

tdetails=6×2 table
      Token       DocumentNumber
    __________    ______________

    "an"                1       
    "example"           1       
    "of"                1       
    "a"                 1       
    "short"             1       
    "sentence"          1

Когда вы задаете 'TokenizeMethod','none'функция не обнаруживает сведения о языке документов автоматически. Чтобы добавить сведения о языке, используйте addLanguageDetails функция. Эта функция по умолчанию автоматически обнаруживает язык.

documents = addLanguageDetails(documents);

Просмотр обновленных сведений о лексеме с помощью tokenDetails.

tdetails = tokenDetails(documents)

tdetails=6×4 table
      Token       DocumentNumber     Type      Language
    __________    ______________    _______    ________

    "an"                1           letters       en   
    "example"           1           letters       en   
    "of"                1           letters       en   
    "a"                 1           letters       en   
    "short"             1           letters       en   
    "sentence"          1           letters       en

Входные параметры

свернуть все

`documents` - Входные документы
`tokenizedDocument` массив

Входные документы, заданные как tokenizedDocument массив.

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'DiscardKnownValues',true задает, чтобы отменить ранее вычисленные данные и пересчитать их.

`'Language'` - Язык
`'en'` | `'ja'` | `'de'` | `'ko'`

Язык, заданный как один из следующих:

'en' - Английский
'ja' - японский
'de' - Немецкий
'ko' - Корейский

Если вы не задаете значение, то функция обнаруживает язык из входа текста, используя corpusLanguage функция.

Эта опция задает подробные сведения о языке лексем. Чтобы просмотреть подробные сведения о языке лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функций на лексемах.

Дополнительные сведения о поддержке языка в Text Analytics Toolbox™ см. в разделе Языковые факторы.

`'DiscardKnownValues'` - Опция отбросить ранее рассчитанные детали
`false` (по умолчанию) | `true`

Опция отменить ранее вычисленные детали и пересчитать их, заданная как true или false.

Типы данных: logical

Выходные аргументы

свернуть все

`updatedDocuments` - Обновленные документы
`tokenizedDocument` массив

Обновленные документы, возвращенные как tokenizedDocument массив. Чтобы получить сведения о лексеме от updatedDocuments, использование tokenDetails.

См. также

Темы

Введенный в R2018b

Документация

addLanguageDetails

Синтаксис

Описание

Примеры

Добавление сведений о языке к документам

Входные параметры

`documents` - Входные документы
`tokenizedDocument` массив

Аргументы в виде пар имя-значение

`'Language'` - Язык
`'en'` | `'ja'` | `'de'` | `'ko'`

`'DiscardKnownValues'` - Опция отбросить ранее рассчитанные детали
`false` (по умолчанию) | `true`

Выходные аргументы

`updatedDocuments` - Обновленные документы
`tokenizedDocument` массив

См. также

Темы

Symbolic Math Toolbox

Поддержка

Документация

addLanguageDetails

Синтаксис

Описание

Примеры

Добавление сведений о языке к документам

Входные параметры

documents - Входные документы tokenizedDocument массив

Аргументы в виде пар имя-значение

'Language' - Язык 'en' | 'ja' | 'de' | 'ko'

'DiscardKnownValues' - Опция отбросить ранее рассчитанные детали false (по умолчанию) | true

Выходные аргументы

updatedDocuments - Обновленные документы tokenizedDocument массив

См. также

Темы

Symbolic Math Toolbox

Поддержка

`documents` - Входные документы
`tokenizedDocument` массив

`'Language'` - Язык
`'en'` | `'ja'` | `'de'` | `'ko'`

`'DiscardKnownValues'` - Опция отбросить ранее рассчитанные детали
`false` (по умолчанию) | `true`

`updatedDocuments` - Обновленные документы
`tokenizedDocument` массив