addLanguageDetails

Добавление идентификаторов языка в документы

свернуть все на странице

Синтаксис

updatedDocuments = addLanguageDetails (документы)

updatedDocuments = addLanguageDetails (документы, Имя, Стоимость)

Описание

Использовать addLanguageDetails добавление идентификаторов языка в документы.

Функция поддерживает английский, японский, немецкий и корейский тексты.

пример

updatedDocuments = addLanguageDetails(documents) обнаруживает язык documents и обновляет сведения о маркере. Функция добавляет сведения только к маркерам с отсутствующими сведениями о языке. Получение сведений о языке из updatedDocuments, использовать tokenDetails.

updatedDocuments = addLanguageDetails(documents,Name,Value) задает дополнительные параметры, использующие одну или несколько пар имя-значение.

Совет

Использовать addLanguageDetails перед использованием lower и upper функции как addLanguageDetails использует информацию, удаляемую этими функциями.

Примеры

свернуть все

Добавить сведения о языке в документы

Открыть сценарий в реальном времени

Вручную закрепите какой-либо текст, разбив его на массив слов. Преобразование маркированного вручную текста в tokenizedDocument путем установки 'TokenizeMethod' опция для 'none'.

str = split("an example of a short sentence")';
documents = tokenizedDocument(str,'TokenizeMethod','none');

Просмотр сведений о маркере с помощью tokenDetails.

tdetails = tokenDetails(documents)

tdetails=6×2 table
      Token       DocumentNumber
    __________    ______________

    "an"                1       
    "example"           1       
    "of"                1       
    "a"                 1       
    "short"             1       
    "sentence"          1

При указании 'TokenizeMethod','none', функция не обнаруживает автоматически сведения о языке документов. Чтобы добавить сведения о языке, используйте addLanguageDetails функция. Эта функция по умолчанию автоматически определяет язык.

documents = addLanguageDetails(documents);

Просмотр обновленных сведений о токене с помощью tokenDetails.

tdetails = tokenDetails(documents)

tdetails=6×4 table
      Token       DocumentNumber     Type      Language
    __________    ______________    _______    ________

    "an"                1           letters       en   
    "example"           1           letters       en   
    "of"                1           letters       en   
    "a"                 1           letters       en   
    "short"             1           letters       en   
    "sentence"          1           letters       en

Входные аргументы

свернуть все

`documents` - Исходные документы
`tokenizedDocument` множество

Исходные документы, указанные как tokenizedDocument массив.

Аргументы пары «имя-значение»

Укажите дополнительные пары, разделенные запятыми Name,Value аргументы. Name является именем аргумента и Value - соответствующее значение. Name должен отображаться внутри кавычек. Можно указать несколько аргументов пары имен и значений в любом порядке как Name1,Value1,...,NameN,ValueN.

Пример: 'DiscardKnownValues',true указывает на удаление ранее вычисленных сведений и их повторное вычисление.

`'Language'` - Язык
`'en'` | `'ja'` | `'de'` | `'ko'`

Язык, указанный как один из следующих:

'en' - английский
'ja' - японский язык
'de' - немецкий язык
'ko' - корейский

Если значение не указано, функция обнаруживает язык из входного текста с помощью corpusLanguage функция.

Этот параметр указывает сведения о языке маркеров. Для просмотра сведений о языке маркеров используйте tokenDetails. Эти сведения о языке определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функции на маркерах.

Дополнительные сведения о языковой поддержке в Toolbox™ Text Analytics см. в разделе Языковые рекомендации.

`'DiscardKnownValues'` - Возможность отбрасывания ранее вычисленных сведений
`false` (по умолчанию) | `true`

Параметр для отбрасывания ранее вычисленных сведений и их повторного вычисления, указанный как true или false.

Типы данных: logical

Выходные аргументы

свернуть все

`updatedDocuments` - Обновленные документы
`tokenizedDocument` множество

Обновленные документы, возвращенные как tokenizedDocument массив. Получение сведений о токене из updatedDocuments, использовать tokenDetails.

См. также

Темы

Представлен в R2018b

Документация

addLanguageDetails

Синтаксис

Описание

Примеры

Добавить сведения о языке в документы

Входные аргументы

`documents` - Исходные документы
`tokenizedDocument` множество

Аргументы пары «имя-значение»

`'Language'` - Язык
`'en'` | `'ja'` | `'de'` | `'ko'`

`'DiscardKnownValues'` - Возможность отбрасывания ранее вычисленных сведений
`false` (по умолчанию) | `true`

Выходные аргументы

`updatedDocuments` - Обновленные документы
`tokenizedDocument` множество

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

Документация

addLanguageDetails

Синтаксис

Описание

Примеры

Добавить сведения о языке в документы

Входные аргументы

documents - Исходные документы tokenizedDocument множество

Аргументы пары «имя-значение»

'Language' - Язык 'en' | 'ja' | 'de' | 'ko'

'DiscardKnownValues' - Возможность отбрасывания ранее вычисленных сведений false (по умолчанию) | true

Выходные аргументы

updatedDocuments - Обновленные документы tokenizedDocument множество

См. также

Темы

Документация по инструментам для анализа текста

Поддержка

`documents` - Исходные документы
`tokenizedDocument` множество

`'Language'` - Язык
`'en'` | `'ja'` | `'de'` | `'ko'`

`'DiscardKnownValues'` - Возможность отбрасывания ранее вычисленных сведений
`false` (по умолчанию) | `true`

`updatedDocuments` - Обновленные документы
`tokenizedDocument` множество