addLanguageDetails

Добавьте идентификаторы языка в документы

Используйте addLanguageDetails, чтобы добавить идентификаторы языка в документы.

Функция поддерживает английский, японский язык и немецкий текст.

Синтаксис

updatedDocuments = addLanguageDetails(documents)
updatedDocuments = addLanguageDetails(documents,'Language',language)

Описание

пример

updatedDocuments = addLanguageDetails(documents) обнаруживает язык documents и обновляет маркерные детали. Функция добавляет, что детали к лексемам с недостающим языком детализируют только. Чтобы получить детали языка от updatedDocuments, используйте tokenDetails.

updatedDocuments = addLanguageDetails(documents,'Language',language) задает язык, чтобы обновить с.

Совет

Используйте addLanguageDetails перед использованием lower, и функции upper как addLanguageDetails использует информацию, которая удалена этим, функционирует.

Примеры

свернуть все

Вручную маркируйте некоторый текст путем разделения его в массив слов. Преобразуйте вручную маркируемый текст в объект tokenizedDocument путем установки опции 'TokenizeMethod' на 'none'.

str = split("an example of a short sentence")';
documents = tokenizedDocument(str,'TokenizeMethod','none');

Посмотрите маркерные детали с помощью tokenDetails.

tdetails = tokenDetails(documents)
tdetails=6×2 table
      Token       DocumentNumber
    __________    ______________

    "an"                1       
    "example"           1       
    "of"                1       
    "a"                 1       
    "short"             1       
    "sentence"          1       

Когда вы задаете 'TokenizeMethod','none', функция автоматически не обнаруживает детали языка документов. Чтобы добавить детали языка, используйте функцию addLanguageDetails. Эта функция, по умолчанию, автоматически обнаруживает язык.

documents = addLanguageDetails(documents);

Посмотрите обновленные маркерные детали с помощью tokenDetails.

tdetails = tokenDetails(documents)
tdetails=6×4 table
      Token       DocumentNumber     Type      Language
    __________    ______________    _______    ________

    "an"                1           letters       en   
    "example"           1           letters       en   
    "of"                1           letters       en   
    "a"                 1           letters       en   
    "short"             1           letters       en   
    "sentence"          1           letters       en   

Входные параметры

свернуть все

Введите документы, заданные как массив tokenizedDocument.

Язык, заданный как одно из следующего:

  • 'en' – Английский язык

  • 'ja' – Японский язык

  • 'de' – Немецкий язык

Если вы не задаете значение, то функция обнаруживает язык из входного текста с помощью функции corpusLanguage.

Эта опция задает детали языка лексем. Чтобы посмотреть детали языка лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails и функций addEntityDetails на лексемах.

Для получения дополнительной информации о поддержке языка в Text Analytics Toolbox™, смотрите Факторы Языка.

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как массив tokenizedDocument. Чтобы получить маркерные детали от updatedDocuments, используйте tokenDetails.

Введенный в R2018b

Для просмотра документации необходимо авторизоваться на сайте