addLanguageDetails

Добавление идентификаторов языков к документам

Описание

Использовать addLanguageDetails для добавления идентификаторов языков к документам.

Функция поддерживает английский, японский, немецкий и корейский текст.

пример

updatedDocuments = addLanguageDetails(documents) определяет язык documents и обновляет детали лексемы. Функция добавляет детали к лексемам только с отсутствующими деталями языка. Чтобы получить сведения о языке от updatedDocuments, использование tokenDetails.

updatedDocuments = addLanguageDetails(documents,Name,Value) задает дополнительные опции, используя одну или несколько пары "имя-значение".

Совет

Использовать addLanguageDetails перед использованием lower и upper функционирует как addLanguageDetails использует информацию, которая удаляется этими функциями.

Примеры

свернуть все

Вручную токенизируйте некоторый текст, разделяя его на массив слов. Преобразуйте вручную маркированный текст в tokenizedDocument объект путем установки 'TokenizeMethod' опция для 'none'.

str = split("an example of a short sentence")';
documents = tokenizedDocument(str,'TokenizeMethod','none');

Просмотр сведений о лексеме с помощью tokenDetails.

tdetails = tokenDetails(documents)
tdetails=6×2 table
      Token       DocumentNumber
    __________    ______________

    "an"                1       
    "example"           1       
    "of"                1       
    "a"                 1       
    "short"             1       
    "sentence"          1       

Когда вы задаете 'TokenizeMethod','none'функция не обнаруживает сведения о языке документов автоматически. Чтобы добавить сведения о языке, используйте addLanguageDetails функция. Эта функция по умолчанию автоматически обнаруживает язык.

documents = addLanguageDetails(documents);

Просмотр обновленных сведений о лексеме с помощью tokenDetails.

tdetails = tokenDetails(documents)
tdetails=6×4 table
      Token       DocumentNumber     Type      Language
    __________    ______________    _______    ________

    "an"                1           letters       en   
    "example"           1           letters       en   
    "of"                1           letters       en   
    "a"                 1           letters       en   
    "short"             1           letters       en   
    "sentence"          1           letters       en   

Входные параметры

свернуть все

Входные документы, заданные как tokenizedDocument массив.

Аргументы в виде пар имя-значение

Задайте необязательные разделенные разделенными запятой парами Name,Value аргументы. Name - имя аргумента и Value - соответствующее значение. Name должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN.

Пример: 'DiscardKnownValues',true задает, чтобы отменить ранее вычисленные данные и пересчитать их.

Язык, заданный как один из следующих:

  • 'en' - Английский

  • 'ja' - японский

  • 'de' - Немецкий

  • 'ko' - Корейский

Если вы не задаете значение, то функция обнаруживает язык из входа текста, используя corpusLanguage функция.

Эта опция задает подробные сведения о языке лексем. Чтобы просмотреть подробные сведения о языке лексем, используйте tokenDetails. Эти детали языка определяют поведение removeStopWords, addPartOfSpeechDetails, normalizeWords, addSentenceDetails, и addEntityDetails функций на лексемах.

Дополнительные сведения о поддержке языка в Text Analytics Toolbox™ см. в разделе Языковые факторы.

Опция отменить ранее вычисленные детали и пересчитать их, заданная как true или false.

Типы данных: logical

Выходные аргументы

свернуть все

Обновленные документы, возвращенные как tokenizedDocument массив. Чтобы получить сведения о лексеме от updatedDocuments, использование tokenDetails.

Введенный в R2018b