Правильное написание в документах

В этом примере показано, как откорректировать написание в использовании документов Hunspell.

Загрузите текстовые данные

Создайте массив маркируемых документов.

str = [
    "Use MATLAB to correct spelling of words."
    "Correctly spelled worrds are important for lemmatization."
    "Text Analytics Toolbox providesfunctions for spelling correction."];
documents = tokenizedDocument(str)
documents = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled worrds are important for lemmatization .
    8 tokens: Text Analytics Toolbox providesfunctions for spelling correction .

Правильное написание

Откорректируйте написание документов с помощью correctSpelling функция.

updatedDocuments = correctSpelling(documents)
updatedDocuments = 
  3x1 tokenizedDocument:

    9 tokens: Use MAT LAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for solemnization .
    9 tokens: Text Analytic Toolbox provides functions for spelling correction .

Заметьте что:

  • Входное слово "MATLAB" было разделено в эти два слова "MAT" и "LAB".

  • Входное слово "worrds" было изменено на "слова".

  • Входное слово "lemmatization" было изменено на "празднование".

  • Входное слово "Analytics" было изменено на "Аналитический".

  • Входное слово "providesfunctions" было разделено в эти два слова, "обеспечивает" и "функционирует".

Задайте пользовательские слова

Чтобы препятствовать тому, чтобы программное обеспечение обновило конкретные слова, можно предоставить список известных слов с помощью 'KnownWords' опция correctSpelling функция.

Откорректируйте написание документов снова и задайте слова "MATLAB", "Аналитика" и "lemmatization" как известные слова.

updatedDocuments = correctSpelling(documents,'KnownWords',["MATLAB" "Analytics" "lemmatization"])
updatedDocuments = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for lemmatization .
    9 tokens: Text Analytics Toolbox provides functions for spelling correction .

Заметьте здесь, что слова "MATLAB", "Аналитика" и "lemmatization" остаются неизменными.

Смотрите также

|

Похожие темы