exponenta event banner

Правильное написание в документах

В этом примере показано, как исправить орфографию в документах с помощью Hunspell.

Загрузить текстовые данные

Создание массива маркированных документов.

str = [
    "Use MATLAB to correct spelling of words."
    "Correctly spelled worrds are important for lemmatization."
    "Text Analytics Toolbox providesfunctions for spelling correction."];
documents = tokenizedDocument(str)
documents = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled worrds are important for lemmatization .
    8 tokens: Text Analytics Toolbox providesfunctions for spelling correction .

Правильное написание

Исправьте орфографию документов с помощью correctSpelling функция.

updatedDocuments = correctSpelling(documents)
updatedDocuments = 
  3x1 tokenizedDocument:

    9 tokens: Use MAT LAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for solemnization .
    9 tokens: Text Analytic Toolbox provides functions for spelling correction .

Обратите внимание, что:

  • Входное слово «MATLAB» было разделено на два слова «MAT» и «LAB».

  • Входное слово «words» было изменено на «words».

  • Входное слово «лемматизация» было изменено на «торжественность».

  • Входное слово «Аналитика» было изменено на «Аналитика».

  • Входное слово «providesfunctions» было разделено на два слова «provides» и «functions».

Указать пользовательские слова

Чтобы программа не обновляла определенные слова, можно предоставить список известных слов с помощью 'KnownWords' вариант correctSpelling функция.

Снова исправьте написание документов и укажите в качестве известных слов слова «MATLAB», «Analytics» и «lemmatization».

updatedDocuments = correctSpelling(documents,'KnownWords',["MATLAB" "Analytics" "lemmatization"])
updatedDocuments = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for lemmatization .
    9 tokens: Text Analytics Toolbox provides functions for spelling correction .

Обратите внимание, что слова «MATLAB», «Analytics» и «lemmatization» остаются неизменными.

См. также

|

Связанные темы