Правильная орфография в документах

В этом примере показано, как исправить орфографию в документах с помощью Hunspell.

Загрузка текстовых данных

Создайте массив токенизированных документов.

str = [
    "Use MATLAB to correct spelling of words."
    "Correctly spelled worrds are important for lemmatization."
    "Text Analytics Toolbox providesfunctions for spelling correction."];
documents = tokenizedDocument(str)
documents = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled worrds are important for lemmatization .
    8 tokens: Text Analytics Toolbox providesfunctions for spelling correction .

Правильное написание

Исправьте написание документов с помощью correctSpelling функция.

updatedDocuments = correctSpelling(documents)
updatedDocuments = 
  3x1 tokenizedDocument:

    9 tokens: Use MAT LAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for solemnization .
    9 tokens: Text Analytic Toolbox provides functions for spelling correction .

Заметьте, что:

  • Вход слово « MATLAB» разделён на два слова « MAT» и «LAB».

  • Вход слово «миры» было изменяем на «слова».

  • Вход слово «лемматизация» было изменяем на «торжество».

  • Вход слово «Аналитика» было изменяем на «Аналитик».

  • Вход слово «providesfunctions» разделён на два слова «обеспечивает» и «функции».

Задайте пользовательские слова

Чтобы программное обеспечение не обновляло конкретные слова, вы можете предоставить список известных слов, используя 'KnownWords' опция correctSpelling функция.

Исправьте написание документов еще раз и укажите в качестве известных слов слова «MATLAB», «Analytics» и «lemmatization».

updatedDocuments = correctSpelling(documents,'KnownWords',["MATLAB" "Analytics" "lemmatization"])
updatedDocuments = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for lemmatization .
    9 tokens: Text Analytics Toolbox provides functions for spelling correction .

Заметьте здесь, что слова «MATLAB», «Analytics» и «lemmatization» остаются неизменными.

См. также

|

Похожие темы