В этом примере показано, как исправить орфографию в документах с помощью Hunspell.
Создайте массив токенизированных документов.
str = [ "Use MATLAB to correct spelling of words." "Correctly spelled worrds are important for lemmatization." "Text Analytics Toolbox providesfunctions for spelling correction."]; documents = tokenizedDocument(str)
documents = 3x1 tokenizedDocument: 8 tokens: Use MATLAB to correct spelling of words . 8 tokens: Correctly spelled worrds are important for lemmatization . 8 tokens: Text Analytics Toolbox providesfunctions for spelling correction .
Исправьте написание документов с помощью correctSpelling
функция.
updatedDocuments = correctSpelling(documents)
updatedDocuments = 3x1 tokenizedDocument: 9 tokens: Use MAT LAB to correct spelling of words . 8 tokens: Correctly spelled words are important for solemnization . 9 tokens: Text Analytic Toolbox provides functions for spelling correction .
Заметьте, что:
Вход слово « MATLAB» разделён на два слова « MAT» и «LAB».
Вход слово «миры» было изменяем на «слова».
Вход слово «лемматизация» было изменяем на «торжество».
Вход слово «Аналитика» было изменяем на «Аналитик».
Вход слово «providesfunctions» разделён на два слова «обеспечивает» и «функции».
Чтобы программное обеспечение не обновляло конкретные слова, вы можете предоставить список известных слов, используя 'KnownWords'
опция correctSpelling
функция.
Исправьте написание документов еще раз и укажите в качестве известных слов слова «MATLAB», «Analytics» и «lemmatization».
updatedDocuments = correctSpelling(documents,'KnownWords',["MATLAB" "Analytics" "lemmatization"])
updatedDocuments = 3x1 tokenizedDocument: 8 tokens: Use MATLAB to correct spelling of words . 8 tokens: Correctly spelled words are important for lemmatization . 9 tokens: Text Analytics Toolbox provides functions for spelling correction .
Заметьте здесь, что слова «MATLAB», «Analytics» и «lemmatization» остаются неизменными.
correctSpelling
| tokenizedDocument