В этом примере показано, как исправить орфографию в документах с помощью Hunspell.
Создайте массив токенизированных документов.
str = [
"Use MATLAB to correct spelling of words."
"Correctly spelled worrds are important for lemmatization."
"Text Analytics Toolbox providesfunctions for spelling correction."];
documents = tokenizedDocument(str)documents =
3x1 tokenizedDocument:
8 tokens: Use MATLAB to correct spelling of words .
8 tokens: Correctly spelled worrds are important for lemmatization .
8 tokens: Text Analytics Toolbox providesfunctions for spelling correction .
Исправьте написание документов с помощью correctSpelling функция.
updatedDocuments = correctSpelling(documents)
updatedDocuments =
3x1 tokenizedDocument:
9 tokens: Use MAT LAB to correct spelling of words .
8 tokens: Correctly spelled words are important for solemnization .
9 tokens: Text Analytic Toolbox provides functions for spelling correction .
Заметьте, что:
Вход слово « MATLAB» разделён на два слова « MAT» и «LAB».
Вход слово «миры» было изменяем на «слова».
Вход слово «лемматизация» было изменяем на «торжество».
Вход слово «Аналитика» было изменяем на «Аналитик».
Вход слово «providesfunctions» разделён на два слова «обеспечивает» и «функции».
Чтобы программное обеспечение не обновляло конкретные слова, вы можете предоставить список известных слов, используя 'KnownWords' опция correctSpelling функция.
Исправьте написание документов еще раз и укажите в качестве известных слов слова «MATLAB», «Analytics» и «lemmatization».
updatedDocuments = correctSpelling(documents,'KnownWords',["MATLAB" "Analytics" "lemmatization"])
updatedDocuments =
3x1 tokenizedDocument:
8 tokens: Use MATLAB to correct spelling of words .
8 tokens: Correctly spelled words are important for lemmatization .
9 tokens: Text Analytics Toolbox provides functions for spelling correction .
Заметьте здесь, что слова «MATLAB», «Analytics» и «lemmatization» остаются неизменными.
correctSpelling | tokenizedDocument