В этом примере показано, как исправить орфографию в документах с помощью Hunspell.
Создание массива маркированных документов.
str = [
"Use MATLAB to correct spelling of words."
"Correctly spelled worrds are important for lemmatization."
"Text Analytics Toolbox providesfunctions for spelling correction."];
documents = tokenizedDocument(str)documents =
3x1 tokenizedDocument:
8 tokens: Use MATLAB to correct spelling of words .
8 tokens: Correctly spelled worrds are important for lemmatization .
8 tokens: Text Analytics Toolbox providesfunctions for spelling correction .
Исправьте орфографию документов с помощью correctSpelling функция.
updatedDocuments = correctSpelling(documents)
updatedDocuments =
3x1 tokenizedDocument:
9 tokens: Use MAT LAB to correct spelling of words .
8 tokens: Correctly spelled words are important for solemnization .
9 tokens: Text Analytic Toolbox provides functions for spelling correction .
Обратите внимание, что:
Входное слово «MATLAB» было разделено на два слова «MAT» и «LAB».
Входное слово «words» было изменено на «words».
Входное слово «лемматизация» было изменено на «торжественность».
Входное слово «Аналитика» было изменено на «Аналитика».
Входное слово «providesfunctions» было разделено на два слова «provides» и «functions».
Чтобы программа не обновляла определенные слова, можно предоставить список известных слов с помощью 'KnownWords' вариант correctSpelling функция.
Снова исправьте написание документов и укажите в качестве известных слов слова «MATLAB», «Analytics» и «lemmatization».
updatedDocuments = correctSpelling(documents,'KnownWords',["MATLAB" "Analytics" "lemmatization"])
updatedDocuments =
3x1 tokenizedDocument:
8 tokens: Use MATLAB to correct spelling of words .
8 tokens: Correctly spelled words are important for lemmatization .
9 tokens: Text Analytics Toolbox provides functions for spelling correction .
Обратите внимание, что слова «MATLAB», «Analytics» и «lemmatization» остаются неизменными.
correctSpelling | tokenizedDocument