Правильная орфография в документах

В этом примере показано, как исправить орфографию в документах с помощью Hunspell.

Загрузка текстовых данных

Создайте массив токенизированных документов.

str = [
    "Use MATLAB to correct spelling of words."
    "Correctly spelled worrds are important for lemmatization."
    "Text Analytics Toolbox providesfunctions for spelling correction."];
documents = tokenizedDocument(str)

documents = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled worrds are important for lemmatization .
    8 tokens: Text Analytics Toolbox providesfunctions for spelling correction .

Правильное написание

Исправьте написание документов с помощью correctSpelling функция.

updatedDocuments = correctSpelling(documents)

updatedDocuments = 
  3x1 tokenizedDocument:

    9 tokens: Use MAT LAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for solemnization .
    9 tokens: Text Analytic Toolbox provides functions for spelling correction .

Заметьте, что:

Вход слово « MATLAB» разделён на два слова « MAT» и «LAB».
Вход слово «миры» было изменяем на «слова».
Вход слово «лемматизация» было изменяем на «торжество».
Вход слово «Аналитика» было изменяем на «Аналитик».
Вход слово «providesfunctions» разделён на два слова «обеспечивает» и «функции».

Задайте пользовательские слова

Чтобы программное обеспечение не обновляло конкретные слова, вы можете предоставить список известных слов, используя 'KnownWords' опция correctSpelling функция.

Исправьте написание документов еще раз и укажите в качестве известных слов слова «MATLAB», «Analytics» и «lemmatization».

updatedDocuments = correctSpelling(documents,'KnownWords',["MATLAB" "Analytics" "lemmatization"])

updatedDocuments = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for lemmatization .
    9 tokens: Text Analytics Toolbox provides functions for spelling correction .

Заметьте здесь, что слова «MATLAB», «Analytics» и «lemmatization» остаются неизменными.

См. также

correctSpelling | tokenizedDocument

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.

Документация