Правильное написание в документах

В этом примере показано, как исправить орфографию в документах с помощью Hunspell.

Загрузить текстовые данные

Создание массива маркированных документов.

str = [
    "Use MATLAB to correct spelling of words."
    "Correctly spelled worrds are important for lemmatization."
    "Text Analytics Toolbox providesfunctions for spelling correction."];
documents = tokenizedDocument(str)

documents = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled worrds are important for lemmatization .
    8 tokens: Text Analytics Toolbox providesfunctions for spelling correction .

Правильное написание

Исправьте орфографию документов с помощью correctSpelling функция.

updatedDocuments = correctSpelling(documents)

updatedDocuments = 
  3x1 tokenizedDocument:

    9 tokens: Use MAT LAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for solemnization .
    9 tokens: Text Analytic Toolbox provides functions for spelling correction .

Обратите внимание, что:

Входное слово «MATLAB» было разделено на два слова «MAT» и «LAB».
Входное слово «words» было изменено на «words».
Входное слово «лемматизация» было изменено на «торжественность».
Входное слово «Аналитика» было изменено на «Аналитика».
Входное слово «providesfunctions» было разделено на два слова «provides» и «functions».

Указать пользовательские слова

Чтобы программа не обновляла определенные слова, можно предоставить список известных слов с помощью 'KnownWords' вариант correctSpelling функция.

Снова исправьте написание документов и укажите в качестве известных слов слова «MATLAB», «Analytics» и «lemmatization».

updatedDocuments = correctSpelling(documents,'KnownWords',["MATLAB" "Analytics" "lemmatization"])

updatedDocuments = 
  3x1 tokenizedDocument:

    8 tokens: Use MATLAB to correct spelling of words .
    8 tokens: Correctly spelled words are important for lemmatization .
    9 tokens: Text Analytics Toolbox provides functions for spelling correction .

Обратите внимание, что слова «MATLAB», «Analytics» и «lemmatization» остаются неизменными.

См. также

correctSpelling | tokenizedDocument

Связанные темы

Документация по инструментам для анализа текста

Поддержка

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.