Правильное написание слов
Использовать correctSpelling
для исправления написания слов в строковых массивах или документах.
Функция поддерживает английский, немецкий и корейский текст.
исправляет написание слов в updatedDocuments
= correctSpelling(documents
)tokenizedDocument
массивы направленности documents
.
исправляет написание слов в updatedWords
= correctSpelling(words
)string
векторная words
.
также задает язык слов в updatedWords
= correctSpelling(words
,'Language',language
)string
векторная words
.
[___,
также возвращает вектор слов во входе, которые не были найдены в словаре и для которого не было найдено никаких предложений.unknownWords
] = correctSpelling(___)
___ = correctSpelling(___,
задает дополнительные опции, используя один или несколько аргументы пары "имя-значение".Name,Value
)
Создайте токенизированный массив документов.
str = [ "A documnent containing some misspelled worrds." "Another documnent cntaining typos."]; documents = tokenizedDocument(str);
Исправьте написание слов в документах используя correctSpelling
функция.
updatedDocuments = correctSpelling(documents)
updatedDocuments = 2x1 tokenizedDocument: 7 tokens: A document containing some misspelled words . 5 tokens: Another document containing typos .
Создайте строковые массивы слов.
words = ["A" "strng" "array" "containing" "misspelled" "worrds" "."];
Исправьте написание слов в строковые массивы с помощью correctSpelling
функция.
updatedWords = correctSpelling(words)
updatedWords = 1x7 string
Columns 1 through 6
"A" "string" "array" "containing" "misspelled" "words"
Column 7
"."
Создайте токенизированный массив документов.
str = [ "Analyze text data using MATLAB." "Another documnent cntaining typos."]; documents = tokenizedDocument(str);
Исправьте написание слов в документах используя correctSpelling
функция.
updatedDocuments = correctSpelling(documents)
updatedDocuments = 2x1 tokenizedDocument: 7 tokens: Analyze text data using MAT LAB . 5 tokens: Another document containing typos .
Заметьте, что слово «MATLAB» разделяется на два слова «MAT» и «LAB».
Исправьте написание документов и укажите «MATLAB» как известное слово с помощью 'KnownWords'
опция.
updatedDocuments = correctSpelling(documents,'KnownWords',"MATLAB")
updatedDocuments = 2x1 tokenizedDocument: 6 tokens: Analyze text data using MATLAB . 5 tokens: Another document containing typos .
documents
- Входные документыtokenizedDocument
массивВходные документы, заданные как tokenizedDocument
массив.
words
- Входные словаВходы слова, заданные как вектор строки, вектор символов или массив ячеек векторов символов. Если вы задаете words
как вектор символов, тогда функция обрабатывает аргумент как одно слово.
Типы данных: string
| char
| cell
language
- Язык слова'en'
| 'de'
| 'ko'
Язык слова, заданный как один из следующих:
'en'
- Английский язык
'de'
- немецкий язык
'ko'
- Корейский язык
Если вы не задаете язык, то программное обеспечение автоматически обнаруживает язык.
Типы данных: char
| string
Задайте необязательные разделенные разделенными запятой парами Name,Value
аргументы. Name
- имя аргумента и Value
- соответствующее значение. Name
должны находиться внутри кавычек. Можно задать несколько аргументов в виде пар имен и значений в любом порядке Name1,Value1,...,NameN,ValueN
.
correctSpelling(documents,'KnownWords',["MathWorks" "MATLAB"])
исправляет написание слов в documents
и рассматривает слова «MathWorks» и «MATLAB» как правильно написанные слова.'KnownWords'
- Слова, которые будут рассматриваться как правильные[]
(по умолчанию) | строковый массив | массивов ячеек из векторов символовСлова, которые будут рассматриваться как правильные, заданные как разделенная разделенными запятой парами, состоящая из 'KnownWords'
и строковые массивы или массив ячеек из векторов символов.
Если вы задаете список известных слов, то эти слова остаются неизменными, когда функция исправляет орфографию. Программное обеспечение может также заменить слова с опечатками словами из списка известных слов.
Пример: ["MathWorks" "MATLAB"]
Типы данных: char
| string
| cell
'ExtensionDictionary'
- Файл словаря расширений Hunspell''
(по умолчанию) | путь к файлуФайл словаря расширений Hunspell (также известный как файл личного словаря), заданный как разделенная разделенными запятой парами, состоящая из 'ExtensionDictionary'
и путь к файлу словаря расширений Hunspell.
Файл словаря расширений Hunspell является .dic
файл, содержащий количество слов в словаре и список слов в следующем формате:
word1/affixWord1 word2/affixWord2 ... wordN/affixWordN *forbiddenWord1 *forbiddenWord2 ... *forbiddenWordM
word1
, word2
, …, wordN
является списком слов для расширения словаря Hunspell в.
affixWord1
, affixWord2
, …, affixWordN
(необязательно) указать слова в словаре Hunspell, которые имеют общие аффиксы. Указывайте аффиксы путем соединения их с соответствующим словом с прямой косой чертой (/
). Для примера введите exxxtreme/extreme
указывает, что аффиксы, которые применяются к слову "extreme"
также применимо к пользовательскому слову "exxxtreme"
.
forbiddenWord1
, forbiddenWord2
, …, forbiddenWordN
- список запрещенных слов, используемых для коррекции орфографии. Указать запрещенные слова используя звездочку (*
).
Записи в файле словаря расширений Hunspell могут появиться в любом порядке.
Например, чтобы создать файл словаря расширений Hunspell с указанием:
Слова "MathWorks"
, "MATLAB"
, и "exxxtreme"
.
Аффиксы, которые применяются к слову "extreme"
также применимо к слову "exxxtreme"
.
Слово "MATLOB"
является запрещенным словом.
использование:
MathWorks MATLAB exxxtreme/extreme *MATLOB
Пример создания файлов словаря расширений Hunspell см. в разделе «Создание словаря расширений для коррекции орфографии». Для получения дополнительной информации об опциях файлов словаря Hunspell смотрите https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html.
Типы данных: char
| string
'Dictionary'
- Файл словаря Hunspell''
(по умолчанию) | путь к файлуФайл словаря Hunspell, заданный как разделенная разделенными запятой парами, состоящая из 'Dictionary'
и путь к файлу словаря Hunspell.
Файл словаря Hunspell является .dic
файл, содержащий количество слов в словаре и список слов в следующем формате:
N word1/flags1 word2/flags2 ... wordN/flagsN
где N
количество слов в файле словаря, word1
, word2
, …, wordN
являются ли N
слова в словаре, и flags1
, …, flagsN
задайте необязательные флаги, соответствующие словам word1
, word2
, …, wordN
, соответственно. Используйте флаги для задания атрибутов слова, для примера аффиксов. Чтобы задать файл аффикса Hunspell, используйте 'Affixes'
опция.
Например, a, чтобы создать файл словаря Hunspell, содержащий 4 слова "MathWorks"
, "MATLAB"
, "correctSpelling"
, и "tokenizedDocument"
, использовать:
4 MathWorks MATLAB correctSpelling tokenizedDocument
Для получения дополнительной информации об опциях файлов словаря Hunspell смотрите https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html.
Типы данных: char
| string
'Affixes'
- Файл аффикса Hunspell''
(по умолчанию) | путь к файлуФайл аффикса Hunspell, заданный как разделенная разделенными запятой парами, состоящая из 'Affixes'
и путь к файлу аффикса Hunspell.
Файл аффикса Hunspell является .aff
файл, содержащий количество слов в словаре и список слов в следующем формате:
option1 values1 option2 values2 ... optionM valuesM
где M
количество опций в файле affix, option1
, option2
, …, optionM
являются ли M
опции, и values1
, …, valuesN
задайте значения, соответствующие опциям option1
, option2
, …, optionM
, соответственно. Используйте эти опции для задания аффиксов.
Чтобы определить правило префикса, используйте PFX
опция с форматом:
PFX flag crossProduct K PFX flag stripping1 prefix1 condition1 ... PFX flag strippingK prefixK conditionK
flag
соответствует флагам, используемым в файле словаря Hunspell.
crossProduct
указывает, можно ли смешивать префиксы и суффиксы, задается как Y
или N
.
K
- количество префиксов, заданное для заданного флага.
stripping1
, stripping2
, …, strippingK
указывает символы, которые будут удалены из слова при применении префикса. Если значение десорбции 0
, тогда никакое снятие не происходит.
prefix1
, prefix2
, …, prefixK
укажите используемые префиксы.
condition1
, condition2
, …, conditionK
задайте необязательные условия для применения префиксов prefix1
, prefix2
, …, prefixK
, соответственно. Для тривиального условия задайте "."
.
Чтобы задать правило суффикса, используйте SFX
опция с форматом:
SFX flag crossProduct K SFX flag stripping1 suffix1 condition1 ... SFX flag strippingK suffixK conditionK
suffix1
, suffix2
, …, suffixK
задайте префиксы для использования и флаг, перекрестный продукт K
, удаление и значения условий совпадают с форматом префикса.
Создайте файл аффикса Hunspell, определяющий следующие правила аффикса:
Флаг A:
префиксируйте слова с "re"
Флаг B:
суффиксные слова, не заканчивающиеся "y"
с "ed"
.
суффиксные слова, заканчивающиеся "y"
с "ied"
, удаление "y"
.
используйте файл аффикса Hunspell:
PFX A Y 1 PFX A 0 re . SFX B Y 1 SFX B 0 ed [^y] SFX B y ied y
Чтобы использовать эти флаги в файле словаря Hunspell, добавьте соответствующие флаги к словам с помощью "/"
. Для каждого слова можно задать несколько флагов. Например, чтобы задать файл словаря, содержащий:
Слова "ptest"
и "ptry"
.
Для слова "ptest"
только, также включите префикс "re"
использование флага A
.
Для обоих слов также включите суффиксы "ed"
или "ied"
где это целесообразно с помощью флага B
Для получения дополнительной информации об опциях файлов аффикса Hunspell смотрите https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html.
Типы данных: char
| string
'RetokenizeMethod'
- Метод ретокенизации документов'split'
(по умолчанию) | 'none'
Метод ретокенизации документов, заданный как разделенная разделенными запятой парами, состоящая из 'RetokenizeMethod'
и одно из следующих:
'split'
- Исправление орфографии путем разделения лексем. Например, разделите неправильно написанный лексему "twowords"
в правильно написанные лексемы "two"
и "words"
.
'none'
- Не разделяйте лексемы для коррекции орфографии.
updatedDocuments
- Исправленные документыtokenizedDocument
массивИсправленные документы, возвращенные как tokenizedDocument
массив. Если на 'RetokenizeMethod'
опция 'split'
затем количество слов в каждом обновленном документе может отличаться от соответствующего входного документа.
Если для исправленных слов существует несколько кандидатов, то функция автоматически выбирает одно слово для коррекции.
updatedWords
- Исправленные словаИсправленные слова, возвращенные как строковый вектор. Если на 'RetokenizeMethod'
опция 'split'
, тогда количество обновленных слов может отличаться от количества входных слов.
Если для исправленных слов существует несколько кандидатов, то функция автоматически выбирает одно слово для коррекции.
unknownWords
- Неизвестные словаНеизвестные слова, возвращенные как строковый вектор. Вектор строка unknownWords
содержит входы слова, которых нет в словаре коррекции орфографии и для которых не найдено никаких предложений.
editDistance
| editDistanceSearcher
| tokenizedDocument
У вас есть измененная версия этого примера. Вы хотите открыть этот пример с вашими правками?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.