Правильное написание слов
Использование correctSpelling
откорректировать написание слов в строковых массивах или документах.
Функция поддерживает английский, немецкий и корейский текст.
корректирует написание слов в updatedDocuments
= correctSpelling(documents
)tokenizedDocument
массив documents
.
корректирует написание слов в updatedWords
= correctSpelling(words
)string
векторный words
.
также задает язык слов в updatedWords
= correctSpelling(words
,'Language',language
)string
векторный words
.
[___,
также возвращает вектор из слов во входе, которые не были найдены в словаре и для которого не было найдено никакое предложение.unknownWords
] = correctSpelling(___)
___ = correctSpelling(___,
задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение".Name,Value
)
Создайте маркируемый массив документа.
str = [ "A documnent containing some misspelled worrds." "Another documnent cntaining typos."]; documents = tokenizedDocument(str);
Откорректируйте написание слов в документах с помощью correctSpelling
функция.
updatedDocuments = correctSpelling(documents)
updatedDocuments = 2x1 tokenizedDocument: 7 tokens: A document containing some misspelled words . 5 tokens: Another document containing typos .
Создайте массив строк слов.
words = ["A" "strng" "array" "containing" "misspelled" "worrds" "."];
Откорректируйте написание слов в массиве строк с помощью correctSpelling
функция.
updatedWords = correctSpelling(words)
updatedWords = 1x7 string
Columns 1 through 6
"A" "string" "array" "containing" "misspelled" "words"
Column 7
"."
Создайте маркируемый массив документа.
str = [ "Analyze text data using MATLAB." "Another documnent cntaining typos."]; documents = tokenizedDocument(str);
Откорректируйте написание слов в документах с помощью correctSpelling
функция.
updatedDocuments = correctSpelling(documents)
updatedDocuments = 2x1 tokenizedDocument: 7 tokens: Analyze text data using MAT LAB . 5 tokens: Another document containing typos .
Заметьте, что слово "MATLAB" разделено в эти два слова "MAT" и "LAB".
Откорректируйте написание документов и задайте "MATLAB" как известное слово с помощью 'KnownWords'
опция.
updatedDocuments = correctSpelling(documents,'KnownWords',"MATLAB")
updatedDocuments = 2x1 tokenizedDocument: 6 tokens: Analyze text data using MATLAB . 5 tokens: Another document containing typos .
documents
— Введите документыtokenizedDocument
массивВведите документы в виде tokenizedDocument
массив.
words
— Введите словаВведите слова в виде вектора строки, вектора символов или массива ячеек из символьных векторов. Если вы задаете words
как вектор символов, затем функция обрабатывает аргумент как отдельное слово.
Типы данных: string
| char
| cell
language
— Язык Word'en'
| 'de'
| 'ko'
Язык Word в виде одного из следующего:
'en'
– Английский язык
'de'
– Немецкий язык
'ko'
– Корейский язык
Если вы не задаете язык, то программное обеспечение обнаруживает язык автоматически.
Типы данных: char |
string
Задайте дополнительные разделенные запятой пары Name,Value
аргументы. Name
имя аргумента и Value
соответствующее значение. Name
должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN
.
correctSpelling(documents,'KnownWords',["MathWorks" "MATLAB"])
корректирует написание слов в documents
и обрабатывает слова "MathWorks" и "MATLAB" как правильно произнесенные слова по буквам.'KnownWords'
— Слова, которые будут обработаны как правильный[]
(значение по умолчанию) | массив строк | массив ячеек из символьных векторовСлова, которые будут обработаны как правильный в виде разделенной запятой пары, состоящей из 'KnownWords'
и массив строк или массив ячеек из символьных векторов.
Если вы задаете список известных слов, то эти слова остаются неизменными, когда функция корректирует написание. Программное обеспечение может также заменить написанными c ошибкой словами со словами из списка известных слов.
Пример: ["MathWorks" "MATLAB"]
Типы данных: char |
string
| cell
'ExtensionDictionary'
— Файл словаря расширения Hunspell''
(значение по умолчанию) | путь к файлуФайл словаря расширения Hunspell (также известный как персональный файл словаря) в виде разделенной запятой пары, состоящей из 'ExtensionDictionary'
и путь к файлу файла словаря расширения Hunspell.
Дополнительным файлом словаря Hunspell является .dic
файл, содержащий количество слов в словаре, сопровождаемом списком слов в следующем формате:
word1/affixWord1 word2/affixWord2 ... wordN/affixWordN *forbiddenWord1 *forbiddenWord2 ... *forbiddenWordM
word1
, word2
, …, wordN
список слова должен расширить словарь Hunspell с.
affixWord1
, affixWord2
, …, affixWordN
(дополнительный) указывают на слова в словаре Hunspell та доля аффиксы. Укажите на аффиксы путем конкатенации их к соответствующему слову с наклонной чертой вправо (/
). Например, запись exxxtreme/extreme
указывает, что присоединяет, которые применяются к слову "extreme"
также обратитесь к пользовательскому слову "exxxtreme"
.
forbiddenWord1
, forbiddenWord2
, …, forbiddenWordN
список запрещенных слов, чтобы использовать для исправления орфографических ошибок. Укажите на запрещенные слова с помощью звездочки (*
).
Записи в файле словаря расширения Hunspell могут появиться в любом порядке.
Например, чтобы создать определение файла словаря расширения Hunspell:
Слова "MathWorks"
MATLAB
, и "exxxtreme"
.
Аффиксы, которые применяются к слову "extreme"
также обратитесь к слову "exxxtreme"
.
Слово "MATLOB"
запрещенное слово.
использование:
MathWorks MATLAB exxxtreme/extreme *MATLOB
Для примера, показывающего, как создать файлы словаря расширения Hunspell, смотрите, Создают Дополнительный Словарь для Исправления орфографических ошибок. Для получения дополнительной информации об опциях файлов словаря Hunspell, см. https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html.
Типы данных: char |
string
'Dictionary'
— Файл словаря Hunspell''
(значение по умолчанию) | путь к файлуФайл словаря Hunspell в виде разделенной запятой пары, состоящей из 'Dictionary'
и путь к файлу файла словаря Hunspell.
Файлом словаря Hunspell является .dic
файл, содержащий количество слов в словаре, сопровождаемом списком слов в следующем формате:
N word1/flags1 word2/flags2 ... wordN/flagsN
где N
количество слов в файле словаря, word1
, word2
, …, wordN
N
слова в словаре и flags1
, …, flagsN
задайте дополнительные флаги, соответствующие словам word1
, word2
, …, wordN
, соответственно. Используйте флаги, чтобы задать атрибуты слова, например, аффиксы. Чтобы задать файл аффикса Hunspell, используйте 'Affixes'
опция.
Например, чтобы создать файл словаря Hunspell, содержащий эти 4 слова "MathWorks"
MATLAB
, "correctSpelling"
, и "tokenizedDocument"
Использование:
4 MathWorks MATLAB correctSpelling tokenizedDocument
Для получения дополнительной информации об опциях файлов словаря Hunspell, см. https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html.
Типы данных: char |
string
'Affixes'
— Hunspell присоединяют файл''
(значение по умолчанию) | путь к файлуHunspell присоединяют файл в виде разделенной запятой пары, состоящей из 'Affixes'
и путь к файлу Hunspell присоединяет файл.
Файлом аффикса Hunspell является .aff
файл, содержащий количество слов в словаре, сопровождаемом списком слов в следующем формате:
option1 values1 option2 values2 ... optionM valuesM
где M
число вариантов в файле аффикса, option1
, option2
, …, optionM
M
опции и values1
, …, valuesN
задайте значения, соответствующие опциям option1
, option2
, …, optionM
, соответственно. Используйте эти опции, чтобы задать аффиксы.
Чтобы задать префиксное правило, используйте PFX
опция с форматом:
PFX flag crossProduct K PFX flag stripping1 prefix1 condition1 ... PFX flag strippingK prefixK conditionK
flag
соответствует флагам, используемым в файле словаря Hunspell.
crossProduct
указывает, могут ли префиксы и суффиксы быть смешаны в виде Y
или N
.
K
количество префиксов, заданных для заданного флага.
stripping1
, stripping2
, …, strippingK
укажите на символы, которые будут разделены от слова при применении префикса. Если значением разделения является 0
, затем никакое разделение не происходит.
prefix1
, prefix2
, …, prefixK
задайте префиксы, чтобы использовать.
condition1
, condition2
, …, conditionK
задайте дополнительные условия, для которых можно применить префиксы prefix1
, prefix2
, …, prefixK
, соответственно. Для тривиального условия задайте "."
.
Чтобы задать суффиксное правило, используйте SFX
опция с форматом:
SFX flag crossProduct K SFX flag stripping1 suffix1 condition1 ... SFX flag strippingK suffixK conditionK
suffix1
, suffix2
, …, suffixK
задайте префиксы, чтобы использовать, и флаг, векторное произведение, K
, разделение и значения условия совпадают с префиксным форматом.
Создайте файл аффикса Hunspell, задающий следующие правила аффикса:
Отметьте A:
префиксные слова с "re"
Отметьте B:
суффиксные слова, не заканчивающиеся "y"
с "ed"
.
суффиксные слова, заканчивающиеся "y"
с "ied"
, удаление "y"
.
используйте файл аффикса Hunspell:
PFX A Y 1 PFX A 0 re . SFX B Y 1 SFX B 0 ed [^y] SFX B y ied y
Чтобы использовать эти флаги в файле словаря Hunspell, добавьте соответствующие флаги к словам с помощью "/"
. Для каждого слова можно задать несколько флагов. Например, чтобы задать файл словаря, содержащий:
Слова "ptest"
и "ptry"
.
Для слова "ptest"
только, также включайте префиксный "re"
использование флага A
.
Для обоих слов также включайте суффиксы "ed"
или "ied"
где это необходимо, использование флага B
Для получения дополнительной информации об опциях файлов аффикса Hunspell, см. https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html.
Типы данных: char |
string
'RetokenizeMethod'
— Метод, чтобы повторно маркировать документы'split'
(значение по умолчанию) | 'none'
Метод, чтобы повторно маркировать документы в виде разделенной запятой пары, состоящей из 'RetokenizeMethod'
и одно из следующего:
'split'
– Правильное написание путем разделения лексем. Например, разделите неправильно записанный маркерный "twowords"
в правильно записанные лексемы "two"
и "words"
.
'none'
– Не разделяйте лексемы для исправления орфографических ошибок.
updatedDocuments
— Откорректированные документыtokenizedDocument
массивОткорректированные документы, возвращенные как tokenizedDocument
массив. Если 'RetokenizeMethod'
опцией является 'split'
, затем количество слов в каждом обновленном документе может отличаться от соответствующего входного документа.
Если существует несколько кандидатов на откорректированные слова, то функция автоматически выбирает отдельное слово для коррекции.
updatedWords
— Откорректированные словаОткорректированные слова, возвращенные как вектор строки. Если 'RetokenizeMethod'
опцией является 'split'
, затем количество обновленных слов может отличаться количество входных слов.
Если существует несколько кандидатов на откорректированные слова, то функция автоматически выбирает отдельное слово для коррекции.
unknownWords
— Неизвестные словаНеизвестные слова, возвращенные как вектор строки. Вектор строки unknownWords
содержит входные слова, которые не находятся в словаре исправления орфографических ошибок и для которого не найдены никакие предложения.
editDistance
| editDistanceSearcher
| tokenizedDocument
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.