Правильное написание слов
Использование correctSpelling откорректировать написание слов в строковых массивах или документах.
Функция поддерживает английский, немецкий и корейский текст.
корректирует написание слов в updatedDocuments = correctSpelling(documents)tokenizedDocument массив documents.
корректирует написание слов в updatedWords = correctSpelling(words)string векторный words.
также задает язык слов в updatedWords = correctSpelling(words,'Language',language)string векторный words.
[___, также возвращает вектор из слов во входе, которые не были найдены в словаре и для которого не было найдено никакое предложение.unknownWords] = correctSpelling(___)
___ = correctSpelling(___, задает дополнительные опции с помощью одного или нескольких аргументов пары "имя-значение".Name,Value)
Создайте маркируемый массив документа.
str = [
"A documnent containing some misspelled worrds."
"Another documnent cntaining typos."];
documents = tokenizedDocument(str);Откорректируйте написание слов в документах с помощью correctSpelling функция.
updatedDocuments = correctSpelling(documents)
updatedDocuments =
2x1 tokenizedDocument:
7 tokens: A document containing some misspelled words .
5 tokens: Another document containing typos .
Создайте массив строк слов.
words = ["A" "strng" "array" "containing" "misspelled" "worrds" "."];
Откорректируйте написание слов в массиве строк с помощью correctSpelling функция.
updatedWords = correctSpelling(words)
updatedWords = 1x7 string
Columns 1 through 6
"A" "string" "array" "containing" "misspelled" "words"
Column 7
"."
Создайте маркируемый массив документа.
str = [
"Analyze text data using MATLAB."
"Another documnent cntaining typos."];
documents = tokenizedDocument(str);Откорректируйте написание слов в документах с помощью correctSpelling функция.
updatedDocuments = correctSpelling(documents)
updatedDocuments =
2x1 tokenizedDocument:
7 tokens: Analyze text data using MAT LAB .
5 tokens: Another document containing typos .
Заметьте, что слово "MATLAB" разделено в эти два слова "MAT" и "LAB".
Откорректируйте написание документов и задайте "MATLAB" как известное слово с помощью 'KnownWords' опция.
updatedDocuments = correctSpelling(documents,'KnownWords',"MATLAB")
updatedDocuments =
2x1 tokenizedDocument:
6 tokens: Analyze text data using MATLAB .
5 tokens: Another document containing typos .
documents — Введите документыtokenizedDocument массивВведите документы в виде tokenizedDocument массив.
words — Введите словаВведите слова в виде вектора строки, вектора символов или массива ячеек из символьных векторов. Если вы задаете words как вектор символов, затем функция обрабатывает аргумент как отдельное слово.
Типы данных: string | char | cell
language — Язык Word'en' | 'de' | 'ko'Язык Word в виде одного из следующего:
'en' – Английский язык
'de' – Немецкий язык
'ko' – Корейский язык
Если вы не задаете язык, то программное обеспечение обнаруживает язык автоматически.
Типы данных: char | string
Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.
correctSpelling(documents,'KnownWords',["MathWorks" "MATLAB"]) корректирует написание слов в documents и обрабатывает слова "MathWorks" и "MATLAB" как правильно произнесенные слова по буквам.'KnownWords' — Слова, которые будут обработаны как правильный[] (значение по умолчанию) | массив строк | массив ячеек из символьных векторовСлова, которые будут обработаны как правильный в виде разделенной запятой пары, состоящей из 'KnownWords' и массив строк или массив ячеек из символьных векторов.
Если вы задаете список известных слов, то эти слова остаются неизменными, когда функция корректирует написание. Программное обеспечение может также заменить написанными c ошибкой словами со словами из списка известных слов.
Пример: ["MathWorks" "MATLAB"]
Типы данных: char | string | cell
'ExtensionDictionary' — Файл словаря расширения Hunspell'' (значение по умолчанию) | путь к файлуФайл словаря расширения Hunspell (также известный как персональный файл словаря) в виде разделенной запятой пары, состоящей из 'ExtensionDictionary' и путь к файлу файла словаря расширения Hunspell.
Дополнительным файлом словаря Hunspell является .dic файл, содержащий количество слов в словаре, сопровождаемом списком слов в следующем формате:
word1/affixWord1 word2/affixWord2 ... wordN/affixWordN *forbiddenWord1 *forbiddenWord2 ... *forbiddenWordM
word1, word2, …, wordN список слова должен расширить словарь Hunspell с.
affixWord1, affixWord2, …, affixWordN (дополнительный) указывают на слова в словаре Hunspell та доля аффиксы. Укажите на аффиксы путем конкатенации их к соответствующему слову с наклонной чертой вправо (/). Например, запись exxxtreme/extreme указывает, что присоединяет, которые применяются к слову "extreme" также обратитесь к пользовательскому слову "exxxtreme".
forbiddenWord1, forbiddenWord2, …, forbiddenWordN список запрещенных слов, чтобы использовать для исправления орфографических ошибок. Укажите на запрещенные слова с помощью звездочки (*).
Записи в файле словаря расширения Hunspell могут появиться в любом порядке.
Например, чтобы создать определение файла словаря расширения Hunspell:
Слова "MathWorks"MATLAB, и "exxxtreme".
Аффиксы, которые применяются к слову "extreme" также обратитесь к слову "exxxtreme".
Слово "MATLOB" запрещенное слово.
использование:
MathWorks MATLAB exxxtreme/extreme *MATLOB
Для примера, показывающего, как создать файлы словаря расширения Hunspell, смотрите, Создают Дополнительный Словарь для Исправления орфографических ошибок. Для получения дополнительной информации об опциях файлов словаря Hunspell, см. https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html.
Типы данных: char | string
'Dictionary' — Файл словаря Hunspell'' (значение по умолчанию) | путь к файлуФайл словаря Hunspell в виде разделенной запятой пары, состоящей из 'Dictionary' и путь к файлу файла словаря Hunspell.
Файлом словаря Hunspell является .dic файл, содержащий количество слов в словаре, сопровождаемом списком слов в следующем формате:
N word1/flags1 word2/flags2 ... wordN/flagsN
где N количество слов в файле словаря, word1, word2, …, wordN N слова в словаре и flags1, …, flagsN задайте дополнительные флаги, соответствующие словам word1, word2, …, wordN, соответственно. Используйте флаги, чтобы задать атрибуты слова, например, аффиксы. Чтобы задать файл аффикса Hunspell, используйте 'Affixes' опция.
Например, чтобы создать файл словаря Hunspell, содержащий эти 4 слова "MathWorks"MATLAB, "correctSpelling", и "tokenizedDocument"Использование:
4 MathWorks MATLAB correctSpelling tokenizedDocument
Для получения дополнительной информации об опциях файлов словаря Hunspell, см. https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html.
Типы данных: char | string
'Affixes' — Hunspell присоединяют файл'' (значение по умолчанию) | путь к файлуHunspell присоединяют файл в виде разделенной запятой пары, состоящей из 'Affixes' и путь к файлу Hunspell присоединяет файл.
Файлом аффикса Hunspell является .aff файл, содержащий количество слов в словаре, сопровождаемом списком слов в следующем формате:
option1 values1 option2 values2 ... optionM valuesM
где M число вариантов в файле аффикса, option1, option2, …, optionM M опции и values1, …, valuesN задайте значения, соответствующие опциям option1, option2, …, optionM, соответственно. Используйте эти опции, чтобы задать аффиксы.
Чтобы задать префиксное правило, используйте PFX опция с форматом:
PFX flag crossProduct K PFX flag stripping1 prefix1 condition1 ... PFX flag strippingK prefixK conditionK
flag соответствует флагам, используемым в файле словаря Hunspell.
crossProduct указывает, могут ли префиксы и суффиксы быть смешаны в виде Y или N.
K количество префиксов, заданных для заданного флага.
stripping1, stripping2, …, strippingK укажите на символы, которые будут разделены от слова при применении префикса. Если значением разделения является 0, затем никакое разделение не происходит.
prefix1, prefix2, …, prefixK задайте префиксы, чтобы использовать.
condition1, condition2, …, conditionK задайте дополнительные условия, для которых можно применить префиксы prefix1, prefix2, …, prefixK, соответственно. Для тривиального условия задайте ".".
Чтобы задать суффиксное правило, используйте SFX опция с форматом:
SFX flag crossProduct K SFX flag stripping1 suffix1 condition1 ... SFX flag strippingK suffixK conditionK
suffix1, suffix2, …, suffixK задайте префиксы, чтобы использовать, и флаг, векторное произведение, K, разделение и значения условия совпадают с префиксным форматом.
Создайте файл аффикса Hunspell, задающий следующие правила аффикса:
Отметьте A:
префиксные слова с "re"
Отметьте B:
суффиксные слова, не заканчивающиеся "y" с "ed".
суффиксные слова, заканчивающиеся "y" с "ied", удаление "y".
используйте файл аффикса Hunspell:
PFX A Y 1 PFX A 0 re . SFX B Y 1 SFX B 0 ed [^y] SFX B y ied y
Чтобы использовать эти флаги в файле словаря Hunspell, добавьте соответствующие флаги к словам с помощью "/". Для каждого слова можно задать несколько флагов. Например, чтобы задать файл словаря, содержащий:
Слова "ptest" и "ptry".
Для слова "ptest" только, также включайте префиксный "re" использование флага A.
Для обоих слов также включайте суффиксы "ed" или "ied" где это необходимо, использование флага B
Для получения дополнительной информации об опциях файлов аффикса Hunspell, см. https://manpages.ubuntu.com/manpages/trusty/en/man4/hunspell.4.html.
Типы данных: char | string
'RetokenizeMethod' — Метод, чтобы повторно маркировать документы'split' (значение по умолчанию) | 'none'Метод, чтобы повторно маркировать документы в виде разделенной запятой пары, состоящей из 'RetokenizeMethod' и одно из следующего:
'split' – Правильное написание путем разделения лексем. Например, разделите неправильно записанный маркерный "twowords" в правильно записанные лексемы "two" и "words".
'none' – Не разделяйте лексемы для исправления орфографических ошибок.
updatedDocuments — Откорректированные документыtokenizedDocument массивОткорректированные документы, возвращенные как tokenizedDocument массив. Если 'RetokenizeMethod' опцией является 'split', затем количество слов в каждом обновленном документе может отличаться от соответствующего входного документа.
Если существует несколько кандидатов на откорректированные слова, то функция автоматически выбирает отдельное слово для коррекции.
updatedWords — Откорректированные словаОткорректированные слова, возвращенные как вектор строки. Если 'RetokenizeMethod' опцией является 'split', затем количество обновленных слов может отличаться количество входных слов.
Если существует несколько кандидатов на откорректированные слова, то функция автоматически выбирает отдельное слово для коррекции.
unknownWords — Неизвестные словаНеизвестные слова, возвращенные как вектор строки. Вектор строки unknownWords содержит входные слова, которые не находятся в словаре исправления орфографических ошибок и для которого не найдены никакие предложения.
editDistance | editDistanceSearcher | tokenizedDocument
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.