Замените N-граммы в документах
обновляет заданные документы, заменяя N-граммы в newDocuments
= replaceNgrams(documents
,oldNgrams
,newNgrams
)oldNgrams
документы с соответствующими N-граммами в newNgrams
.
Используйте replaceNgrams
функционируйте, чтобы заменить сокращения на их соответствующие расширенные формы.
Создайте массив маркируемых документов.
str = [ ... "Currently in Cambridge, MA." "Next stop, NY!"]; documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 6 tokens: Currently in Cambridge , MA . 5 tokens: Next stop , NY !
Замените лексемы "MA"
и "NY"
с "Massachusetts"
и ["New" "York"]
соответственно. Если N-граммы имеют differnt длины, необходимо заполнить строки пустой строкой ""
. В этом случае необходимо заполнить "Massachusetts"
с одной пустой строкой ""
.
oldNgrams = [ "MA" "NY"]; newNgrams = [ "Massachusetts" "" "New" "York"]; documents = replaceNgrams(documents,oldNgrams,newNgrams)
documents = 2x1 tokenizedDocument: 6 tokens: Currently in Cambridge , Massachusetts . 6 tokens: Next stop , New York !
documents
— Введите документыtokenizedDocument
массивВведите документы, заданные как tokenizedDocument
массив.
oldNgrams
— N-граммы, чтобы заменитьN-граммы, чтобы заменить, заданный как массив строк, вектор символов или массив ячеек из символьных векторов.
Если oldNgrams
массив строк или массив ячеек, затем он имеет размер NumNgrams
- maxN
, где NumNgrams
количество N-грамм и maxN
длина самой большой n-граммы. Если oldNgrams
вектор символов, затем он представляет отдельное слово (униграмма).
Значение oldNgrams(i,j)
j
слово th i
n-грамма th. Если количество слов в i
n-грамма th меньше maxN
, затем остающиеся записи i
строка th oldNgrams
должен быть дополнен пустой строкой ""
.
Например, чтобы задать обоих униграмма "Massachusetts"
, и биграмма ["New" "York"]
, задайте массив строк 2 на 2 ["Massachusetts" ""; "New" "York"]
, где "Massachusetts"
дополнен одной пустой строкой ""
.
Типы данных: string
| char
| cell
newNgrams
— Новые N-граммыНовые N-граммы, заданные как массив строк, вектор символов или массив ячеек из символьных векторов.
Если newNgrams
массив строк или массив ячеек, затем он имеет размер NumNgrams
- maxN
, где NumNgrams
количество N-грамм и maxN
длина самой большой n-граммы. Если newNgrams
вектор символов, затем он представляет отдельное слово (униграмма).
Значение newNgrams(i,j)
j
слово th i
n-грамма th. Если количество слов в i
n-грамма th меньше maxN
, затем остающиеся записи i
строка th newNgrams
пусты.
newNgrams
должен поссориться, или одинаковое число строк как oldNgrams
.
Например, чтобы задать обоих униграмма "Massachusetts"
, и биграмма ["New" "York"]
, задайте массив строк 2 на 2 ["Massachusetts" ""; "New" "York"]
, где "Massachusetts"
дополнен одной пустой строкой ""
.
Типы данных: string
| char
| cell
newDocuments
— Выведите документыtokenizedDocument
массивВыведите документы, возвращенные как tokenizedDocument
массив.
decodeHTMLEntities
| normalizeWords
| removeWords
| replaceWords
| tokenizedDocument
У вас есть модифицированная версия этого примера. Вы хотите открыть этот пример со своими редактированиями?
Вы щелкнули по ссылке, которая соответствует команде MATLAB:
Выполните эту команду, введя её в командном окне MATLAB.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.