Замените N-граммы в документах
newDocuments = replaceNgrams(documents,oldNgrams,newNgrams)
обновляет заданные документы, заменяя N-граммы в документах newDocuments
= replaceNgrams(documents
,oldNgrams
,newNgrams
)oldNgrams
с соответствующими N-граммами в newNgrams
.
Используйте функцию replaceNgrams
, чтобы заменить сокращения на их соответствующие расширенные формы.
Создайте массив маркируемых документов.
str = [ ... "Currently in Cambridge, MA." "Next stop, NY!"]; documents = tokenizedDocument(str)
documents = 2x1 tokenizedDocument: 6 tokens: Currently in Cambridge , MA . 5 tokens: Next stop , NY !
Замените лексемы "MA"
и "NY"
с "Massachusetts"
и ["New" "York"]
соответственно. Если N-граммы имеют differnt длины, необходимо заполнить строки пустой строкой ""
. В этом случае необходимо заполнить "Massachusetts"
одной пустой строкой ""
.
oldNgrams = [ "MA" "NY"]; newNgrams = [ "Massachusetts" "" "New" "York"]; documents = replaceNgrams(documents,oldNgrams,newNgrams)
documents = 2x1 tokenizedDocument: 6 tokens: Currently in Cambridge , Massachusetts . 6 tokens: Next stop , New York !
documents
— Введите документыtokenizedDocument
Введите документы, заданные как массив tokenizedDocument
.
oldNgrams
— N-граммы, чтобы заменитьN-граммы, чтобы заменить, заданный как массив строк, вектор символов или массив ячеек из символьных векторов.
Если oldNgrams
является массивом строк или массивом ячеек, то это имеет размер NumNgrams
-by-maxN
, где NumNgrams
является количеством N-грамм, и maxN
является длиной самой большой n-граммы. Если oldNgrams
является вектором символов, то он представляет отдельное слово (униграмма).
Значением oldNgrams(i,j)
является j
th слово i
th n-грамма. Если количество слов в i
th n-грамма является меньше, чем maxN
, то остающиеся записи i
th строка oldNgrams
должны быть дополнены пустой строкой ""
.
Например, чтобы задать и униграмму "Massachusetts"
и биграмма ["New" "York"]
, задают массив строк 2 на 2 ["Massachusetts" ""; "New" "York"]
, где "Massachusetts"
дополнен одной пустой строкой ""
.
Типы данных: string | char | cell
newNgrams
— Новые N-граммыНовые N-граммы, заданные как массив строк, вектор символов или массив ячеек из символьных векторов.
Если newNgrams
является массивом строк или массивом ячеек, то это имеет размер NumNgrams
-by-maxN
, где NumNgrams
является количеством N-грамм, и maxN
является длиной самой большой n-граммы. Если newNgrams
является вектором символов, то он представляет отдельное слово (униграмма).
Значением newNgrams(i,j)
является j
th слово i
th n-грамма. Если количество слов в i
th n-грамма является меньше, чем maxN
, то остающиеся записи i
th строка newNgrams
пусты.
newNgrams
должен поссориться, или одинаковое число строк как oldNgrams
.
Например, чтобы задать и униграмму "Massachusetts"
и биграмма ["New" "York"]
, задают массив строк 2 на 2 ["Massachusetts" ""; "New" "York"]
, где "Massachusetts"
дополнен одной пустой строкой ""
.
Типы данных: string | char | cell
newDocuments
— Выведите документыtokenizedDocument
Выведите документы, возвращенные как массив tokenizedDocument
.
decodeHTMLEntities
| normalizeWords
| removeWords
| replaceWords
| tokenizedDocument
Вы щелкнули по ссылке, которая соответствует команде MATLAB:
Выполните эту команду, введя её в командном окне MATLAB.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.