newBag = removeInfrequentWords(bag,count) удаляет слова, которые появляются в большей части count времена всего из модели bag сумки слов. Функция, по умолчанию, является чувствительной к регистру.
newBag = removeInfrequentWords(bag,count,'IgnoreCase',true) удаляет слова, которые появляются в большей части count времена в общем игнорирующем регистре. Если слова отличаются только случаем, то соответствующие количества объединены.
Удалите слова, которые появляются два раза или меньше из модели сумки слов.
Создайте модель сумки слов из массива маркируемых документов.
documents = tokenizedDocument([
"an example of a short sentence""a second short sentence""another example""a short example"]);
bag = bagOfWords(documents)
bag =
bagOfWords with properties:
Counts: [4x8 double]
Vocabulary: [1x8 string]
NumWords: 8
NumDocuments: 4
Удалите слова, которые появляются два раза или меньше из модели сумки слов.
1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.
2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.
3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.
4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.
5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.