Сотрите пунктуацию из текста и документов
newStr = erasePunctuation(str)newDocuments = erasePunctuation(documents)newDocuments = erasePunctuation(documents,'TokenTypes',types) стирает пунктуацию и символы от newDocuments = erasePunctuation(documents)documents. Если слово пусто после удаления пунктуации и символов символа, то функция удаляет его. Для маркируемого входа документа функция стирает пунктуацию из лексем с типом 'punctuation' и 'other'. Например, функция не стирает пунктуацию и символы символа от URL и адресов электронной почты.
стирает пунктуацию и символы только от заданных типов маркера.newDocuments = erasePunctuation(documents,'TokenTypes',types)
Для входа строки erasePunctuation удаляет символы пунктуации из URL и HTML-тэгов. Это поведение может предотвратить функции eraseTags, eraseURLs и decodeHTMLEntities от работы как ожидалось. Если вы хотите использовать эти функции, чтобы предварительно обработать ваш текст, то используйте эти функции перед использованием erasePunctuation.
[1] Категории символа Unicode. https://www.fileformat.info/info/unicode/category/index.htm
decodeHTMLEntities | eraseTags | eraseURLs | lower | tokenizedDocument | upper