Удалите пунктуацию из текста и документов
стирает пунктуацию и символы из newDocuments = erasePunctuation(documents)documents. Если слово пусто после удаления пунктуации и символов символа, то функция удаляет его. Для токенизированных входов документа функция стирает пунктуацию из лексем с типом 'punctuation' и 'other'. Например, функция не стирает символы пунктуации и символы из URL-адресов и адресов электронной почты.
стирает пунктуацию и символы только из заданных типов лексем.newDocuments = erasePunctuation(documents,'TokenTypes',types)
Для строкового входа, erasePunctuation удаляет символы пунктуации из URL-адресов и HTML. Это поведение может предотвратить функции eraseTags, eraseURLs, и decodeHTMLEntities от работы как ожидалось. Если вы хотите использовать эти функции для предварительной обработки текста, используйте эти функции перед использованием erasePunctuation.
[1] Категории символов Юникод. https://www.fileformat.info/info/unicode/category/index.htm
decodeHTMLEntities | eraseTags | eraseURLs | lower | tokenizedDocument | upper