Удаление знаков препинания из текста и документов
стирает знаки препинания и символы из newDocuments = erasePunctuation(documents)documents. Если слово пусто после удаления знаков препинания и символов, функция удаляет его. Для ввода маркированного документа функция удаляет знаки препинания из маркеров с типом 'punctuation' и 'other'. Например, функция не удаляет знаки препинания и символы из URL-адресов и адресов электронной почты.
удаляет знаки препинания и символы только из указанных типов маркеров.newDocuments = erasePunctuation(documents,'TokenTypes',types)
Для ввода строки, erasePunctuation удаляет знаки препинания из URL-адресов и HTML-тегов. Такое поведение может препятствовать выполнению функций eraseTags, eraseURLs, и decodeHTMLEntities от работы, как и ожидалось. Если необходимо использовать эти функции для предварительной обработки текста, используйте эти функции перед использованием erasePunctuation.
[1] Категории символов Юникода. https://www.fileformat.info/info/unicode/category/index.htm
decodeHTMLEntities | eraseTags | eraseURLs | lower | tokenizedDocument | upper