Удалите пунктуацию из текста и документов
стирает пунктуацию и символы из newDocuments
= erasePunctuation(documents
)documents
. Если слово пусто после удаления пунктуации и символов символа, то функция удаляет его. Для токенизированных входов документа функция стирает пунктуацию из лексем с типом 'punctuation'
и 'other'
. Например, функция не стирает символы пунктуации и символы из URL-адресов и адресов электронной почты.
стирает пунктуацию и символы только из заданных типов лексем.newDocuments
= erasePunctuation(documents
,'TokenTypes',types
)
Для строкового входа, erasePunctuation
удаляет символы пунктуации из URL-адресов и HTML. Это поведение может предотвратить функции eraseTags
, eraseURLs
, и decodeHTMLEntities
от работы как ожидалось. Если вы хотите использовать эти функции для предварительной обработки текста, используйте эти функции перед использованием erasePunctuation
.
[1] Категории символов Юникод. https://www.fileformat.info/info/unicode/category/index.htm
decodeHTMLEntities
| eraseTags
| eraseURLs
| lower
| tokenizedDocument
| upper