Сотрите пунктуацию из текста и документов
стирает пунктуацию и символы от newDocuments
= erasePunctuation(documents
)documents
. Если слово пусто после удаления пунктуации и символов символа, то функция удаляет его. Для маркируемого входа документа функция стирает пунктуацию из лексем с типом 'punctuation'
и 'other'
. Например, функция не стирает пунктуацию и символы символа от URL и адресов электронной почты.
стирает пунктуацию и символы только от заданных типов маркера.newDocuments
= erasePunctuation(documents
,'TokenTypes',types
)
Для входа строки, erasePunctuation
удаляет символы пунктуации из URL и HTML-тэгов. Это поведение может предотвратить функции eraseTags
, eraseURLs
, и decodeHTMLEntities
от работы как ожидалось. Если вы хотите использовать эти функции, чтобы предварительно обработать ваш текст, то используйте эти функции перед использованием erasePunctuation
.
[1] Категории Символа Unicode. https://www.fileformat.info/info/unicode/category/index.htm
decodeHTMLEntities
| eraseTags
| eraseURLs
| lower
| tokenizedDocument
| upper