Преобразуйте документы верхнему регистру
newDocuments = upper(documents)
преобразовывает каждый символ нижнего регистра во входных документах соответствующему символу верхнего регистра и оставляет все другие символы без изменений.newDocuments
= upper(documents
)
decodeHTMLEntities
| erasePunctuation
| eraseTags
| eraseURLs
| lower
| tokenizedDocument