Сотрите HTML-тэги и XML-тэги из текста
стирает комментарии HTML и XML-комментарии и теги от элементов newStr = eraseTags(str)str.
Функция стирает комментарии и теги с именем тега a, abbr, acronymB, bdi, bdo, big, code, del, dfn, emШрифтi, ins, kbd, mark, rprt , rubyS, small, span, strike, strong
sub, sup, ttUvar и wbr, и замены все другие теги с пробелом.
Функция не удаляет HTML и элементы XML (теги также ничто между тегами начала и конца). Например, eraseTags("x<a>y</a>") возвращает строку "xy". Это только удаляет теги <a> и </a>, и не удаляет элемент <a>y</a>.
decodeHTMLEntities | erasePunctuation | eraseURLs | lower | tokenizedDocument | upper