Удаление тегов HTML и XML из текста
стирает HTML и XML комментарии и теги из элементов newStr = eraseTags(str)str.
Функция стирает комментарии и теги с именем тега a, abbr, acronym, b, bdi, bdo, big, code, del, dfn, em, font, i, ins, kbd, mark, rp, rt, ruby, s, small, span, strike, strong
sub, sup, tt, u, var и wbrи заменяет все другие марки пробелом.
Функция не удаляет элементы HTML и XML (теги, а также что-либо между начальными и конечными тегами). Например, eraseTags("x<a>y</a>") возвращает строку "xy". Он удаляет только теги <a> и </a>, и не удаляет элемент <a>y</a>.
decodeHTMLEntities | erasePunctuation | eraseURLs | lower | tokenizedDocument | upper