Сотрите HTML-тэги и XML-тэги из текста
стирает комментарии HTML и XML-комментарии и теги от элементов newStr = eraseTags(str)str.
Функция стирает комментарии и теги с именем тега a, abbr, acronymB, bdi, bdo, big, code, del, dfn, emШрифтi, ins, kbd, mark, rprt , rubyS, small, span, strike, strong
sub, sup, ttUvar и wbr, и замены все другие теги с пробелом.
Совет
eraseTags функция стирает HTML-тэги и XML-тэги только. Это не стирает HTML и элементы XML. Таким образом, функция удаляет теги формы <X>, где X обозначает имя тега и любые атрибуты. Функция не удаляет содержимое, которое появляется между открывающими и закрывающими тэгами. Например, eraseTags("x<a>y</a>") возвращает строку "xy". Это только удаляет теги <a> и </a>, и не удаляет элемент <a>y</a>.
decodeHTMLEntities | eraseURLs | erasePunctuation | lower | upper | tokenizedDocument