Сотрите HTML-тэги и XML-тэги из текста
newStr = eraseTags(str) стирает комментарии HTML и XML-комментарии и теги от элементов newStr = eraseTags(str)str.
Функция стирает комментарии и теги с именем тега a, abbr, acronym, b, bdi, bdo, big, code, del, dfn, em, font, i, ins, kbd, mark, rp, rt, ruby, s, small, span, strike, strong
sub, sup, tt, u, var и wbr, и заменяет все другие теги на пробел.
Функция не удаляет HTML и элементы XML (теги также ничто между запуском и конечными тэгами). Например, eraseTags("x<a>y</a>") возвращает строку "xy". Это только удаляет теги <a> и </a>, и не удаляет элемент <a>y</a>.
decodeHTMLEntities | erasePunctuation | eraseURLs | lower | tokenizedDocument | upper