Сотрите HTML-тэги и XML-тэги из текста
стирает комментарии HTML и XML-комментарии и теги от элементов newStr
= eraseTags(str
)str
.
Функция стирает комментарии и теги с именем тега a
, abbr
, acronym
B
, bdi
, bdo
, big
, code
, del
, dfn
, em
Шрифт
i
, ins
, kbd
, mark
, rp
rt
, ruby
S
, small
, span
, strike
, strong
sub
, sup
, tt
U
var
и wbr
, и замены все другие теги с пробелом.
Функция не удаляет HTML и элементы XML (теги также ничто между тегами начала и конца). Например, eraseTags("x<a>y</a>")
возвращает строку "xy"
. Это только удаляет теги <a>
и </a>
, и не удаляет элемент <a>y</a>
.
decodeHTMLEntities
| erasePunctuation
| eraseURLs
| lower
| tokenizedDocument
| upper