Стереть HTML и XML теги из текста
стирает HTML и XML комментарии и теги из элементов newStr
= eraseTags(str
)str
.
Функция стирает комментарии и теги с именем тега a
, abbr
, acronym
, b
, bdi
, bdo
, big
, code
, del
, dfn
, em
, font
, i
, ins
, kbd
, mark
, rp
, rt
, ruby
, s
, small
, span
, strike
, strong
sub
, sup
, tt
, u
, var
и wbr
, и заменяет все другие теги на пространство.
Функция не удаляет HTML и XML элементы (теги также что-либо между начальным и конечным тегами). Для примера, eraseTags("x<a>y</a>")
возвращает строку "xy"
. Он удаляет только теги <a>
и </a>
, и не удаляет элемент <a>y</a>
.
decodeHTMLEntities
| erasePunctuation
| eraseURLs
| lower
| tokenizedDocument
| upper