Сотрите HTML-тэги и XML-тэги из текста
newStr = eraseTags(str)
стирает комментарии HTML и XML-комментарии и теги от элементов newStr
= eraseTags(str
)str
.
Функция стирает комментарии и теги с именем тега a
, abbr
, acronym
, b
, bdi
, bdo
, big
, code
, del
, dfn
, em
, font
, i
, ins
, kbd
, mark
, rp
, rt
, ruby
, s
, small
, span
, strike
, strong
sub
, sup
, tt
, u
, var
и wbr
, и заменяет все другие теги на пробел.
Функция не удаляет HTML и элементы XML (теги также ничто между запуском и конечными тэгами). Например, eraseTags("x<a>y</a>")
возвращает строку "xy"
. Это только удаляет теги <a>
и </a>
, и не удаляет элемент <a>y</a>
.
decodeHTMLEntities
| erasePunctuation
| eraseURLs
| lower
| tokenizedDocument
| upper