erasePunctuation

Сотрите пунктуацию из текста и документов

Синтаксис

newStr = erasePunctuation(str)

newDocuments = erasePunctuation(documents)

newDocuments = erasePunctuation(documents,'TokenTypes',types)

Описание

newStr = erasePunctuation(str) стирает пунктуацию и символы от элементов str. Функция удаляет символы, которые принадлежат пунктуации Unicode или классам символа.

пример

newDocuments = erasePunctuation(documents) стирает пунктуацию и символы от documents. Если слово пусто после удаления пунктуации и символов символа, то функция удаляет его. Для маркируемого входа документа функция стирает пунктуацию из лексем с типом 'punctuation' и 'other'. Например, функция не стирает пунктуацию и символы символа от URL и адресов электронной почты.

пример

newDocuments = erasePunctuation(documents,'TokenTypes',types) стирает пунктуацию и символы только от заданных типов маркера.

Примеры

свернуть все

Сотрите пунктуацию из текста

Скрипт Open Live Script

Сотрите пунктуацию из текста в str.

str = "it's one and/or two.";
newStr = erasePunctuation(str)

newStr = 
"its one andor two"

Вставлять пробел где "/" символ, сначала используйте replace функция.

newStr = replace(str,"/"," ")

newStr = 
"it's one and or two."

newStr = erasePunctuation(newStr)

newStr = 
"its one and or two"

Сотрите пунктуацию из документов

Скрипт Open Live Script

Сотрите пунктуацию из массива документов.

documents = tokenizedDocument([ ...
    "An example of a short sentence." 
    "Another example... with a URL: https://www.mathworks.com"])

documents = 
  2x1 tokenizedDocument:

     7 tokens: An example of a short sentence .
    10 tokens: Another example . . . with a URL : https://www.mathworks.com

newDocuments = erasePunctuation(documents)

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: An example of a short sentence
    6 tokens: Another example with a URL https://www.mathworks.com

Здесь, функция не стирает символы пунктуации из URL.

Входные параметры

свернуть все

`str` — Введите текст
массив строк | вектор символов | массив ячеек из символьных векторов

Введите текст в виде массива строк, вектора символов или массива ячеек из символьных векторов.

Пример: ["An example of a short sentence."; "A second short sentence."]

Типы данных: string | char | cell

`documents` — Введите документы
`tokenizedDocument` массив

Введите документы в виде tokenizedDocument массив.

`types` — Типы маркера, чтобы стереть пунктуацию из
`{'punctuation','other'}` (значение по умолчанию) | массив строк | вектор символов | массив ячеек из символьных векторов

Типы маркера, чтобы стереть пунктуацию из в виде вектора символов, массива строк или массива ячеек из символьных векторов, содержащего один или несколько типов маркера (включая пользовательские типы маркера).

tokenizedDocument и addTypeDetails функции автоматически обнаруживают следующие типы маркера:

'letters' – строка символов буквы только
'digits' – строка цифр только
'punctuation' – строка пунктуации и символов символа только
'email-address' – обнаруженный адрес электронной почты
'web-address' – обнаруженный веб-адрес
'hashtag' – обнаруженный хэш-тег (запускается с "#" символ, сопровождаемый буквой)
'at-mention' – обнаруженный в упоминании (запускается с "@" символ
'emoticon' – обнаруженный эмотикон
'emoji' – обнаруженный эмодзи
'other' – не принадлежит предыдущим типам и не пользовательский тип

Чтобы задать ваши собственные типы маркера при маркировании, используйте 'CustomTokens' или 'RegularExpressions' опции в tokenizedDocument. Если вы не задаете тип для пользовательской лексемы, то программное обеспечение устанавливает соответствующий тип маркера на 'custom'.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

`newStr` — Синтезируемый текст
массив строк | вектор символов | массив ячеек из символьных векторов

Синтезируемый текст, возвращенный как массив строк, вектор символов или массив ячеек из символьных векторов. str и newStr имейте совпадающий тип данных.

`newDocuments` — Выведите документы
`tokenizedDocument` массив

Выведите документы, возвращенные как tokenizedDocument массив.

Больше о

свернуть все

Категории символа Unicode

Каждый символ Unicode присвоен категория. Следующая таблица обобщает пунктуацию Unicode и категории символа и обеспечивает символ в качестве примера от каждой категории:

Категория	Код категории	Количество символов	Символ в качестве примера
Пунктуация, коннектор	[PC]	10	_
Пунктуация, тире	[Pd]	24	-
Пунктуация, закрыться	[Pe]	73	)
Пунктуация, Итоговая кавычка	[Pf]	10	”
Пунктуация, Начальная кавычка	\Pi	12	“
Пунктуация, другой	[По]	566	!
Пунктуация, открытая	[Ps]	75	(
Символ, валюта	[Кв/см]	54	$
Символ, модификатор	[Sk]	121	^
Символ, математика	[См]	948	+
Символ, другой	[Так]	5855	¦

Для получения дополнительной информации см. [1].

Советы

Для входа строки, erasePunctuation удаляет символы пунктуации из URL и HTML-тэгов. Это поведение может предотвратить функции eraseTags, eraseURLs, и decodeHTMLEntities от работы как ожидалось. Если вы хотите использовать эти функции, чтобы предварительно обработать ваш текст, то используйте эти функции перед использованием erasePunctuation.

Вопросы совместимости

развернуть все