erasePunctuation

Сотрите пунктуацию из текста и документов

Синтаксис

newStr = erasePunctuation(str)

newDocuments = erasePunctuation(documents)

newDocuments = erasePunctuation(documents,'TokenTypes',types)

Описание

newStr = erasePunctuation(str) стирает пунктуацию и символы от элементов str. Функция удаляет символы, которые принадлежат пунктуации Unicode или классам символа.

пример

newDocuments = erasePunctuation(documents) стирает пунктуацию и символы от documents. Если слово пусто после удаления пунктуации и символов символа, то функция удаляет его. Для маркируемого входа документа функция стирает пунктуацию из лексем с типом 'punctuation' и 'other'. Например, функция не стирает пунктуацию и символы символа от URL и адресов электронной почты.

пример

newDocuments = erasePunctuation(documents,'TokenTypes',types) стирает пунктуацию и символы только от заданных типов маркера.

Примеры

свернуть все

Сотрите пунктуацию из текста

Скрипт Open Live Script

Сотрите пунктуацию из текста в str.

str = "it's one and/or two.";
newStr = erasePunctuation(str)

newStr = 
"its one andor two"

Вставлять пробел где "/" символ, сначала используйте replace функция.

newStr = replace(str,"/"," ")

newStr = 
"it's one and or two."

newStr = erasePunctuation(newStr)

newStr = 
"its one and or two"

Сотрите пунктуацию из документов

Скрипт Open Live Script

Сотрите пунктуацию из массива документов.

documents = tokenizedDocument([ ...
    "An example of a short sentence." 
    "Another example... with a URL: https://www.mathworks.com"])

documents = 
  2x1 tokenizedDocument:

     7 tokens: An example of a short sentence .
    10 tokens: Another example . . . with a URL : https://www.mathworks.com

newDocuments = erasePunctuation(documents)

newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: An example of a short sentence
    6 tokens: Another example with a URL https://www.mathworks.com

Здесь, функция не стирает символы пунктуации из URL.

Входные параметры

свернуть все

`str` — Введите текст
массив строк | вектор символов | массив ячеек из символьных векторов

Введите текст, заданный как массив строк, вектор символов или массив ячеек из символьных векторов.

Пример: ["An example of a short sentence."; "A second short sentence."]

Типы данных: string | char | cell

`documents` — Введите документы
`tokenizedDocument` массив

Введите документы, заданные как tokenizedDocument массив.

`types` — Типы маркера, чтобы стереть пунктуацию из
`{'punctuation','other'}` (значение по умолчанию) | массив строк | вектор символов | массив ячеек из символьных векторов

Типы маркера, чтобы стереть пунктуацию из, заданный как вектор символов, массив строк или массив ячеек из символьных векторов, содержащий один или несколько типов маркера (включая пользовательские типы маркера).

tokenizedDocument и addTypeDetails функции автоматически обнаруживают следующие типы маркера:

'letters' – строка символов буквы только
'digits' – строка цифр только
'punctuation' – строка пунктуации и символов символа только
'email-address' – обнаруженный адрес электронной почты
'web-address' – обнаруженный веб-адрес
'hashtag' – обнаруженный хэш-тег (запускается с "#" символ, сопровождаемый буквой)
'at-mention' – обнаруженный в упоминании (запускается с "@" символ
'emoticon' – обнаруженный эмотикон
'emoji' – обнаруженный эмодзи
'other' – не принадлежит предыдущим типам и не пользовательский тип

Чтобы задать ваши собственные типы маркера при маркировании, используйте 'CustomTokens' или 'RegularExpressions' опции в tokenizedDocument. Если вы не задаете тип для пользовательской лексемы, то программное обеспечение устанавливает соответствующий тип маркера на 'custom'.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

`newStr` — Синтезируемый текст
массив строк | вектор символов | массив ячеек из символьных векторов

Синтезируемый текст, возвращенный как массив строк, вектор символов или массив ячеек из символьных векторов. str и newStr имейте совпадающий тип данных.

`newDocuments` — Выведите документы
`tokenizedDocument` массив

Выведите документы, возвращенные как tokenizedDocument массив.

Больше о

свернуть все

Категории символа Unicode

Каждый символ Unicode присвоен категория. Следующая таблица обобщает пунктуацию Unicode и категории символа и обеспечивает символ в качестве примера от каждой категории:

Категория	Код категории	Количество символов	Символ в качестве примера
Пунктуация, коннектор	[PC]	10	_
Пунктуация, тире	[Фунт]	24	-
Пунктуация, закрыться	[Pe]	73	)
Пунктуация, Итоговая кавычка	[Pf]	10	”
Пунктуация, Начальная кавычка	\Pi	12	“
Пунктуация, другой	[По]	566	!
Пунктуация, открытая	[Ps]	75	(
Символ, валюта	[Кв/см]	54	$
Символ, модификатор	[Sk]	121	^
Символ, математика	[См]	948	+
Символ, другой	[Так]	5855	¦

Для получения дополнительной информации см. [1].

Советы

Для входа строки, erasePunctuation удаляет символы пунктуации из URL и HTML-тэгов. Это поведение может предотвратить функции eraseTags, eraseURLs, и decodeHTMLEntities от работы как ожидалось. Если вы хотите использовать эти функции, чтобы предварительно обработать ваш текст, то используйте эти функции перед использованием erasePunctuation.

Вопросы совместимости

развернуть все