erasePunctuation

Сотрите пунктуацию из текста и документов

Описание

пример

newStr = erasePunctuation(str) стирает пунктуацию и символы от элементов str. Функция удаляет символы, которые принадлежат пунктуации Unicode или классам символа.

пример

newDocuments = erasePunctuation(documents) стирает пунктуацию и символы от documents. Если слово пусто после удаления пунктуации и символов символа, то функция удаляет его. Для маркируемого входа документа функция стирает пунктуацию из лексем с типом 'punctuation' и 'other'. Например, функция не стирает пунктуацию и символы символа от URL и адресов электронной почты.

пример

newDocuments = erasePunctuation(documents,'TokenTypes',types) стирает пунктуацию и символы только от заданных типов маркера.

Примеры

свернуть все

Сотрите пунктуацию из текста в str.

str = "it's one and/or two.";
newStr = erasePunctuation(str)
newStr = 
"its one andor two"

Вставлять пробел где "/" символ, сначала используйте replace функция.

newStr = replace(str,"/"," ")
newStr = 
"it's one and or two."
newStr = erasePunctuation(newStr)
newStr = 
"its one and or two"

Сотрите пунктуацию из массива документов.

documents = tokenizedDocument([ ...
    "An example of a short sentence." 
    "Another example... with a URL: https://www.mathworks.com"])
documents = 
  2x1 tokenizedDocument:

     7 tokens: An example of a short sentence .
    10 tokens: Another example . . . with a URL : https://www.mathworks.com

newDocuments = erasePunctuation(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: An example of a short sentence
    6 tokens: Another example with a URL https://www.mathworks.com

Здесь, функция не стирает символы пунктуации из URL.

Входные параметры

свернуть все

Введите текст, заданный как массив строк, вектор символов или массив ячеек из символьных векторов.

Пример: ["An example of a short sentence."; "A second short sentence."]

Типы данных: string | char | cell

Введите документы, заданные как tokenizedDocument массив.

Типы маркера, чтобы стереть пунктуацию из, заданный как вектор символов, массив строк или массив ячеек из символьных векторов, содержащий один или несколько типов маркера (включая пользовательские типы маркера).

tokenizedDocument и addTypeDetails функции автоматически обнаруживают следующие типы маркера:

  • 'letters' – строка символов буквы только

  • 'digits' – строка цифр только

  • 'punctuation' – строка пунктуации и символов символа только

  • 'email-address' – обнаруженный адрес электронной почты

  • 'web-address' – обнаруженный веб-адрес

  • 'hashtag' – обнаруженный хэш-тег (запускается с "#" символ, сопровождаемый буквой)

  • 'at-mention' – обнаруженный в упоминании (запускается с "@" символ

  • 'emoticon' – обнаруженный эмотикон

  • 'emoji' – обнаруженный эмодзи

  • 'other' – не принадлежит предыдущим типам и не пользовательский тип

Чтобы задать ваши собственные типы маркера при маркировании, используйте 'CustomTokens' или 'RegularExpressions' опции в tokenizedDocument. Если вы не задаете тип для пользовательской лексемы, то программное обеспечение устанавливает соответствующий тип маркера на 'custom'.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

Синтезируемый текст, возвращенный как массив строк, вектор символов или массив ячеек из символьных векторов. str и newStr имейте совпадающий тип данных.

Выведите документы, возвращенные как tokenizedDocument массив.

Больше о

свернуть все

Категории символа Unicode

Каждый символ Unicode присвоен категория. Следующая таблица обобщает пунктуацию Unicode и категории символа и обеспечивает символ в качестве примера от каждой категории:

КатегорияКод категорииКоличество символовСимвол в качестве примера
Пунктуация, коннектор[PC]10_
Пунктуация, тире[Фунт]24-
Пунктуация, закрыться[Pe]73)
Пунктуация, Итоговая кавычка[Pf]10
Пунктуация, Начальная кавычка\Pi12
Пунктуация, другой[По]566!
Пунктуация, открытая[Ps]75(
Символ, валюта[Кв/см]54$
Символ, модификатор[Sk]121^
Символ, математика[См]948+
Символ, другой[Так]5855¦

Для получения дополнительной информации см. [1].

Советы

  • Для входа строки, erasePunctuation удаляет символы пунктуации из URL и HTML-тэгов. Это поведение может предотвратить функции eraseTags, eraseURLs, и decodeHTMLEntities от работы как ожидалось. Если вы хотите использовать эти функции, чтобы предварительно обработать ваш текст, то используйте эти функции перед использованием erasePunctuation.

Вопросы совместимости

развернуть все

Поведение изменяется в R2018b

Ссылки

[1] Категории Символа Unicode. https://www.fileformat.info/info/unicode/category/index.htm

Введенный в R2017b