erasePunctuation

Сотрите пунктуацию из текста и документов

Описание

пример

newStr = erasePunctuation(str) стирает пунктуацию и символы от элементов str. Функция удаляет символы, которые принадлежат пунктуации Unicode или классам символа.

пример

newDocuments = erasePunctuation(documents) стирает пунктуацию и символы от documents. Если слово пусто после удаления пунктуации и символов символа, то функция удаляет его. Для маркируемого входа документа функция стирает пунктуацию из лексем с типом 'punctuation' и 'other'. Например, функция не стирает пунктуацию и символы символа от URL и адресов электронной почты.

пример

newDocuments = erasePunctuation(documents,'TokenTypes',types) стирает пунктуацию и символы только от заданных типов маркера.

Примеры

свернуть все

Сотрите пунктуацию из текста в str.

str = "it's one and/or two.";
newStr = erasePunctuation(str)
newStr = 
"its one andor two"

Вставлять пробел где "/" символ, сначала используйте replace функция.

newStr = replace(str,"/"," ")
newStr = 
"it's one and or two."
newStr = erasePunctuation(newStr)
newStr = 
"its one and or two"

Сотрите пунктуацию из массива документов.

documents = tokenizedDocument([ ...
    "An example of a short sentence." 
    "Another example... with a URL: https://www.mathworks.com"])
documents = 
  2x1 tokenizedDocument:

     7 tokens: An example of a short sentence .
    10 tokens: Another example . . . with a URL : https://www.mathworks.com

newDocuments = erasePunctuation(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: An example of a short sentence
    6 tokens: Another example with a URL https://www.mathworks.com

Здесь, функция не стирает символы пунктуации из URL.

Входные параметры

свернуть все

Введите текст в виде массива строк, вектора символов или массива ячеек из символьных векторов.

Пример: ["An example of a short sentence."; "A second short sentence."]

Типы данных: string | char | cell

Введите документы в виде tokenizedDocument массив.

Типы маркера, чтобы стереть пунктуацию из в виде вектора символов, массива строк или массива ячеек из символьных векторов, содержащего один или несколько типов маркера (включая пользовательские типы маркера).

tokenizedDocument и addTypeDetails функции автоматически обнаруживают следующие типы маркера:

  • 'letters' – строка символов буквы только

  • 'digits' – строка цифр только

  • 'punctuation' – строка пунктуации и символов символа только

  • 'email-address' – обнаруженный адрес электронной почты

  • 'web-address' – обнаруженный веб-адрес

  • 'hashtag' – обнаруженный хэш-тег (запускается с "#" символ, сопровождаемый буквой)

  • 'at-mention' – обнаруженный в упоминании (запускается с "@" символ

  • 'emoticon' – обнаруженный эмотикон

  • 'emoji' – обнаруженный эмодзи

  • 'other' – не принадлежит предыдущим типам и не пользовательский тип

Чтобы задать ваши собственные типы маркера при маркировании, используйте 'CustomTokens' или 'RegularExpressions' опции в tokenizedDocument. Если вы не задаете тип для пользовательской лексемы, то программное обеспечение устанавливает соответствующий тип маркера на 'custom'.

Типы данных: string | char | cell

Выходные аргументы

свернуть все

Синтезируемый текст, возвращенный как массив строк, вектор символов или массив ячеек из символьных векторов. str и newStr имейте совпадающий тип данных.

Выведите документы, возвращенные как tokenizedDocument массив.

Больше о

свернуть все

Категории символа Unicode

Каждый символ Unicode присвоен категория. Следующая таблица обобщает пунктуацию Unicode и категории символа и обеспечивает символ в качестве примера от каждой категории:

КатегорияКод категорииКоличество символовСимвол в качестве примера
Пунктуация, коннектор[PC]10_
Пунктуация, тире[Фунт]24-
Пунктуация, закрыться[Pe]73)
Пунктуация, Итоговая кавычка[Pf]10
Пунктуация, Начальная кавычка\Pi12
Пунктуация, другой[По]566!
Пунктуация, открытая[Ps]75(
Символ, валюта[Кв/см]54$
Символ, модификатор[Sk]121^
Символ, математика[См]948+
Символ, другой[Так]5855¦

Для получения дополнительной информации см. [1].

Советы

  • Для входа строки, erasePunctuation удаляет символы пунктуации из URL и HTML-тэгов. Это поведение может предотвратить функции eraseTags, eraseURLs, и decodeHTMLEntities от работы как ожидалось. Если вы хотите использовать эти функции, чтобы предварительно обработать ваш текст, то используйте эти функции перед использованием erasePunctuation.

Вопросы совместимости

развернуть все

Поведение изменяется в R2018b

Ссылки

[1] Категории Символа Unicode. https://www.fileformat.info/info/unicode/category/index.htm

Введенный в R2017b