Создайте простую функцию предварительной обработки

Попробовать в MATLAB

В этом примере показано, как создать функцию, которая очищает и предварительно обрабатывает текстовые данные для анализа.

Текстовые данные могут быть большими и могут содержать много шума, который отрицательно влияет на статистический анализ. Для примера текстовые данные могут содержать следующее:

Изменения в случае, например, «new» и «New»
Изменения в словоформах, например «прогулка» и «ходьба»
Слова, которые добавляют шум, например «стоповые слова», такие как «the» и «of»
Пунктуация и специальные символы
Теги HTML и XML

Эти облака слов иллюстрируют анализ частоты слов, применяемый к некоторым необработанным текстовым данным из отчетов о погоде, и предварительно обработанную версию тех же текстовых данных.

Может быть полезно создать функцию предварительной обработки, чтобы можно было одинаково подготовить различные наборы текстовых данных. Для примера при обучении модели можно использовать функцию, чтобы можно было предварительно обработать новые данные с помощью тех же шагов, что и обучающие данные.

Функция preprocessTextData, перечисленный в конце примера, выполняет следующие шаги:

Токенизация текста с помощью tokenizedDocument.
Лемматизируйте слова, используя normalizeWords.
Удалите пунктуацию с помощью erasePunctuation.
Удалите список стоповых слов (таких как «and», «of», и «the») с помощью removeStopWords.
Удалите слова с 2 или меньшим количеством символов, используя removeShortWords.
Удалите слова с 15 или более символами, используя removeLongWords.

Чтобы использовать функцию, просто введите свои текстовые данные в preprocessTextData.

textData = [
    "A large tree is downed and blocking traffic outside Apple Hill."
    "There is lots of damage to many car windshields in the parking lot."];
documents = preprocessTextData(textData)

documents = 
  2x1 tokenizedDocument:

    8 tokens: large tree down block traffic outside apple hill
    7 tokens: lot damage many car windshield parking lot

Функция предварительной обработки

function documents = preprocessTextData(textData)

% Tokenize the text.
documents = tokenizedDocument(textData);

% Lemmatize the words. To improve lemmatization, first use 
% addPartOfSpeechDetails.
documents = addPartOfSpeechDetails(documents);
documents = normalizeWords(documents,'Style','lemma');

% Erase punctuation.
documents = erasePunctuation(documents);

% Remove a list of stop words.
documents = removeStopWords(documents);

% Remove words with 2 or fewer characters, and words with 15 or more
% characters.
documents = removeShortWords(documents,2);
documents = removeLongWords(documents,15);

end

Пример, показывающий более подробный рабочий процесс, см. в разделе Подготовка текстовых данных к анализу.

Для следующих шагов в текстовой аналитике можно попробовать создать классификационную модель или проанализировать данные с помощью тематических моделей. Для примеров смотрите Создание Простой Текстовой Модели для Классификации и Анализа Текстовых Данных Используя Модели Топика.

См. также

Symbolic Math Toolbox

Поддержка

Сообщество Экспонента

Памятка переводчика

1. Если смысл перевода понятен, то лучше оставьте как есть и не придирайтесь к словам, синонимам и тому подобному. О вкусах не спорим.

2. Не дополняйте перевод комментариями “от себя”. В исправлении не должно появляться дополнительных смыслов и комментариев, отсутствующих в оригинале. Такие правки не получится интегрировать в алгоритме автоматического перевода.

3. Сохраняйте структуру оригинального текста - например, не разбивайте одно предложение на два.

4. Не имеет смысла однотипное исправление перевода какого-то термина во всех предложениях. Исправляйте только в одном месте. Когда Вашу правку одобрят, это исправление будет алгоритмически распространено и на другие части документации.

5. По иным вопросам, например если надо исправить заблокированное для перевода слово, обратитесь к редакторам через форму технической поддержки.

Документация

Создайте простую функцию предварительной обработки

Функция предварительной обработки

См. также

Похожие темы

Symbolic Math Toolbox

Поддержка