Документация

Глоссарий Text Analytics

В этом разделе представлен список терминов, используемых в текстовой аналитике.

Документы и лексемы

Термин	Определение	Дополнительная информация
Биграмма	Две лексемы последовательно. Для примера, `["New" "York"]`.	`bagOfNgrams`
Сложная лексема	Лексема со сложной структурой. Для примера, адрес электронной почты или хеш-тег.	`tokenDetails`
Контекст	Лексемы или символы, которые окружают заданную лексему.	`context`
Корпус	Набор документов.	`tokenizedDocument`
Документ	Одно наблюдение текстовых данных. Например, отчет, твит или статья.	`tokenizedDocument`
Графема	Человеческий читаемый символ. Графема может состоять из нескольких кодовых точек Юникода. Например, «a», «», или «語».	`splitGraphemes`
N-грамм	N лексемы последовательно.	`bagOfNgrams`
Часть речи	Категории слов, используемых в грамматической структуре. Например, «существительное», «глагол» и «прилагательное».	`addPartOfSpeechDetails`
Лексема	Строка символов, представляющая модуль текстовых данных, также известную как «unigram». Например, слово, номер или адрес электронной почты.	`tokenizedDocument`
Сведения о лексеме	Информация о лексеме. Для примера, типа, языка или части речи.	`tokenDetails`
Типы лексем	Категория лексемы. Например, «буквы», «пунктуация» или «адрес электронной почты».	`tokenDetails`
Токенизированный документ	Документ разделился на лексемы.	`tokenizedDocument`
Триграмма	Три лексемы подряд. Для примера, `["The" "United" "States"]`	`bagOfNgrams`
Словарь	Уникальные слова или лексемы в корпусе или модели.	`tokenizedDocument`

Предварительная обработка

Термин	Определение	Дополнительная информация
Нормализовать	Сократите слова до корневой формы. Например, уменьшите слово «ходьба» до «прогулка» с помощью стемминга или лемматизации.	`normalizeWords`
Lemmatize	Редуцируйте слова к словарному слову (форма леммы). Например, уменьшить слова «running» и «run» до «run».	`normalizeWords`
Основа	Уменьшите слова путем удаления флексий. Сокращённое слово не обязательно является реальным словом. Например, стеммер Портера сводит слова «счастливый» и «самый счастливый» к «счастливый».	`normalizeWords`
Стоп-слова	Слова обычно удаляются перед анализом. Для примера «и», «of», и «the».	`removeStopWords`

Моделирование и предсказание

Мешок слов

Термин	Определение	Дополнительная информация
Модель мешка n-граммов	Модель, которая регистрирует количество раз, когда n-граммы появляются в каждом документе корпуса.	`bagOfNgrams`
Модель мешка слов	Модель, которая регистрирует количество раз, когда слова появляются в каждом документе набора.	`bagOfWords`
Частота терминов матрицы count	Матрица частот отсчета слов, встречающихся в наборе документов, соответствующих данному словарю. Эта матрица является базовыми данными модели мешка слов.	`bagOfWords`
Term Frequency-Inverse Document Frequency (tf-idf) матрица	Статистическая мера, основанная на отсчете частот слов в документах и доле документов, содержащих слова в корпусе.	`tfidf`

Латентное распределение дирихле

Термин	Определение	Дополнительная информация
Вероятности темы Corpus	Вероятности наблюдения каждой темы в корпусе, используемом для соответствия модели LDA.	`ldaModel`
Вероятности темы документа	Вероятности наблюдения каждой темы в каждом документе, используемом для соответствия модели LDA. Соответственно, тематические смеси обучающих документов.	`ldaModel`
Латентное распределение Дирихле (LDA)	Генеративная статистическая модель темы, которая выводит вероятности темы в документах и вероятности слова в темах.	`fitlda`
Недоумение	Статистическая мера того, насколько хорошо модель описывает данные. Меньшее недоумение указывает на лучшую подгонку.	`logp`
Тема	Распределение слов, характеризующееся «вероятностями тематических слов».	`ldaModel`
Тематическая концентрация	Параметр концентрации базового распределения Дирихле смесей corpus topics.	`ldaModel`
Тематическая смесь	Вероятности тем в данном документе.	`transform`
Вероятности слов в теме	Вероятности слов в заданной теме.	`ldaModel`
Концентрация слов	Параметр концентрации базового распределения Дирихле тем.	`ldaModel`

Латентный семантический анализ

Термин	Определение	Дополнительная информация
Веса компонентов	Сингулярные значения разложения, квадратные.	`lsaModel`
Счета документов	Векторы счета в более низком размерном пространстве документов, используемых для соответствия модели LSA.	`transform`
Латентный семантический анализ (LSA)	Метод уменьшения размерности, основанный на анализе основных компонентов (PCA).	`fitlsa`
Счета слов	Счета каждого слова в каждом компоненте модели LSA.	`lsaModel`

Встраивания в Word

Термин	Определение	Дополнительная информация
Встраивание слов	Модель, популяризированная библиотеками word2vec, GloVe и fastText, которая отображает слова в словаре на векторы действительных чисел.	`wordEmbedding`
Слой встраивания слов	Слой нейронной сети для глубокого обучения, который учится внедрению слов во время обучения.	`wordEmbeddingLayer`
Кодировка слов	Модель, которая преобразует слова в числовые индексы.	`wordEncoding`

Визуализация

Термин	Определение	Дополнительная информация
Текстовый график поля точек	График поля точек со словами, нанесенными в заданных координатах вместо маркеров.	`textscatter`
Облако слов	График, которая отображает слова с размерами, соответствующими числовым данным, как правило, счетчики частот.	`wordcloud`

См. также

addPartOfSpeechDetails | bagOfNgrams | bagOfWords | fitlda | normalizeWords | removeStopWords | textscatter | tokenDetails | tokenizedDocument | wordcloud | wordEmbedding | wordEmbeddingLayer | wordEncoding

Похожие темы

Symbolic Math Toolbox

Поддержка