Глоссарий Text Analytics

В этом разделе представлен список терминов, используемых в текстовой аналитике.

Документы и лексемы

ТерминОпределениеДополнительная информация
БиграммаДве лексемы последовательно. Для примера, ["New" "York"].bagOfNgrams
Сложная лексемаЛексема со сложной структурой. Для примера, адрес электронной почты или хеш-тег.tokenDetails
КонтекстЛексемы или символы, которые окружают заданную лексему.context
КорпусНабор документов.tokenizedDocument
ДокументОдно наблюдение текстовых данных. Например, отчет, твит или статья.tokenizedDocument
ГрафемаЧеловеческий читаемый символ. Графема может состоять из нескольких кодовых точек Юникода. Например, «a», «», или «語».splitGraphemes
N-граммN лексемы последовательно.bagOfNgrams
Часть речиКатегории слов, используемых в грамматической структуре. Например, «существительное», «глагол» и «прилагательное».addPartOfSpeechDetails
ЛексемаСтрока символов, представляющая модуль текстовых данных, также известную как «unigram». Например, слово, номер или адрес электронной почты.tokenizedDocument
Сведения о лексемеИнформация о лексеме. Для примера, типа, языка или части речи.tokenDetails
Типы лексемКатегория лексемы. Например, «буквы», «пунктуация» или «адрес электронной почты».tokenDetails
Токенизированный документДокумент разделился на лексемы.tokenizedDocument
ТриграммаТри лексемы подряд. Для примера, ["The" "United" "States"]bagOfNgrams
СловарьУникальные слова или лексемы в корпусе или модели.tokenizedDocument

Предварительная обработка

ТерминОпределениеДополнительная информация
НормализоватьСократите слова до корневой формы. Например, уменьшите слово «ходьба» до «прогулка» с помощью стемминга или лемматизации. normalizeWords
LemmatizeРедуцируйте слова к словарному слову (форма леммы). Например, уменьшить слова «running» и «run» до «run».normalizeWords
ОсноваУменьшите слова путем удаления флексий. Сокращённое слово не обязательно является реальным словом. Например, стеммер Портера сводит слова «счастливый» и «самый счастливый» к «счастливый».normalizeWords
Стоп-словаСлова обычно удаляются перед анализом. Для примера «и», «of», и «the».removeStopWords

Моделирование и предсказание

Мешок слов

ТерминОпределениеДополнительная информация
Модель мешка n-граммовМодель, которая регистрирует количество раз, когда n-граммы появляются в каждом документе корпуса.bagOfNgrams
Модель мешка словМодель, которая регистрирует количество раз, когда слова появляются в каждом документе набора.bagOfWords
Частота терминов матрицы countМатрица частот отсчета слов, встречающихся в наборе документов, соответствующих данному словарю. Эта матрица является базовыми данными модели мешка слов.bagOfWords
Term Frequency-Inverse Document Frequency (tf-idf) матрицаСтатистическая мера, основанная на отсчете частот слов в документах и доле документов, содержащих слова в корпусе.tfidf

Латентное распределение дирихле

ТерминОпределениеДополнительная информация
Вероятности темы CorpusВероятности наблюдения каждой темы в корпусе, используемом для соответствия модели LDA.ldaModel
Вероятности темы документаВероятности наблюдения каждой темы в каждом документе, используемом для соответствия модели LDA. Соответственно, тематические смеси обучающих документов.ldaModel
Латентное распределение Дирихле (LDA)Генеративная статистическая модель темы, которая выводит вероятности темы в документах и вероятности слова в темах.fitlda
НедоумениеСтатистическая мера того, насколько хорошо модель описывает данные. Меньшее недоумение указывает на лучшую подгонку.logp
ТемаРаспределение слов, характеризующееся «вероятностями тематических слов».ldaModel
Тематическая концентрацияПараметр концентрации базового распределения Дирихле смесей corpus topics.ldaModel
Тематическая смесьВероятности тем в данном документе.transform
Вероятности слов в темеВероятности слов в заданной теме.ldaModel
Концентрация словПараметр концентрации базового распределения Дирихле тем.ldaModel

Латентный семантический анализ

ТерминОпределениеДополнительная информация
Веса компонентовСингулярные значения разложения, квадратные.lsaModel
Счета документовВекторы счета в более низком размерном пространстве документов, используемых для соответствия модели LSA.transform
Латентный семантический анализ (LSA)Метод уменьшения размерности, основанный на анализе основных компонентов (PCA).fitlsa
Счета словСчета каждого слова в каждом компоненте модели LSA.lsaModel

Встраивания в Word

ТерминОпределениеДополнительная информация
Встраивание словМодель, популяризированная библиотеками word2vec, GloVe и fastText, которая отображает слова в словаре на векторы действительных чисел.wordEmbedding
Слой встраивания словСлой нейронной сети для глубокого обучения, который учится внедрению слов во время обучения.wordEmbeddingLayer
Кодировка словМодель, которая преобразует слова в числовые индексы.wordEncoding

Визуализация

ТерминОпределениеДополнительная информация
Текстовый график поля точекГрафик поля точек со словами, нанесенными в заданных координатах вместо маркеров.textscatter
Облако словГрафик, которая отображает слова с размерами, соответствующими числовым данным, как правило, счетчики частот.wordcloud

См. также

| | | | | | | | | | | |

Похожие темы