exponenta event banner

Глоссарий по текстовой аналитике

В этом разделе представлен список терминов, используемых в текстовой аналитике.

Документы и маркеры

ТерминОпределениеДополнительные сведения
БиграммаДва жетона последовательно. Например, ["New" "York"].bagOfNgrams
Сложный токенМаркер со сложной структурой. Например, адрес электронной почты или хэш-тег.tokenDetails
КонтекстМаркеры или символы, окружающие данный маркер.context
КорпусКоллекция документов.tokenizedDocument
ДокументЕдиное наблюдение за текстовыми данными. Например, отчет, твит или статья.tokenizedDocument
ГрафемаЧитаемый человеком персонаж. Графема может состоять из нескольких кодовых точек Юникода. Например, «a», «» или «語».splitGraphemes
N-граммN токенов последовательно.bagOfNgrams
Часть речиКатегории слов, используемых в грамматической структуре. Например, «существительное», «глагол» и «прилагательное».addPartOfSpeechDetails
СимволСтрока символов, представляющая единицу текстовых данных, также известная как «unigram». Например, слово, номер или адрес электронной почты.tokenizedDocument
Сведения о маркереСведения о токене. Например, сведения о типе, языке или части речи.tokenDetails
Типы маркеровКатегория маркера. Например, «буквы», «знаки препинания» или «адрес электронной почты».tokenDetails
Токенизированный документДокумент, разделенный на маркеры.tokenizedDocument
ТриграммаТри жетона последовательно. Например, ["The" "United" "States"]bagOfNgrams
СловарьУникальные слова или маркеры в корпусе или модели.tokenizedDocument

Предварительная обработка

ТерминОпределениеДополнительные сведения
НормализоватьСведение слов к корневой форме. Например, сократите слово «ходьба» до «ходить», используя стемминг или лемматизацию. normalizeWords
LemmatizeСведение слов к словарному слову (форма леммы). Например, сократите слова «running» и «run» до «run».normalizeWords
ОсноваУменьшите число слов, удалив словосочетания. Сокращенное слово не обязательно является реальным словом. Например, стеммер Портера сводит слова «счастливый» и «самый счастливый» к «счастливый».normalizeWords
Стоп-словаСлова, обычно удаляемые перед анализом. Например, «and», «of» и «the».removeStopWords

Моделирование и прогнозирование

Сумка слов

ТерминОпределениеДополнительные сведения
Модель мешка n-граммовМодель, которая записывает количество появления n-граммов в каждом документе корпуса.bagOfNgrams
Модель сумки словМодель, которая записывает количество раз, когда слова появляются в каждом документе коллекции.bagOfWords
Матрица подсчета частоты терминовМатрица частотных отсчетов слов, встречающихся в коллекции документов, соответствующих заданному словарю. Эта матрица является базовыми данными модели мешка слов.bagOfWords
Матрица Term Frequency-Inverse Document Frequency (tf-idf)Статистическая мера, основанная на числе слов в документах и доле документов, содержащих слова в корпусе.tfidf

Латентное распределение Дирихле

ТерминОпределениеДополнительные сведения
Вероятности темы корпусаВероятности наблюдения за каждой темой в корпусе, используемом для соответствия модели LDA.ldaModel
Вероятность темы документаВероятности наблюдения за каждой темой в каждом документе, используемом для соответствия модели LDA. Эквивалентно, тематические смеси учебных документов.ldaModel
Латентное распределение Дирихле (LDA)Обобщающая статистическая модель темы, которая выводит вероятности темы в документах и вероятности слов в темах.fitlda
НедоумениеСтатистическая мера того, насколько хорошо модель описывает данные. Меньшее недоумение указывает на лучшую подгонку.logp
ТемаРаспределение слов, характеризующееся «вероятностями тематических слов».ldaModel
Тематическая концентрацияПараметр концентрации основного распределения по Дирихле смесей темы корпуса.ldaModel
Тематическая смесьВероятности тем в данном документе.transform
Вероятности тематических словВероятности слов в данной теме.ldaModel
Концентрация словПараметр концентрации основного распределения тем по Дирихле.ldaModel

Скрытый семантический анализ

ТерминОпределениеДополнительные сведения
Веса компонентовСингулярные значения разложения в квадрате.lsaModel
Показатели документаВекторы оценки в нижнем пространстве документов, используемых для соответствия модели LSA.transform
Латентный семантический анализ (LSA)Метод уменьшения размеров, основанный на анализе основных компонентов (PCA).fitlsa
Оценки словОценки каждого слова в каждом компоненте модели LSA.lsaModel

Встраивание в Word

ТерминОпределениеДополнительные сведения
Встраивание словМодель, популяризированная библиотеками word2vec, GloVe и fastText, которая отображает слова в словаре на реальные векторы.wordEmbedding
Слой внедрения словСетевой уровень глубокого обучения, который изучает встраивание слов во время обучения.wordEmbeddingLayer
Кодировка словМодель, которая сопоставляет слова числовым индексам.wordEncoding

Визуализация

ТерминОпределениеДополнительные сведения
График разброса текстаГрафик рассеяния со словами, нанесенными в заданных координатах вместо маркеров.textscatter
Облако WordДиаграмма, отображающая слова с размерами, соответствующими числовым данным, обычно счетчикам частоты.wordcloud

См. также

| | | | | | | | | | | |

Связанные темы