Текстовый глоссарий аналитики

Этот раздел предоставляет список терминов, использованных в текстовой аналитике.

Документы и лексемы

ТерминОпределениеБольше информации
БиграммаДве лексемы по очереди. Например, ["New" "York"].bagOfNgrams
Комплексная лексемаЛексема с комплексной структурой. Например, адрес электронной почты или хэш-тег.tokenDetails
КонтекстЛексемы или символы, которые окружают данную лексему.context
КорпусНабор документов.tokenizedDocument
ДокументОдно наблюдение за текстовыми данными. Например, отчет, твит или статья.tokenizedDocument
ГрафемаЧеловекочитаемый символ. Графема может состоять из нескольких кодовых точек Unicode. Например, "a", "", или "語".splitGraphemes
N-граммаЛексемы N по очереди.bagOfNgrams
Часть речиКатегории слов используются в грамматической структуре. Например, "существительное", "глагол" и "прилагательное".addPartOfSpeechDetails
ЛексемаСтрока символов, представляющих модуль текстовых данных, также известных как "униграмму". Например, слово, номер или адрес электронной почты.tokenizedDocument
Маркерные деталиИнформация о лексеме. Например, тип, язык или детали части речи.tokenDetails
Типы маркераКатегория лексемы. Например, "буквы", "пунктуация" или "адрес электронной почты".tokenDetails
Маркируемый документРазделение документа в лексемы.tokenizedDocument
ТриграммаТри лексемы по очереди. Например, ["The" "United" "States"]bagOfNgrams
СловарьУникальные слова или лексемы в корпусе или модели.tokenizedDocument

Предварительная обработка

ТерминОпределениеБольше информации
НормироватьУменьшайте слова до исходной формы. Например, уменьшайте слово, "идущее", чтобы "обойти" происхождение использования или lemmatization. normalizeWords
LemmatizeУменьшайте слова до слова словаря (форма леммы). Например, уменьшайте слова "выполнение", и "запустился", чтобы "запуститься".normalizeWords
ОсноваУменьшайте слова путем удаления сгибаний. Уменьшаемое слово является не обязательно действительным словом. Например, Носильщик stemmer уменьшает слова, "счастливые" и "самые счастливые" к "happi".normalizeWords
Остановите словаСлова обычно удалены перед анализом. Например, "и", и.removeStopWords

Моделирование и предсказание

Сумка слов

ТерминОпределениеБольше информации
Мешок n модели граммовМодель, которая записывает число раз, что N-граммы появляются в каждом документе корпуса.bagOfNgrams
Модель сумки словМодель, которая записывает число раз, что слова появляются в каждом документе набора.bagOfWords
Назовите матрицу подсчета частотМатрица A подсчета частот слов, происходящих в наборе документов, соответствующих данному словарю. Эта матрица является базовыми данными модели сумки слов.bagOfWords
Назовите Обратную Частотой Частоту Документа (tf-idf) матрицейСтатистическая мера на основе частотности слова рассчитывает в документах и пропорции документов, содержащих слова в корпусе.tfidf

Скрытое выделение Дирихле

ТерминОпределениеБольше информации
Корпусные вероятности темыВероятности наблюдения каждой темы в корпусе раньше подбирали модель LDA.ldaModel
Вероятности тематики документаВероятности наблюдения каждой темы в каждом документе раньше подбирали модель LDA. Эквивалентно, смеси темы учебных материалов.ldaModel
Скрытое выделение Дирихле (LDA)Порождающая статистическая модель темы, которая выводит вероятности темы в документах и вероятности слова в темах.fitlda
НедоумениеСтатистическая мера того, как хорошо модель описывает определенные данные. Более низкое недоумение указывает на лучшую подгонку.logp
ТемаРаспределение слов, охарактеризованных "вероятностями слова темы".ldaModel
Концентрация темыПараметр концентрации базового распределения Дирихле корпусных смесей тем.ldaModel
Смесь темыВероятности тем в данном документе.transform
Вероятности слова темыВероятности слов в данной теме.ldaModel
Концентрация WordПараметр концентрации базового распределения Дирихле тем.ldaModel

Скрытый семантический анализ

ТерминОпределениеБольше информации
Веса компонентаСингулярные значения разложения, в квадрате.lsaModel
Баллы документаВекторы счета в более низком мерном пространстве документов раньше подбирали модель LSA.transform
Скрытый семантический анализ (LSA)Метод сокращения размерности на основе анализа главных компонентов (PCA).fitlsa
Баллы WordМножество каждого слова в каждом компоненте модели LSA.lsaModel

Word Embeddings

ТерминОпределениеБольше информации
Встраивание WordМодель, популяризированная word2vec, GloVe и fastText библиотеками, который сопоставляет слова в словаре к векторам действительных чисел.wordEmbedding
Слой встраивания WordСлой нейронной сети для глубокого обучения, который изучает встраивание слова во время обучения.wordEmbeddingLayer
Кодирование WordМодель, которая сопоставляет слова с числовыми индексами.wordEncoding

Визуализация

ТерминОпределениеБольше информации
Текстовый график рассеиванияГрафик рассеивания со словами, построенными в заданных координатах вместо маркеров.textscatter
WordcloudГрафик, который отображает слова с размерами, соответствующими числовым данным, обычно подсчету частот.wordcloud

Смотрите также

| | | | | | | | | | | |

Похожие темы