В этом разделе представлен список терминов, используемых в текстовой аналитике.
| Термин | Определение | Дополнительная информация |
|---|---|---|
| Биграмма | Две лексемы последовательно. Для примера, ["New" "York"]. | bagOfNgrams |
| Сложная лексема | Лексема со сложной структурой. Для примера, адрес электронной почты или хеш-тег. | tokenDetails |
| Контекст | Лексемы или символы, которые окружают заданную лексему. | context |
| Корпус | Набор документов. | tokenizedDocument |
| Документ | Одно наблюдение текстовых данных. Например, отчет, твит или статья. | tokenizedDocument |
| Графема | Человеческий читаемый символ. Графема может состоять из нескольких кодовых точек Юникода. Например, «a», «», или «語». | splitGraphemes |
| N-грамм | N лексемы последовательно. | bagOfNgrams |
| Часть речи | Категории слов, используемых в грамматической структуре. Например, «существительное», «глагол» и «прилагательное». | addPartOfSpeechDetails |
| Лексема | Строка символов, представляющая модуль текстовых данных, также известную как «unigram». Например, слово, номер или адрес электронной почты. | tokenizedDocument |
| Сведения о лексеме | Информация о лексеме. Для примера, типа, языка или части речи. | tokenDetails |
| Типы лексем | Категория лексемы. Например, «буквы», «пунктуация» или «адрес электронной почты». | tokenDetails |
| Токенизированный документ | Документ разделился на лексемы. | tokenizedDocument |
| Триграмма | Три лексемы подряд. Для примера, ["The" "United" "States"] | bagOfNgrams |
| Словарь | Уникальные слова или лексемы в корпусе или модели. | tokenizedDocument |
| Термин | Определение | Дополнительная информация |
|---|---|---|
| Нормализовать | Сократите слова до корневой формы. Например, уменьшите слово «ходьба» до «прогулка» с помощью стемминга или лемматизации. | normalizeWords |
| Lemmatize | Редуцируйте слова к словарному слову (форма леммы). Например, уменьшить слова «running» и «run» до «run». | normalizeWords |
| Основа | Уменьшите слова путем удаления флексий. Сокращённое слово не обязательно является реальным словом. Например, стеммер Портера сводит слова «счастливый» и «самый счастливый» к «счастливый». | normalizeWords |
| Стоп-слова | Слова обычно удаляются перед анализом. Для примера «и», «of», и «the». | removeStopWords |
| Термин | Определение | Дополнительная информация |
|---|---|---|
| Модель мешка n-граммов | Модель, которая регистрирует количество раз, когда n-граммы появляются в каждом документе корпуса. | bagOfNgrams |
| Модель мешка слов | Модель, которая регистрирует количество раз, когда слова появляются в каждом документе набора. | bagOfWords |
| Частота терминов матрицы count | Матрица частот отсчета слов, встречающихся в наборе документов, соответствующих данному словарю. Эта матрица является базовыми данными модели мешка слов. | bagOfWords |
| Term Frequency-Inverse Document Frequency (tf-idf) матрица | Статистическая мера, основанная на отсчете частот слов в документах и доле документов, содержащих слова в корпусе. | tfidf |
| Термин | Определение | Дополнительная информация |
|---|---|---|
| Вероятности темы Corpus | Вероятности наблюдения каждой темы в корпусе, используемом для соответствия модели LDA. | ldaModel |
| Вероятности темы документа | Вероятности наблюдения каждой темы в каждом документе, используемом для соответствия модели LDA. Соответственно, тематические смеси обучающих документов. | ldaModel |
| Латентное распределение Дирихле (LDA) | Генеративная статистическая модель темы, которая выводит вероятности темы в документах и вероятности слова в темах. | fitlda |
| Недоумение | Статистическая мера того, насколько хорошо модель описывает данные. Меньшее недоумение указывает на лучшую подгонку. | logp |
| Тема | Распределение слов, характеризующееся «вероятностями тематических слов». | ldaModel |
| Тематическая концентрация | Параметр концентрации базового распределения Дирихле смесей corpus topics. | ldaModel |
| Тематическая смесь | Вероятности тем в данном документе. | transform |
| Вероятности слов в теме | Вероятности слов в заданной теме. | ldaModel |
| Концентрация слов | Параметр концентрации базового распределения Дирихле тем. | ldaModel |
| Термин | Определение | Дополнительная информация |
|---|---|---|
| Веса компонентов | Сингулярные значения разложения, квадратные. | lsaModel |
| Счета документов | Векторы счета в более низком размерном пространстве документов, используемых для соответствия модели LSA. | transform |
| Латентный семантический анализ (LSA) | Метод уменьшения размерности, основанный на анализе основных компонентов (PCA). | fitlsa |
| Счета слов | Счета каждого слова в каждом компоненте модели LSA. | lsaModel |
| Термин | Определение | Дополнительная информация |
|---|---|---|
| Встраивание слов | Модель, популяризированная библиотеками word2vec, GloVe и fastText, которая отображает слова в словаре на векторы действительных чисел. | wordEmbedding |
| Слой встраивания слов | Слой нейронной сети для глубокого обучения, который учится внедрению слов во время обучения. | wordEmbeddingLayer |
| Кодировка слов | Модель, которая преобразует слова в числовые индексы. | wordEncoding |
| Термин | Определение | Дополнительная информация |
|---|---|---|
| Текстовый график поля точек | График поля точек со словами, нанесенными в заданных координатах вместо маркеров. | textscatter |
| Облако слов | График, которая отображает слова с размерами, соответствующими числовым данным, как правило, счетчики частот. | wordcloud |
addPartOfSpeechDetails | bagOfNgrams | bagOfWords | fitlda | normalizeWords | removeStopWords | textscatter | tokenDetails | tokenizedDocument | wordcloud | wordEmbedding | wordEmbeddingLayer | wordEncoding