В этом разделе представлен список терминов, используемых в текстовой аналитике.
| Термин | Определение | Дополнительные сведения |
|---|---|---|
| Биграмма | Два жетона последовательно. Например, ["New" "York"]. | bagOfNgrams |
| Сложный токен | Маркер со сложной структурой. Например, адрес электронной почты или хэш-тег. | tokenDetails |
| Контекст | Маркеры или символы, окружающие данный маркер. | context |
| Корпус | Коллекция документов. | tokenizedDocument |
| Документ | Единое наблюдение за текстовыми данными. Например, отчет, твит или статья. | tokenizedDocument |
| Графема | Читаемый человеком персонаж. Графема может состоять из нескольких кодовых точек Юникода. Например, «a», «» или «語». | splitGraphemes |
| N-грамм | N токенов последовательно. | bagOfNgrams |
| Часть речи | Категории слов, используемых в грамматической структуре. Например, «существительное», «глагол» и «прилагательное». | addPartOfSpeechDetails |
| Символ | Строка символов, представляющая единицу текстовых данных, также известная как «unigram». Например, слово, номер или адрес электронной почты. | tokenizedDocument |
| Сведения о маркере | Сведения о токене. Например, сведения о типе, языке или части речи. | tokenDetails |
| Типы маркеров | Категория маркера. Например, «буквы», «знаки препинания» или «адрес электронной почты». | tokenDetails |
| Токенизированный документ | Документ, разделенный на маркеры. | tokenizedDocument |
| Триграмма | Три жетона последовательно. Например, ["The" "United" "States"] | bagOfNgrams |
| Словарь | Уникальные слова или маркеры в корпусе или модели. | tokenizedDocument |
| Термин | Определение | Дополнительные сведения |
|---|---|---|
| Нормализовать | Сведение слов к корневой форме. Например, сократите слово «ходьба» до «ходить», используя стемминг или лемматизацию. | normalizeWords |
| Lemmatize | Сведение слов к словарному слову (форма леммы). Например, сократите слова «running» и «run» до «run». | normalizeWords |
| Основа | Уменьшите число слов, удалив словосочетания. Сокращенное слово не обязательно является реальным словом. Например, стеммер Портера сводит слова «счастливый» и «самый счастливый» к «счастливый». | normalizeWords |
| Стоп-слова | Слова, обычно удаляемые перед анализом. Например, «and», «of» и «the». | removeStopWords |
| Термин | Определение | Дополнительные сведения |
|---|---|---|
| Модель мешка n-граммов | Модель, которая записывает количество появления n-граммов в каждом документе корпуса. | bagOfNgrams |
| Модель сумки слов | Модель, которая записывает количество раз, когда слова появляются в каждом документе коллекции. | bagOfWords |
| Матрица подсчета частоты терминов | Матрица частотных отсчетов слов, встречающихся в коллекции документов, соответствующих заданному словарю. Эта матрица является базовыми данными модели мешка слов. | bagOfWords |
| Матрица Term Frequency-Inverse Document Frequency (tf-idf) | Статистическая мера, основанная на числе слов в документах и доле документов, содержащих слова в корпусе. | tfidf |
| Термин | Определение | Дополнительные сведения |
|---|---|---|
| Вероятности темы корпуса | Вероятности наблюдения за каждой темой в корпусе, используемом для соответствия модели LDA. | ldaModel |
| Вероятность темы документа | Вероятности наблюдения за каждой темой в каждом документе, используемом для соответствия модели LDA. Эквивалентно, тематические смеси учебных документов. | ldaModel |
| Латентное распределение Дирихле (LDA) | Обобщающая статистическая модель темы, которая выводит вероятности темы в документах и вероятности слов в темах. | fitlda |
| Недоумение | Статистическая мера того, насколько хорошо модель описывает данные. Меньшее недоумение указывает на лучшую подгонку. | logp |
| Тема | Распределение слов, характеризующееся «вероятностями тематических слов». | ldaModel |
| Тематическая концентрация | Параметр концентрации основного распределения по Дирихле смесей темы корпуса. | ldaModel |
| Тематическая смесь | Вероятности тем в данном документе. | transform |
| Вероятности тематических слов | Вероятности слов в данной теме. | ldaModel |
| Концентрация слов | Параметр концентрации основного распределения тем по Дирихле. | ldaModel |
| Термин | Определение | Дополнительные сведения |
|---|---|---|
| Веса компонентов | Сингулярные значения разложения в квадрате. | lsaModel |
| Показатели документа | Векторы оценки в нижнем пространстве документов, используемых для соответствия модели LSA. | transform |
| Латентный семантический анализ (LSA) | Метод уменьшения размеров, основанный на анализе основных компонентов (PCA). | fitlsa |
| Оценки слов | Оценки каждого слова в каждом компоненте модели LSA. | lsaModel |
| Термин | Определение | Дополнительные сведения |
|---|---|---|
| Встраивание слов | Модель, популяризированная библиотеками word2vec, GloVe и fastText, которая отображает слова в словаре на реальные векторы. | wordEmbedding |
| Слой внедрения слов | Сетевой уровень глубокого обучения, который изучает встраивание слов во время обучения. | wordEmbeddingLayer |
| Кодировка слов | Модель, которая сопоставляет слова числовым индексам. | wordEncoding |
| Термин | Определение | Дополнительные сведения |
|---|---|---|
| График разброса текста | График рассеяния со словами, нанесенными в заданных координатах вместо маркеров. | textscatter |
| Облако Word | Диаграмма, отображающая слова с размерами, соответствующими числовым данным, обычно счетчикам частоты. | wordcloud |
addPartOfSpeechDetails | bagOfNgrams | bagOfWords | fitlda | normalizeWords | removeStopWords | textscatter | tokenDetails | tokenizedDocument | wordcloud | wordEmbedding | wordEmbeddingLayer | wordEncoding