В этом разделе представлен список терминов, используемых в текстовой аналитике.
Термин | Определение | Дополнительная информация |
---|---|---|
Биграмма | Две лексемы последовательно. Для примера, ["New" "York"] . | bagOfNgrams |
Сложная лексема | Лексема со сложной структурой. Для примера, адрес электронной почты или хеш-тег. | tokenDetails |
Контекст | Лексемы или символы, которые окружают заданную лексему. | context |
Корпус | Набор документов. | tokenizedDocument |
Документ | Одно наблюдение текстовых данных. Например, отчет, твит или статья. | tokenizedDocument |
Графема | Человеческий читаемый символ. Графема может состоять из нескольких кодовых точек Юникода. Например, «a», «», или «語». | splitGraphemes |
N-грамм | N лексемы последовательно. | bagOfNgrams |
Часть речи | Категории слов, используемых в грамматической структуре. Например, «существительное», «глагол» и «прилагательное». | addPartOfSpeechDetails |
Лексема | Строка символов, представляющая модуль текстовых данных, также известную как «unigram». Например, слово, номер или адрес электронной почты. | tokenizedDocument |
Сведения о лексеме | Информация о лексеме. Для примера, типа, языка или части речи. | tokenDetails |
Типы лексем | Категория лексемы. Например, «буквы», «пунктуация» или «адрес электронной почты». | tokenDetails |
Токенизированный документ | Документ разделился на лексемы. | tokenizedDocument |
Триграмма | Три лексемы подряд. Для примера, ["The" "United" "States"] | bagOfNgrams |
Словарь | Уникальные слова или лексемы в корпусе или модели. | tokenizedDocument |
Термин | Определение | Дополнительная информация |
---|---|---|
Нормализовать | Сократите слова до корневой формы. Например, уменьшите слово «ходьба» до «прогулка» с помощью стемминга или лемматизации. | normalizeWords |
Lemmatize | Редуцируйте слова к словарному слову (форма леммы). Например, уменьшить слова «running» и «run» до «run». | normalizeWords |
Основа | Уменьшите слова путем удаления флексий. Сокращённое слово не обязательно является реальным словом. Например, стеммер Портера сводит слова «счастливый» и «самый счастливый» к «счастливый». | normalizeWords |
Стоп-слова | Слова обычно удаляются перед анализом. Для примера «и», «of», и «the». | removeStopWords |
Термин | Определение | Дополнительная информация |
---|---|---|
Модель мешка n-граммов | Модель, которая регистрирует количество раз, когда n-граммы появляются в каждом документе корпуса. | bagOfNgrams |
Модель мешка слов | Модель, которая регистрирует количество раз, когда слова появляются в каждом документе набора. | bagOfWords |
Частота терминов матрицы count | Матрица частот отсчета слов, встречающихся в наборе документов, соответствующих данному словарю. Эта матрица является базовыми данными модели мешка слов. | bagOfWords |
Term Frequency-Inverse Document Frequency (tf-idf) матрица | Статистическая мера, основанная на отсчете частот слов в документах и доле документов, содержащих слова в корпусе. | tfidf |
Термин | Определение | Дополнительная информация |
---|---|---|
Вероятности темы Corpus | Вероятности наблюдения каждой темы в корпусе, используемом для соответствия модели LDA. | ldaModel |
Вероятности темы документа | Вероятности наблюдения каждой темы в каждом документе, используемом для соответствия модели LDA. Соответственно, тематические смеси обучающих документов. | ldaModel |
Латентное распределение Дирихле (LDA) | Генеративная статистическая модель темы, которая выводит вероятности темы в документах и вероятности слова в темах. | fitlda |
Недоумение | Статистическая мера того, насколько хорошо модель описывает данные. Меньшее недоумение указывает на лучшую подгонку. | logp |
Тема | Распределение слов, характеризующееся «вероятностями тематических слов». | ldaModel |
Тематическая концентрация | Параметр концентрации базового распределения Дирихле смесей corpus topics. | ldaModel |
Тематическая смесь | Вероятности тем в данном документе. | transform |
Вероятности слов в теме | Вероятности слов в заданной теме. | ldaModel |
Концентрация слов | Параметр концентрации базового распределения Дирихле тем. | ldaModel |
Термин | Определение | Дополнительная информация |
---|---|---|
Веса компонентов | Сингулярные значения разложения, квадратные. | lsaModel |
Счета документов | Векторы счета в более низком размерном пространстве документов, используемых для соответствия модели LSA. | transform |
Латентный семантический анализ (LSA) | Метод уменьшения размерности, основанный на анализе основных компонентов (PCA). | fitlsa |
Счета слов | Счета каждого слова в каждом компоненте модели LSA. | lsaModel |
Термин | Определение | Дополнительная информация |
---|---|---|
Встраивание слов | Модель, популяризированная библиотеками word2vec, GloVe и fastText, которая отображает слова в словаре на векторы действительных чисел. | wordEmbedding |
Слой встраивания слов | Слой нейронной сети для глубокого обучения, который учится внедрению слов во время обучения. | wordEmbeddingLayer |
Кодировка слов | Модель, которая преобразует слова в числовые индексы. | wordEncoding |
Термин | Определение | Дополнительная информация |
---|---|---|
Текстовый график поля точек | График поля точек со словами, нанесенными в заданных координатах вместо маркеров. | textscatter |
Облако слов | График, которая отображает слова с размерами, соответствующими числовым данным, как правило, счетчики частот. | wordcloud |
addPartOfSpeechDetails
| bagOfNgrams
| bagOfWords
| fitlda
| normalizeWords
| removeStopWords
| textscatter
| tokenDetails
| tokenizedDocument
| wordcloud
| wordEmbedding
| wordEmbeddingLayer
| wordEncoding