Этот раздел предоставляет список терминов, использованных в текстовой аналитике.
Термин | Определение | Больше информации |
---|---|---|
Биграмма | Две лексемы по очереди. Например, ["New" "York"] . | bagOfNgrams |
Комплексная лексема | Лексема с комплексной структурой. Например, адрес электронной почты или хэш-тег. | tokenDetails |
Контекст | Лексемы или символы, которые окружают данную лексему. | context |
Корпус | Набор документов. | tokenizedDocument |
Документ | Одно наблюдение за текстовыми данными. Например, отчет, твит или статья. | tokenizedDocument |
Графема | Человекочитаемый символ. Графема может состоять из нескольких кодовых точек Unicode. Например, "a", "", или "語". | splitGraphemes |
N-грамма | Лексемы N по очереди. | bagOfNgrams |
Часть речи | Категории слов используются в грамматической структуре. Например, "существительное", "глагол" и "прилагательное". | addPartOfSpeechDetails |
Лексема | Строка символов, представляющих модуль текстовых данных, также известных как "униграмму". Например, слово, номер или адрес электронной почты. | tokenizedDocument |
Маркерные детали | Информация о лексеме. Например, тип, язык или детали части речи. | tokenDetails |
Типы маркера | Категория лексемы. Например, "буквы", "пунктуация" или "адрес электронной почты". | tokenDetails |
Маркируемый документ | Разделение документа в лексемы. | tokenizedDocument |
Триграмма | Три лексемы по очереди. Например, ["The" "United" "States"] | bagOfNgrams |
Словарь | Уникальные слова или лексемы в корпусе или модели. | tokenizedDocument |
Термин | Определение | Больше информации |
---|---|---|
Нормировать | Уменьшайте слова до исходной формы. Например, уменьшайте слово, "идущее", чтобы "обойти" происхождение использования или lemmatization. | normalizeWords |
Lemmatize | Уменьшайте слова до слова словаря (форма леммы). Например, уменьшайте слова "выполнение", и "запустился", чтобы "запуститься". | normalizeWords |
Основа | Уменьшайте слова путем удаления сгибаний. Уменьшаемое слово является не обязательно действительным словом. Например, Носильщик stemmer уменьшает слова, "счастливые" и "самые счастливые" к "happi". | normalizeWords |
Остановите слова | Слова обычно удалены перед анализом. Например, "и", и. | removeStopWords |
Термин | Определение | Больше информации |
---|---|---|
Мешок n модели граммов | Модель, которая записывает число раз, что N-граммы появляются в каждом документе корпуса. | bagOfNgrams |
Модель сумки слов | Модель, которая записывает число раз, что слова появляются в каждом документе набора. | bagOfWords |
Назовите матрицу подсчета частот | Матрица A подсчета частот слов, происходящих в наборе документов, соответствующих данному словарю. Эта матрица является базовыми данными модели сумки слов. | bagOfWords |
Назовите Обратную Частотой Частоту Документа (tf-idf) матрицей | Статистическая мера на основе частотности слова рассчитывает в документах и пропорции документов, содержащих слова в корпусе. | tfidf |
Термин | Определение | Больше информации |
---|---|---|
Корпусные вероятности темы | Вероятности наблюдения каждой темы в корпусе раньше подбирали модель LDA. | ldaModel |
Вероятности тематики документа | Вероятности наблюдения каждой темы в каждом документе раньше подбирали модель LDA. Эквивалентно, смеси темы учебных материалов. | ldaModel |
Скрытое выделение Дирихле (LDA) | Порождающая статистическая модель темы, которая выводит вероятности темы в документах и вероятности слова в темах. | fitlda |
Недоумение | Статистическая мера того, как хорошо модель описывает определенные данные. Более низкое недоумение указывает на лучшую подгонку. | logp |
Тема | Распределение слов, охарактеризованных "вероятностями слова темы". | ldaModel |
Концентрация темы | Параметр концентрации базового распределения Дирихле корпусных смесей тем. | ldaModel |
Смесь темы | Вероятности тем в данном документе. | transform |
Вероятности слова темы | Вероятности слов в данной теме. | ldaModel |
Концентрация Word | Параметр концентрации базового распределения Дирихле тем. | ldaModel |
Термин | Определение | Больше информации |
---|---|---|
Веса компонента | Сингулярные значения разложения, в квадрате. | lsaModel |
Баллы документа | Векторы счета в более низком мерном пространстве документов раньше подбирали модель LSA. | transform |
Скрытый семантический анализ (LSA) | Метод сокращения размерности на основе анализа главных компонентов (PCA). | fitlsa |
Баллы Word | Множество каждого слова в каждом компоненте модели LSA. | lsaModel |
Термин | Определение | Больше информации |
---|---|---|
Встраивание Word | Модель, популяризированная word2vec, GloVe и fastText библиотеками, который сопоставляет слова в словаре к векторам действительных чисел. | wordEmbedding |
Слой встраивания Word | Слой нейронной сети для глубокого обучения, который изучает встраивание слова во время обучения. | wordEmbeddingLayer |
Кодирование Word | Модель, которая сопоставляет слова с числовыми индексами. | wordEncoding |
Термин | Определение | Больше информации |
---|---|---|
Текстовый график рассеивания | График рассеивания со словами, построенными в заданных координатах вместо маркеров. | textscatter |
Wordcloud | График, который отображает слова с размерами, соответствующими числовым данным, обычно подсчету частот. | wordcloud |
tokenizedDocument
| tokenDetails
| addPartOfSpeechDetails
| removeStopWords
| normalizeWords
| bagOfWords
| fitlda
| wordEmbedding
| wordEncoding
| wordEmbeddingLayer
| bagOfNgrams
| wordcloud
| textscatter