Документация

Текстовый глоссарий аналитики

Этот раздел предоставляет список терминов, использованных в текстовой аналитике.

Документы и лексемы

Термин	Определение	Больше информации
Биграмма	Две лексемы по очереди. Например, `["New" "York"]`.	`bagOfNgrams`
Комплексная лексема	Лексема с комплексной структурой. Например, адрес электронной почты или хэш-тег.	`tokenDetails`
Контекст	Лексемы или символы, которые окружают данную лексему.	`context`
Корпус	Набор документов.	`tokenizedDocument`
Документ	Одно наблюдение за текстовыми данными. Например, отчет, твит или статья.	`tokenizedDocument`
Графема	Человекочитаемый символ. Графема может состоять из нескольких кодовых точек Unicode. Например, "a", "", или "語".	`splitGraphemes`
N-грамма	Лексемы N по очереди.	`bagOfNgrams`
Часть речи	Категории слов используются в грамматической структуре. Например, "существительное", "глагол" и "прилагательное".	`addPartOfSpeechDetails`
Лексема	Строка символов, представляющих модуль текстовых данных, также известных как "униграмму". Например, слово, номер или адрес электронной почты.	`tokenizedDocument`
Маркерные детали	Информация о лексеме. Например, тип, язык или детали части речи.	`tokenDetails`
Типы маркера	Категория лексемы. Например, "буквы", "пунктуация" или "адрес электронной почты".	`tokenDetails`
Маркируемый документ	Разделение документа в лексемы.	`tokenizedDocument`
Триграмма	Три лексемы по очереди. Например, `["The" "United" "States"]`	`bagOfNgrams`
Словарь	Уникальные слова или лексемы в корпусе или модели.	`tokenizedDocument`

Предварительная обработка

Термин	Определение	Больше информации
Нормировать	Уменьшайте слова до исходной формы. Например, уменьшайте слово, "идущее", чтобы "обойти" происхождение использования или lemmatization.	`normalizeWords`
Lemmatize	Уменьшайте слова до слова словаря (форма леммы). Например, уменьшайте слова "выполнение", и "запустился", чтобы "запуститься".	`normalizeWords`
Основа	Уменьшайте слова путем удаления сгибаний. Уменьшаемое слово является не обязательно действительным словом. Например, Носильщик stemmer уменьшает слова, "счастливые" и "самые счастливые" к "happi".	`normalizeWords`
Остановите слова	Слова обычно удалены перед анализом. Например, "и", и.	`removeStopWords`

Моделирование и предсказание

Сумка слов

Термин	Определение	Больше информации
Мешок n модели граммов	Модель, которая записывает число раз, что N-граммы появляются в каждом документе корпуса.	`bagOfNgrams`
Модель сумки слов	Модель, которая записывает число раз, что слова появляются в каждом документе набора.	`bagOfWords`
Назовите матрицу подсчета частот	Матрица A подсчета частот слов, происходящих в наборе документов, соответствующих данному словарю. Эта матрица является базовыми данными модели сумки слов.	`bagOfWords`
Назовите Обратную Частотой Частоту Документа (tf-idf) матрицей	Статистическая мера на основе частотности слова рассчитывает в документах и пропорции документов, содержащих слова в корпусе.	`tfidf`

Скрытое выделение Дирихле

Термин	Определение	Больше информации
Корпусные вероятности темы	Вероятности наблюдения каждой темы в корпусе раньше подбирали модель LDA.	`ldaModel`
Вероятности тематики документа	Вероятности наблюдения каждой темы в каждом документе раньше подбирали модель LDA. Эквивалентно, смеси темы учебных материалов.	`ldaModel`
Скрытое выделение Дирихле (LDA)	Порождающая статистическая модель темы, которая выводит вероятности темы в документах и вероятности слова в темах.	`fitlda`
Недоумение	Статистическая мера того, как хорошо модель описывает определенные данные. Более низкое недоумение указывает на лучшую подгонку.	`logp`
Тема	Распределение слов, охарактеризованных "вероятностями слова темы".	`ldaModel`
Концентрация темы	Параметр концентрации базового распределения Дирихле корпусных смесей тем.	`ldaModel`
Смесь темы	Вероятности тем в данном документе.	`transform`
Вероятности слова темы	Вероятности слов в данной теме.	`ldaModel`
Концентрация Word	Параметр концентрации базового распределения Дирихле тем.	`ldaModel`

Скрытый семантический анализ

Термин	Определение	Больше информации
Веса компонента	Сингулярные значения разложения, в квадрате.	`lsaModel`
Баллы документа	Векторы счета в более низком мерном пространстве документов раньше подбирали модель LSA.	`transform`
Скрытый семантический анализ (LSA)	Метод сокращения размерности на основе анализа главных компонентов (PCA).	`fitlsa`
Баллы Word	Множество каждого слова в каждом компоненте модели LSA.	`lsaModel`

Word Embeddings

Термин	Определение	Больше информации
Встраивание Word	Модель, популяризированная word2vec, GloVe и fastText библиотеками, который сопоставляет слова в словаре к векторам действительных чисел.	`wordEmbedding`
Слой встраивания Word	Слой нейронной сети для глубокого обучения, который изучает встраивание слова во время обучения.	`wordEmbeddingLayer`
Кодирование Word	Модель, которая сопоставляет слова с числовыми индексами.	`wordEncoding`

Визуализация

Термин	Определение	Больше информации
Текстовый график рассеивания	График рассеивания со словами, построенными в заданных координатах вместо маркеров.	`textscatter`
Wordcloud	График, который отображает слова с размерами, соответствующими числовым данным, обычно подсчету частот.	`wordcloud`

Смотрите также

tokenizedDocument | tokenDetails | addPartOfSpeechDetails | removeStopWords | normalizeWords | bagOfWords | fitlda | wordEmbedding | wordEncoding | wordEmbeddingLayer | bagOfNgrams | wordcloud | textscatter

Похожие темы

Документация Text Analytics Toolbox

Поддержка