bagOfNgrams

Модель мешка n-граммов

Описание

Модель сумки n-граммов регистрирует количество раз, когда каждый n-грамм появляется в каждом документе набора. n-грамм - это набор n последовательных слов.

bagOfNgrams не разделяет текст на слова. Чтобы создать массив токенизированных документов, смотрите tokenizedDocument.

Создание

Описание

bag = bagOfNgrams создает пустую модель bag-of-n-gams.

пример

bag = bagOfNgrams(documents) создает модель bag-of-n-gams и подсчитывает биграммы (пары слов) в documents.

пример

bag = bagOfNgrams(___,'NgramLengths',lengths) отсчитывает n-граммы заданных длин, используя любой из предыдущих синтаксисов.

пример

bag = bagOfNgrams(uniqueNgrams,counts) создает модель сумки n-граммов, используя n-граммы в uniqueNgrams и соответствующие счетчики частот в counts. Если uniqueNgrams содержит <missing> значений, затем соответствующих значений в counts игнорируются.

Входные параметры

расширить все

Входные документы, заданные как tokenizedDocument массив, строковые массивы слов или массив ячеек из векторов символов. Если documents не является tokenizedDocument Массив это должно быть вектор-строка, представляющее один документ, где каждый элемент является словом. Чтобы задать несколько документов, используйте tokenizedDocument массив.

Уникальный список n-граммов, заданный как NumNgrams-by- maxN Строковые массивы или массив ячеек векторов символов, где NumNgrams количество уникальных n-граммов и maxN - длина наибольшего n-грамма.

Значение uniqueNgrams(i,j) является jвторое слово in-грамм. Если количество слов в in-грамм меньше maxN, затем оставшиеся записи iпервая строка uniqueNgrams пусты.

Если uniqueNgrams содержит <missing>, тогда функция игнорирует соответствующие значения в counts.

Каждый n-грамм должен иметь по крайней мере одно слово.

Пример: ["An" ""; "An" "example"; "example" ""]

Типы данных: string | cell

Счетчики частот n-граммов, соответствующих строкам uniqueNgrams, заданный как матрица неотрицательных целых чисел. Значение counts(i,j) соответствует количеству раз, сколько n-грамм uniqueNgrams(j,:) появляется в i-м документе.

counts должно иметь столько столбцов, сколько uniqueNgrams имеет строки.

Длины n-граммов, заданные как положительное целое число или вектор положительных целых чисел.

Свойства

расширить все

Количество N-граммов на документ, заданное как разреженная матрица.

Уникальные n-граммы в модели, заданные как строковые массивы. Ngrams(i,j) является jвторое слово in-грамм. Если количество столбцов Ngrams больше, чем количество слов в n-грамме, тогда оставшиеся значения будут пустыми.

Длины n-граммов, заданные как положительное целое число или вектор положительных целых чисел.

Уникальные слова в модели, заданные как строковый вектор.

Типы данных: string

Количество видимых n-граммов, заданное как неотрицательное целое число.

Количество просматриваемых документов, заданное как неотрицательное целое число.

Функции объекта

encodeЗакодируйте документы как матрицу счетчиков слов или n-граммов
tfidfTerm Frequency-Inverse Document Frequency (tf-idf) матрица
topkngramsНаиболее частые n-граммы
addDocumentДобавьте документы в модель мешка слов или мешка n-граммов
removeDocumentУдалите документы из модели мешка слов или мешка n-граммов
removeEmptyDocumentsУдалите пустые документы из токенизированного массива документов, модели мешка слов или модели мешка n-граммов
removeNgramsУдалите n-граммы из модели мешка n-граммов
removeInfrequentNgramsУдалите нечасто замеченные n-граммы из модели мешка n-граммов
joinОбъедините несколько моделей мешка слов или мешка n-граммов
wordcloudСоздайте график облака слов из текста, модели мешка слов, модели мешка n-граммов или модели LDA

Примеры

свернуть все

Загрузите данные примера. Файл sonnetsPreprocessed.txt содержит предварительно обработанные версии сонетов Шекспира. Файл содержит по одному сонету на линию со словами, разделенными пространством. Извлеките текст из sonnetsPreprocessed.txtразделите текст на документы в символах новой строки, а затем пометьте его токеном.

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);
documents(1:10)
ans = 
  10x1 tokenizedDocument:

    70 tokens: fairest creatures desire increase thereby beautys rose might never die riper time decease tender heir might bear memory thou contracted thine own bright eyes feedst thy lights flame selfsubstantial fuel making famine abundance lies thy self thy foe thy sweet self cruel thou art worlds fresh ornament herald gaudy spring thine own bud buriest thy content tender churl makst waste niggarding pity world else glutton eat worlds due grave thee
    71 tokens: forty winters shall besiege thy brow dig deep trenches thy beautys field thy youths proud livery gazed tatterd weed small worth held asked thy beauty lies treasure thy lusty days say thine own deep sunken eyes alleating shame thriftless praise praise deservd thy beautys thou couldst answer fair child mine shall sum count make old excuse proving beauty succession thine new made thou art old thy blood warm thou feelst cold
    65 tokens: look thy glass tell face thou viewest time face form another whose fresh repair thou renewest thou dost beguile world unbless mother fair whose uneard womb disdains tillage thy husbandry fond tomb selflove stop posterity thou art thy mothers glass thee calls back lovely april prime thou windows thine age shalt despite wrinkles thy golden time thou live rememberd die single thine image dies thee
    71 tokens: unthrifty loveliness why dost thou spend upon thy self thy beautys legacy natures bequest gives nothing doth lend frank lends free beauteous niggard why dost thou abuse bounteous largess thee give profitless usurer why dost thou great sum sums yet canst live traffic thy self alone thou thy self thy sweet self dost deceive nature calls thee gone acceptable audit canst thou leave thy unused beauty tombed thee lives th executor
    61 tokens: hours gentle work frame lovely gaze every eye doth dwell play tyrants same unfair fairly doth excel neverresting time leads summer hideous winter confounds sap checked frost lusty leaves quite gone beauty oersnowed bareness every summers distillation left liquid prisoner pent walls glass beautys effect beauty bereft nor nor remembrance flowers distilld though winter meet leese show substance still lives sweet
    68 tokens: let winters ragged hand deface thee thy summer ere thou distilld make sweet vial treasure thou place beautys treasure ere selfkilld forbidden usury happies pay willing loan thats thy self breed another thee ten times happier ten ten times thy self happier thou art ten thine ten times refigurd thee death thou shouldst depart leaving thee living posterity selfwilld thou art fair deaths conquest make worms thine heir
    64 tokens: lo orient gracious light lifts up burning head eye doth homage newappearing sight serving looks sacred majesty climbd steepup heavenly hill resembling strong youth middle age yet mortal looks adore beauty still attending golden pilgrimage highmost pitch weary car like feeble age reeleth day eyes fore duteous converted low tract look another way thou thyself outgoing thy noon unlookd diest unless thou get son
    70 tokens: music hear why hearst thou music sadly sweets sweets war joy delights joy why lovst thou thou receivst gladly else receivst pleasure thine annoy true concord welltuned sounds unions married offend thine ear sweetly chide thee confounds singleness parts thou shouldst bear mark string sweet husband another strikes mutual ordering resembling sire child happy mother pleasing note sing whose speechless song many seeming sings thee thou single wilt prove none
    70 tokens: fear wet widows eye thou consumst thy self single life ah thou issueless shalt hap die world wail thee like makeless wife world thy widow still weep thou form thee hast left behind every private widow well keep childrens eyes husbands shape mind look unthrift world doth spend shifts place still world enjoys beautys waste hath world end kept unused user destroys love toward others bosom sits murdrous shame commits
    69 tokens: shame deny thou bearst love thy self art unprovident grant thou wilt thou art belovd many thou none lovst evident thou art possessd murderous hate gainst thy self thou stickst conspire seeking beauteous roof ruinate repair thy chief desire o change thy thought change mind shall hate fairer lodgd gentle love thy presence gracious kind thyself least kindhearted prove make thee another self love beauty still live thine thee

Создайте модель сумки n-граммов.

bag = bagOfNgrams(documents)
bag = 
  bagOfNgrams with properties:

          Counts: [154x8799 double]
      Vocabulary: [1x3092 string]
          Ngrams: [8799x2 string]
    NgramLengths: 2
       NumNgrams: 8799
    NumDocuments: 154

Визуализируйте модель с помощью облака слов.

figure 
wordcloud(bag);

Figure contains an object of type wordcloud.

Загрузите данные примера. Файл sonnetsPreprocessed.txt содержит предварительно обработанные версии сонетов Шекспира. Файл содержит по одному сонету на линию со словами, разделенными пространством. Извлеките текст из sonnetsPreprocessed.txtразделите текст на документы в символах новой строки, а затем пометьте его токеном.

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

Создайте модель сумки n-граммов. Для подсчета n-граммов длины 2 и 3 (биграммы и триграммы) задайте 'NgramLengths' быть вектором [2 3].

bag = bagOfNgrams(documents,'NgramLengths',[2 3])
bag = 
  bagOfNgrams with properties:

          Counts: [154×18022 double]
      Vocabulary: [1×3092 string]
          Ngrams: [18022×3 string]
    NgramLengths: [2 3]
       NumNgrams: 18022
    NumDocuments: 154

Просмотрите 10 наиболее распространенных n-граммов длины 2 (биграммы).

topkngrams(bag,10,'NGramLengths',2)
ans=10×3 table
             Ngram             Count    NgramLength
    _______________________    _____    ___________

    "thou"    "art"      ""     34           2     
    "mine"    "eye"      ""     15           2     
    "thy"     "self"     ""     14           2     
    "thou"    "dost"     ""     13           2     
    "mine"    "own"      ""     13           2     
    "thy"     "sweet"    ""     12           2     
    "thy"     "love"     ""     11           2     
    "dost"    "thou"     ""     10           2     
    "thou"    "wilt"     ""     10           2     
    "love"    "thee"     ""      9           2     

Просмотрите 10 наиболее распространенных n-граммов длины 3 (триграммы).

 topkngrams(bag,10,'NGramLengths',3)
ans=10×3 table
               Ngram                Count    NgramLength
    ____________________________    _____    ___________

    "thy"     "sweet"    "self"       4           3     
    "why"     "dost"     "thou"       4           3     
    "thy"     "self"     "thy"        3           3     
    "thou"    "thy"      "self"       3           3     
    "mine"    "eye"      "heart"      3           3     
    "thou"    "shalt"    "find"       3           3     
    "fair"    "kind"     "true"       3           3     
    "thou"    "art"      "fair"       2           3     
    "love"    "thy"      "self"       2           3     
    "thy"     "self"     "thou"       2           3     

Создайте модель bag-of-n-gams с помощью строковых массивов уникальных n-граммов и матрицы отсчётов.

Загрузите пример n-граммов и отсчётов из sonnetsBigramCounts.mat. Этот файл содержит строковые массивы uniqueNgrams, который содержит уникальные n-граммы и матрицу counts, который содержит n-граммовые счетчики частоты.

load sonnetsBigramCounts.mat

Просмотрите первые несколько n-граммов в uniqueNgrams.

uniqueNgrams(1:10,:)
ans = 10x2 string
    "fairest"      "creatures"
    "creatures"    "desire"   
    "desire"       "increase" 
    "increase"     "thereby"  
    "thereby"      "beautys"  
    "beautys"      "rose"     
    "rose"         "might"    
    "might"        "never"    
    "never"        "die"      
    "die"          "riper"    

Создайте модель сумки n-граммов.

bag = bagOfNgrams(uniqueNgrams,counts)
bag = 
  bagOfNgrams with properties:

          Counts: [154x8799 double]
      Vocabulary: [1x3092 string]
          Ngrams: [8799x2 string]
    NgramLengths: 2
       NumNgrams: 8799
    NumDocuments: 154

Введенный в R2018a