Загрузите данные в качестве примера. Файл sonnetsPreprocessed.txt
содержит предварительно обработанные версии сонетов Шекспира. Файл содержит один сонет на строку со словами, разделенными пробелом. Извлеките текст от sonnetsPreprocessed.txt
, разделите текст в документы в символах новой строки, и затем маркируйте документы.
Создайте мешок n модели граммов. Задайте, чтобы считать биграммы (пары слов), и триграммы (утраивается слов).
bag =
bagOfNgrams with properties:
Counts: [154x18022 double]
Vocabulary: [1x3092 string]
Ngrams: [18022x3 string]
NgramLengths: [2 3]
NumNgrams: 18022
NumDocuments: 154
Удалите N-граммы любой длины, которые появляются два или меньше раз всего.
bag =
bagOfNgrams with properties:
Counts: [154x103 double]
Vocabulary: [1x73 string]
Ngrams: [103x3 string]
NgramLengths: [2 3]
NumNgrams: 103
NumDocuments: 154
Удалите биграммы, которые появляются четыре или меньше раз всего.
bag =
bagOfNgrams with properties:
Counts: [154x41 double]
Vocabulary: [1x30 string]
Ngrams: [41x3 string]
NgramLengths: [2 3]
NumNgrams: 41
NumDocuments: 154