Если ваши текстовые данные содержатся в нескольких файлах в папке, то можно импортировать текстовые данные в MATLAB с помощью datastore файла.
Создайте datastore файла для текстовых файлов сонета в качестве примера. Сонеты в качестве примера имеют имена файлов "exampleSonnetN.txt
", где N
является количеством сонета. Задайте функцию чтения, чтобы быть extractFileText
.
fds =
FileDatastore with properties:
Files: {
' .../tpc9f2555f/textanalytics-ex73762432/exampleSonnet1.txt';
' .../tpc9f2555f/textanalytics-ex73762432/exampleSonnet2.txt';
' .../tpc9f2555f/textanalytics-ex73762432/exampleSonnet3.txt'
... and 1 more
}
UniformRead: 0
ReadMode: 'file'
BlockSize: Inf
PreviewFcn: @extractFileText
ReadFcn: @extractFileText
AlternateFileSystemRoots: {}
Создайте пустую модель сумки слов.
bag =
bagOfWords with properties:
Counts: []
Vocabulary: [1x0 string]
NumWords: 0
NumDocuments: 0
Цикл по файлам в datastore и считал каждый файл. Маркируйте текст в каждом файле и добавьте документ bag
.
Просмотрите обновленную модель сумки слов.
bag =
bagOfWords with properties:
Counts: [4x276 double]
Vocabulary: [1x276 string]
NumWords: 276
NumDocuments: 4