tabularTextDatastore

Datastore для табличных текстовых файлов

Описание

Используйте TabularTextDatastore объект управлять большим количеством текстовых файлов, содержащих ориентированный на столбец или табличные данные, где набор не обязательно умещается в памяти. Табличные данные являются данными, которые располагаются прямоугольным способом с каждой строкой, имеющей то же количество записей. Можно создать TabularTextDatastore объект с помощью tabularTextDatastore функционируйте, задайте его свойства, и затем импортируйте и обработайте данные, используя функции объекта.

Создание

Описание

ttds = tabularTextDatastore(location) создает datastore из набора данных, заданных location.

пример

ttds = tabularTextDatastore(location,Name,Value) задает дополнительные параметры и свойства для ttds использование одного или нескольких аргументов пары "имя-значение". Например, tabularTextDatastore(location,"FileExtensions",[".txt",".csv"]) создает datastore только из файлов в location с расширениями .txt и .csv.

Входные параметры

развернуть все

Файлы или папки включены в datastore в виде FileSet объект, как пути к файлам, или как DsFileSet объект.

  • FileSet объект — можно задать location как FileSet объект. Определение местоположения как FileSet объект приводит к более быстрому времени создания для хранилищ данных по сравнению с определением пути или DsFileSet объект. Для получения дополнительной информации смотрите matlab.io.datastore.FileSet.

  • Путь к файлу — можно задать один путь к файлу как вектор символов или строковый скаляр. Можно задать несколько путей к файлам как массив ячеек из символьных векторов или массив строк.

  • DsFileSet объект — можно задать DsFileSet объект. Для получения дополнительной информации смотрите matlab.io.datastore.DsFileSet.

Файлы или папки могут быть локальными или удаленными:

  • Локальные файлы или папки — Задают локальные пути к файлам или папкам. Если файлы не находятся в текущей папке, то задают полные или относительные пути. Файлы в подпапках заданной папки автоматически не включены в datastore. Можно использовать подстановочный символ (*) при определении локального пути. Этот символ указывает, что datastore включает все файлы соответствия или все файлы в соответствующих папках.

  • Удаленные файлы или папки — Задают полные пути к удаленным файлам или папкам как универсальный локатор ресурса (URL) формы hdfs:///path_to_file. Для получения дополнительной информации смотрите работу с Удаленными данными.

Когда вы задаете папку, datastore включает только файлы с поддерживаемыми форматами файлов и игнорирует файлы с любым другим форматом. Чтобы задать пользовательский список расширений файла, чтобы включать в ваш datastore, смотрите FileExtensions свойство.

tabularTextDatastore функционируйте поддерживает файлы с этими расширениями .txt, .csv, .dat, .dlm, и .ascТекст а также файлы без расширения.

Пример: "file1.csv"

Пример: "../dir/data/file1"

Пример: ["C:\dir\data\file1.csv","C:\dir\data\file2.dat"]

Пример: "C:\dir\data\*.text"

Аргументы в виде пар имя-значение

Задайте дополнительные разделенные запятой пары Name,Value аргументы. Name имя аргумента и Value соответствующее значение. Name должен появиться в кавычках. Вы можете задать несколько аргументов в виде пар имен и значений в любом порядке, например: Name1, Value1, ..., NameN, ValueN.

Пример: ttds = tabularTextDatastore("C:\dir\textdata","FileExtensions",[".csv",".txt"])

Расширения текстового файла в виде разделенной запятой пары, состоящей из "FileExtensions" и вектор символов, массив ячеек из символьных векторов, строковый скаляр или массив строк. Заданные расширения не требуют поддерживаемого формата. Если вы хотите включать неподдерживаемые расширения, то задайте все расширения. Используйте пустые кавычки "" представлять файлы без расширений.

Пример: "FileExtensions",".txt"

Пример: "FileExtensions",[".text",".csv"]

Типы данных: char | cell | string

Включение подпапки отмечает в виде аргумента значения имени, состоящего из "IncludeSubfolders" и trueложь, 0, или 1. Задайте true включать все файлы и подпапки в каждой папке или false включать только файлы в каждой папке.

Когда вы не задаете "IncludeSubfolders", затем значением по умолчанию является false.

Пример: "IncludeSubfolders",true

Типы данных: логический | double

Выходной тип данных в виде аргумента значения имени, состоящего из "OutputType" и одно из этих значений:

  • "auto" — Обнаруживает, если выход от datastore должен быть таблицей или расписанием на основе того, задаете ли вы "RowTimes" аргумент значения имени. Если вы задаете "RowTimes" затем выход является расписанием; в противном случае выход является таблицей.

  • "table" — Возвратите table.

  • "timetable" — Возвратите timetable.

Значение OutputType определяет тип данных, возвращенный preview, read, и readall функции. Используйте эту опцию в сочетании с "RowTimes" пара "имя-значение", чтобы возвратить расписания в TabularTextDatastore.

Пример: "OutputType","timetable"

Типы данных: char | string

Альтернативные пути к корню файловой системы в виде аргумента значения имени, состоящего из "AlternateFileSystemRoots" и вектор строки или массив ячеек. Используйте "AlternateFileSystemRoots" когда вы создаете datastore на локальной машине, но должны получить доступ и обработать данные на другой машине (возможно различной операционной системы). Кроме того, при обрабатывании данных с помощью Parallel Computing Toolbox™ и MATLAB® Parallel Server™ и данные хранятся на ваших локальных машинах с копией доступных данных в облаке другой платформы или кластерных машинах, необходимо использовать "AlternateFileSystemRoots" сопоставлять корневые пути.

  • Чтобы сопоставить набор корневых путей, которые эквивалентны друг другу, задайте "AlternateFileSystemRoots" как вектор строки. Например,

    ["Z:\datasets","/mynetwork/datasets"]

  • Чтобы сопоставить несколько наборов корневых путей, которые эквивалентны для datastore, задайте "AlternateFileSystemRoots" как массив ячеек, содержащий несколько строк, где каждая строка представляет набор эквивалентных корневых путей. Задайте каждую строку в массиве ячеек или как вектор строки или как массив ячеек из символьных векторов. Например:

    • Задайте "AlternateFileSystemRoots" как массив ячеек векторов строки.

      {["Z:\datasets", "/mynetwork/datasets"];...
       ["Y:\datasets", "/mynetwork2/datasets","S:\datasets"]}

    • В качестве альтернативы задайте "AlternateFileSystemRoots" как массив ячеек массива ячеек из символьных векторов.

      {{'Z:\datasets','/mynetwork/datasets'};...
       {'Y:\datasets', '/mynetwork2/datasets','S:\datasets'}}

Значение "AlternateFileSystemRoots" должен удовлетворить этим условиям:

  • Содержит одну или несколько строк, где каждая строка задает набор эквивалентных корневых путей.

  • Каждая строка задает несколько корневых путей, и каждый корневой путь должен содержать по крайней мере два символа.

  • Корневые пути уникальны и не являются подпапками друг друга.

  • Содержит по крайней мере одну корневую запись пути, которая указывает на местоположение файлов.

Для получения дополнительной информации смотрите Настроенный Datastore для Обработки на Различных Машинах или Кластерах.

Пример: ["Z:\datasets","/mynetwork/datasets"]

Типы данных: string | cell

Тип выходных данных текстовых переменных в виде разделенной запятой пары, состоящей из "TextType" и любой "char" или "string". Если выходная таблица от readreadall, или preview функции содержат текстовые переменные, затем "TextType" задает тип данных тех переменных для TabularTextDatastore. Если "TextType" ischar, затем выход является массивом ячеек из символьных векторов. Если "TextType" isstring, затем выход имеет, вводят string.

Типы данных: char | string

Введите для импортированных данных о дате и времени в виде разделенной запятой пары, состоящей из "DatetimeType" и одно из этих значений: "datetime" или "text".

ЗначениеВведите для импортированных данных о дате и времени
"datetime"

MATLAB datetime тип данных

Для получения дополнительной информации смотрите datetime.

"text"

Если "DatetimeType" задан как "text", затем тип для импортированных данных о дате и времени зависит от значения, заданного в "TextType" свойство:

  • Если "TextType" ischar, затем tabularTextdatastore даты импорта как массив ячеек из символьных векторов.

  • Если "TextType" isstring, затем tabularTextdatastore даты импорта как массив строк.

Если заданный TextscanFormats свойство содержит %D, затем tabularTextdatastore игнорирует значение, заданное в DatetimeType.

Пример: "DatetimeType","datetime"

Типы данных: char | string

Тип выходных данных данных о длительности в виде аргумента значения имени, состоящего из "DurationType" и любой "duration" или "text".

ЗначениеВведите для импортированных данных о длительности
"duration"

MATLAB duration тип данных

Для получения дополнительной информации смотрите duration.

"text"

Если "DurationType" задан как "text", затем тип для импортированных данных о длительности зависит от значения, заданного в "TextType" параметр:

  • Если "TextType" ischar, затем функция импорта возвращает данные о длительности как массив ячеек из символьных векторов.

  • Если "TextType" isstring, затем функция импорта возвращает данные о длительности как массив строк.

Типы данных: char | string

Локаль, чтобы интерпретировать даты в виде вектора символов или строкового скаляра. DatetimeLocale значение определяет, как функция импорта интерпретирует текст, который представляет даты и времена.

При определении DatetimeLocale, используйте форму xx_YY, где xx строчный ISO 639-1 двухбуквенный код, который задает язык и YY прописная альфа ISO 3166-1 2 кода, которые задают страну.

Эта таблица приводит некоторые общие значения для локали.

Локаль ЯзыкСтрана
"de_DE"Немецкий языкГермания
"en_GB"Английский языкСоединенное Королевство
"en_US"Английский языкСоединенные Штаты
"es_ES"Испанский языкИспания
"fr_FR"Французский языкФранция
"it_IT"Итальянский языкИталия
"ja_JP"Японский языкЯпония
"ko_KR"Корейский языкКорея
"nl_NL"Нидерландский языкНидерланды
"zh_CN"Китайский язык (упрощен)Китай

Примечание

Locale значение определяет, как интерпретированы входные значения. Формат отображения и язык заданы опцией Локали в разделе формата Datetime окна Preferences. Чтобы изменить локаль datetime по умолчанию, см. Настройку параметров командного окна.

Типы данных: char | string

В дополнение к этим парам "имя-значение" также можно задать свойства на этой странице как пары "имя-значение", за исключением Files свойство.

Свойства

развернуть все

TabularTextDatastore свойства описывают файлы, сопоставленные с TabularTextDatastore объект. А именно, свойства описывают формат данных в файлах и управляют, как данные должны быть считаны из datastore. Когда вы создаете TabularTextDatastore объект, функция datastore использует первый файл в Files свойство определить значения свойств. За исключением Files свойство, можно задать значение TabularTextDatastore аргументы пары "имя-значение" использования свойств, когда вы создаете объект datastore. Чтобы просмотреть или изменить свойство после создания объекта, используйте запись через точку:

ds = tabularTextDatastore("airlinesmall.csv");
ds.TreatAsMissing = "NA";
ds.MissingValue = 0;

File Properties

Файлы включали в datastore, разрешенный как массив ячеек из символьных векторов или массив строк, где каждый вектор символов или строка являются полным путем к файлу. location аргумент в tabularTextDatastore и datastore функции задают эти файлы.

Первый файл задан Files свойство определяет имена переменных и данные о формате для всех файлов в datastore.

Когда вы изменяете значение этого свойства, функция datastore переоценивает значения TabularTextDatastore свойства.

Пример: {"C:\dir\data\mydata1.csv";"C:\dir\data\mydata2.csv"}

Типы данных: cell | string

Кодирование файла в виде вектора символов или строкового скаляра как одно из этих значений.

"IBM866"

"ISO-8859-1"

"windows-847"

"KOI8-R"

"ISO-8859-2"

"windows-1250"

"KOI8-U"

"ISO-8859-3"

"windows-1251"

"Macintosh"

"ISO-8859-4"

"windows-1252"

"US-ASCII"

"ISO-8859-5"

"windows-1253"

"UTF-8"

"ISO-8859-6"

"windows-1254"

 

"ISO-8859-7"

"windows-1255"

 

"ISO-8859-8"

"windows-1256"

 

"ISO-8859-9"

"windows-1257"

 

"ISO-8859-11"

"windows-1258"

 

"ISO-8859-13"

 
 

"ISO-8859-15"

 

Если каждый файл в datastore помещается в память, то FileEncoding также может быть одно из этих значений.

"Big5"

"EUC-KR"

"GB18030"

"Shift_JIS"

"Big5-HKSCS"

"EUC-JP"

"GB2312"

"windows-949"

"CP949"

"EUC-TW"

"GBK"

 

Когда вы изменяете значение этого свойства, функция datastore переоценивает значения TabularTextDatastore свойства.

Типы данных: char | string

Считайте имена переменных в виде логического true или false.

  • Если незаданный, tabularTextDatastore функция обнаруживает присутствие имен переменных автоматически.

  • Если true, затем первая строка незаголовка первого файла определяет имена переменных для данных.

  • Если false, затем первая строка незаголовка первого файла содержит первую строку данных. Данные присвоены имена переменных по умолчанию, Var1, Var2, и так далее.

Когда вы изменяете значение этого свойства, функция datastore переоценивает значения TabularTextDatastore свойства.

Типы данных: логический

Отметьте, чтобы сохранить имена переменных в виде любого "modify" или "preserve".

  • "modify" — Преобразуйте недопустимые имена переменных (как определено isvarname функция) к допустимым идентификаторам MATLAB.

  • "preserve" — Сохраните имена переменных, которые не являются допустимыми идентификаторами MATLAB, такими как имена переменных, которые включают символы non-ASCII и пробелы.

Начиная в R2019b, имена переменных и имена строки могут включать любые символы, включая символы non-ASCII и пробелы. Кроме того, они могут начать с любых символов, не только обозначает буквами. Переменная и имена строки не должны быть допустимыми идентификаторами MATLAB (как определено isvarname функция. Чтобы сохранить эти имена переменных и имена строки, установите значение VariableNamingRule к "preserve". Имена переменных не обновляются когда значение VariableNamingRule изменяется от "modify" к "preserve".

Типы данных: char | string

Имена переменных в datastore в виде массива ячеек из символьных векторов или массива строк. Задайте имена переменных в порядке, в котором они появляются в файлах. Если вы не задаете имена переменных, они обнаруживаются от первой линии незаголовка в первом файле datastore. При изменении VariableNames свойство, количество новых имен переменных должно совпадать с количеством исходных имен переменных.

Чтобы поддержать недопустимые идентификаторы MATLAB как, имена переменных, такие как имена переменных, содержащие пробелы и символы non-ASCII, устанавливают значение VariableNamingRule параметр к "preserve".

Если ReadVariableNames false, затем VariableNames значения по умолчанию к {"Var1","Var2", ...}.

Пример: {"Time","Name","Quantity"}

Типы данных: cell | string

Text Format Properties

Количество линий, чтобы пропустить в начале файла в виде неотрицательного целого числа. Если незаданный, tabularTextDatastore функция обнаруживает количество линий, чтобы пропустить автоматически.

tabularTextDatastore функция игнорирует конкретное количество линий заголовка прежде, чем считать имена переменных или данные.

Когда вы изменяете значение этого свойства, функция datastore переоценивает значения TabularTextDatastore свойства.

Типы данных: double

Символы разделителя полей в виде вектора символов, массива ячеек из символьных векторов, строкового скаляра или массива строк. Задайте несколько разделителей в массиве ячеек из символьных векторов или массиве строк. Если незаданный, tabularTextDatastore функция обнаруживает разделитель автоматически.

Пример: "|"

Пример: {";","*"}

Повторные символы-разделители в файле интерпретированы, как разделяют разделители пустыми полями между ними. Если незаданный, функция чтения обнаруживает разделитель автоматически по умолчанию.

Когда вы задаете одну из следующих escape-последовательностей как разделитель, она преобразована в соответствующий управляющий символ.

\bКлавиша Backspace
\nНовая строка
\rВозврат каретки
\tВкладка
\\Обратная косая черта (\)

Когда вы изменяете значение этого свойства, функция datastore переоценивает значения TabularTextDatastore свойства.

Типы данных: char | cell | string

Символ-разделитель строки в виде вектора символов или строкового скаляра, который должен быть или отдельным символом или одним из "\r"N, или "\r\n".

Когда вы изменяете значение этого свойства, функция datastore переоценивает значения TabularTextDatastore свойства.

Пример: ":"

Типы данных: char | string

Текст, чтобы обработать как отсутствующие значения в виде односимвольного вектора, массива ячеек из символьных векторов, строкового скаляра или массива строк. Значения, заданные как TreatAsMissing подставлены со значением, заданным в MissingValue свойство. Например, если MissingValue задан, чтобы быть NaN, и TreatAsMissing задан как "NA". Затем в импортированных данных, всех случаях "NA" заменяются NaN.

Эта опция только применяется к числовым полям. Кроме того, это свойство эквивалентно TreatAsEmpty аргумент пары "имя-значение" для textscan функция.

Когда вы изменяете значение этого свойства, функция datastore переоценивает значения TabularTextDatastore свойства.

Пример: "NA"

Пример: {"-",""}

Типы данных: char | cell | string

Значение для пропавших без вести числовых полей в разделенных текстовых файлах в виде скаляра. Это свойство эквивалентно EmptyValue аргумент пары "имя-значение" для textscan функция.

Типы данных: double

Расширенные свойства текстового формата

Формат поля данных в виде массива ячеек из символьных векторов или массива строк, где каждый вектор символов или строка содержат один спецификатор преобразования.

Когда вы задаете или изменяете TextscanFormats свойство, можно использовать те же спецификаторы преобразования что textscan функция принимает для formatSpec аргумент. Допустимые значения для TextscanFormats включайте спецификаторы преобразования что поля игнорируемых данных с помощью звездочки (*) символ и единицы тот буквенный текст пропуска. Количество спецификаторов преобразования должно совпадать с количеством переменных в VariableNames свойство.

  • Если значение TextscanFormats включает спецификаторы преобразования что поля игнорируемых данных с помощью символов звездочки (*), затем значение SelectedVariableNames свойство автоматически обновляется. MATLAB использует %*q спецификатор преобразования к полям игнорируемых данных не использован SelectedVariableNames свойство и обработки полевое содержимое как векторы буквенного символа. Для файлов с фиксированной шириной укажите на пропущенное поле с помощью соответствующего спецификатора преобразования наряду с шириной поля. Например, %*52c пропускает поле, которое содержит 52 символа.

  • Если вы не задаете значение для TextscanFormats, затем datastore определяет формат полей данных путем сканирования текста от первой линии незаголовка в первом файле datastore.

  • Начиная в R2020b, datastore обнаруживает снабженные префиксом литералы как шестнадцатеричные и двоичные данные. Ранее datastore обнаруженные снабженные префиксом литералы как текстовые данные.

Пример: {"%s","%s","%f"}

Типы данных: cell | string

Символы экспоненты в виде вектора символов или строкового скаляра. Символами экспоненты по умолчанию является eED, и D.

Типы данных: char | string

Символ комментария раньше отличал комментарии в файле в виде вектора символов, строкового скаляра, или двухэлементного массива строк или массива ячеек.

  • Если вы задаете вектор символов или строковый скаляр, то весь после текста на той же линии интерпретирован как комментарий. Например, "CommentStyle","/*" интерпретирует весь текст после /* на той же линии как комментарий.

  • Если вы задаете двухэлементный вектор строки или двухэлементный массив ячеек, содержащий векторы символов, то весь текст между этими двумя символами интерпретирован как комментарий. Например, "CommentStyle",{"/*", "*/"} интерпретирует весь текст между "/*" и "*/" как комментарий.

При чтении из TabularTextDatastore, read функционируйте проверки на комментарии только в начале каждого поля, не в поле.

Когда вы изменяете значение этого свойства, datastore функция переоценивает значения TabularTextDatastore свойства.

Пример: "CommentStyle",{"/*", "*/"}

Типы данных: char | cell | string

Пробельные символы в виде вектора символов или строкового скаляра одного или нескольких символов.

Когда вы задаете одну из следующих escape-последовательностей как любой пробельный символ, datastore функция преобразует ту последовательность в соответствующий управляющий символ.

\bКлавиша Backspace
\nНовая строка
\rВозврат каретки
\tВкладка
\\Обратная косая черта (\)

Когда вы изменяете значение этого свойства, функция datastore переоценивает значения TabularTextDatastore свойства.

Пример: " \b\t"

Типы данных: char | string

Несколько обработка разделителя в виде любого true или false. Если trueто datastore обрабатывает последовательные разделители как один разделитель. Повторные разделители, разделенные пробелом, также обработаны как один разделитель.

Когда вы изменяете значение этого свойства, функция datastore переоценивает значения TabularTextDatastore свойства.

Свойства для preview, read, readall Таблица

Переменные, чтобы читать из файла в виде массива ячеек из символьных векторов или массива строк, где каждый вектор символов или строка содержат имя одной переменной. Можно задать имена переменных в любом порядке.

Чтобы поддержать недопустимые идентификаторы MATLAB как, имена переменных, такие как имена переменных, содержащие пробелы и символы non-ASCII, устанавливают значение VariableNamingRule параметр к "preserve".

Пример: ["Var3","Var7","Var4"]

Типы данных: cell | string

Форматы выбранных переменных, чтобы читать в виде массива ячеек из символьных векторов или массива строк, где каждый вектор символов или строка содержат один спецификатор преобразования. Переменные, чтобы читать обозначаются SelectedVariableNames свойство. Количество векторов символов или строк в SelectedFormats должен совпадать с количеством переменных, чтобы читать.

Можно использовать те же спецификаторы преобразования что textscan функция принимает, включая спецификаторы тот буквенный текст пропуска. Однако вы не можете использовать спецификатор преобразования, который пропускает поле. Таким образом, спецификатор преобразования не может включать символ звездочки (*).

Пример: ["%d","%d"]

Типы данных: cell | string

Объем данных, чтобы читать в вызове read функция в виде положительной скалярной величины или "file".

  • Если ReadSize положительное целое число, затем каждый вызов read чтения в большей части ReadSize 'Строки' .

  • Если ReadSize isfile, затем каждый вызов read чтения все данные в одном файле.

Когда вы изменяете ReadSize от числового скаляра до "file" или наоборот, MATLAB сбрасывает datastore к состоянию, где никакие данные не были считаны из него.

Типы данных: double | char | string

Тип выходных данных текстовых переменных в виде "char" или "string"TextType задает тип данных текстовых переменных, отформатированных с %sQ, или [...].

  • Если TextType ischar, затем выход является массивом ячеек из символьных векторов.

  • Если TextType isstring, затем выход имеет, вводят string.

Типы данных: char | string

Имя переменной времен строки в виде аргумента значения имени, состоящего из "RowTimes" и имя переменной (такое как "Date") или переменный индекс (такой как 3).

RowTimes связанный с расписанием параметр. Каждая строка расписания сопоставлена со временем, которое получено во временном векторе для расписания. Переменная задана в RowTimes должен содержать datetime или duration вектор.

Если значение "OutputType" istimetable, но вы не задаете "RowTimes", затем TabularTextDatastore использует первый datetime или duration переменная как времена строки для расписания.

Свойства для использования writeall

Это свойство доступно только для чтения.

Папки, используемые, чтобы создать datastore, возвратились как массив ячеек из символьных векторов. Массив ячеек ориентирован как вектор-столбец. Каждый вектор символов является путем к папке, которая содержит файлы данных. location аргумент в tabularTextDatastore и datastore функции задают Folders когда datastore создается.

Folders свойство сбрасывается, когда вы изменяете Files свойство TabularTextDatastore объект.

Типы данных: cell

Это свойство доступно только для чтения.

Список форматов поддержан для записи, возвращенный как вектор-строка из строк. Это свойство задает возможные выходные форматы при использовании writeall записать выходные файлы из datastore.

Типы данных: string

Это свойство доступно только для чтения.

Выходной формат по умолчанию, возвращенный как строковый скаляр. Это свойство задает формат по умолчанию при использовании writeall записать выходные файлы из datastore.

Типы данных: string

Функции объекта

hasdataОпределите, доступны ли данные для чтения
numpartitionsКоличество разделов datastore
partitionРазделите datastore
previewПодмножество предварительного просмотра данных в datastore
readСчитайте данные в datastore
readallСчитывайте все данные в datastore
writeallЗапишите datastore в файлы
resetСброс Datastore к начальному состоянию
transformПреобразуйте datastore
combineОбъедините данные от нескольких datastores
isPartitionableОпределите, partitionable ли datastore
isShuffleableОпределите, shuffleable ли datastore

Примеры

свернуть все

Или Используя объект FileSet или Используя путь к файлу, создайте datastore из файла примера airlinesmall.csv. Задайте, как обработать отсутствующие значения. Выберите только переменные интереса.

Создайте объект FileSet из файла airlinesmall.csv. Создайте datastore где значения "NA" обработаны, как отсутствующие и отсутствующие значения обработаны как 0.

fs = matlab.io.datastore.FileSet("airlinesmall.csv");
ds = tabularTextDatastore(fs,"TreatAsMissing","NA",...
    "MissingValue",0);

Просмотрите переменные в datastore.

ds.VariableNames
ans = 1x29 cell
  Columns 1 through 5

    {'Year'}    {'Month'}    {'DayofMonth'}    {'DayOfWeek'}    {'DepTime'}

  Columns 6 through 9

    {'CRSDepTime'}    {'ArrTime'}    {'CRSArrTime'}    {'UniqueCarrier'}

  Columns 10 through 13

    {'FlightNum'}    {'TailNum'}    {'ActualElapsedTime'}    {'CRSElapsedTime'}

  Columns 14 through 18

    {'AirTime'}    {'ArrDelay'}    {'DepDelay'}    {'Origin'}    {'Dest'}

  Columns 19 through 22

    {'Distance'}    {'TaxiIn'}    {'TaxiOut'}    {'Cancelled'}

  Columns 23 through 25

    {'CancellationCode'}    {'Diverted'}    {'CarrierDelay'}

  Columns 26 through 28

    {'WeatherDelay'}    {'NASDelay'}    {'SecurityDelay'}

  Column 29

    {'LateAircraftDelay'}

Измените SelectedVariableNames свойство задать переменные интереса.

ds.SelectedVariableNames = ["Year","Month","Cancelled"];

В качестве альтернативы можно задать местоположение данных как путь к файлу.

ds = tabularTextDatastore("airlinesmall.csv");

Используя любой формат местоположения, можно также задать переменные интереса, когда вы создаете datastore.

ds = tabularTextDatastore("airlinesmall.csv","TreatAsMissing","NA",...
    "MissingValue",0,"SelectedVariableNames",["Year","Month","Cancelled"]);

Создайте datastore из файла примера airlinesmall.csv, который содержит табличные данные.

ds = tabularTextDatastore("airlinesmall.csv","TreatAsMissing","NA",...
    "MissingValue",0);

Задайте переменные интереса.

ds.SelectedVariableNames = ["Year","Month","UniqueCarrier"];

Просмотрите SelectedFormats свойство.

ds.SelectedFormats
ans = 1x3 cell
    {'%f'}    {'%f'}    {'%q'}

SelectedFormats свойство задает как tabularTextDatastore функция интерпретирует формат переменных. Year и Month переменные читаются как столбцы значений с плавающей точкой и UniqueCarrier переменная как столбец текста.

Измените SelectedFormats свойство считать первые две переменные как целые числа со знаком и третью переменную как категориальное значение.

ds.SelectedFormats = ["%d","%d","%C"];

Предварительно просматривание данных.

T = preview(ds)
T=8×3 table
    Year    Month    UniqueCarrier
    ____    _____    _____________

    1987     10           PS      
    1987     10           PS      
    1987     10           PS      
    1987     10           PS      
    1987     10           PS      
    1987     10           PS      
    1987     10           PS      
    1987     10           PS      

Используйте OutputType и RowTimes пары "имя-значение", чтобы сделать tabulartextDatastore возвратите расписания вместо таблиц.

Создайте datastore для outages.csv. Задайте "OutputType"пара "имя-значение" как "timetable".

ttds = tabularTextDatastore("outages.csv","OutputType","timetable");
preview(ttds)
ans=8×5 timetable
       OutageTime          Region         Loss     Customers     RestorationTime            Cause       
    ________________    _____________    ______    __________    ________________    ___________________

    2002-02-01 12:18    {'SouthWest'}    458.98    1.8202e+06    2002-02-07 16:50    {'winter storm'   }
    2003-01-23 00:49    {'SouthEast'}    530.14    2.1204e+05                 NaT    {'winter storm'   }
    2003-02-07 21:15    {'SouthEast'}     289.4    1.4294e+05    2003-02-17 08:14    {'winter storm'   }
    2004-04-06 05:44    {'West'     }    434.81    3.4037e+05    2004-04-06 06:10    {'equipment fault'}
    2002-03-16 06:18    {'MidWest'  }    186.44    2.1275e+05    2002-03-18 23:23    {'severe storm'   }
    2003-06-18 02:49    {'West'     }         0             0    2003-06-18 10:54    {'attack'         }
    2004-06-20 14:39    {'West'     }    231.29           NaN    2004-06-20 19:16    {'equipment fault'}
    2002-06-06 19:28    {'West'     }    311.86           NaN    2002-06-07 00:51    {'equipment fault'}

Когда вы также не задаете 'RowTimes'TabularTextDatastore использует первый datetime или переменную длительности как времена строки. В этом случае, OutageTime переменная используется в течение времен строки.

Задайте 'RowTimes' опция, чтобы использовать времена восстановления (RestorationTime переменная) как времена строки, вместо времени отключений электроэнергии.

ttds = tabularTextDatastore("outages.csv","OutputType","timetable","RowTimes","RestorationTime");
preview(ttds)
ans=8×5 timetable
    RestorationTime        Region           OutageTime        Loss     Customers            Cause       
    ________________    _____________    ________________    ______    __________    ___________________

    2002-02-07 16:50    {'SouthWest'}    2002-02-01 12:18    458.98    1.8202e+06    {'winter storm'   }
    NaT                 {'SouthEast'}    2003-01-23 00:49    530.14    2.1204e+05    {'winter storm'   }
    2003-02-17 08:14    {'SouthEast'}    2003-02-07 21:15     289.4    1.4294e+05    {'winter storm'   }
    2004-04-06 06:10    {'West'     }    2004-04-06 05:44    434.81    3.4037e+05    {'equipment fault'}
    2002-03-18 23:23    {'MidWest'  }    2002-03-16 06:18    186.44    2.1275e+05    {'severe storm'   }
    2003-06-18 10:54    {'West'     }    2003-06-18 02:49         0             0    {'attack'         }
    2004-06-20 19:16    {'West'     }    2004-06-20 14:39    231.29           NaN    {'equipment fault'}
    2002-06-07 00:51    {'West'     }    2002-06-06 19:28    311.86           NaN    {'equipment fault'}

Ограничения

  • Данные о datetime, содержащие день, месяц или часовой пояс, называют на языке внешний к en_US локаль не поддерживается. Для нераспознанных форматов datetime задайте формат с помощью TextscanFormats параметр.

Введенный в R2014b
Для просмотра документации необходимо авторизоваться на сайте