Форматы данных и базы данных

Bioinformatics Toolbox™ позволяет вам получить доступ ко многим базам данных в Интернете и других онлайн-хранилищах данных. Он позволяет скопировать данные в MATLAB® рабочая область, а также чтение и запись в файлы со стандартными биоинформатическими форматами. Он также читает много распространенных форматов файлов генома, так что вам не нужно записывать и поддерживать свои собственные средства чтения файлов.

Веб-базы данных - Вы можете получить прямой доступ к публичным базам данных в Интернете и скопировать информацию о последовательности и экспрессии генов в окружение MATLAB.

В настоящее время поддерживаются базы данных последовательности GenBank® (getgenbank), GenPept (getgenpept), Европейская лаборатория молекулярной биологии (EMBL) (getembl) и Protein Data Bank (PDB) (getpdb). Вы также можете получить доступ к данным с веб-сайта NCBI Gene Expression Omnibus (GEO) с помощью одной функции (getgeodata).

Получите многоуровневые последовательности (gethmmalignment), скрытые профили модели Маркова (gethmmprof) и данные филогенетического дерева (gethmmtree) из базы данных PFAM.

База данных Gene Ontology - Загрузка базы данных из Сети в объект генной онтологии (geneont). Выберите разделы онтологии с методами для объекта генеонта (getancestors (geneont), getdescendants (geneont), getmatrix (geneont), getrelatives (geneont)) и манипулируйте данными с помощью служебных функций (goannotread, num2goid).

Чтение данных с инструментов - Чтение данных, сгенерированных с помощью инструментов секвенирования генов (scfread, joinseq, traceplot), масс-спектрометры (jcampread), и Agilent® микромассивы (agferead).

Чтение форматов данных - тулбокс обеспечивает ряд функций для чтения данных из распространенных биоинформатических форматов файлов.

  • Данные последовательности: GenBank (genbankread), GenPept (genpeptread), EMBL (emblread), PDB (pdbread) и FASTA (fastaread)

  • Умножение выровненных последовательностей: форматы ClustalW и GCG (multialignread)

  • Данные экспрессии генов из данных микромассивов: Gene Expression Omnibus (GEO) (geosoftread), GenePix® данные в файлах GPR и GAL (gprread, galread), данные SPOT (sptread), Аффиметрикс® GeneChip® данные (affyread) и ImaGene® файлы результатов (imageneread)

  • Скрытые профили модели Маркова: файл PFAM-HMM (pfamhmmread)

Запись форматов данных - Функции для получения данных из Сети включают опцию сохранения данных в файл. Однако существует функция записи данных в файл с использованием формата FASTA (fastawrite).

BLAST searches - Запрос веб-поиска BLAST (blastncbi), получите результаты из поиска (getblast) и считайте результаты из ранее сохраненного файла отчета BLAST (blastread).

Окружение MATLAB имеет встроенную поддержку других форматов файлов отраслевого стандарта, включая Microsoft® Excel® и файлы CSV. Дополнительные функции выполняют ASCII и низкоуровневый двоичный ввод-вывод, позволяя разрабатывать пользовательские функции для работы с любым форматом данных.

Похожие темы