Форматы данных и базы данных

Bioinformatics Toolbox™ позволяет вам доступ многие базы данных по сети и другим онлайновым репозиториям данных. Это позволяет вам скопировать данные в рабочую область MATLAB®, и читать и записать в файлы со стандартными биоинформатическими форматами. Это также читает много общих форматов файлов генома так, чтобы вы не писали и поддержать свои собственные средства чтения файлов.

Веб-базы данных — можно непосредственно получить доступ к общедоступным базам данных в сети и скопировать последовательность и информацию об экспрессии гена в среду MATLAB.

Базами данных последовательности, в настоящее время поддержанными, является GenBank® (getgenbank), GenPept (getgenpept), Европейская лаборатория молекулярной биологии (EMBL) (getembl) и Банк данных белка (PDB) (getpdb). Можно также получить доступ к данным из веб-сайта Автобуса экспрессии гена (GEO) NCBI при помощи одной функции (getgeodata).

Доберитесь умножают выровненные последовательности (gethmmalignment), скрытые профили модели Маркова (gethmmprof) и филогенетические древовидные данные (gethmmtree) от базы данных PFAM.

База данных Gene Ontology — Загрузка база данных с сети в генный объект онтологии (geneont). Выберите разделы онтологии с методами для объекта geneont (geneont.getancestors, geneont.getdescendants, geneont.getmatrix, geneont.getrelatives), и управляйте данными со служебными функциями (goannotread, num2goid).

Считайте данные из инструментов — Считанные данные, сгенерированные от генных инструментов упорядочивания (scfread, joinseq, traceplot), массовые спектрометры (jcampread) и сканеры Agilent® микромассивов (agferead).

При чтении форматов данных — тулбокс обеспечивает много функций для чтения данных из общих биоинформатических форматов файлов.

  • Данные о последовательности: GenBank (genbankread), GenPept (genpeptread), EMBL (emblread), PDB (pdbread) и FASTA (fastaread)

  • Умножьте выровненные последовательности: ClustalW и форматы GCG (multialignread)

  • Данные об экспрессии гена из микромассивов: данные об Автобусе экспрессии гена (GEO) (geosoftread), данные GenePix® в GPR и файлах GAL (gprread, galread), данные SPOT (sptread), данные Affymetrix® GeneChip® (affyread) и файлы результатов ImaGene® (imageneread)

  • Скрытые профили модели Маркова: файл PFAM-HMM (pfamhmmread)

Записывающие данные форматы — функции для получения данных из сети включают опцию, чтобы сохранить данные к файлу. Однако существует функция, чтобы записать данные к файлу с помощью формата FASTA (fastawrite).

Поисковые запросы BLAST — Запрос Веб-поисковые запросы BLAST (blastncbi), получите результаты поиска (getblast) и считайте результаты ранее сохраненного форматированного файла отчета BLAST (blastread).

Среда MATLAB имеет встроенную поддержку других форматов файлов промышленного стандарта включая файлы "запятой разделила значение" (CSV) и Microsoft® Excel®. Дополнительные функции выполняют ASCII и низкоуровневый бинарный ввод-вывод, позволяя вам разработать пользовательские функции для работы с любым форматом данных.

Похожие темы