Форматы данных и базы данных

Bioinformatics Toolbox™ позволяет вам доступ многие базы данных по сети и другим онлайновым репозиториям данных. Это позволяет вам скопировать данные в рабочую область MATLAB®, и читать и записать в файлы со стандартными биоинформатическими форматами. Это также читает много общих форматов файлов генома так, чтобы вы не писали и обеспечить свои собственные средства чтения файлов.

Веб-базы данных — можно непосредственно получить доступ к общедоступным базам данных в сети и скопировать последовательность и информацию об экспрессии гена в среду MATLAB.

Базами данных последовательности, в настоящее время поддержанными, является GenBank® (getgenbank), GenPept (getgenpept), Европейская лаборатория молекулярной биологии (EMBL) (getembl), и Банк данных белка (PDB) (getpdb). Можно также получить доступ к данным из веб-сайта Gene Expression Omnibus (GEO) NCBI при помощи одной функции (getgeodata).

Доберитесь умножают выровненные последовательности (gethmmalignment), скрытые профили модели Маркова (gethmmprof), и филогенетические древовидные данные (gethmmtree) от базы данных PFAM.

База данных Gene Ontology — Загрузка база данных с сети в генный объект онтологии (geneont). Выберите разделы онтологии с методами для объекта geneont (getancestors (geneont), getdescendants (geneont), getmatrix (geneont), getrelatives (geneont)), и управляйте данными со служебными функциями (goannotread, num2goid).

Считайте данные из инструментов — Считанные данные, сгенерированные от генных инструментов секвенирования (scfread, joinseq, traceplot), массовые спектрометры (jcampread), и сканеры Agilent® микромассивов (agferead).

При чтении форматов данных — тулбокс обеспечивает много функций для чтения данных из общих биоинформатических форматов файлов.

  • Данные о последовательности: GenBank (genbankread), GenPept (genpeptread), EMBL (emblread), PDB (pdbread), и FASTA (fastaread)

  • Умножьте выровненные последовательности: ClustalW и форматы GCG (multialignread)

  • Данные об экспрессии гена из микромассивов: данные Gene Expression Omnibus (GEO) (geosoftread), данные GenePix® в GPR и файлах GAL (gprread, galread), данные SPOT (sptread), данные Affymetrix® GeneChip® (affyread), и файлы результатов ImaGene® (imageneread)

  • Скрытые профили модели Маркова: файл PFAM-HMM (pfamhmmread)

Записывающие данные форматы — функции для получения данных из сети включают опцию, чтобы сохранить данные к файлу. Однако существует функция, чтобы записать данные к файлу с помощью формата FASTA (fastawrite).

Поисковые запросы BLAST — Запрос Веб-поисковые запросы BLAST (blastncbi), получите результаты поиска (getblast) и считайте результаты ранее сохраненного форматированного файла отчета BLAST (blastread).

Среда MATLAB имеет встроенную поддержку других форматов файлов промышленного стандарта включая файлы "запятой разделила значение" (CSV) и Microsoft® Excel®. Дополнительные функции выполняют ASCII и низкоуровневый бинарный ввод-вывод, позволяя вам разработать пользовательские функции для работы с любым форматом данных.

Похожие темы