fastaread

Считайте данные из файла FASTA

Синтаксис

FASTAData = fastaread(File)
[Header, Sequence] = fastaread(File)
... = fastaread(File, ...'IgnoreGaps', IgnoreGapsValue, ...)
... = fastaread(File, ...'Blockread', BlockreadValue, ...)
... = fastaread(File, ...'TrimHeaders', TrimHeadersValue, ...)

Входные параметры

File

Любое из следующего:

  • Вектор символов или строка, задающая имя файла, путь и имя файла или URL, указывающий на файл. Файл, на который ссылаются, является FASTA-отформатированным файлом (текстовый ASCII-файл). Если вы задаете только имя файла, тот файл должен быть на пути поиска файлов MATLAB® или в Текущей папке MATLAB.

  • Символьный массив MATLAB, который содержит текст FASTA-отформатированного файла.

IgnoreGapsValueУправляет удалением символов разрыва. Выбором является true или false (значение по умолчанию).
BlockreadValueСкаляр или вектор, который управляет чтением одной записи последовательности или блоком записей последовательности из FASTA-отформатированного файла, содержащего несколько последовательностей. Введите скалярный N, чтобы считать N th запись в файле. Введите 1 2 векторный [M1, M2], чтобы считать блок записей, запускающихся при записи M1 и заканчивающихся при записи M2. Чтобы считать все остающиеся записи в файле, запускающемся при записи M1, введите положительное значение для M1 и введите Inf для M2.
TrimHeadersValue

Задает, обрезать ли заголовок после первого пробельного символа. Пробельные символы включают пробел (char (32)) и вкладка (char (9)). Выбором является true или false (значение по умолчанию).

Выходные аргументы

FASTADataСтруктура MATLAB с полями Header и Sequence.

Описание

fastaread считывает данные из FASTA-отформатированного файла в структуру MATLAB со следующими полями.

Поле Описание
HeaderИнформация о заголовке.
SequenceОдно представление алфавитного кода последовательности нуклеотида.

FASTA-отформатированный файл начинается с правой угловой скобки (>) и однострочное описание. После этого описания последовательность как серия строк с меньше, чем символы 80. Последовательности должны использовать стандартную аминокислоту IUB/IUPAC и алфавитные коды нуклеотида.

Для списка кодов смотрите aminolookup и baselookup.

FASTAData = fastaread(File) читает FASTA-отформатированный файл и возвращает данные в структуре. FASTAData.Header является информацией о заголовке, в то время как FASTAData.Sequence является последовательностью, сохраненной как вектор символов или строка.

[Header, Sequence] = fastaread(File) считывает данные из файла в отдельные переменные. Если файл содержит несколько последовательностей, то Header и Sequence являются массивами ячеек информации о последовательности и заголовка.

... = fastaread(File, ...'PropertyName', PropertyValue, ...)  вызывает fastaread с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и нечувствительный к регистру. Имя свойства / пары значения может быть в любом формате, поддержанном функциональным set (например, пары "имя-значение" и структуры). Это имя свойства / пары значения свойства следующие:

... = fastaread(File, ...'IgnoreGaps', IgnoreGapsValue, ...), то, когда IgnoreGapsValue является true, удаляет любой символ разрыва ('-' или '.') от последовательностей. Значением по умолчанию является false.

... = fastaread(File, ...'Blockread', BlockreadValue, ...) позволяет вам читать в одной записи последовательности или блоке записей последовательности из файла, содержащего несколько последовательностей. Если BlockreadValue является скалярный N, то fastaread читает N th запись в файле. Если BlockreadValue 1 2 вектор [M1, M2], то fastaread читает блок записей, запускающихся при записи M1 и заканчивающихся при записи M2. Чтобы считать все остающиеся записи в файле, запускающемся при записи M1, введите положительное значение для M1 и введите Inf для M2.

... = fastaread(File, ...'TrimHeaders', TrimHeadersValue, ...) задает, обрезать ли заголовок к первому пробелу.

Примеры

свернуть все

Считайте информации последовательности нуклеотида человеческого p53 гена опухоли.

p53nt = fastaread('p53nt.txt')
p53nt = struct with fields:
      Header: 'gi|8400737|ref|NM_000546.2| Homo sapiens tumor protein p53 (Li-Fraumeni syndrome) (TP53), mRNA'
    Sequence: 'ACTTGTCATGGCGACTGTCCAGCTTTGTGCCAGGAGCCTCGCAGGGGTTGATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAGAATGCCAGAGGCTGCTCCCCGCGTGGCCCCTGCACCAGCAGCTCCTACACCGGCGGCCCCTGCACCAGCCCCCTCCTGGCCCCTGTCATCTTCTGTCCCTTCCCAGAAAACCTACCAGGGCAGCTACGGTTTCCGTCTGGGCTTCTTGCATTCTGGGACAGCCAAGTCTGTGACTTGCACGTACTCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATGGGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGACGGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCGCAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGCTCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGCGCTTCGAGATGTTCCGAGAGCTGAATGAGGCCTTGGAACTCAAGGATGCCCAGGCTGGGAAGGAGCCAGGGGGGAGCAGGGCTCACTCCAGCCACCTGAAGTCCAAAAAGGGTCAGTCTACCTCCCGCCATAAAAAACTCATGTTCAAGACAGAAGGGCCTGACTCAGACTGACATTCTCCACTTCTTGTTCCCCACTGACAGCCTCCCACCCCCATCTCTCCCTCCCCTGCCATTTTGGGTTTTGGGTCTTTGAACCCTTGCTTGCAATAGGTGTGCGTCAGAAGCACCCAGGACTTCCATTTGCTTTGTCCCGGGGCTCCACTGAACAAGTTGGCCTGCACTGGTGTTTTGTTGTGGGGAGGAGGATGGGGAGTAGGACATACCAGCTTAGATTTTAAGGTTTTTACTGTGAGGGATGTTTGGGAGATGTAAGAAATGTTCTTGCAGTTAAGGGTTAGTTTACAATCAGCCACATTCTAGGTAGGTAGGGGCCCACTTCACCGTACTAACCAGGGAAGCTGTCCCTCATGTTGAATTTTCTCTAACTTCAAGGCCCATATCTGTGAAATGCTGGCATTTGCACCTACCTCACAGAGTGCATTGTGAGGGTTAATGAAATAATGTACATCTGGCCTTGAAACCACCTTTTATTACATGGGGTCTAAAACTTGACCCCCTTGAGGGTGCCTGTTCCCTCTCCCTCTCCCTGTTGGCTGGTGGGTTGGTAGTTTCTACAGTTGGGCAGCTGGTTAGGTAGAGGGAGTTGTCAAGTCTTGCTGGCCCAGCCAAACCCTGTCTGACAACCTCTTGGTCGACCTTAGTACCTAAAAGGAAATCTCACCCCATCCCACACCCTGGAGGATTTCATCTCTTGTATATGATGATCTGGATCCACCAAGACTTGTTTTATGCTCAGGGTCAATTTCTTTTTTCTTTTTTTTTTTTTTTTTTCTTTTTCTTTGAGACTGGGTCTCGCTTTGTTGCCCAGGCTGGAGTGGAGTGGCGTGATCTTGGCTTACTGCAGCCTTTGCCTCCCCGGCTCGAGCAGTCCTGCCTCAGCCTCCGGAGTAGCTGGGACCACAGGTTCATGCCACCATGGCCAGCCAACTTTTGCATGTTTTGTAGAGATGGGGTCTCACAGTGTTGCCCAGGCTGGTCTCAAACTCCTGGGCTCAGGCGATCCACCTGTCTCAGCCTCCCAGAGTGCTGGGATTACAATTGTGAGCCACCACGTGGAGCTGGAAGGGTCAACATCTTTTACATTCTGCAAGCACATCTGCATTTTCACCCCACCCTTCCCCTCCTTCTCCCTTTTTATATCCCATTTTTATATCGATCTCTTATTTTACAATAAAACTTTGCTGCCA'

Считайте информации последовательности аминокислот p53 белка.

p53aa = fastaread('p53aa.txt')
p53aa = struct with fields:
      Header: 'gi|8400738|ref|NP_000537.2| tumor protein p53 [Homo sapiens]'
    Sequence: 'MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPRVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD'

Считайте блок записей из файла FASTA.

pf2_5_10 = fastaread('pf00002.fa', 'blockread', [5 10], ...
                     'ignoregaps',true)
pf2_5_10 = 6x1 struct array with fields:
    Header
    Sequence

Представлено до R2006a