fastaread

Считайте данные из файла FASTA

Синтаксис

FASTAData = fastaread(File)
[Header, Sequence] = fastaread(File)
... = fastaread(File, ...'IgnoreGaps', IgnoreGapsValue, ...)
... = fastaread(File, ...'Blockread', BlockreadValue, ...)
... = fastaread(File, ...'TrimHeaders', TrimHeadersValue, ...)
... = fastaread(File, ...'TimeOut', TimeOutValue, ...)

Входные параметры

File

Любое из следующего:

  • Вектор символов или строка, задающая имя файла, путь и имя файла или URL, указывающий на файл. Файл, на который ссылаются, является FASTA-отформатированным файлом (текстовый ASCII-файл). Если вы задаете только имя файла, тот файл должен быть на пути поиска файлов MATLAB® или в Текущей папке MATLAB.

  • Символьный массив MATLAB, который содержит текст FASTA-отформатированного файла.

IgnoreGapsValueУправляет удалением символов разрыва. Выбором является true или false (значение по умолчанию).
BlockreadValueСкаляр или вектор, который управляет чтением одной записи последовательности или блоком записей последовательности из FASTA-отформатированного файла, содержащего несколько последовательностей. Введите скалярный N считать Nзапись th в файле. Введите вектор 1 на 2 [M1, M2] считать блок записей, запускающихся в M1 запись и заканчивающийся в M2 запись. Считать все остающиеся записи в файле, запускающемся в M1 запись, введите положительное значение для M1 и введите Inf для M2.
TrimHeadersValue

Задает, обрезать ли заголовок после первого пробельного символа. Пробельные символы включают пробел (char (32)) и вкладка (char (9)). Выбором является true или false (значение по умолчанию).

TimeOutValueТайм-аут связи в секундах в виде положительной скалярной величины. Значение по умолчанию равняется 5. Для получения дополнительной информации смотрите здесь.

Выходные аргументы

FASTADataСтруктура MATLAB с полями Header и Sequence.

Описание

fastaread считывает данные из FASTA-отформатированного файла в структуру MATLAB со следующими полями.

Поле Описание
HeaderИнформация о заголовке.
SequenceОдно представление алфавитного кода последовательности нуклеотида.

FASTA-отформатированный файл начинается с правой угловой скобки (>) и однострочное описание. После этого описания последовательность как серия линий с меньше, чем 80 'characters'. Последовательности должны использовать стандартную аминокислоту IUB/IUPAC и алфавитные коды нуклеотида.

Для списка кодов смотрите aminolookup и baselookup.

FASTAData = fastaread(File) читает FASTA-отформатированный файл и возвращает данные в структуре. FASTAData.Header информация о заголовке, в то время как FASTAData.Sequence последовательность, сохраненная как вектор символов или строка.

[Header, Sequence] = fastaread(File) считывает данные из файла в отдельные переменные. Если файл содержит несколько последовательностей, то Header и Sequence массивы ячеек информации о последовательности и заголовка.

... = fastaread (FilePropertyName ', PropertyValue, ...) вызовы fastaread с дополнительными свойствами, которые используют имя свойства / пары значения свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и нечувствительный к регистру. Имя свойства / пары значения может быть в любом формате, поддержанном функциональным set (например, пары "имя-значение" и структуры). Это имя свойства / пары значения свойства следующие:

... = fastaread(File, ...'IgnoreGaps', IgnoreGapsValue, ...), когда IgnoreGapsValue true, удаляет любой символ разрыва ('-' или '.') от последовательностей. Значением по умолчанию является false.

... = fastaread(File, ...'Blockread', BlockreadValue, ...) позволяет вам читать в одной записи последовательности или блоке записей последовательности из файла, содержащего несколько последовательностей. Если BlockreadValue скалярный N, затем fastaread читает Nзапись th в файле. Если BlockreadValue вектор 1 на 2 [M1, M2], затем fastaread читает блок записей, запускающихся в M1 запись и заканчивающийся в M2 запись. Считать все остающиеся записи в файле, запускающемся в M1 запись, введите положительное значение для M1 и введите Inf для M2.

... = fastaread(File, ...'TrimHeaders', TrimHeadersValue, ...) задает, обрезать ли заголовок к первому пробелу.

... = fastaread(File, ...'TimeOut', TimeOutValue, ...) задает тайм-аут связи (в секундах), чтобы считать данные из удаленного файла или URL.

Примеры

свернуть все

Считайте информации последовательности нуклеотида человеческого p53 гена опухоли.

p53nt = fastaread('p53nt.txt')
p53nt = struct with fields:
      Header: 'gi|8400737|ref|NM_000546.2| Homo sapiens tumor protein p53 (Li-Fraumeni syndrome) (TP53), mRNA'
    Sequence: 'ACTTGTCATGGCGACTGTCCAGCTTTGTGCCAGGAGCCTCGCAGGGGTTGATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAGAATGCCAGAGGCTGCTCCCCGCGTGGCCCCTGCACCAGCAGCTCCTACACCGGCGGCCCCTGCACCAGCCCCCTCCTGGCCCCTGTCATCTTCTGTCCCTTCCCAGAAAACCTACCAGGGCAGCTACGGTTTCCGTCTGGGCTTCTTGCATTCTGGGACAGCCAAGTCTGTGACTTGCACGTACTCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATGGGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGACGGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCGCAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGCTCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGCGCTTCGAGATGTTCCGAGAGCTGAATGAGGCCTTGGAACTCAAGGATGCCCAGGCTGGGAAGGAGCCAGGGGGGAGCAGGGCTCACTCCAGCCACCTGAAGTCCAAAAAGGGTCAGTCTACCTCCCGCCATAAAAAACTCATGTTCAAGACAGAAGGGCCTGACTCAGACTGACATTCTCCACTTCTTGTTCCCCACTGACAGCCTCCCACCCCCATCTCTCCCTCCCCTGCCATTTTGGGTTTTGGGTCTTTGAACCCTTGCTTGCAATAGGTGTGCGTCAGAAGCACCCAGGACTTCCATTTGCTTTGTCCCGGGGCTCCACTGAACAAGTTGGCCTGCACTGGTGTTTTGTTGTGGGGAGGAGGATGGGGAGTAGGACATACCAGCTTAGATTTTAAGGTTTTTACTGTGAGGGATGTTTGGGAGATGTAAGAAATGTTCTTGCAGTTAAGGGTTAGTTTACAATCAGCCACATTCTAGGTAGGTAGGGGCCCACTTCACCGTACTAACCAGGGAAGCTGTCCCTCATGTTGAATTTTCTCTAACTTCAAGGCCCATATCTGTGAAATGCTGGCATTTGCACCTACCTCACAGAGTGCATTGTGAGGGTTAATGAAATAATGTACATCTGGCCTTGAAACCACCTTTTATTACATGGGGTCTAAAACTTGACCCCCTTGAGGGTGCCTGTTCCCTCTCCCTCTCCCTGTTGGCTGGTGGGTTGGTAGTTTCTACAGTTGGGCAGCTGGTTAGGTAGAGGGAGTTGTCAAGTCTTGCTGGCCCAGCCAAACCCTGTCTGACAACCTCTTGGTCGACCTTAGTACCTAAAAGGAAATCTCACCCCATCCCACACCCTGGAGGATTTCATCTCTTGTATATGATGATCTGGATCCACCAAGACTTGTTTTATGCTCAGGGTCAATTTCTTTTTTCTTTTTTTTTTTTTTTTTTCTTTTTCTTTGAGACTGGGTCTCGCTTTGTTGCCCAGGCTGGAGTGGAGTGGCGTGATCTTGGCTTACTGCAGCCTTTGCCTCCCCGGCTCGAGCAGTCCTGCCTCAGCCTCCGGAGTAGCTGGGACCACAGGTTCATGCCACCATGGCCAGCCAACTTTTGCATGTTTTGTAGAGATGGGGTCTCACAGTGTTGCCCAGGCTGGTCTCAAACTCCTGGGCTCAGGCGATCCACCTGTCTCAGCCTCCCAGAGTGCTGGGATTACAATTGTGAGCCACCACGTGGAGCTGGAAGGGTCAACATCTTTTACATTCTGCAAGCACATCTGCATTTTCACCCCACCCTTCCCCTCCTTCTCCCTTTTTATATCCCATTTTTATATCGATCTCTTATTTTACAATAAAACTTTGCTGCCA'

Считайте информации последовательности аминокислот p53 белка.

p53aa = fastaread('p53aa.txt')
p53aa = struct with fields:
      Header: 'gi|8400738|ref|NP_000537.2| tumor protein p53 [Homo sapiens]'
    Sequence: 'MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPRVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD'

Считайте блок записей из файла FASTA.

pf2_5_10 = fastaread('pf00002.fa', 'blockread', [5 10], ...
                     'ignoregaps',true)
pf2_5_10=6×1 struct array with fields:
    Header
    Sequence

Представлено до R2006a