fastaread

Считайте данные из файла FASTA

Синтаксис

FASTAData = fastaread(File)
[Header, Sequence] = fastaread(File)
... = fastaread(File, ...'IgnoreGaps', IgnoreGapsValue, ...)
... = fastaread(File, ...'Blockread', BlockreadValue, ...)
... = fastaread(File, ...'TrimHeaders', TrimHeadersValue, ...)
... = fastaread(File, ...'TimeOut', TimeOutValue, ...)

Входные параметры

File

Одно из следующих:

  • Вектор символов или строка, указывающая имя файла, путь и имя файла или URL-адрес, указывающий на файл. Файл-ссылка является файлом в формате FASTA (текстовый файл ASCII). Если вы задаете только имя файла, этот файл должен быть в MATLAB® путь поиска файлов или в текущей папке MATLAB.

  • MATLAB символьного массива, который содержит текст файла в формате FASTA.

IgnoreGapsValueУправление удалением символов зазоров. Варианты true или false (по умолчанию).
BlockreadValueСкаляр или вектор, который управляет считыванием записи одной последовательности или блока записей последовательности из FASTA-форматированного файла, содержащего несколько последовательностей. Введите скалярное N чтобы прочитать Nвторая запись в файле. Введите вектор 1 на 2 [M1, M2] чтобы считать блок записей, начиная с M1 вход и окончание в M2 запись. Чтобы считать все оставшиеся записи в файле, начиная с M1 введите положительное значение для M1 и вводите Inf для M2.
TrimHeadersValue

Определяет, следует ли обрезать заголовок после первого символа пробела. Символы белого пространства включают пробел (char (32)) и вкладку (char (9)). Варианты true или false (по умолчанию).

TimeOutValueТайм-аут подключения в секундах, задается как положительная скалярная величина. Значение по умолчанию является 5. Для получения дополнительной информации смотрите здесь.

Выходные аргументы

FASTADataСтруктура MATLAB с полями Header и Sequence.

Описание

fastaread считывает данные из файла в формате FASTA в структуру MATLAB со следующими полями.

ОбластьОписание
HeaderИнформация о заголовке.
SequenceПредставление нуклеотидной последовательности с одним буквенным кодом.

Файл в формате FASTA начинается с правого угла скобки (>) и описание одной линии. Следуя этому описанию, последовательность как серия линий с меньшим, чем 80 персонажи. Последовательности должны использовать стандартные коды аминокислоты IUB/IUPAC и нуклеотидные буквенные коды.

Список кодов см. в разделе aminolookup и baselookup.

FASTAData = fastaread(File) считывает файл в формате FASTA и возвращает данные в структуре. FASTAData.Header - информация о заголовке, в то время как FASTAData.Sequence - последовательность, сохраненная в виде вектора символов или строки.

[Header, Sequence] = fastaread(File) считывает данные из файла в отдельные переменные. Если файл содержит несколько последовательностей, то Header и Sequence являются массивами ячеек заголовка и информации о последовательности.

... = fastaread (File... 'PropertyName', PropertyValue, ...) вызывает fastaread с необязательными свойствами, которые используют пары имя/значение свойства. Можно задать одно или несколько свойств в любом порядке. Каждый PropertyName должны быть заключены в одинарные кавычки и нечувствительны к регистру. Пары имя свойства/ значение могут быть в любом формате, поддерживаемом функцией set (например, пары имя-значение и структуры). Эти имена свойства/пары значения свойств следующие:

... = fastaread(File, ...'IgnoreGaps', IgnoreGapsValue, ...), когда IgnoreGapsValue является true, удаляет любой символ зазора ('-' или '.') из последовательностей. По умолчанию это false.

... = fastaread(File, ...'Blockread', BlockreadValue, ...) позволяет вам считать в одной последовательности запись или блок записей из файла, содержащего несколько последовательностей. Если BlockreadValue является скалярным N, затем fastaread читает Nвторая запись в файле. Если BlockreadValue вектор 1 на 2 [M1, M2], затем fastaread считывает блок записей, начиная с M1 вход и окончание в M2 запись. Чтобы считать все оставшиеся записи в файле, начиная с M1 введите положительное значение для M1 и вводите Inf для M2.

... = fastaread(File, ...'TrimHeaders', TrimHeadersValue, ...) определяет, следует ли обрезать заголовок по первому белому пространству.

... = fastaread(File, ...'TimeOut', TimeOutValue, ...) задает тайм-аут подключения (в секундах) для чтения данных из удаленного файла или URL-адреса.

Примеры

свернуть все

Считайте информацию нуклеотидной последовательности гена опухоли p53 человека.

p53nt = fastaread('p53nt.txt')
p53nt = struct with fields:
      Header: 'gi|8400737|ref|NM_000546.2| Homo sapiens tumor protein p53 (Li-Fraumeni syndrome) (TP53), mRNA'
    Sequence: 'ACTTGTCATGGCGACTGTCCAGCTTTGTGCCAGGAGCCTCGCAGGGGTTGATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAGAATGCCAGAGGCTGCTCCCCGCGTGGCCCCTGCACCAGCAGCTCCTACACCGGCGGCCCCTGCACCAGCCCCCTCCTGGCCCCTGTCATCTTCTGTCCCTTCCCAGAAAACCTACCAGGGCAGCTACGGTTTCCGTCTGGGCTTCTTGCATTCTGGGACAGCCAAGTCTGTGACTTGCACGTACTCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATGGGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGACGGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCGCAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGCTCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGCGCTTCGAGATGTTCCGAGAGCTGAATGAGGCCTTGGAACTCAAGGATGCCCAGGCTGGGAAGGAGCCAGGGGGGAGCAGGGCTCACTCCAGCCACCTGAAGTCCAAAAAGGGTCAGTCTACCTCCCGCCATAAAAAACTCATGTTCAAGACAGAAGGGCCTGACTCAGACTGACATTCTCCACTTCTTGTTCCCCACTGACAGCCTCCCACCCCCATCTCTCCCTCCCCTGCCATTTTGGGTTTTGGGTCTTTGAACCCTTGCTTGCAATAGGTGTGCGTCAGAAGCACCCAGGACTTCCATTTGCTTTGTCCCGGGGCTCCACTGAACAAGTTGGCCTGCACTGGTGTTTTGTTGTGGGGAGGAGGATGGGGAGTAGGACATACCAGCTTAGATTTTAAGGTTTTTACTGTGAGGGATGTTTGGGAGATGTAAGAAATGTTCTTGCAGTTAAGGGTTAGTTTACAATCAGCCACATTCTAGGTAGGTAGGGGCCCACTTCACCGTACTAACCAGGGAAGCTGTCCCTCATGTTGAATTTTCTCTAACTTCAAGGCCCATATCTGTGAAATGCTGGCATTTGCACCTACCTCACAGAGTGCATTGTGAGGGTTAATGAAATAATGTACATCTGGCCTTGAAACCACCTTTTATTACATGGGGTCTAAAACTTGACCCCCTTGAGGGTGCCTGTTCCCTCTCCCTCTCCCTGTTGGCTGGTGGGTTGGTAGTTTCTACAGTTGGGCAGCTGGTTAGGTAGAGGGAGTTGTCAAGTCTTGCTGGCCCAGCCAAACCCTGTCTGACAACCTCTTGGTCGACCTTAGTACCTAAAAGGAAATCTCACCCCATCCCACACCCTGGAGGATTTCATCTCTTGTATATGATGATCTGGATCCACCAAGACTTGTTTTATGCTCAGGGTCAATTTCTTTTTTCTTTTTTTTTTTTTTTTTTCTTTTTCTTTGAGACTGGGTCTCGCTTTGTTGCCCAGGCTGGAGTGGAGTGGCGTGATCTTGGCTTACTGCAGCCTTTGCCTCCCCGGCTCGAGCAGTCCTGCCTCAGCCTCCGGAGTAGCTGGGACCACAGGTTCATGCCACCATGGCCAGCCAACTTTTGCATGTTTTGTAGAGATGGGGTCTCACAGTGTTGCCCAGGCTGGTCTCAAACTCCTGGGCTCAGGCGATCCACCTGTCTCAGCCTCCCAGAGTGCTGGGATTACAATTGTGAGCCACCACGTGGAGCTGGAAGGGTCAACATCTTTTACATTCTGCAAGCACATCTGCATTTTCACCCCACCCTTCCCCTCCTTCTCCCTTTTTATATCCCATTTTTATATCGATCTCTTATTTTACAATAAAACTTTGCTGCCA'

Считайте информацию аминокислотной последовательности белка p53.

p53aa = fastaread('p53aa.txt')
p53aa = struct with fields:
      Header: 'gi|8400738|ref|NP_000537.2| tumor protein p53 [Homo sapiens]'
    Sequence: 'MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPRVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD'

Считайте блок записей из файла FASTA.

pf2_5_10 = fastaread('pf00002.fa', 'blockread', [5 10], ...
                     'ignoregaps',true)
pf2_5_10=6×1 struct array with fields:
    Header
    Sequence

Представлено до R2006a