exponenta event banner

fastaread

Считывание данных из файла FASTA

Синтаксис

FASTAData = fastaread(File)
[Header, Sequence] = fastaread(File)
... = fastaread(File, ...'IgnoreGaps', IgnoreGapsValue, ...)
... = fastaread(File, ...'Blockread', BlockreadValue, ...)
... = fastaread(File, ...'TrimHeaders', TrimHeadersValue, ...)
... = fastaread(File, ...'TimeOut', TimeOutValue, ...)

Входные аргументы

File

Одно из следующих действий:

  • Символьный вектор или строка, указывающая имя файла, путь и имя файла или URL-адрес, указывающий на файл. Файл, на который имеется ссылка, является файлом в формате FASTA (текстовый файл ASCII). Если указано только имя файла, этот файл должен находиться в пути поиска MATLAB ® или в текущей папке MATLAB.

  • Массив символов MATLAB, содержащий текст файла в формате FASTA.

IgnoreGapsValueУправление удалением символов зазоров. Варианты: true или false (по умолчанию).
BlockreadValueСкаляр или вектор, который управляет считыванием одной записи последовательности или блока записей последовательности из файла в формате FASTA, содержащего несколько последовательностей. Введите скаляр N чтобы прочитать N-я запись в файле. Введите вектор 1 на 2 [M1, M2] для считывания блока записей, начиная с M1 вход и окончание в M2 вход. Чтение всех оставшихся записей в файле, начиная с M1 введите положительное значение для M1 и введите Inf для M2.
TrimHeadersValue

Указывает, следует ли обрезать заголовок после первого символа пробела. Символы пробела включают пробел (символ (32)) и табуляцию (символ (9)). Варианты: true или false (по умолчанию).

TimeOutValueВремя ожидания подключения в секундах, указанное как положительный скаляр. Значение по умолчанию - 5. Подробнее см. здесь.

Выходные аргументы

FASTADataСтруктура MATLAB с полями Header и Sequence.

Описание

fastaread считывает данные из файла в формате FASTA в структуру MATLAB со следующими полями.

ОбластьОписание
HeaderИнформация заголовка.
SequenceОднобуквенное представление нуклеотидной последовательности.

Файл в формате FASTA начинается с прямоугольной скобки (>) и описание одной строки. После этого описания последовательность как ряд строк с меньшим, чем 80 персонажи. Последовательности должны использовать стандартные аминокислотные и нуклеотидные буквенные коды IUB/IUPAC.

Список кодов см. в разделе aminolookup и baselookup.

FASTAData = fastaread(File) считывает файл в формате FASTA и возвращает данные в структуре. FASTAData.Header является информацией заголовка, в то время как FASTAData.Sequence - последовательность, сохраненная в виде символьного вектора или строки.

[Header, Sequence] = fastaread(File) считывает данные из файла в отдельные переменные. Если файл содержит несколько последовательностей, то Header и Sequence - массивы ячеек заголовка и информации о последовательности.

... = fastaread(File, ...'PropertyName', PropertyValue, ...) требования fastaread с необязательными свойствами, использующими пары имя/значение свойства. Можно указать одно или несколько свойств в любом порядке. Каждый PropertyName должен быть заключен в одинарные кавычки и не учитывать регистр. Пары имя/значение свойства могут быть в любом формате, поддерживаемом функцией set (например, пары «имя-значение» и структуры). Эти пары имя/значение свойства следующие:

... = fastaread(File, ...'IgnoreGaps', IgnoreGapsValue, ...), когда IgnoreGapsValue является true, удаляет любой символ зазора ('-' или '.') из последовательностей. По умолчанию: false.

... = fastaread(File, ...'Blockread', BlockreadValue, ...) позволяет считывать одну запись последовательности или блок записей последовательности из файла, содержащего несколько последовательностей. Если BlockreadValue является скаляром N, то fastaread считывает N-я запись в файле. Если BlockreadValue является вектором 1 на 2 [M1, M2], то fastaread считывает блок записей, начиная с M1 вход и окончание в M2 вход. Чтение всех оставшихся записей в файле, начиная с M1 введите положительное значение для M1 и введите Inf для M2.

... = fastaread(File, ...'TrimHeaders', TrimHeadersValue, ...) указывает, следует ли обрезать заголовок до первого пробела.

... = fastaread(File, ...'TimeOut', TimeOutValue, ...) указывает время ожидания подключения (в секундах) для чтения данных из удаленного файла или URL-адреса.

Примеры

свернуть все

Прочитайте информацию о нуклеотидной последовательности гена опухоли p53 человека.

p53nt = fastaread('p53nt.txt')
p53nt = struct with fields:
      Header: 'gi|8400737|ref|NM_000546.2| Homo sapiens tumor protein p53 (Li-Fraumeni syndrome) (TP53), mRNA'
    Sequence: 'ACTTGTCATGGCGACTGTCCAGCTTTGTGCCAGGAGCCTCGCAGGGGTTGATGGGATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAGAATGCCAGAGGCTGCTCCCCGCGTGGCCCCTGCACCAGCAGCTCCTACACCGGCGGCCCCTGCACCAGCCCCCTCCTGGCCCCTGTCATCTTCTGTCCCTTCCCAGAAAACCTACCAGGGCAGCTACGGTTTCCGTCTGGGCTTCTTGCATTCTGGGACAGCCAAGTCTGTGACTTGCACGTACTCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATGGGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGACGGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCGCAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGCTCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGCGCTTCGAGATGTTCCGAGAGCTGAATGAGGCCTTGGAACTCAAGGATGCCCAGGCTGGGAAGGAGCCAGGGGGGAGCAGGGCTCACTCCAGCCACCTGAAGTCCAAAAAGGGTCAGTCTACCTCCCGCCATAAAAAACTCATGTTCAAGACAGAAGGGCCTGACTCAGACTGACATTCTCCACTTCTTGTTCCCCACTGACAGCCTCCCACCCCCATCTCTCCCTCCCCTGCCATTTTGGGTTTTGGGTCTTTGAACCCTTGCTTGCAATAGGTGTGCGTCAGAAGCACCCAGGACTTCCATTTGCTTTGTCCCGGGGCTCCACTGAACAAGTTGGCCTGCACTGGTGTTTTGTTGTGGGGAGGAGGATGGGGAGTAGGACATACCAGCTTAGATTTTAAGGTTTTTACTGTGAGGGATGTTTGGGAGATGTAAGAAATGTTCTTGCAGTTAAGGGTTAGTTTACAATCAGCCACATTCTAGGTAGGTAGGGGCCCACTTCACCGTACTAACCAGGGAAGCTGTCCCTCATGTTGAATTTTCTCTAACTTCAAGGCCCATATCTGTGAAATGCTGGCATTTGCACCTACCTCACAGAGTGCATTGTGAGGGTTAATGAAATAATGTACATCTGGCCTTGAAACCACCTTTTATTACATGGGGTCTAAAACTTGACCCCCTTGAGGGTGCCTGTTCCCTCTCCCTCTCCCTGTTGGCTGGTGGGTTGGTAGTTTCTACAGTTGGGCAGCTGGTTAGGTAGAGGGAGTTGTCAAGTCTTGCTGGCCCAGCCAAACCCTGTCTGACAACCTCTTGGTCGACCTTAGTACCTAAAAGGAAATCTCACCCCATCCCACACCCTGGAGGATTTCATCTCTTGTATATGATGATCTGGATCCACCAAGACTTGTTTTATGCTCAGGGTCAATTTCTTTTTTCTTTTTTTTTTTTTTTTTTCTTTTTCTTTGAGACTGGGTCTCGCTTTGTTGCCCAGGCTGGAGTGGAGTGGCGTGATCTTGGCTTACTGCAGCCTTTGCCTCCCCGGCTCGAGCAGTCCTGCCTCAGCCTCCGGAGTAGCTGGGACCACAGGTTCATGCCACCATGGCCAGCCAACTTTTGCATGTTTTGTAGAGATGGGGTCTCACAGTGTTGCCCAGGCTGGTCTCAAACTCCTGGGCTCAGGCGATCCACCTGTCTCAGCCTCCCAGAGTGCTGGGATTACAATTGTGAGCCACCACGTGGAGCTGGAAGGGTCAACATCTTTTACATTCTGCAAGCACATCTGCATTTTCACCCCACCCTTCCCCTCCTTCTCCCTTTTTATATCCCATTTTTATATCGATCTCTTATTTTACAATAAAACTTTGCTGCCA'

Считывайте информацию аминокислотной последовательности белка р53.

p53aa = fastaread('p53aa.txt')
p53aa = struct with fields:
      Header: 'gi|8400738|ref|NP_000537.2| tumor protein p53 [Homo sapiens]'
    Sequence: 'MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAAPRVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKTCPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRNTFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACPGRDRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGRERFEMFRELNEALELKDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD'

Считывание блока записей из файла FASTA.

pf2_5_10 = fastaread('pf00002.fa', 'blockread', [5 10], ...
                     'ignoregaps',true)
pf2_5_10=6×1 struct array with fields:
    Header
    Sequence

Представлен до R2006a