Программа getorf пакета EMBOSS
Командой
entret embl:d89965
Был получен файл с записью из банка данных EMBL.
Далее были найдены ORF:
getorf d89965.entret -minsize 90 -find 1
d89965.orf
Из найденных ORF записи FT из embl:d89965 соответствует следующая:
>D89965_3 [163 - 432] Rattus norvegicus mRNA for RSS, complete cds.
MALMHFQFTFKQFEQRKSIRSTARKARDDFVVVQTADLFHVAFHYGIAQRGLTITSDDHM
AVTAYAYYSCHELTPWLRIQSTNPVQKYGA
Данная запись ссылается на запись Swiss-Prot: P0A7B8.
Командой
blastp -query hslv_ecoli.entret -subject d89965.orf -evalue 1e-2 -outfmt 6 -out alignment.blastp
получим файл alignment.blastp, в котором только пятая последовательность из d89965.orf соответствует P0A7B8.
Запись D89965, взятая из банка данных EMBL, содержит последовательность мРНК крысы, в то время как запись P0A7B8, взятая из банка Swiss-Prot, содержит последовательность субъединицы HslV АТФ-зависимой протеазы кишечной палочки
Вероятно, все дело в ошибке, допущенной исследователями, работавшими с эпителием желудка крысы. Из-за нее образец был загрязнен посторонними мРНК (в данном случае - E.coli).
Файлы-списки
Последовательностью команд:
entret sw:adh*_* adh.fasta
infoseq -only -usa adh.fasta > bbb_1
grep -f ccc_1 bbb_1 > bbb_2
seqret @bbb_2 seqret.fasta
Получил fasta-файл с последовательностями дегидрогеназ моих организмов (файл с организмами ccc_1)
Полученный файл: seqret.fasta
EnsEMBL
Изучаемый белок: YES_HUMAN.
Была получена последовательность всего гена, кодирующего белок:
>gb|M15990.1|HUMCYES1:208-1839 Human c-yes-1 mRNA
ATGGGCTGCATTAAAAGTAAAGAAAACAAAAGTCCAGCCATTAAATACAGACCTGAAAATACTCCAGAGC
CTGTCAGTACAAGTGTGAGCCATTATGGAGCAGAACCCACTACAGTGTCACCATGTCCGTCATCTTCAGC
AAAGGGAACAGCAGTTAATTTCAGCAGTCTTTCCATGACACCATTTGGAGGATCCTCAGGGGTAACGCCT
TTTGGAGGTGCATCTTCCTCATTTTCAGTGGTGCCAAGTTCATATCCTGCTGGTTTAACAGGTGGTGTTA
CTATATTTGTGGCCTTATATGATTATGAAGCTAGAACTACAGAAGACCTTTCATTTAAGAAGGGTGAAAG
ATTTCAAATAATTAACAATACGGAAGGAGATTGGTGGGAAGCAAGATCAATCGCTACAGGAAAGAATGGT
TATATCCCGAGCAATTATGTAGCGCCTGCAGATTCCATTCAGGCAGAAGAATGGTATTTTGGCAAAATGG
GGAGAAAAGATGCTGAAAGATTACTTTTGAATCCTGGAAATCAACGAGGTATTTTCTTAGTAAGAGAGAG
TGAAACAACTAAAGGTGCTTATTCCCTTTCTATTCGTGATTGGGATGAGATAAGGGGTGACAATGTGAAA
CACTACAAAATTAGGAAACTTGACAATGGTGGATACTATATCACAACCAGAGCACAATTTGATACTCTGC
AGAAATTGGTGAAACACTACACAGAACATGCTGATGGTTTATGCCACAAGTTGACAACTGTGTGTCCAAC
TGTGAAACCTCAGACTCAAGGTCTAGCAAAAGATGCTTGGGAAATCCCTCGAGAATCTTTGCGACTAGAG
GTTAAACTAGGACAAGGATGTTTCGGCGAAGTGTGGATGGGAACATGGAATGGAACCACGAAAGTAGCAA
TCAAAACACTAAAACCAGGTACAATGATGCCAGAAGCTTTCCTTCAAGAAGCTCAGATAATGAAAAAATT
AAGACATGATAAACTTGTTCCACTATATGCTGTTGTTTCTGAAGAACCAATTTACATTGTCACTGAATTT
ATGTCAAAAGGAAGCTTATTAGATTTCCTTAAGGAAGGAGATGGAAAGTATTTGAAGCTTCCACAGCTGG
TTGATATGGCTGCTCAGATTGCTGATGGTATGGCATATATTGAAAGAATGAACTATATTCACCGAGATCT
TCGGGCTGCTAATATTCTTGTAGGAGAAAATCTTGTGTGCAAAATAGCAGACTTTGGTTTAGCAAGGTTA
ATTGAAGACAATGAATACACAGCAAGACAAGGTGCAAAATTTCCAATCAAATGGACAGCTCCTGAAGCTG
CACTGTATGGTCGGTTTACAATAAAGTCTGATGTCTGGTCATTTGGAATTCTGCAAACAGAACTAGTAAC
AAAGGGCCGAGTGCCATATCCAGGTATGGTGAACCGTGAAGTACTAGAACAAGTGGAGCGAGGATACAGG
ATGCCGTGCCCTCAGGGCTGTCCAGAATCCCTCCATGAATTGATGAATCTGTGTTGGAAGAAGGACCCTG
ATGAAAGACCAACATTTGAATATATTCAGTCCTTCTTGGAAGACTACTTCACTGCTACAGAGCCACAGTA
CCAGCCAGGAGAAAATTTATAA
На сайте EnsEMBL начал вбил данный ген в поиск BLAST/BLAT. Появилось несколько картинок:
Рисунок N1. Возможные варианты расположения гена на хромосомах. Прямоугольником выделено наиболее вероятное нахождение нужного гена.
Рисунок N2. Расположение в хромосоме и выравнивание хитов
Перейдя на страницу "Contig View", нажав на C, я увидел следующие картинки:
Рисунок N3. Подробное расположение на хромосоме. Красным прямоугольником отмечено расположение гена.
Рисунок N4. Еще более подробное расположение на хромосоме. Можно увидеть экзоны, кодирующие части (бордовый цвет), а также "хиты", выделенные ярко-красным.
|