практикум 8 - третий семестр

поиск гомологов и анализ геномов

1. поиск в геноме эукариота гена, кодирующего δ-субъединицу атф-синтазы

в качестве исходного организма я использовала синего кита balaenoptera musculus (refseq-сборка gcf_009873245.2). при просмотре файла с белковыми последовательностями (protein.faa) был найден белок с accession xp_036702995.1, аннотированный как atp synthase subunit delta, mitochondrial; его аминокислотная последовательность сохранена в отдельном файле blue_whale_atp_synthase_delta_protein.fasta.

в аннотированном геноме синего кита (хромосома 3, запись nc_045787.1) эта δ-субъединица кодируется геном atp5f1d. в genbank-файле genomic.gbff этому белку соответствует cds-аннотация:

cds complement(join(170618250..170618372, 170618491..170618579, 170619073..170619226, 170619722..170619862)) /gene="atp5f1d" /product="atp synthase subunit delta, mitochondrial" /protein_id="xp_036702995.1"

рис. 1. окрестность гена atp5f1d на хромосоме 3 balaenoptera musculus.

2. пробы разных вариантов blast для фрагмента днк

в качестве запроса для нуклеотидного blast использовался фрагмент хромосомы nc_045787.1, содержащий ген atp5f1d: ref|nc_045787.1|:170617452-170620377; он покрывает кодирующую область δ-субъединицы и небольшие фланкирующие участки. поскольку синий кит - вторичноротое животное, в качестве далёкого таксона для поиска выбраны первичноротые araneae (пауки); поиск проводился по базе refseq_genomes с ограничением по taxid:6893.

2.1. поиск blastn

так как megablast нужен для поиска почти идентичных последовательностей, есть сомнения в том что он предоставит хорошую выдачу. воспользуемся сначала blastn. на вход он принимает нуклеотидную последовательность и сравнивает её просто с нуклеотидной базой данных. в разделе algorithm parameters длина слова (word size) была уменьшена до 7, что повышает шансы найти более отдалённые нуклеотидные гомологи. однако в этом режиме blast сообщил no significant similarity found, не было найдено ни одной значимой гомологии.

blastn.txt

2.2. поиск tblastn

будем сравнивать с выдачей tblastn - он берёт на вход аминокислотную последовательность, и алгоритм ищет совпадения уже по шестирамочно переведённой нуклеотидной базе данных. поэтому выдача должна быть в разы больше (или хотя бы просто быть), чем в blastn.

ну и как ожидалось, по этой выдаче я получила целых 4 хита, все с e‑value ниже 10⁻¹⁰; лучший хит имеет e‑value 10⁻¹⁴.

tblastn.txt

рис. 2. tblastn для белка xp_036702995.1 по транслированным геномам araneae. по горизонтали отложена последовательность запроса, по вертикали - положения выравниваний в геномах пауков; длинные цветные прямоугольники соответствуют значимым белковым гомологиям δ-подобных субъединиц атф-синтазы.

3. поиск генов ррнк в геноме эукариота по далёкому гомологу

3.1. запросы: 16s и 23s ррнк e. coli и параметры blast

в качестве запросов использовались последовательности 16s и 23s ррнк escherichia coli k-12 mg1655 из файла rrna_ecoli.txt с сайта курса; файл содержит две fasta-записи: фрагмент гена 16s ррнк (cp014225.1:complement(926804-928359)) и фрагмент гена 23s ррнк (cp014225.1:2234710-2237641). обе молекулы входят в состав бактериальной рибосомы и выполняют структурные и каталитические функции.

так как и запросы, и база - нуклеотидные последовательности, а также из-за большой филогенетической дистанции, был использован blastn. однако из-за того, что на локальном компьютере бласт не выдавал верные результаты, я воспользовалась веб версией программы. в параметрах я установила в поле Database «refseq_genomes», blastn и ввела последовательность 16S и 23S ррнк E.coli, в поле Organism ввела «Blue whale (taxid:9771)». На выводе получила следующие файлы:

16S.txt 23S.txt

3.2. число хитов

веб версией blastn получилось найти 2 находки (хита) для 16S рРНК, из которых можно выделить однин потенциальный гомологичный участок,основываясь на более значимом e-value (7.68×10^−5) и более высоким score, для 23S - 1 находку. на рис. 3 я привела схему для одного участка 16S рнк на скэффолде NC_045797.1 (цифрами обозначены концы участков выравнивания):

CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NC_045785.1 88.372 43 5 0 1494 1536 22119802 22119844 7.68e-05 56.3
CP014225.1:complement(926804-928359)|16S_rRNA|Escherichia NC_045797.1 86.047 43 6 0 1494 1536 18256514 18256556 0.001 51.8

рис. 3. схема выравнивания 16s ррнк

4. подбор пары геномов и построение карт локального сходства

для задания 4 были выбраны два близкородственных бактериальных генома из семейства enterobacteriaceae: референтный геном escherichia coli k-12 substr. mg1655 (nc_000913.3) и shigella flexneri 2a str. 301 (nc_004337.2, assembly gcf_000006925.2). полные последовательности в формате fasta были скачаны с ncbi nucleotide и сохранены локально как ecoli_k12.fna и shigella_2a.fna.

на мегабласт‑картинке основная диагональ и инверсии сохраняются, но фон немного шумный, но незначительно. длинное слово и жёсткие параметры делают megablast менее чувствительным к слабым совпадениям, поэтому на карте в основном остаются длинные и почти идентичные участки, а значительная часть шума отфильтрована алгоритмом.

рис. 4. карта локального сходства в режиме megablast. розовым показаны делеции или вставки (из-за шума под вопросом), синим - транслокация с инверсиями, красным - инверсии, зеленым - мисматчи, оранжевым - делеции

дотплот blastn сильно шумный: вокруг диагонали и по всему полю видно множество коротких локальных совпадений. этот шум обусловлен высокой чувствительностью blastn: меньшая длина слова и параметры поиска позволяют поднимать множество коротких, часто повтор‑индуцированных и частично случайных хитов, которые не складываются в протяжённые синтенные блоки.

рис. 5. карта локального сходства в режиме blastn

веб версия tblastx не справилась с большими геномами, страница с результатами зависала. поэтому поиск проводила, выравнивая по фрагменту генома 1500000-2200000 (наиболее интересный участок, с двумя крупными транслокациями с инверсией). Просто выделив этот фрагмент в веб версии, у меня получился очень неразборчивый дотплот. Было принято решение с помощью EMBOSS скачать последовательности и вырезать нужные фрагменты. Я использовала команды:

efetch -db nuccore -id NC_000913.3 -format fasta > ecoli_k12.fna efetch -db nuccore -id NC_004337.2 -format fasta > shigella_2a.fna seqret -filter 'ecoli_k12.fna[1500000:2200000]' > ecoli_frag.fasta seqret -filter 'shigella_2a.fna[1500000:2200000]' > shigella_frag.fasta

После чего файлы с вырезанными фрагментами загрузила на сайт и выровняла последовательности.

В результате получила дотплот (рис.6), в котором можно заметить транслокации с инверсией (30-80к или 1530000-1580000 в полном геноме; 280-340к или 1780000-1840000 в полном геноме), инверсии (100-130к или 1600000-1630000 в полном геноме), крупную делецию (350-430к или 1850000-1940000 в полном геноме), вставки (450-460к или 1950000-1960000 в полном геноме; 540-550к или 2040000-2050000 в полном геноме; 560-570к или 2060000-2070000 в полном), мисматч (600-610к или 2100000-2110000 в полном)

рис. 6. карта локального сходства в режиме tblastx