Поиск по сходству. Нуклеотидный Blast
Задание 1. Таксономия и функция последовательности из практикума 6.
В практикуме 6 мы учились с помощью прямой и обратной хроматограммы анализировать секвенированные
последовательности. С помощью команды consambig пакета EMBOSS
была получена
консенсусная последовательность. Организм не был известен.
Для того, чтобы узнать, кому принадлежит данная последовательность, был использован алгоритм BLASTN
со стандартными параметрами. (Поиск в банке - Nucleotide collection.)
Как видно из поиска, полученная последовательность кодирует части гистона H3. Последовательности, обведенные рамочкой, были получены
в МГУ им. М.В.Ломоносова и принадлежат кольчатым червям.
Общее систематическое положение для первых четырех находок
Eukaryota; Opisthokonta; Metazoa; Eumetazoa; Bilateria; Protostomia; Lophotrochozoa; Annelida; Polychaeta;
Очень трудно сделать однозначный вывод об исследуемой последовательности. Лучший E-value у первой находки. При этом у нее
не лучший процент совпадений (поле Indent). У второй последовательности в поиске такой же Score, как у первой, лучше процент
сопадений, и нет отличия в порядке E-value, хотя и страдает процент покрытия (поле Query cover)
Построим множественное выравнивание первых четырех последовательностей и исследуемой последовательности.
Последовательности на рисунке выше расположены в том порядке, как их предлагает поиск в blastn. Первая последовательность
- полученная с помощью секвенатора.
Видно,что лучше всего выравниваются последовательности, принадлежащие виду Glycera capitata (последовательности
2 и 3, не считая исследуемой). Там почти нет гэпов, нет подвижек и замен. Последовательность 1 (вид Ophelia limacina)
выравнивается будучи комплементарной и обратной, соответственно. Но все равно видно, что присутствуют замены С на Т (позиции 201, 240),
и ряд других. Последовательность 4 (вид Amphitrite figulus) тоже присутствуют замены, хоть и в меньшем количестве.
Так же стоит заметить, что четверая в выдаче BLAST последовательность принадлежит организму Amphitrite figulus. В записи
этой последовательности можно увидеть в поле TITLE - Genetic revision of the White Sea Kandalaksha Bay invertebrate fauna, и в поле
Journal - указания на факультет Биоинженерии и Биоинформатики. Это дает основания полагать, что исследуемая последовательность
принадлежит Amphitrite figulus.
Многие несовпадения с консенсусной последовательностью обусловлены
не очень четкими данными, полученными в процессе секвенирования, и точный вывод сделать нельзя. Основываясь на вышесказанном,
я остановлюсь на cубклассе (subclass).
Систематическое положение объекта, которому принадлежит исследуемая последовательность:
Eukaryota; Metazoa; Lophotrochozoa; Annelida; Polychaeta;
Scolecida
Задание 2. Сравнение списков находок тремя разными видами BLAST
Таблица с выдачей Blast для последовательности из задания 1.
Для удобства сравнения количество записей в выдаче - 50. Исключение таксона было сделано для того, что посмотреть,
насколько похожи гистоны у выше стоящих представителей, и, конечно, в попытке ограничить выдачу.
Таблица сравнения для консенсусной последовательности из задания 1.
Название алгоритма |
Параметры алгоритма |
Число находок |
BlastN default |
Ограничение по таксону - исключен Scolecida (taxid:105387), остальные параметры по умолчанию. |
50 |
BlastN sensitive |
Ограничение по таксону - исключен Scolecida (taxid:105387), все по умолчанию, кроме порога на E-value - 1e-140,
выбрана минимальная длина слова - 7. |
19 |
MegaBlast |
Ограничение по таксону - исключен Scolecida (taxid:105387), все по умолчанию, кроме порога на E-value - 1e-130,
выбрана минимальная длина слова - 16. |
22 |
То, что было найдено BLAST default, включает в себя 2-ой и 3-ий поиски
целиком. Первым 11-ти находкам все три алгоритма дали одинаковый вес относительно друг друга - порядок
в котором их выдает поиск. Дальше начинаются разночтения.
Очень интересно, что меняется порядок, то есть вес алгоритмы считают по разному. Например, запись с ID - KX589037.1,
находится в первом поиске на
15 позиций ниже, чем в третьем поиске.
При этом вес в битах у них близок и процент схожести одинаковый. Но BlastN с параметрами по умолчанию находит большее количество более
похожих последовательностей.
Наибольший показатель E-value в третьем поиске, с помощью чувствительного MegaBlast - 4.25e-160, там же наивысший вес в битах
- 575. Максимальная длина выравнивания у всех трех запросов одинаковая - 395.
Можно сделать вывод, что похожие последовательности хорошо ищет MegaBlast, особенно когда он настроен более чувствительно. Хотя
и чувствительный BlastN нашел все то же самое, и даже меньше, немного иначе оценив по весу несколько записей. Это происходит
за счет того, что минимальная длина слова у BlastN - 7, а у MegaBlast - 16.
Так как в запросах не изменялись штрафы за гэпы и за совпадения\несовпадения, про них ничего нельзя сказать.
Таблица в Excel для всех трех поисков.
Для следующей части был взят ген rrn18 (18S ribosomal RNA) из митохондриального генома
Вельвичии Удивительной. В столбце Число находок указано количество найденных последовательностей,
в некоторых из которых существует несколько участков выравнивания.
Таблица сравнения для некодирующей РНК из предыдущего практикума.
Название алгоритма |
Параметры алгоритма |
Число находок |
BlastN default |
Ограничение по таксону: поиск в Acrogymnospermae (taxid:1437180), исключен Welwitschia (taxid:3376)
остальные параметры по умолчанию. |
50 записей, 260 выравниваний |
BlastN sensitive |
Ограничение по таксону: поиск в Acrogymnospermae (taxid:1437180), исключен Welwitschia (taxid:3376),
все остальное по умолчанию, кроме порога на E-value - 1e-120, минимальная длина слова - 7. |
37 записей, 42 выравнивания |
MegaBlast |
Ограничение по таксону: поиск в Acrogymnospermae (taxid:1437180), исключен Welwitschia (taxid:3376),
- длина слова - 16, порог на E-value - 1e-120 |
27 записей, 32 выраванивания |
|
|
|
BlastN default |
BlastN sensitive |
MegaBlast |
BlastN с параметрами по умолчанию включает в себя все находки из других поисков.
Совпадают первые три записи у всех трех поисков. Далее у BlastN обоих видов порядок находок
совпадает, а у MegaBlast меняется. Разные алгоритмы имеют по умолчанию разные
штрафы за гэпы.
Так же интересно заметить на картинках выше, BlastN со стандартными
параметрами ищет любые совпадения в последовательностях, поэтому выравнивание происходит "кусочками".
Таблица в Excel для всех трех поисков.
Задание 3. Поиск гомологов белков в неаннотированном геноме оргнизма Amoeboaphelidium protococcarum.
Использовался алгоритм tblastn. Был произведен поиск гомологов для белков TERT_SCHPO - теломераза,восстанавливающая
длину хромосом, EIF3G_SCHPO - один из факторов инициации трансляции, TBB_NEUCR - тубулин, участвующий в обраовании микротрубочек.
Для теломеразы получен следющий результат:
Length=988
Score E
Sequences producing significant alignments: (Bits) Value
scaffold-17 108 1e-23
unplaced-307 102 7e-22
scaffold-105 33.9 0.51
unplaced-647 28.1 4.9
Так как вес выравнивания довольно мал для такой длины выравнивания, можно сказать, что
у Amoeboaphelidium protococcarum отсутствуют гомологи данного белка.
Для фактора трансляции получен результат:
Length=282
Score E
Sequences producing significant alignments: (Bits) Value
scaffold-20 95.5 2e-21
scaffold-444 92.0 2e-20
scaffold-170 38.9 0.002
scaffold-17 37.4 0.008
scaffold-199 37.0 0.010
scaffold-212 35.8 0.023
scaffold-105 34.7 0.052
scaffold-96 33.5 0.12
scaffold-423 33.1 0.17
scaffold-287 32.3 0.30
scaffold-22 31.2 0.68
scaffold-57 29.6 2.1
Можно сказать, что есть некое частичное сходство белка и участка генома. Нельзя говорить о полной
гомологии. Ниже приведено выравнивание для первого в списке предпологаемого участка гомологии.
> scaffold-20
Length=45210
Score = 95.5 bits (236), Expect = 2e-21, Method: Compositional matrix adjust.
Identities = 109/287 (38%), Positives = 157/287 (55%), Gaps = 32/287 (11%)
Frame = -1
Query 20 PSIQTFDNPDGTKTMIEFRIDDNGkkvkvtrvirktvitERVQHAVaerkkwkkfgkeag 79
P I+ + DG K ++E+ +D G+K+K+TR ++ V + HAV ER+ WKKFG G
Sbjct 8619 PEIKVTEQ-DGLKVIVEYSTNDKGEKIKITRKVKTVVRK*KANHAVIERR*WKKFG*ATG 8443
Query 80 kNSGVDARTTSVGENVQLRLQLGWTTTkeeeqdeaalaaakvkakGSSVVRCRACKGNHF 139
+ D T++GE V L+L G E E VK +S + CR CKG HF
Sbjct 8442 HGT-FDEGITTLGEEVTLKL--GVRALNEVE*KPKLTVDE*VKKLTTSAITCRVCKGEHF 8272
Query 140 TAQCPYKSIIGPVDEPPLD--ASPVS------SRASGALGEK-----GRYIAPHLRA--- 183
TA+CPYK + P+ E LD ASP + S A GA G K G+YI P RA
Sbjct 8271 TAKCPYKDTLTPLSET-LDKLASPAAFSSDSVSGADGAAGAKPTLGGGKYIPPSQRAKMG 8095
Query 184 ------GSGRESG--DSMFKRERDDSA---TLRVTNlsddtreeelrdlfrrFGGIQRVY 232
+G SG S ++ D TLRV+NLS+ ++ +L LF +FGGI RV
Sbjct 8094 IPPSASAAGSTSGRPSSAYQPPGGDGGELTTLRVSNLSEYAQD*DLYSLFSKFGGI*RVK 7915
Query 233 LAKDKETGRAKGFAFVSYYDRDCAIKARDRLDGYGWNNLILRCEFSK 279
+A+D ET +G+AFV++ R A A +++DGY ++NLIL+ E+++
Sbjct 7914 VAQDYETRMCRGYAFVTFNIRRSAELAMEKMDGYPFDNLILKVEWAQ 7774
Вполне вероятно, что совпадение случайно, потому как длинных консервативных участков
выделить нельзя. Но вес довольно неплохой для длины белка, а так же есть совпадения в такиех аминокислотах,
как триптофан. Это позволяет сказать, что возможно это давно разошедшиеся частично гомологичные белки. О сохранении функций
говорить сложно.
Для одного из доменов тубулина была получен следующий результат.
Length=447
Score E
Sequences producing significant alignments: (Bits) Value
unplaced-665 742 0.0
scaffold-26 693 0.0
unplaced-5 348 1e-105
scaffold-57 348 1e-105
scaffold-423 161 6e-49
Можно говорить о гомологии. Большой вес, маленькое значение E-value. Этот домен тубулина имеется в геноме у
Amoeboaphelidium protococcarum.
Задание 4. Поиск гена белка в одном из контигов организма Amoeboaphelidium protococcarum
Был выбран контиг
unplaced-10 37804
В нем с помощью алгоритма BlastX был произведен поиск генов. Примерно с одинковыми значениями
E-value и процентом схожести оказались два белка - ABC - трасмембранный транспортер, состоящий из
двух доменов.
(RIA80538.1)
Более правдоподобным считать именно его. Потому что он первый в поиске, у выраванивания
контига с последовательностью этого белка - лучший вес, а еще он встречается в первых номерах
выдачи с процентом схожести (70%) пять раз. Выраванивание содержит всего 3 гэпа, и E-value равно 0.0.
Ниже приведено выравнивание с первой находкой.
Score Expect Method Identities Positives Gaps Frame
873 bits(2255) 0.0 Compositional matrix adjust. 433/621(70%) 508/621(81%) 3/621(0%) +1
Query 3988 SKSSARVGVNARFFA*MNKLVPILVPSVFCREsallvslaavliaRTWLDIWFSSFNGVV 4167
++ R+GV+ARF A + KL+PI +P + +ESALLVSLA VLIARTWLDIWFS FNG V
Sbjct 63 NRKQRRIGVDARFLAQIKKLLPICIPGIASKESALLVSLAMVLIARTWLDIWFSGFNGHV 122
Query 4168 VKSIVSRDRRAFVARAGVEFSLMMWPLSIVNNSLKMLINALSICFRDRLTTYAHEAYLSD 4347
VK+IVSRDR+ F+ARA VEF MMWP+SIVNNSLK+ I+AL++ FR RLT YAHE YL+D
Sbjct 123 VKAIVSRDRKTFIARAIVEFGFMMWPMSIVNNSLKLTISALALAFRTRLTRYAHEQYLND 182
Query 4348 ITFYKVSNIDNRI*NADQLLTQDIDKFSENLAHLYSDISKPLVDIFLFAIKLGQAIGGES 4527
ITFYK+SNIDNRI NADQLLTQDIDKF+ENL+HLYSDI+KP+VD+ LFA KLG+AIG E+
Sbjct 183 ITFYKISNIDNRIQNADQLLTQDIDKFAENLSHLYSDIAKPVVDMALFAYKLGEAIGREA 242
Query 4528 PLIMVSYFLASGVFLRVISPPFGKYTAQEQKLEGDFRFTHSRIITHAEEIAFYRGSEREK 4707
P M++YF SG LR ISPPFGK+TA EQKLEGDFRFTHSRIITH+EEIAFY G ERE+
Sbjct 243 PFYMIAYFFVSGALLRAISPPFGKFTAMEQKLEGDFRFTHSRIITHSEEIAFYGGGERER 302
Query 4708 TFVN*SFRRILEHLYKVNVLRFANGILDSVAVKYCATILAYWLLSRPVFDPRYATEQMGS 4887
VN SF +I+ H+ K+ LRFANGI DSV VKYCAT+ AY+LL+RPVFDP+YATE MG
Sbjct 303 AVVNGSFDKIVRHVKKIYRLRFANGIFDSVLVKYCATMTAYYLLARPVFDPKYATEFMGK 362
Query 4888 AGDDPTKIMEDYSRNSSYLVNLS*AVGRVILAGRDLTRFAGYTSRVAELFEVLEDVKRGR 5067
DPTKIMEDYSRNS YLVNLS AVGR+ILAGRDLTRFAGYTSRVAELF+VLEDV +GR
Sbjct 363 LDSDPTKIMEDYSRNSGYLVNLSQAVGRLILAGRDLTRFAGYTSRVAELFDVLEDVNKGR 422
Query 5068 YERSMV-NDTSGAQLTR-VE*SDLKGVIKKSDNADIDFDKVPIITPNGDVLIESLSINCK 5241
YER+MV ND++ A ++R V +DLKG + D I FDKVPIITPN D+L++ LS +
Sbjct 423 YERTMVNNDSNEANISRAVTPNDLKGKVITKDGV-IIFDKVPIITPNNDLLVKELSFKVE 481
Query 5242 HGTSVLVTGPNGSGKSSLFRILGELWPLFGGTLTKPEAS*FFYVPQKPYLCLGSLRDQLL 5421
G + L++GPNG GKSSLFRILG+LWPLF G +TKP AS FYVPQKPYL LG+LRDQ++
Sbjct 482 TGMNCLISGPNGCGKSSLFRILGDLWPLFDGVVTKPSASKLFYVPQKPYLALGTLRDQVI 541
Query 5422 YPHDKETALKNGATDDKLMELLKMVHLEYLVDREGGWDAVQDWADVLSGGEK*RMAMGRL 5601
YP K A DD+LMELL +VHL YL REGGWDAVQDWADVLSGGEK R+AM RL
Sbjct 542 YPDTKAQARSKDFNDDELMELLNVVHLGYLAKREGGWDAVQDWADVLSGGEKQRIAMARL 601
Query 5602 FYHKPLWAVLDECTSAVSIDVEGLMYTKAKELGITLFTVSHRTSLFKYHEYLLKFDGNGQ 5781
FYH+P +A+LDECTSAVS+DVEG+MYT A+ LGITLFTVSHR SL KYHE+LL+FDG G
Sbjct 602 FYHRPQFAILDECTSAVSVDVEGIMYTHARTLGITLFTVSHRHSLVKYHEWLLRFDGEGG 661
Query 5782 YEFSKLE*GDTSSPFAFTKLK 5844
YEF KLE GD ++PF F+ K
Sbjct 662 YEFRKLEEGDLTTPFTFSHGK 682
ABC (ATP-binding cassette) транспортер состоит
из 2 доменов и является трансмембранным интегральным белком, который активно
транспортирует лиганды через биологические мембраны с помощью энегрии АТФ. Это
довольно хорошо изученный белок. Некоторые его гомологи несут в себе и иные функции,
как, например, репарация ДНК.
Задание 5.Карта локального сходства геномов двух бактерий
Были выбраны две бактерии:
Rickettsia prowazekii str. Madrid E (a-proteobacteria) |
NC_000963.1 |
Rickettsia canadensis str. McKiel (a-proteobacteria) |
NC_009879.1 |
|
Карта локального сходства была получена с помощью MegaBlast с параметрами по умолчанию.
В геноме NC_000963.1 было такое эволюционное событие, как инверсия. В центральной области
сначала идет инверсия, потом короткий участок, где не произошло инверсии, но кажется произошла
дупликация, а потом снова большой инвертированный участок. А так же в начале произошла маленькая инверсия.
© Нестеренко Екатерина 2018