Задание 1
Была использована последовательность из практикума 6. Для поиска использовался blastn с параметрами по умолчанию. Полученный результат:
Совпадение в 100% не оставляет сомнений в том, что эта последовательность является митохондриальным геном, кодирующим I субъединицу цитохром оксидазы организма Polycirrus medusa из рода Polycirrus
Задание 2
Последовательность из пункта 1
Из выдачи был исключен род Polycirrus, рассматривались только находки с e-value < 0.001
- MegabalstЧисло находок = 80
- Blastn с параметрами по умолчаниюЧисло находок = 64
- Максимально чувствительный Blastn (Word Size = 7, Match/Mismatch Scores (MMS) = 1,-2 )Число находок = 61
Таким образом, сравнение выдачи демонстрирует, что для данного поиска существенной разницы в параментах blastn нет, однако можно отметить, что при запросе с более чувствительными параметрами E-value стал на несколько порядков больше. Megablast выдает примерно те же результаты, но в другом порядке. Значение E-value в выдаче megablast ещё больше, чем в выдаче blastn
Последовательность из практикума 7
Я использовал последовательность одной из CDS из генома вируса Halovirus HRTV-8:
>lcl|NC_021321.1_cds_YP_008058573.1_7 [gene=8] [locus_tag=M192_gp124] [db_xref=GeneID:16194746] [protein=terminase large subunit] [protein_id=YP_008058573.1] [location=3088..4785] [gbkey=CDS] ATGGAGGAAATAGCTGAACAGTTCGCCTCTGAGAGCGATGCTGACGTTGATGCGTTGCTCGAAAGGTGGA ACGGTCGCCCCGACCTTCTCGCTGAGGACATTCTCCGGGCGAAGAATCTGACTACGGACGAAATTGAGCC GCTGAAGCTCTTTCGACCGTATCAGCCCCGGATTATGCACGCCTACTTCTACGGCGATGCTAAGATTCTG AACATCTACAAGGGGCGGCGGATTGGCGTTTCCTACGTAATTGGCATCTGTATTCTGCTTGAGGCGCTTC TCAAGCCGGATACGTTCTACCCCATTCTCTCGAAGACCAAGGGGCAGTCTAATTCGAGGATTAGTGACAT TAAGACGCTAATCAAGAACGCGAAAATCGACATTGAGCTGGAAAAGGACAATCAGGACGAGATTGTTCTC TCGAACGGCTCGCGTATCAAGGCGTACACGGGCGACCCGGACTCCGCTCGTGGTGAAGACCCCCCGAAGA CGGTCTTCATTGACGAGATGGCTTTCCTCGAAGACCAGAGCGCCACCCTCGATGCGTATTTGCCGACGAT TTCTCTCGGCTCAAGTCAGATGGTTCAGGTGTCCACGCCTAAGGCCCCGAACGACGAGTTCATGGAGGCG AACGAGCGTGGAACCGCCGATGGTCAAAACGACTTCGGGATTCTCGCGCTGAAACAGCCGACGTTCAGGA ACGCAGACGAGATTCAGACTGACGTTTCGCTGTTCGAGCAGGACGTTGAACCCGTCCGGGGTGACTTCGA CCTGATGGCGGCTGAGACTCAGCGAGCCAGCGACCCCAACGGCTTCGCACAAGAGTATCTGTGCCGCCCT GTGAGCGACGAGTACCGTTTCTTCTCTATGCCTACCATAGAGGCCGCGATGGAGCGTGGGGCCGCTCAGG ACTACTCCTACGGCCTCAGGCGGTACGACACTCCGAACACTCTGGTTATGGGTGTGGACATTGGGTTCAA TTCCGACGACACGGCGATTGTGGTCTTCGAGCATGAAGGCCCGCGTCGGTACTGCCGGTACAAGGAGGTC GTGAACGACCGCGTGCTTTCGCAGGCGGGAATCACTCCATCGAGTCGGCAGAACCCGGCGGCGGTGGCCG AACGTATCTCTCAGGTCTATCACTCGATGGGCGTTTCCAACGTCGTGATGGACATGACGGGCGTGGGACA GGGGTTCCACGACGAGGTTCGTCGGCGTATCGGTCGCGGCTATACGGGGTTCAACTTCTCCGCGAAGGAC AAGGTGGAGAAGATGATGGGCAACATGAATTACGCCCTTCACAACGACCTCGTTACTCTCCCCGAGGACG ATTCCCTCCGAGAACAACTCGGCTCGATTGTCAAACAGCAGAAGGAAGATTGGCAGAAGCCGAAGTTCAC GGGGAAGGAACACGCCCCCGAGGGGAAGGACGACCTCGCTATGGCGACCGTGCTGGCGGCGTTCCCTCCG AACTTCAAGGCCGACAAGTCGCGGAACCTCCAACAGCGCGAGGACGTGACCCCTTCGGTTCAAGTGGACG AACCGCAGGAACGTGACGGATGGGCGGGCTTGAAGATTAGCGGCACGTCCGGTGGCGGTCGAGGTCGCGG CTACGCTCTGTCTCACGGACGCGAGAAGCGCGGATACAAAGCACGAAACAGACGCCGCTCTACGGAAAGA CGGCGACGAAAGTTCTAA
- MegabalstЧисло находок = 4
- Blastn с параметрами по умолчаниюЧисло находок = 7
- Максимально чувствительный Blastn (Word Size = 7, Match/Mismatch Scores (MMS) = 1,-2 )Число находок = 61
4 лучших находки оказались одинаковы для megablast и blastn, в то время как выдача blastn также содержала несколько более плохих находок, что закономерно, так как blastn более чувствительна. От параметров blastn выдача так же практически не зависит. Самой лучшей находкой во всех выдачах закономерно оказался геном, из которого была взята CDS.
Задание 3
Последовательности белков для этого задания я брал из организма Saccharomyces cerevisiae. Был произведен поиск гомологичных белков в неаннотированном геноме Amoboaphelidium protococarum. Для этого сначала при помощи команды makeblastdb -in X5.fasta -dbtype nucl была создана локальная база данных. Для поиска использовался tblastn при помощи команды: tblastn -query actin.fasta -db X5.fasta -out actin.out
- Актин - один из двух ключевых белков актин-миозинового комплекса. Для него выдача получилось:
Score = 721 bits (1861), Expect = 0.0, Method: Compositional matrix adjust. Identities = 333/375 (89%), Positives = 363/375 (97%), Gaps = 0/375 (0%) Frame = -2
Покрытие 100%. Судя по высокому значению Identity и 0 значению e-value можно предположить, гомолог актина есть - Миозин - второй из ключевых белков актин-миозинового комплекса. Для него выдача получилось:
Score = 686 bits (1770), Expect = 0.0, Method: Compositional matrix adjust. Identities = 408/943 (43%), Positives = 558/943 (59%), Gaps = 96/943 (10%) Frame = -3
Покрытие 90%. Для миозина уровень сходства существенно ниже, чем для актина, но все ещё достаточно высок, чтобы можно было сделать ввод о гомологии. Возможно белки гомологичны, но их функции существенно изменились - Тубулин является составляющей частью микротрубочек. Для него выдача получилось:
Score = 676 bits (1744), Expect = 0.0, Method: Compositional matrix adjust. Identities = 338/451 (75%), Positives = 385/451 (85%), Gaps = 22/451 (5%) Frame = -2
Покрытие 95%. Для Тубулина все показатели также говорят о гомологичности
Задание 4
Я взял scaffold-514 из сборки Amoboaphelidium protococarum длиной 59281 нуклеотида. (Информация о длине контигов была получена при помощи команды infoseq X5.fasta -only -name -length) Его последоательность была получена при помощи команды seqret X5.fasta:scaffold-514 -out sc514.fasta. Поиск был проведен при помощи blastx на сайте ncbi по RefSeq среди Opistoconta, к которым относится Amoboaphelidium protococarum
Результаты выдачи представлены на картинке. Можно предположить, что ген кодирует фимбрин