На странице проекта я скачала fastq по коду доступа SRR4240360 - файл в виде архива .gz и перенесла его в рабочую директорию (/nfs/srv/databases/ngs/lady_mari/), где распаковала программой gunzip.
Использованная команда: gunzip SRR4240360.fastq.gz
Был получен файл с чтениями SRR4240360.fastq.
С помощью программы Trimmomatic была проведена очистка чтений, а именно: удаление остатков адаптеров и плохих букв с концов.
Для начала все адаптеры для Illumina были собраны в единый файл adapters.fasta.
команда | функция | выходной файл |
---|---|---|
ls > V | собрали в один файл все названия файлов с адаптерами | V |
seqret @V -out adapters.fasta | все последовательности адаптеров собраны в единой файл | adapters.fasta |
Затем были использованы следующие команды:
команда | функция | выходной файл |
---|---|---|
java -jar /nfs/srv/databases/ ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240360.fastq SRR42 40360_noad.fastq ILLUMINACLIP:adapters.fasta:2:7:7 | Удаление остатков адаптеров | SRR4240360_noad.fastq |
Из выдачи программы: Input Reads: 8254632 Surviving: 8212773 (99,49%) Dropped: 41859 (0,51%). Т.е. Было отброшено 41859 чтения из 8254632 исходных, размер файла уменьшился с 832 Мбайт до 828 Мбайт.
команда | функция | выходной файл |
---|---|---|
java -jar /nfs/srv/databases/ ngs/suvorova/trimmomatic/trimmomatic-0.30.jar SE -phred33 SRR4240360_noad.fastq SRR4240360_trim.fastq TRAILING:20 MINLEN:30 | Обрезка с концов чтений нуклеотидов с качеством ниже 20 и отбор чтений длины не менее 30 | SRR4240357_trim.fastq |
Из выдачи программы:Input Reads: 8212773 Surviving: 7935084 (96,62%) Dropped: 277689 (3,38%) Т.е. Было отброшено 277689 чтения из 8212773 исходных, размер файла уменьшился с 828 Мбайт до 798 Мбайт.
Подготовка k-меров была произведена с помощью программы velveth. Она предназначена для создания набора данных, которые далее могут обрабатываться программой velvetg.
В нашем случае было необходимо подготовить k-меры длины 29 для коротких непарных чтений (-short) из файла в формате fastq (-fastq). Выходные файлы записывались в папку velveth.
Использованная команда: velveth velveth 29 -fastq -short SRR4240360_trim.fastq
Cборка на основе k-меров была произведена программой velvetg с использованием данных, полученных на предыдущем этапе.
Использованная команда: velvetg velveth
В постороенном программой графе оказалось 1506 вершин. N50 = 67095. максимальная длина контига - 94956. Два следующих по размеру контига имеют длины 70305 и 70300
Длины и покрытия самых больших контигов
ID | Длина | Покрытие | Последовательность |
---|---|---|---|
1 | 94956 | 43.679915 | id_1.fasta |
5 | 70305 | 49.350530 | id_5.fasta |
9 | 70300 | 42.008890 | id_9.fasta |
Среднее арифметическое - 162,9112815
Медиана - 7,87
Максимальные значения покрытий -187344; 848; 575
Минимальные значения покрытий - 1
ID | Длина | Покрытие |
---|---|---|
690 | 1 | 187344 |
1298 | 1 | 848 |
1120 | 1 | 575 |
С помощью алгоритма megablastn было проведено сравнение каждого из трех самых длинных контигов с хромосомой Buchnera aphidicola (CP009253).
Результаты работы megablastn можно увидеть в таблице ниже(координаты в хромосоме брались так, что началом была минимальная координата из всех выравниваний кусков контига, а концом - максимальная).
ID | Координаты в геноме | Max score | Total score | Query cover | E-value | Ident | Alignment length | Gaps | |
---|---|---|---|---|---|---|---|---|---|
1 | 402668 - 495148 | 4047 | 32384 | 60% | 0.0 | 77% | 9221 | 208(2%) | |
5 | 2004 - 627104 | 8517 | 34072 | 71% | 0.0 | 83% | 9633 | 130(1%) | |
9 | 202390 - 271926 | 4748 | 30562 | 79% | 0.0 | 75% | 10884 | 390(3%) |