Сборка и анализ контигов

1. Сборка контигов

В данном практикуме я буду работать с проектом по секвенированию бактерии Buchnera aphidicola str. Tuc7 с кодом доступа: SRR4240356.
Для скачивания архива с чтениями была применена команда: wget ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR424/006/SRR4240356/SRR4240356.fastq.gz
Для помещения всех адаптеров в один файл использовали команду: cat /mnt/scratch/NGS/adapters/* > adapt.fa
Для обрезки адаптеров с одноконцевых ридов: TrimmomaticSE -phred33 SRR4240356.fastq.gz SRR4240356_trim1.fastq.gz ILLUMINACLIP:adapt.fa:2:7:7 -trimlog trim1.log
Прошли проверку: 7358438 (97.96%) чтений, а удалено: 153091 (2.04%)
Для удаления с правых концов чтений нуклеотидов с качеством ниже 20 и удаления чтений, длина которых меньше 32 нуклеотидов: TrimmomaticSE -phred33 SRR4240356_trim1.fastq.gz SRR4240356_trim2.fastq.gz TRAILING:20 MINLEN:32 -trimlog trim2.log
Выжили (хихи): 7053346 (95.85%)
Были удалены: 305092 (4.15%)
Изначальный размер архива - 167M, после первого использования Trimmomatic - 164M, после второго - 155M.
Подготовка k-меров длины k=31: velveth velv 31 -short -fastq.gz SRR4240356_trim2.fastq.gz
Программа для сборки на основе k-меров: velvetg velv
N50 = 65554
В директории velv запустили команду для сортировки чтений, результаты в таблице: sort -r -n -k 2 stats.txt | less
Минимальные и максимальные покрытия нашли с помощью: cut -f6 stats.txt | sort -h
Аномально низкие от 1 до 2 встречается 25 раз. Есть и удивительно большие: 458.429078, 1134.000000, 266951.000000.
Номер контига Длина контига Покрытие
8 111962 38.660197
6 107488 34.174029
10 80939 37.524173

2. Анализ сборки

В качестве последовательности для выравнивания я выбрала NC_011834. Результаты работы blastn для 8, 6 и 10 контигов представлены в таблице ниже:
Номер контига Картируется на участок Гэпы Однонуклетодные различия
8 с 458067 по 570061 13 штук (0%) 272
6 c 223685 по 331196 20 (0%) 224
10 с 117271 по 198240 9 (0%) 201
-
Рис 1. DotPlot для контига №8. Мы можем заметить, что наш контиг ложится на хромосому ровно, в том же направении, не имеет больших инверсий, делеций или инсерций.
-
Рис 2. DotPlot для контига №6. Мы можем заметить, что наш контиг ложится на хромосому ровно, в том же направении, не имеет больших инверсий, делеций или инсерций.
-
Рис 3. DotPlot для контига №10. Мы можем заметить, что наш контиг ложится на хромосому в обратном направлении, но не имеет больших инверсий, делеций или инсерций.
-
Рис 4. Визуализация картирования контига №8 на хромосому.
-
Рис 5. Визуализация картирования контига №6 на хромосому.
-
Рис 6. Визуализация картирования контига №10 на хромосому.