bigpo.ru
добавить свой файл
1
Лабораторная работа № 3.

Парное выравнивание.

Лабораторная работа № 2 была посвящена поиску по базам данный при помощи сервиса BLAST, который производит парное сравнение последовательностей и возвращает оценку выравнивания, E-value и собственно выровненные последовательности. BLAST может производить парное очень быстро. Например, поиск похожих последовательностей с использованием участка в 1568 нуклеотидов или 416 аминокислот из J02799 по базам последовательностей GenBank+EMBL+DDBJ+PDB (без EST, STS, GSS), то есть среди более чем 3,7 миллионов последовательностей (~16,5 млрд. нуклеотидов или аминокислот) производится за вполне приемлемое время. BLAST выполняет это, разумеется, не производя глобальное выравнивание, но при помощи определенных эвристических алгоритмов. Однако нужно понимать, что иные подходы могут быть иногда более эффективными, например, точные (не эвристические) методы, подходы, базирующиеся на глобальном выравнивании, глобальное и локальное выравнивание и даже точечные диаграммы – эффективные способы визуального сравнения двух последовательностей.

Мы будем производить сравнение последовательностей при помощи пакета EMBOSS:

  • Глобальные выравнивания (см. лекции);

  • Локальные выравнивания;

  • Работа с точечным графиком – визуализация выравнивания.

Для выполнения лабораторной работы вам понадобится пакет EMBOSS, установленный на локальном компьютере. Документация пакета доступна в сети Интернет.

Данные, необходимые для работы: последовательность белка hemoglobin (его β-chain, доступна по адресу http://srs6.ebi.ac.uk/srs6bin/cgi-bin/wgetz?-e+[swissprot-id:HBB_HUMAN]).

  1. needle – программа, выполняющая глобальное выравнивание по алгоритму Needleman-Wunsch.

    • Вы можете использовать needle с параметрами для выполнения выравнивания и оценки его результатов, а также для генерации таблицы с оценками выравнивания, идентичности и похожести последовательностей и количеством вставленных промежутков для:

      • Человеческих последовательностей (по умолчанию);

      • Горилла;

      • Кролик;

      • Свинья.





    • Human

      Gorilla

      Rabbit

      Pig

      Human

      x

      x

      x

      x

      Gorilla




      x

      x

      x

      Rabbit







      x

      x

      Pig










      x
      П опробуем сконструировать филогенетическое дерево для человека, гориллы, кролика и свиньи на основе оценок глобального выравнивания (наподобие приведенного на рисунке). Для построения дерева нам понадобится создать таблицу 4х4 и заполнить её оценками выравнивания (являющимися, в сущности, показателями эволюционного расстояния между последовательностями).


      Вы также можете попробовать использовать значения sequence similarity (для белков), заполнив предлагаемую таблицу еще раз. Будет ли построено такое же дерево, как при использовании sequence identity?

  2. Используя навыки, полученные в результате выполнения заданий лабораторной работы № 2, скачайте аминокислотные и нуклеотидные последовательности human isocitrate dehydrogenase. Используя needle, проведите сравнение этих последовательностей и уже имеющейся isocitrate dehydrogenase от E.coli (J02799).

  3. Повторите п.2, используя программу stretcher (алгоритм Myers-Miller, работает быстрее, но менее точно, чем классический алгоритм). Отметьте различия в:

    • Score, значениях sequence identity, sequence similarity,количестве вставленных промежутков, иные отличия;

    • Времени выполнения (имеется ли достаточно сильная разница)?

  4. Точечный график, по всей видимости, самый старый метод сравнения последовательностей. Такой график – это визуальное представление похожих или идентичных участков в двух последовательностях. В таком представлении длина окна может оказаться фиксированной, также, как и длины двух последовательностей (но не всегда). Всякий раз, когда символ (или серия последовательно идущих символов – окно) одной последовательности идентичен\похож (в биологическом смысле) на символ из другой последовательности, на график наносится точка или короткая диагональ в соответствующей позиции. Таким образом, когда две последовательности имеют похожие\идентичные участки по своей длине, диагональные линии, идущие от одного угла графика к противоположному, показывают эти участки. Это может быть главная диагональ (из района нуля и до конца обеих последовательностей), возможно, с перерывами, или отдельные линии в разных местах графика. Попробуйте объяснить физический и биологический смысл коротких линий, рассеянных по графику.
    Программа dotmatcher отображает точечный график выравнивания двух последовательностей. Позволяет менять длину слова – минимальное количество подряд совпадающих символов.
    Программа Dotter – более интерактивна по сравнению с предыдущей. Программа и документация: http://bioinformatist.org/index.php/Dotter и http://210.86.230.110/bioinfo/material/20070822_seq/Dotter%20binaries/Dotter%20info.pdf Программы, строящие точечные графики, позволяют быстро найти консервативные и изменчивые участки в двух последовательностях.

    • Используйте одну из программ, строящих точечные графики, для визуального сравнения

      • Isocitrate dehydrogenase человека и E.coli;

      • Haemoglobin от двух разных организмов;

      • Любой последовательности с ней же;

      • Последовательность с её обратной копией. Вам потребуется программа revseq (см. лаб № 2).

      • Соедините в текстовом редакторе две очень разных последовательности в различном порядке (вопрос по ходу: можно ли соединить нуклеотидную и аминокислотную последовательности? Например, соедините последовательности haemoglobin (H) и isocitrate dehydrogenase (I) в порядке HI и IH. Сравните получившиеся синтетические последовательности (называемые в биологии химерами) с использованием метода глобального и локального выравнивания (в соответствующих программах).

      • Попробуйте сделать это для:

        • нуклеотидной последовательности;

        • аминокислотной последовательности.

В чём разница выравниваний?

      • Попробуйте изменить параметр thershold. Получится ли получить лучшее представление совпадающих регионов.

  1. Программа water и matcher рассчитывают локальное выравнивание – поиск похожих\идентичных регионов (локальных участков) в двух (в случае парного выравнивания) последовательностях по всей их длине. Методы локального выравнивания бывают очень полезны для поиска по базам данных и для решения других задач, например, для поиска небольших идентичных или похожих участков у белков – доменов.

    • Используйте эти программы для выравнивания некоторых из последовательностей, с которыми сегодня работали. Получилось ли обнаружить качественное локальное выравнивание?

Globin Sequences (Beta-Chain)

Human HEMOGLOBIN BETA CHAIN.(HBB_HUMAN) SEQUENCE 146 AA; 15867 MW;


VHLTPEEKSA VTALWGKVNV DEVGGEALGR LLVVYPWTQR FFESFGDLST PDAVMGNPKV KAHGKKVLGA FSDGLAHLDN LKGTFATLSE LHCDKLHVDP ENFRLLGNVL VCVLAHHFGK EFTPPVQAAY QKVVAGVANA LAHKYH

URL

Human sickle beta-hemoglobin SEQUENCE 147 AA


MVHLTPVEKS AVTAXWGKVN VDEVGGEALG RLLVVYPWTQ RFFESFGDLS TPDAVMGNPK VKAHGKKVLG AFSDGLAHLD NLKGTFATLS ELHCDKLHVD PENFRLLGNV LVCVLAHHFG KEFTPPVQAA YQKVVAGVAN ALAHKYH

URL

Gorilla gorilla gorilla (Lowland gorilla).HEMOGLOBIN BETA CHAIN. (HBB_GORGO) SEQUENCE 146 AA; 15839 MW;


VHLTPEEKSA VTALWGKVNV DEVGGEALGR LLVVYPWTQR FFESFGDLST PDAVMGNPKV KAHGKKVLGA FSDGLAHLDN LKGTFATLSE LHCDKLHVDP ENFKLLGNVL VCVLAHHFGK EFTPPVQAAY QKVVAGVANA LAHKYH

URL

Hylobates lar (Common gibbon).HEMOGLOBIN BETA CHAIN.(HBB_HYLLA) SEQUENCE 146 AA; 15925 MW;


VHLTPEEKSA VTALWGKVNV DEVGGEALGR LLVVYPWTQR FFESFGDLST PDAVMGNPKV KAHGKKVLGA FSDGLAHLDN LKGTFAQLSE LHCDKLHVDP ENFRLLGNVL VCVLAHHFGK EFTPQVQAAY QKVVAGVANA LAHKYH

URL

Presbytis entellus (Hanuman langur).HEMOGLOBIN BETA CHAIN.(HBB_PREEN) SEQUENCE 146 AA; 15895 MW;


VHLTPEEKAA VTALWGKVNV DEVGGEALGR LLVVYPWTQR FFESFGDLSS PDAVMGNPKV KAHGKKVLGA FSDGLAHLDN LKGTFAQLSE LHCDKLHVDP ENFRLLGNVL VCVLAHHFGK EFTPQVQAAY QKVVAGVANA LAHKYH

URL

Colobus badius (Red colobus).HEMOGLOBIN BETA CHAIN.(HBB_COLBA) SEQUENCE 146 AA; 15870 MW;


VHLTPDEKNA VTALWGKVNV DEVGGEALGR LLVVYPWTQR FFDSFGDLST ADAVMGNPKV KAHGKKVLGA FSDGLAHLDN LKGTFAQLSE LHCDKLHVDP ENFKLLGNVL VCVLAHHFGK EFTPQVQAAY QKVVAGVANA LAHKYH

URL

Oryctolagus cuniculus (Rabbit).HEMOGLOBIN BETA-1 AND BETA-2 CHAINS.(HBB_RABIT) SEQUENCE 146 AA; 16001 MW;


VHLSSEEKSA VTALWGKVNV EEVGGEALGR LLVVYPWTQR FFESFGDLSS ANAVMNNPKV KAHGKKVLAA FSEGLSHLDN LKGTFAKLSE LHCDKLHVDP ENFRLLGNVL VIVLSHHFGK EFTPQVQAAY QKVVAGVANA LAHKYH

URL

Bison bonasus (European bison).HEMOGLOBIN BETA CHAIN.(HBB_BISBO) SEQUENCE 145 AA; 15976 MW;


MLTAEEKAAV TAFWGKVHVD EVGGEALGRL LVVYPWTQRF FESFGDLSSA DAVMNNAKVK AHGKKVLDSF SNGMKHLDDL KGTFAALSEL HCDKLHVDPE NFKLLGNVLV VVLARHFGKE FTPVLQADFQ KVVTGVANAL AHRYH

URL

Sus scrofa (Pig).HEMOGLOBIN BETA CHAIN.(HBB_PIG) SEQUENCE 146 AA; 16034 MW;


VHLSAEEKEA VLGLWGKVNV DEVGGEALGR LLVVYPWTQR FFESFGDLSN ADAVMGNPKV KAHGKKVLQS FSDGLKHLDN LKGTFAKLSE LHCDQLHVDP ENFRLLGNVI VVVLARRLGH DFNPNVQAAF QKVVAGVANA LAHKYH

URL

Lutra lutra (European river otter).HEMOGLOBIN BETA CHAIN.(HBB_LUTLU) SEQUENCE 146 AA; 15950 MW;


VHLTGEEKAA VTSLWGKVNV DEVGGEALGR LLVVYPWTQR FFDSFGDLSS PDAVMGNPKV KAHGKKVLNS FSEGLKNLDN LKGTFAKLSE LHCDKLHVDP ENFKLLGNVL VCVLAHHFGK EFTPQVQAAY QKVVAGVANA LAHKYH

URL

Theropithecus gelada (Gelada baboon).HEMOGLOBIN BETA CHAIN.(HBB_THEGE) SEQUENCE 146 AA; 15925 MW;


VHLTPEEKNA VTTLWGKVNV DEVGGEALGR LLVVYPWTQR FFDSFGDLSS PAAVMGNPKV KAHGKKVLGA FSDGLNHLDN LKGTFAQLSE LHCDKLHVDP ENFKLLGNVL VCVLAHHFGK EFTPQVQAAY QKVVAGVANA LAHKYH

URL