정보

시퀀싱 오류는 읽고 있는 뉴클레오티드의 기능입니까?

시퀀싱 오류는 읽고 있는 뉴클레오티드의 기능입니까?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Google Scholar에서 확인하면 Illumina의 경우(예를 들어 한 가지만 고려) 시퀀싱 오류율이 뉴클레오티드당 0.001-0.01 정도라는 것을 알 수 있습니다.

시퀀싱 오류에 대해 이야기하면서 불일치(한 뉴클레오타이드를 다른 뉴클레오타이드로 대체)만 고려합시다. 주어진 위치에서 "진정한" 뉴클레오타이드를 알면 불일치 동안 다른 특정 뉴클레오타이드처럼 읽힐 가능성이 있습니까? 아니면 편향이 있습니까? 예를 들어, 실제 뉴클레오티드가NS, 다음과 같이 발견될 가능성이 더 높습니까?NS(둘 다 퓨린이므로)NS또는? 일부 뉴클레오타이드는 다른 뉴클레오타이드보다 오독될 가능성이 더 높습니까?

답이 시퀀싱 기술에 너무 의존하지 않기를 바랍니다.


불행히도, 그것은 시퀀싱 기술에 의존합니다.

예를 들어, Illumina 시퀀싱에서 각 시퀀스 조각은 증폭되어(더 강한 신호를 얻기 위해) 마이크로어레이에 클러스터를 형성합니다. 각 클러스터는 다음 주기에 따라 순서가 지정됩니다.

  1. 형광 종결자 뉴클레오티드를 추가합니다. 이러한 뉴클레오티드는 억제/종결 그룹을 포함하도록 변형되고 더 많은 뉴클레오티드가 추가되는 것을 방지합니다. 이론적으로 이 단계에서 모든 DNA 단편에는 단 하나의 뉴클레오티드만 포함됩니다.
  2. 과량의 뉴클레오티드를 씻어냅니다.
  3. 이미징 기술을 사용하여 통합된 뉴클레오티드를 캡처하고 어떤 염기가 통합되었는지 결정합니다(형광 색상 기준).
  4. 반응을 계속할 수 있도록 첨가된 뉴클레오티드에서 터미네이터를 절단합니다.

2010년 Metzker의 이미지.

이러한 방식으로 각 단편은 한 번에 하나의 뉴클레오티드로 합성되고 통합된 각 뉴클레오티드가 감지됩니다. 그러나 첫 번째 단계는 완벽하지 않습니다. 때로는 하나 이상의 뉴클레오티드가 특정 DNA 단편에 통합되거나 뉴클레오티드가 통합되지 않습니다. 결국, 클러스터의 DNA 단편(모두 동일한 서열을 포함함)은 동기화되지 않고("위상") 형광 신호는 다른 색상이 혼합되어 덜 명확해집니다. 이것은 Illumina 기계의 시퀀싱 오류의 주요 원인이자 Illumina 읽기가 상대적으로 짧은(~300bp) 이유이기도 합니다.

따라서 귀하의 질문에 답하기 위해 이 예에서 뉴클레오타이드는 해당 서열에서 가까운 뉴클레오타이드로 잘못 읽힐 수 있습니다. 오류는 다른 시퀀싱 방법과 이러한 방법의 작동 방식에 따라 달라집니다.

앞서 링크한 기사에서 다양한 시퀀싱 방법에 대해 자세히 설명합니다. (안타깝게도 페이월 뒤에 있어서 일부는 볼 수 없을 수도 있습니다.)


소개

뉴클레오티드는 DNA 및 RNA와 같은 핵산의 빌딩 블록 역할을 하는 생물학적 분자입니다. 그들은 살아있는 세포가 수행하는 모든 기능에 필수적입니다. 뿐만 아니라 새로운 세포나 다음 세대의 생명체에 정보를 전달하는 데에도 필수적입니다.

뉴클레오타이드는 함께 결합하여 디뉴클레오타이드, 트리뉴클레오타이드 등을 형성하여 폴리뉴클레오타이드로 알려진 중합체를 형성합니다. 이 폴리뉴클레오티드는 결합하여 DNA 및 RNA와 같은 복잡한 핵산을 형성합니다. 이 섹션에서 우리는 뉴클레오타이드의 다양한 측면, 그 구조, 생체 내 위치, 화학적 배열 및 뉴클레오타이드가 수행하는 기능에 대해 논의할 것입니다. 또한 우리 몸에서 중요한 기능을 수행하는 일부 뉴클레오타이드에 대해 자세히 논의할 것입니다.


  • 두 DNA 가닥은 본질적으로 역평행입니다. 즉, 한 가닥의 3&프라임 말단이 다른 가닥의 5&프라임 말단을 향합니다.
  • DNA를 구성하는 뉴클레오타이드는 질소 염기, 데옥시리보스 당 및 다른 뉴클레오타이드와 공유적으로 연결되어 포스포디에스테르 결합을 형성하는 인산염 그룹을 포함합니다.
  • 뉴클레오티드 염기는 퓨린(이중 고리 구조 포함) 또는 피리미딘(단일 고리 구조 포함)으로 분류될 수 있습니다.
  • 아데닌(퓨린)과 티민(피리미딘)은 구아닌(퓨린)과 시토신(피리미딘)과 마찬가지로 상보적인 염기쌍입니다.
  • DNA 시퀀싱은 DNA 분자 내 뉴클레오티드의 정확한 순서를 결정하는 과정입니다.
  • 데옥시리보스: 2&프라임 하이드록실(-OH)이 수소(H)로 환원된 오탄당 리보스의 유도체 디옥시리보핵산을 구성하는 뉴클레오티드의 구성성분 또는 DNA
  • 수소 결합: 한 분자의 산소 또는 질소 원자에 이미 공유 결합된 수소 원자가 같거나 다른 분자의 전기 음성 원자(보통 질소 또는 산소)에 끌리는 약한 결합.
  • 뉴클레오티드: DNA 또는 RNA 분자를 포함하는 단량체는 퓨린 또는 피리미딘일 수 있는 질소성 헤테로고리 염기, 5탄당 오탄당 및 인산기로 구성됩니다.

DNA의 단량체 빌딩 블록은 데옥시리보모노뉴클레오티드(보통 뉴클레오티드라고 함)이며, DNA는 이러한 뉴클레오티드의 선형 사슬 또는 중합체로 형성됩니다. DNA 합성에 사용되는 뉴클레오티드의 구성 요소는 질소 염기, 디옥시리보스 및 인산염 그룹입니다. 뉴클레오티드는 어떤 질소 염기가 존재하는지에 따라 명명됩니다. 질소 염기는 이중 고리 구조를 특징으로 하는 아데닌(A) 및 구아닌(G)과 같은 퓨린, 또는 단일 고리 구조를 특징으로 하는 시토신(C) 및 티민(T)과 같은 피리미딘일 수 있습니다. 폴리뉴클레오타이드(뉴클레오타이드의 선형 중합체)에서 뉴클레오타이드는 포스포디에스테르 결합 또는 포스포디에스테르 연결로 알려진 공유 결합에 의해 서로 연결됩니다.

그림 (PageIndex<1>): 뉴클레오티드 구조: 각 뉴클레오티드는 당, 인산기 및 질소 염기로 구성됩니다. 당은 DNA의 데옥시리보스와 RNA의 리보스입니다. 모노뉴클레오타이드 형태에서 뉴클레오타이드는 1개, 2개 또는 3개의 인산염이 부착되어 있을 수 있습니다. 폴리뉴클레오타이드 사슬로 함께 연결될 때 뉴클레오타이드는 항상 하나의 인산염을 가집니다. 질소 염기와 설탕만 있는 분자를 뉴클레오사이드라고 합니다. 적어도 하나의 인산염이 공유 결합되면 뉴클레오티드라고 합니다.

James Watson과 Francis Crick은 Rosalind Franklin과 Maurice Wilkins의 도움으로 DNA 구조를 알아낸 것으로 유명합니다. Watson과 Crick은 DNA가 서로 꼬인 두 개의 폴리뉴클레오티드 가닥으로 구성되어 오른쪽 나선을 형성한다고 제안했습니다.

두 개의 폴리뉴클레오티드 가닥은 본질적으로 역평행입니다. 즉, 그들은 반대 방향으로 달린다.

뉴클레오타이드의 당과 인산염은 구조의 골격을 형성하는 반면, 질소 염기 쌍은 분자 내부를 향하고 있습니다.

두 가닥을 서로 비틀면 두 가닥의 당-인산염 백본으로 경계를 이루는 균일한 간격의 주요 홈과 작은 홈이 형성됩니다.

그림 (PageIndex<1>): DNA의 이중 나선 구조의 세 가지 표현.: A는 모든 원자가 구체로 표현되는 DNA의 공간 채우기 모델입니다. 두 개의 역평행 폴리뉴클레오타이드 가닥은 서로 어떻게 감겨 있는지 설명하기 위해 다르게 색상이 지정되어 있습니다. B는 설탕-인산염 백본이 보라색 가닥으로 표시되고 질소 염기가 색상으로 구분된 고리로 표시되는 DNA의 만화 모델입니다. C는 또 다른 공간 채우기 모델로, 설탕-인산염 원자는 보라색으로, 모든 질소 염기 원자는 녹색으로 표시되어 있습니다. 전체 분자를 감싸고 있는 크고 작은 홈은 당-인산염 백본 사이의 공간으로 분명합니다.

DNA 이중 나선의 직경은 2 nm이며 전체적으로 균일합니다. 퓨린과 피리미딘의 쌍만이 균일한 직경을 설명할 수 있습니다. 즉, DNA 분자를 따라 각 지점에서 두 개의 인산 당 백본은 항상 3개의 고리로 분리되어 있습니다.

두 가닥은 한 가닥의 질소 염기와 다른 가닥의 질소 염기 사이의 염기 짝짓기에 의해 함께 유지됩니다. 염기 쌍은 수소 결합에 의해 안정화된 퓨린과 피리미딘 사이에서 발생합니다. A는 두 개의 수소 결합을 통해 T와 쌍을 이루고 G는 세 개의 수소 결합을 통해 C와 쌍을 이룹니다.

내부 염기쌍은 서로에 대해 회전하지만 분자가 긴 축을 위 또는 아래로 바라볼 때 서로 겹쳐져 있습니다.

각 염기쌍은 이전 염기쌍과 0.34 nm 높이만큼 떨어져 있으며 나선의 각 360도 회전은 분자의 장축을 따라 3.4 nm 이동합니다. 따라서 나선의 회전당 10개의 염기쌍이 존재합니다.

그림 (PageIndex<1>): DNA 구조: DNA는 (a) 이중 나선 구조와 (b) 포스포디에스테르 결합을 가지고 있습니다. (c) 주요 및 보조 홈은 전사(DNA에서 RNA 복사) 및 복제와 같은 과정에서 DNA 결합 단백질의 결합 부위입니다.

DNA 시퀀싱은 DNA 분자 내 뉴클레오티드의 정확한 순서를 결정하는 과정입니다. 신속한 DNA 시퀀싱 방법은 생물학 및 의학 연구 및 발견을 크게 가속화했습니다. DNA 염기서열에 대한 지식은 기초 생물학 연구와 진단, 생명공학, 법의학, 생물학 계통과 같은 다양한 응용 분야에서 필수 불가결한 요소가 되었습니다. 현대 기술로 얻은 빠른 시퀀싱 속도는 인간 게놈과 다른 동물, 식물 및 미생물 종의 게놈을 포함하여 수많은 유형 및 종의 완전한 DNA 서열 또는 게놈을 얻는 데 중요한 역할을 했습니다.


플러스/마이너스 기법

Sanger와 그의 팀은 f1 DNA의 상당 부분을 시퀀싱했지만 전체 시퀀싱을 완료하지 못했습니다. 게다가 그들의 방법은 시간과 노력이 많이 들었다. 더 큰 DNA 염기서열을 결정할 수 있는 더 빠른 기술을 찾기 위해 열심인 Sanger는 계속해서 문제를 해결할 새로운 방법을 모색했습니다.

1975년 Sanger와 그의 조수인 Coulson은 이전과 근본적으로 다른 접근 방식을 설명하는 논문을 발표했습니다(Sanger, Coulson, 1975). 그들의 기술에 대한 새로운 점은 작은 DNA 단편의 겹침 검사를 기반으로 한 시퀀스를 함께 연결하는 데 의존하지 않는다는 것입니다. 또한 시퀀스를 직접 시각적으로 스캔할 수 있습니다. Sanger와 Coulson은 하룻밤 사이에 방법을 개발하지 않았습니다. 오히려 그것은 1973년 4월에 시작된 몇 가지 실험의 결과로 점차 나타났습니다. 이 실험은 다양한 중합효소의 작용과 다양한 분류 기술의 효율성을 테스트하기 위해 고안되었습니다(Sanger, Dowding, 1996 Garcia-Sancho, 2010).

이 메모는 실험 D80에서 가져온 것입니다. Sanger의 첫 번째 실험 중 하나는 그가 4개의 모든 데옥시트리포스페이트를 사용하여 복사 가능성을 테스트하기 시작한 것입니다. Sanger's DNA lab notebook, 1972. 출처: Wellcome Library, file SA//BIO, P/1/42.

이 노트에서 Sanger는 '상당히 야심찬 실험'을 시작했다고 기록합니다. D93으로 명명된 실험의 목적은 4개의 DNA 뉴클레오타이드를 모두 추가하여 제한 효소로 절단된 DNA 단편을 확장하는 방법을 찾는 것이었습니다. 이 실험의 결과는 상당히 유망했습니다. Sanger는 Coulson과 Barrell의 도움을 받아 이 실험에 사용된 방법을 계속 개선할 것입니다. 이 실험은 더하기와 빼기 방법의 기초를 마련했습니다. Sanger의 DNA 실험실 노트북, 1973-1974. 크레딧: Wellcome Library, 파일 SA//BIO, P/1/43.

결국 '플러스/마이너스' 시스템이라고 불리는 이 기술은 여러 단계로 구성되었습니다. 첫 번째 경우에 프라이머가 합성되었습니다. 이것은 연구 중인 DNA 샘플의 짧은 길이의 상보적 사본이었습니다. 일단 만들어지면, 프라이머는 DNA 합성을 위한 출발점을 제공하기 위해 단일 가닥 DNA 주형의 특정 상보적 영역에 결합됩니다. 그런 다음 결합된 가닥을 폴리머라제 I과 함께 인큐베이션했습니다. 대장균) 프라이머의 3' 말단에 방사성 표지된 뉴클레오티드를 추가할 수 있도록 합니다. 이 과정은 다양한 길이의 합성된 DNA 단편의 무작위 분류를 제공했습니다. 각각을 정제하여 과량의 뉴클레오티드를 제거했습니다.

정제 후, 샘플을 2개의 처리로 나누었다. '마이너스' 시스템으로 알려진 첫 번째 치료법은 Wu와 Kaiser가 고안한 복사 방법을 사용했습니다. 이 경우 샘플은 DNA 중합효소 I이 있는 시험관에서 배양되었습니다. 대장균) DNA 뉴클레오티드 4개 중 3개(A, C, G 또는 T)와 함께. 하나의 뉴클레오티드는 이 배양 과정에서 의도적으로 보류되었습니다. 이것은 폴리머라제가 누락된 뉴클레오티드를 만날 때까지 DNA 사슬 합성을 계속하는 자연적인 생물학적 과정을 이용했습니다. 예를 들어, 아데닌이 없는 경우 중합효소는 일련의 뉴클레오티드를 합성하여 이 뉴클레오티드 바로 앞에서 중단됩니다. 한 번에 하나씩 특정 뉴클레오티드를 생략함으로써 팀은 특정 뉴클레오티드 말단을 가진 DNA 산물을 얻을 수 있었습니다.

두 번째 처리에서 하나의 특정 뉴클레오티드 제거에 의존하는 '마이너스' 시스템과 달리 '플러스' 시스템은 배양 과정에서 하나의 추가에 의존했습니다. 1971년과 1972년 사이에 Paul Englund에 의해 개발된 '플러스' 시스템은 다른 중합효소인 T4를 사용했습니다. 이것은 T4 박테리오파지에서 공급되었습니다. 정상적인 상황에서 이 중합효소는 합성 시약으로 작용합니다. 그러나 추가 뉴클레오티드를 만나면 3' 말단에서 DNA 가닥을 다운그레이드하기 시작합니다. '마이너스' 시스템의 경우와 같이 '플러스' 시스템은 특정 뉴클레오티드 말단을 가진 DNA 단편을 생성했습니다.

T4 중합효소를 사용한 Coulson의 노트 녹음 테스트. 출처: Wellcome Library, Coulson 논문, 파일: PP/COU, 노트북 '플러스 및 마이너스 시퀀싱, T4 중합효소 제제', 1976.

두 시스템 모두 2가지 다른 유형의 중합효소를 사용하여 4가지 시험관 반응을 준비하는 데 의존했습니다. 처리 후 프라이머를 주형에서 분리했습니다. 이것은 8개의 다른 DNA 가닥을 제공했습니다. 이 중 4개는 마이너스 가닥으로 알려진 주형에서, 4개는 플러스 가닥으로 알려진 프라이머에서 나왔습니다. 최종 결과는 각각의 뉴클레오티드 말단(A, C, G, T)이 있는 일련의 중첩 단편이었습니다.

그런 다음 각 DNA 단편을 이온 영동을 위해 준비된 아크릴아미드 겔에서 별도의 레인에 나란히 배치했습니다. 전하를 가한 후 DNA 조각은 젤의 상단에서 하단으로 이동하며 더 큰 조각은 작은 것보다 느리게 이동합니다. 이러한 맥락에서 젤은 조각을 크기별로 분류하는 데 도움이 되는 체와 같은 역할을 했습니다. 이 작업이 완료되면 X선 필름을 일정 기간 동안(보통 밤새도록) 젤 위에 씌운 다음 자동 방사선 사진을 생성하기 위해 현상했습니다. 이 사진은 단편에서 방사성 태그가 지정된 뉴클레오티드의 위치를 ​​나타냅니다. 최종 이미지는 조각이 겹치는 부분을 강조하는 사다리꼴 패턴의 일련의 어두운 띠를 보여주었습니다(Hutchison, 2007 Finch, 2008).

시퀀스 분석을 위한 아크릴아마이드 겔의 사용은 상당한 변화를 나타냈습니다. 이전에 Sanger는 일반적으로 2차원 종이 크로마토그래피를 사용하여 이러한 작업을 수행했습니다. 그러나 이것은 많은 밴드를 잘라내야 하기 때문에 시간이 많이 소요되었습니다. 아크릴아미드 겔 시스템을 사용할 때의 매력 중 하나는 시퀀스의 1차원 판독을 제공한다는 것입니다. DNA 분획을 위해 젤을 사용하기로 한 결정은 처음에 Sanger에게 미친 생각처럼 보였습니다. 겔은 DNA와 DNA 단편뿐만 아니라 온전한 단백질을 분리하는 데 일반적으로 사용되었지만 이전에는 개별 핵산을 분리하는 데 사용된 적이 없었습니다(Sanger, 1992).

이것은 플러스 마이너스 시스템용 아크릴아미드 겔 시스템 개발에 중추적인 역할을 한 John Donelson을 보여줍니다. 크레딧: 존 도넬슨.

플러스와 마이너스 방법을 개발하기 시작할 때 Sanger와 Coulson은 주로 호모크로마토그래피로 분획을 수행했습니다. 그러나 그들은 곧 Donelson이 다른 실험을 위해 개발하고 있던 아크릴아미드 겔 기반 시스템을 사용하여 이 과정을 도왔습니다. 처음에 이 시스템은 초기 결과가 호모크로마토그래피에서 얻은 결과보다 약간만 더 나은 것으로 판명되었기 때문에 유망하지 않은 것처럼 보였습니다. 더 큰 젤의 채택을 통해 약간의 진전이 이루어졌습니다. 이것은 자동 방사선 사진에서 더 선명한 밴드를 생성했습니다. 그러나 치아 문제는 계속되었습니다. 많은 경우에 큰 조각이 작은 조각보다 더 빨리 실행되었습니다. 이것은 순서를 완전히 뒤엎었습니다. 게다가 이미 염기서열을 알고 있는 리보치환법으로 합성된 DNA로 시스템을 시험해 보니 계속해서 역 염기서열이 나왔다. 이것은 DNA 주형의 2차 구조에 기인합니다. 결국 수많은 시행착오 끝에 화학물질인 8M 우레아를 첨가하고 고전압을 가해 젤을 뜨거워지게 하는 조합으로 문제를 해결했다. 이러한 모든 변경 후에 팀은 종이 크로마토그래피보다 훨씬 더 명확한 결과를 얻기 시작했습니다(Sanger, 1992 Sanger, Dowding, 1996).

아크릴아미드 겔 기반 분별 시스템과 함께 플러스 및 마이너스 방법을 결합한 것이 중요한 진전이었습니다. 이제 시퀀스는 autoradiograph에서 직접 읽을 수 있습니다. 이것은 사진을 아래에서 위로 스캔하여 수행되었으며, 방사능의 산물인 어두운 띠가 나타나는 위치에 주목했습니다. 이 모든 것은 육안으로 할 수 있습니다. Sanger는 이 새로운 접근 방식을 그가 가진 최고의 아이디어 중 하나로 여겼습니다. 이 새로운 방법을 통해 연구자들은 DNA 서열을 직접 스캔할 수 있을 뿐만 아니라 한 번에 50개의 뉴클레오티드를 이전보다 훨씬 더 길게 늘릴 수 있습니다. 또한 품질 저하 사용에서 복사 절차로의 출발을 표시했습니다. ( Sanger, 1988 Finch, 2008 ).


시퀀싱 오류는 읽고 있는 뉴클레오티드의 기능입니까? - 생물학

시작 코돈(ATG)에서 종료 코돈까지의 뉴클레오티드 서열 영역을 오픈 리딩 프레임(Open Reading frame)이라고 합니다.

유기체, 특히 원핵생물에서 유전자 발견은 오픈 리딩 프레임(ORF) 검색을 시작합니다. ORF는 시작 코돈 &ldquoATG&rdquo(항상 그런 것은 아님)로 시작하고 3개의 종료 코돈(TAA, TAG, TGA) 중 하나로 끝나는 DNA 시퀀스입니다. 출발점에 따라 뉴클레오티드 서열을 유전자 코드에 따라 아미노산 서열로 번역하는 6가지 가능한 방법(정방향 가닥에 3가지, 상보적 가닥에 3가지)이 있습니다. 이를 리딩 프레임이라고 합니다.

진핵생물 유전자를 찾는 것은 완전히 다른 작업이지만 진핵생물 유전자는 연속적이지 않고 &lsquointrons&rsquo라고 불리는 중간 비암호화 서열에 의해 중단됩니다. 더욱이 진핵생물과 원핵생물의 유전정보 구성은 다르다.

코딩 시퀀스(CDS)란 무엇입니까? ORF와 어떻게 다른가요?

코딩 서열(CDS)은 단백질을 형성하기 위해 번역되는 DNA의 실제 영역입니다. ORF에는 인트론도 포함될 수 있지만 CDS는 리보솜 번역 기계에 의해 실제로 아미노산으로 번역되는 코돈으로 분할될 수 있는 뉴클레오티드(연결된 엑손)를 나타냅니다. 원핵생물에서 ORF와 CDS는 동일합니다.


시퀀싱 오류는 읽고 있는 뉴클레오티드의 기능입니까? - 생물학

DNA 시퀀싱 반응은 모두 프라이머를 사용하여 DNA 합성을 시작합니다. 이 프라이머는 판독되는 시퀀스의 시작점과 시퀀싱 반응의 방향을 결정합니다.

대부분의 DNA 시퀀싱 반응은 특정 뉴클레오티드에서 DNA 합성을 중지하기 위해 디데옥시 뉴클레오티드(ddNTP)를 사용합니다. 예를 들어, 오른쪽의 ddCTP가 성장하는 DNA 가닥에 통합되면 자유 3' OH 그룹이 없으면 다음 뉴클레오티드가 추가되는 것을 방지하고 사슬이 종료됩니다.

자동화된 시퀀싱에서 우리는 4개의 디데옥시 뉴클레오티드(ddA, ddC, ddG 및 ddT) 각각에 부착된 다른 형광 라벨을 사용합니다. 따라서 우리는 DNA의 각 단편에서 말단 염기를 결정할 수 있습니다.

아래의 두 애니메이션은 DNA 합성과 디데옥시 종결이 DNA 염기서열 분석에 어떻게 사용되는지 보여줍니다.

시퀀싱 반응에서 디데옥시 뉴클레오티드가 DNA에 통합되는 방식에 대한 Quicktime 애니메이션.

Cold Spring Harbor의 디데옥시 시퀀싱에 대한 충격파 애니메이션. http://www.dnalc.org/ddnalc/resources/sangerseq.html

Cold Spring Harbor에서 자동 열순환 시퀀싱의 Shockwave 애니메이션. http://www.dnalc.org/ddnalc/resources/cycseq.html

자동 시퀀싱(왼쪽) 및 수동 시퀀싱(오른쪽)의 젤 예.

자동 시퀀싱은 각 ddNTP에 부착된 다른 형광 염료를 사용합니다.

수동 시퀀싱은 방사성 표지된 dATP(35-S 또는 33-P)를 사용하여 DNA를 표지합니다. 그런 다음 샘플은 개별 ddNTP가 있는 4개의 튜브로 분할됩니다. 그런 다음 샘플에 아크릴아미드 겔 전기영동을 실시한 후 방사선 사진을 촬영합니다.


배경

차세대 염기서열분석(NGS) 기술은 저렴하고 신뢰할 수 있으며 처리량이 많은 DNA 염기서열분석을 제공하고 인간 게놈의 유전적 변이를 종합적으로 분류할 수 있도록 합니다. 단일 뉴클레오티드 변이는 인간 개체에서 가장 흔한 유전 변이 중 하나입니다. 단일 뉴클레오티드 변이체는 정상 세포에서 생식계열 SNV, 즉 단일 뉴클레오티드 다형성(SNP)으로, 또는 암/종양 세포에서 체세포 SNV로 추가로 해석될 수 있습니다. 현재까지 NGS 읽기 데이터에서 생식계열 또는 체세포 SNV를 호출하기 위해 다양한 계산 방법이 개발되었으며 NGS를 기반으로 하는 일반적인 파일라인은 다음으로 구성됩니다.NS) 시퀀스 읽기 품질 관리(예: 읽기 오류 수정 및 중복 제거)(ii) 선행 정렬기를 사용하여 하나 이상의 샘플에서 시퀀스 읽기를 게놈에 정렬합니다(예: [1–4])(iii) indel 호출을 용이하게 하기 위해 indel 주위의 읽기를 재정렬합니다(iv) 확률적 방법(예: 베이지안 모델)을 사용하여 변형을 호출하고 (V) 호출된 변이체의 통계적 유의성을 평가하고 결과를 보고합니다. 일부 메서드는 SNV와 함께 indel을 호출하기도 합니다.

NGS용으로 다수의 단일 샘플 SNV 호출자가 개발되었으며 대표적인 호출자로는 MAQ[5], SOAPsnp[6], SAMtools[7], SNVMix[8], GATK[9] 및 FaSD[10]가 있습니다. MAQ, SOAPsnp 및 FaSD 모델 대립 유전자는 각 사이트에서 이항 분포로 계산되는 반면 SNVMix는 혼합 이항 분포를 사용합니다. 4명의 호출자 모두 베이지안 기반 사후 확률을 계산하여 SNV를 식별합니다. SAMtools와 GATK는 모두 베이지안 가능성을 사용하고 풀링된 데이터 처리를 지원합니다. 이러한 SNV 호출자는 원래 SNP를 표적으로 하지만 생식계열 및 체세포 변이를 모두 포함하여 개인의 단일 뉴클레오티드 유전 변이를 식별하는 데 실제로 적용될 수 있습니다. 또한 이러한 도구 중 일부는 indel을 호출하지 않습니다. genotyping 및 단일 샘플 SNV 호출에 대한 최신 연구에 대한 자세한 내용은 [11]을 참조하십시오.

생식선 SNV 호출과 비교하여 체세포 SNV 호출은 종양에 나타나지만 숙주의 생식선에서는 발생하지 않는 대립 유전자를 식별하는 것이 목적이기 때문에 더 어렵습니다. 즉, 변이체를 포함하는 부위에서 생식계열 다형성과 체세포 다형성을 추가로 구별해야 합니다. 한 가지 접근법[8]은 먼저 기존의 SNP 호출자를 사용하여 종양에서 SNV를 호출한 다음 공개 SNP 데이터베이스에 대해 예측된 SNV를 스크리닝하는 것입니다. dbSNP [12]. 불행히도, 이 접근 방식은 개인에게서 발견되는 상당한 수의 새로운 SNV에 의해 도전을 받습니다. [13]은 개인당 SNV의 10~50%가 새로운 사건이라고 보고했다. 이 경우 공개 데이터베이스에서 분류되지 않은 생식계열 돌연변이는 체세포 돌연변이로 잘못 식별됩니다.

체세포 돌연변이를 감지하는 더 신뢰할 수 있는 접근 방식은 종양 샘플과 일치하는 정상 샘플 모두에서 변이체를 호출하는 것입니다. 기존 체세포 SNV 호출자가 사용하는 접근 방식은 단순 빼기와 공동 표본 분석의 두 가지 범주로 분류할 수 있습니다. 단순 빼기 접근법은 각 부위에서 정상 및 종양 샘플의 유전자형을 별도로 분류한 다음 정상의 유전자형이 동형 접합 참조이고 종양의 유전자형이 참조 염기에 대한 대체 대립 유전자를 포함하는 경우 해당 부위를 체세포로 분류합니다. 이것은 또한 단순 빼기를 기반으로 하는 호출자가 SAMtools 및 GATK와 같이 잘 확립된 단일 샘플 SNV 호출자를 직접 사용할 수 있음을 시사합니다. 이 간단한 빼기 접근 방식은 높은 체세포 대립 유전자 빈도와 데이터 순도를 가진 샘플 쌍에 대한 합리적인 예측을 제공할 수 있습니다. 그러나 임상 샘플에서 체세포 돌연변이가 낮은 빈도로 만연하는 것으로 관찰되었습니다[14]. 이 경우 생식계열 돌연변이를 체세포 돌연변이로 착각하는 경향은 잠재적으로 체세포 SNV의 발견을 오염시킬 수 있습니다. 반면에, 체세포 대립유전자 빈도는 부위마다 또는 시료마다 다르며, 이는 종종 종양 시료 내 정상 세포의 실질적인 혼입, 복제 수 변이 및 종양 이질성으로 인해 발생합니다. 이와 관련하여, 두 샘플의 공동 분석은 두 샘플의 대립 유전자에 대한 동시 테스트를 용이하게 하고 종양 불순물 및 노이즈 데이터의 보다 포괄적인 표현을 가능하게 함으로써 성능을 더욱 향상시킬 수 있을 것으로 예상됩니다. VarScan2[15], SomaticSniper[16], JointSNVMix2(JSM2)[17], Strelka[18], MuTect[19] 및 FaSD-somatic[20]을 포함한 여러 체세포 SNV 호출자가 공동 샘플 분석을 기반으로 개발되었습니다. 핵심에서 간단한 빼기 접근 방식을 사용하지만 VarScan2는 종양 정상 샘플에서 대립 유전자 빈도 정보의 통계적 중요성을 공동으로 평가하기 위해 개척했습니다. SomaticSniper, JSM2, Strelka, MuTect 및 FaSD-somatic은 모두 베이지안 모델을 사용하여 종양-정상 쌍을 공동으로 분석하는 동시에 다양한 특정 절차 또는 공식을 채택합니다. 또한 SNV 호출에만 집중하는 다른 체세포 호출자와 달리 VarScan2는 체세포 삽입 삭제 호출에 대한 추가 지원을 제공합니다.

이 백서에서는 생식선 및 체세포 SNV/인델을 빠르고 효율적으로 식별하는 통합 솔루션인 SNVSniffer를 제시합니다. 이 알고리즘은 베이지안 확률 모델을 사용하여 유전자형 추론에 의존하여 SNV를 식별하고 indel을 호출하기 위한 MUA(multiple unapped alignment) 접근 방식을 조사했습니다. 생식계열 변이체 호출의 경우 각 사이트에서 다항 조건부 분포를 따르도록 대립유전자 수 벡터를 모델링한 다음 베이지안 사후 확률을 계산하여 가장 가능성 있는 유전자형을 선택합니다. 체세포 변이체 호출의 경우 동일한 개인의 종양 정상 샘플 쌍을 사용하고 일치하는 각 사이트에서 정상의 대립 유전자 수 벡터를 참조 염기, 이배체 생식계열 변이체 또는 인공 염기의 혼합물로 간주합니다(예: 시퀀싱 주기 또는 정렬 과정) 및 종양의 대립 유전자 수 벡터는 인공 염기 이외의 정상 세포의 염기와 체세포 변이체의 혼합물입니다. 또한, 우리는 빼기 분석을 공동 샘플 분석과 결합하여 하이브리드 체세포 SNV 호출 접근 방식을 조사합니다. 여기서 공동 샘플 분석은 공동 다중 정규 분포를 따르기 위해 종양 정상 쌍의 관절 대립 유전자 수 벡터를 모델링합니다. 성능 비교를 위해 우리는 생식계열 변이 호출에 대해 SMASH[21] 및 GCAT[22] 벤치마크를 사용했으며 시뮬레이션 데이터의 합성 종양, 실제 시퀀싱 데이터의 가상 종양[19], 체세포에 대한 실제 마우스 및 인간 종양을 사용했습니다. 변종 호출. 우리의 평가를 통해 생식계열 변이체 호출 측면에서 SNVSniffer는 최고 성능의 FaSD, GATK 및 SAMtools 알고리즘보다 경쟁이 치열한 정확도와 빠른 속도를 보여줍니다. 한편, 체세포 변이체 호출 측면에서 우리 알고리즘은 최고의 VarScan2, SomaticSniper, JSM2 및 MuTect 알고리즘과 비교하여 비슷하거나 훨씬 더 나은 정확도를 달성하는 동시에 매우 경쟁력 있는 속도를 보여줍니다.


급속한 진화에 대한 비적응적 설명

기능적 서열의 전환과 유전자 레퍼토리의 대립형질 변화는 생식 적합성을 향상시킬 필요가 없습니다. 그 대신 많은 변경 사항이 유해했지만 부정 선택에 의해 제거되지 않았습니다([10, 57]에서 검토됨). 특히, 적합도에 약간의 부정적인 영향을 미치는 대립유전자(작은 음성 선택 계수, NS)는 유효 개체군 크기(N 이자형)이 크다(그림 6). 반대로, 언제 N 이자형 현대인의 경우와 같이 작기 때문에 약하게 유해한 변이체가 유지될 가능성이 더 커집니다. 이것은 유전자를 파괴하거나 삭제하는 많은 변이체, 특히 유기체 표현형에 미묘한 변화만 있는 변이체가 유해함에도 불구하고 수정될 것임을 의미합니다.

선택 효율성의 변화. 선택 계수가 작은 대립유전자에 대한 정제 선택은 점점 비효율적입니다. NS 상대적으로 작은 유효 개체군 크기의 종 내 N 이자형, 해로운 변화의 축적 속도가 증가합니다. 그래프는 중립적 기대(Y축)의 함수로 N 이자형 NS ~을위한 NS = −10 −5([10]에서 수정됨). 다음과 같이 더 큰 값의 경우 N 이자형 = 10 5 , 중립 기대치에 대한 고정 확률은 약 7%로 작습니다. 그럼에도 불구하고 10배 적은 인구에서 N 이자형 이 확률은 81%로 증가합니다.

급속한 진화는 또한 평균 돌연변이율보다 높은 것을 반영할 수 있습니다. 단백질 코딩 서열을 포함하여 CpG 디뉴클레오티드 함량이 높은 서열은 생식계열 게놈에서 CpG의 메틸화된 형태에서 TpG 및 CpA로의 높은 돌연변이 비율로 인해 특히 빠르게 진화합니다[58,59,60]. 게놈의 고도로 재조합되는 영역 내에 있는 서열도 특히 빠르게 진화하며, 편향된 유전자 전환 현상으로 인해 한 마우스 유전자가 100배 증가합니다[61, 62]. 비암호화 게놈의 기능 영역은 복제 중 오류가 발생하기 쉬운 중합효소-α 서열의 변위를 차단하는 DNA 결합 요인으로 인해 빠르게 돌연변이될 수 있습니다[63]. 따라서 적응으로 인해 양성 선택 하에서 서열을 식별하는 것은 고전적 중립 모델뿐만 아니라 이러한 돌연변이 편향을 설명하는 모델도 거부되어야 하기 때문에 더 복잡해집니다.


돌연변이란 무엇인가

돌연변이는 게놈의 뉴클레오티드 서열에서 영구적이고 유전적인 변화를 의미합니다. 돌연변이는 DNA 복제의 오류 또는 돌연변이원으로 알려진 외부 요인으로 인해 발생할 수 있습니다. 돌연변이의 세 가지 형태는 점 돌연변이, 프레임시프트 돌연변이 및 염색체 돌연변이입니다.

점 돌연변이

점 돌연변이는 단일 뉴클레오티드 치환입니다. 점 돌연변이의 세 가지 유형은 미스센스, 넌센스 및 침묵 돌연변이입니다. 미스센스 돌연변이 유전자의 단일 코돈을 변경하여 폴리펩타이드 사슬의 아미노산을 변경합니다. 그렇지만 넌센스 돌연변이 코돈 서열을 바꾸면 아미노산 서열을 바꾸지 않습니다. 조용한 돌연변이 단일 코돈을 동일한 아미노산을 나타내는 다른 코돈으로 변경합니다. 점 돌연변이는 DNA 복제의 오류와 돌연변이원에 의해 발생합니다. 다양한 유형의 점 돌연변이가 다음과 같이 표시됩니다. 그림 1.

그림 1: 점 돌연변이

프레임시프트 돌연변이

프레임시프트 돌연변이는 게놈에서 단일 또는 여러 뉴클레오티드의 삽입 또는 삭제입니다. 삽입, 삭제 및 복제는 세 가지 유형의 프레임 이동 돌연변이입니다. 삽입 are the addition of one or several nucleotides to the sequence while 삭제 are the removal of several nucleotides from the sequence. Duplications are the repeating of several nucleotides. Frameshift mutations are also caused by errors in the DNA replication and by mutagens.

염색체 돌연변이

Chromosomal mutations are alterations of segments of chromosomes. The types chromosomal mutations are translocations, gene duplications, intra-chromosomal deletions, inversions, and loss of heterozygosity. Translocations are the interchanges of parts of chromosomes between nonhomologous chromosomes. In gene duplication, multiple copies of a particular allele may appear, increasing the gene dosage. The removals of segments of chromosomes are known as intra-chromosomal deletions.Inversions change the orientation of a chromosome segment. Heterozygosity of a gene can be lost due to the loss of an allele in one chromosome by deletion or genetic recombination. Chromosomal mutations are mainly caused by external mutagens and due to mechanical damages to DNA.


This process involves a mixture of techniques: bacterial cloning or PCR template purification labelling of DNA fragments using the chain termination method with energy transfer, dye-labelled dideoxynucleotides and a DNA polymerase capillary electrophoresis and fluorescence detection that provides four-colour plots to reveal the DNA sequence.

A quality measure for a sequenced genome. A finished-grade genome, commonly referred to as a finished genome, is of higher quality than a draft-grade genome, with more base coverage and fewer errors and gaps (for example,the human genome reference contains 2.85 Gb, covers 99% of the genome with 341 gaps, and has an error rate of 1 in every 100,000 bp).

This recombinant DNA molecule is made up of a known region, usually a vector or adaptor sequence to which a universal primer can bind, and the target sequence, which is typically an unknown portion to be sequenced.

Assays that use next-generation sequencing technologies. They include methods for determining the sequence content and abundance of mRNAs, non-coding RNAs and small RNAs (collectively called RNA–seq) and methods for measuring genome-wide profiles of immunoprecipitated DNA–protein complexes (ChIP–seq), methylation sites (methyl–seq) and DNase I hypersensitivity sites (DNase–seq).

This Review mostly describes technology platforms that are associated with a respective company, but the Polonator G.007 instrument, which is manufactured and distributed by Danaher Motions (a Dover Company), is an open source platform with freely available software and protocols. Users manufacture their own reagents based on published reports or by collaborating with George Church and colleagues or other technology developers.

A fragment library is prepared by randomly shearing genomic DNA into small sizes of <1kb, and requires less DNA than would be needed for a mate-pair library.

A genomic library is prepared by circularizing sheared DNA that has been selected for a given size, such as 2 kb, therefore bringing the ends that were previously distant from one another into close proximity. Cutting these circles into linear DNA fragments creates mate-pair templates.

This occurs with step-wise addition methods when growing primers move out of synchronicity for any given cycle. Lagging strands (for example, N − 1 from the expected cycle) result from incomplete extension, and leading strands (for example, N + 1) result from the addition of multiple nucleotides or probes in a population of identical templates.

Dark nucleotides or probes

A nucleotide or probe that does not contain a fluorescent label. It can be generated from its cleavage and carry-over from the previous cycle or be hydrolysed 현장에서 from its dye-labelled counterpart in the current cycle.

Total internal reflection fluorescence

A total internal reflection fluorescence imaging device produces an evanescent wave that is, a near-field stationary excitation wave — with an intensity that decreases exponentially away from the surface. This wave propagates across a boundary surface, such as a glass slide, resulting in the excitation of fluorescent molecules near (<200 nm) or at the surface and the subsequent collection of their emission signals by a detector.

Libraries of mutant DNA polymerases

Large numbers of genetically engineered DNA polymerases can be created by either site-directed or random mutagenesis, which leads to one or more amino acid substitutions, insertions and/or deletions in the polymerase. The goal of this approach is to incorporate modified nucleotides more efficiently during the sequencing reaction.

These are only useful for single-molecule techniques and are produced by sequencing the same template molecule more than once. The data are then aligned to produce a 'consensus read', reducing stochastic errors that may occur in a given sequence read.

An oligonucleotide sequence in which one interrogation base is associated with a particular dye (for example,A in the first position corresponds to a green dye). An example of a one-base degenerate probe set is '1-probes', which indicates that the first nucleotide is the interrogation base. The remaining bases consist of either degenerate (four possible bases) or universal bases.

An oligonucleotide sequence in which two interrogation bases are associated with a particular dye (for example, AA, CC, GG and TT are coded with a blue dye). '1,2-probes' indicates that the first and second nucleotides are the interrogation bases. The remaining bases consist of either degenerate or universal bases.

A nucleotide substitution will have two colour calls, one from the 5′ position and one from the 3′ position of the dinucleotide sequence. When compared with a reference genome, base substitution in the target sequence is encoded by two specific, adjacent colours. In Figure 3b, the sequence 'CCT' is encoded as blue-yellow ('CC' = blue 'CT' = yellow), but substituting the middle 'C' for 'A' would result in two colour changes to green-red. Any other colour sequence can be discarded as an error.

With two-base-encoded probes, the fluorescent signal or colour obtained during imaging is associated with four dinucleotide sequences having a 5′- and 3′-base. Colour space is the sequence of overlapping dinucleotides that codes four simultaneous nucleotide sequences. Alignment with a reference genome is the most accurate method for translating colour space into a single nucleotide sequence.

Zero-mode waveguide detectors

This nanostructure device is 100 nm in diameter, which is smaller than the 532 nm and 643 nm laser wavelengths used in the Pacific Biosciences platform. Light cannot propagate through these small waveguides, hence the term zero-mode. These aluminium-clad waveguides are designed to produce an evanescent wave (see the 'total internal reflection fluorescence' glossary term) that substantially reduces the observation volume at the surface of the polymerase reaction down to the zeptolitre range (10 −21 l). This provides an advantage for the polymerization reaction, which can be performed at higher dye-labelled nucleotide concentrations.

Fluorescence resonance energy transfer

This is generally a system that consists of two fluorescent dyes, one being a donor dye (a bluer fluorophore) and the other an acceptor dye (a redder fluorophore). When the two dye molecules are brought into close proximity (usually ≤30 nm), the energy from the excited donor dye is transferred to the acceptor dye, increasing its emission intensity signal.

All sequence variants other than single-nucleotide variants, including block substitutions, insertions or deletions, inversions, segmental duplications and copy-number differences.

A project aimed at discovering rare sequence variants with minor allele frequencies of 1% in normal genomes derived from HapMap samples.

A project aimed at developing and validating cost-effective, high-throughput technologies for resequencing all of the protein-coding regions of the human genome.

The study of communities of mixed microbial genomes that reside in animals, plants and environmental niches. Samples are collected and analysed without the need to culture isolated microbes in the laboratory. The Human Microbiome Project aims to characterize a reference set of microbial genomes from different habitats within the human body, including nasal, oral, skin, gastrointestinal and urogenital regions, and to determine how changes in the human microbiome affect health and disease.

A project aimed at discovering single-nucleotide variants and structural variants that are associated with major cancers, such as brain cancer (glioblastoma multiforme), lung cancer (squamous carcinoma) and ovarian cancer (serous cystadenocarcinoma).

A project aimed at providing open access to human genome sequences from volunteers and to develop tools for interpreting this information and correlating it with related personal medical information.


비디오 보기: ქეთი კვინიკაძე თვითპრეზენტაცია II- როგორ წარვადგინოთ საკუთარი თავი (팔월 2022).