정보

신호 펩타이드와 수송 펩타이드의 차이점은 무엇입니까?

신호 펩타이드와 수송 펩타이드의 차이점은 무엇입니까?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

내가 아는 바에 따르면 두 이름은 서로 바꿔 사용할 수 있으며 달리 말하는 리소스도 찾지 못했습니다. 차이점이 있습니까? 신호 펩타이드가 아닌 전송 펩타이드가 있습니까? 아니면 그 반대의 경우도 마찬가지입니까?


신호 펩티드 일반적으로 단백질의 N 말단에 위치합니다. 신호 펩티드는 트랜스로콘 기계에 의해 처리되고 분비 시스템의 세포 소기관 막을 통해 분류된 후 절단됩니다.

  • 소포체
  • 골지체
  • ER-골지 전이 소포
  • 원형질막
  • 리소좀

수송 펩티드 (UniProt에서) 다음과 같은 다른 세포내 소기관으로 단백질을 표적화:

  • 미토콘드리아
  • 아피코플라스트
  • 염색체
  • 엽록체
  • 시아넬
  • 틸라코이드
  • 아밀로플라스트
  • 퍼옥시좀
  • 글리옥시솜
  • 하이드로게노솜

N-말단 수송 펩티드는 매우 드뭅니다. C-말단 전이 펩타이드 모티프는 훨씬 더 일반적입니다. UniProt은 전송 펩타이드를 신호 펩타이드와 별개로 분리된 제어 어휘로 보유합니다.


신호 펩티드

전령 RNA(mRNA) 분자의 유전자 코딩 서열 앞에 있는 영역을 '리더 서열'이라고 합니다. 이 지역은 또한 '오소 번역되지 않은 지역'으로 알려져 있습니다(그림 1) mRNA의. 리더 서열은 상보적 서열의 염기쌍에 의해 2차 구조(스템 루프)를 형성하는 경향이 있다. 그들은 진핵 생물과 원핵 생물의 유전자 발현 조절에 관여합니다. 진핵생물에서 리더 서열은 적은 수의 뉴클레오티드에서 1000개 이상의 뉴클레오티드까지 다양할 수 있습니다. 원핵생물에서 리더 서열은 일반적으로 짧고 때때로 짧은 리더 펩타이드로 번역되는 감쇠기 분절을 포함합니다. 리더 펩타이드는 RNA 중합효소가 오페론의 첫 번째 구조 유전자에 도달하기 전에 전사체를 종결시키는 기능을 합니다. 바이러스의 리더 서열은 유전자 발현, 복제 및 병원성을 조절하는 데 중요한 역할을 하는 것으로 나타났습니다. 세포 mRNA의 리더 서열의 돌연변이는 질병 및 종양 형성에 영향을 미칠 수 있습니다.


배경

1차 색소체는 내공생 기원의 소기관이다[예. 1, 2]. (내)공생체에서 세포소기관으로의 전환 과정에서 대부분의 유전자가 소실되거나 더 높은 정도로 세포핵으로 옮겨진다. 3, 4, 5]. 따라서, 대부분의 색소체 프로테옴은 숙주 세포의 핵에 암호화되어 있으며, 이는 암호화된 단백질이 번역 후 두 개의 외피막을 가로질러 색소체 내강으로 수송되어야 함을 의미합니다. 정확한 인신매매를 위해 거의 모든 핵으로 암호화된 plastid 단백질에는 특징적인 N-말단 국소적 신호 서열인 전이 펩타이드가 장착되어 있습니다[6]. 이 표적 정보는 색소체 수입에 필요하고 충분하며 엽록체의 외부/내부 외피막의 트랜스로콘과 상호 작용합니다[TOC 및 TIC는 최근 7에서 검토됨]. 흥미롭게도, 전이 펩타이드에 대한 조사는 엄격한 일치 서열[8]이 없지만 양전하, 높은 수준의 하이드록실화 아미노산 및 분자 샤페론에 대한 결합 모티프와 같은 몇 가지 공통적인 특징을 나타냅니다[9 및 그 안의 참고 문헌].

규조류, apicomplexa 또는 cryptophytes와 같은 이차 진화 유기체는 두 개의 추가 막으로 둘러싸인 색소체를 가지고 있습니다 [10, 11]. 게놈 분석은 1차 색소체에서와 같이 색소체 목적지가 있는 핵으로 암호화된 단백질의 공통 세트를 나타냅니다[4]. 1차 색소체와 달리 여기의 단백질에는 2부분으로 된 국소적 신호 서열(BTS)이 장착되어 있으며, 이는 고전적인 ER 유사 신호 펩타이드(SP)와 그 뒤를 잇는 전이 펩타이드 유사 서열(TP)로 구성됩니다[2, 12, 13 ]. 이 전이 펩타이드 유사 서열은 - 고세균체에서와 같이 - 다음과 같이 색소체 수입에 필수적입니다. 생체 내 apicomplexa 및 규조류에 대한 실험 [5, 14, 15]. 최근에 Tonkin et al. [16]은 전이 펩타이드에 대한 기본 규칙(위 참조)을 따르는 무작위로 선택된 서열조차도 apicomplexa에서 표적 서열로 기능할 수 있음을 보여주었으며, 이는 전이 펩타이드의 복잡성이 낮음을 나타냅니다. 그러나 규조류와 갑각류에서는 apicomplexan 전이 펩타이드 조성에 적어도 한 가지 주요 차이점이 존재하는데, 이는 색소체 단백질 수입에 중요한 TP의 위치 +1에 고도로 보존된 방향족 아미노산이 존재한다는 것입니다[5, 15, 17] . apicomplexa의 TP는 규조류 및 cryptophytes [18]만큼 페닐알라닌에 크게 의존하지 않습니다.

이차 수송 펩티드 유사 영역의 추가 기능을 조사하기 위해 우리는 규조류에서 포괄적으로 연구했습니다. Phaeodactylum tricornutum fucoxanthin-chlorophyll a/c 결합 단백질 D(FcpD)의 BTS에 융합된 GFP의 표적 거동과 전이 펩타이드 유사 영역의 변형. P. tricornutum 다음과 같은 apicomplexan 기생충과 달리 이러한 연구에 가장 적합한 시스템입니다. 열대열원충 - 4개의 주변 막 중 하나를 가로질러 엽록체 ER(cER)로만 수송되거나 두 개를 가로질러 PPC(periplastid 구획)로 수송되는 중간체(그림 1)[1]는 쉽게 모니터링되고 완료된 수입품과 구별될 수 있습니다( 4개의 모든 엔벨로프 멤브레인). 우리의 연구는 (NS) 양의 순 전하는 가장 안쪽의 두 색소체 막을 가로지르는 단백질 수송에 중요하지만(TP의 +1 위치에 있는 방향족 아미노산의 경우), 두 번째 최외곽 막을 가로지르는 수송은 분명히 그런 방식으로 통제되지 않습니다. 여기서 음전하는 막 통과를 방해합니다. 또한, 우리는 (ii) 성숙한 단백질의 N-말단은 전이 펩타이드 유사 서열의 기능적 필요성에 기여할 수 있습니다. 따라서, 우리의 발견은 추가로 전이 펩타이드 유사 영역이 진화 과정에서 어떻게 진화했는지를 나타낼 수 있습니다.

의 plastid 아키텍처의 개략도 P. tricornutum. 복잡한 색소체는 4개의 막(외부에서 내부로 세어짐)으로 둘러싸여 있으며 가장 바깥쪽은 소포체와 연속되어 있습니다. cER은 1차 막을 가로질러 ER 루멘으로 plastid 전구체의 공동 번역 가져오기를 촉진하는 리보솜으로 박혀 있습니다. 홍조류 조상을 가진 이차 색소체의 후속 막(보이지 않음)의 트랜스로콘 후보는 최근에 해명되었습니다[30, 31, 32, 33, 38, 40, 41, 42 참조]. cER, 엽록체 소포체 PPC, 주변체 구획 IMS, 막간 공간.


재료 및 방법

훈련 및 테스트 세트

Olof Emanuelsson(Stockholm Bioinformatics Center)은 150개 시퀀스 ChloroP 데이터 세트(3)를 제공했으며, 우리는 이 방법의 매개변수를 설정하기 위해 20쌍의 훈련 및 검증 세트로 무작위로 나누었습니다. 훈련 세트는 124개의 시퀀스로 구성되었고 검증 세트는 나머지 26개의 시퀀스로 구성되었으며 각 세트에는 동일한 수의 클래스 내(예: cTP) 및 클래스 외 예제가 포함되어 있습니다. '검증 세트 테스트'라는 문구를 사용할 때 훈련 세트의 파티션에서 수행된 테스트를 참조합니다. 최종 테스트를 위해 TargetP 교육 세트(5)를 다운로드하고 SWISS-PROT 액세스 번호를 사용하여 ChloroP 교육 세트에 이미 포함된 시퀀스를 제거했습니다. TargetP 트레이닝 세트는 371개의 미토콘드리아 통과 펩티드(mTP), 269개의 분비 경로/신호 펩티드(SP), 48개의 '핵'(Nuc) 및 87개의 '낭포성'(Cyt) 서열로 구성되어 17, 14, 9개를 제거했습니다. 및 각각 10개의 시퀀스. SP, Nuc 및 Cyt 시퀀스는 모두 TargetP '식물 세트'에서 가져왔습니다. 141개의 cTP 시퀀스에서 28개의 중복 시퀀스를 제거했습니다. 이것들은 제거된 유일한 시퀀스였으며 나머지 테스트 세트에는 113개의 클래스 내 시퀀스와 725개의 클래스 외 시퀀스가 ​​포함되어 있습니다.

단백질 인코딩

PCLR, 로지스틱 회귀 및 신경망 모델의 경우 입력 크기는 21입니다. 처음 20개 입력은 단백질 서열의 처음 55개 위치에 있는 아미노산 조성의 백분율로 구성됩니다. 21번째 입력은 처음 55개 위치에서 특정 단백질의 아미노산 분포의 분산 측정입니다. 우리의 방법은 시퀀스 길이가 45에서 60 사이인 검증 세트에서 유사하게 수행되었지만 궁극적으로 SSE(제곱 오차의 합) 측정을 기반으로 연구를 위해 길이 55가 선택되었습니다.

주성분 로지스틱 회귀

주성분 분석은 데이터에서 공선성을 인수분해하고 기계 학습 알고리즘에 대한 차원을 줄이는 방법입니다( 6). 우리는 R 통계 패키지를 사용하여 주성분 행렬의 처음 12개 성분(고유값 크기가 감소하는 순서)에 대해 주성분 분석과 후속 단계적 로지스틱 회귀를 수행했습니다( 7). 예측 결과를 생성하기 전에 테스트 데이터를 훈련 데이터 주성분 공간으로 변환했습니다.

로지스틱 회귀는 항상 (0,1) 사이에서 예측하지만 분류에 사용할 임계값이 필요합니다. 검증 세트 테스트 중 '정확한 총 수' 카운트를 기반으로 분류를 위해 결정 임계값 0.42를 선택했습니다(예: 0.41의 예측은 우리 방법이 '비엽록체 타겟팅'을 예측함을 의미함). 고려해야 할 주요 구성 요소의 수와 분류 임계값을 결정한 후 전체 ChloroP 교육 세트에 대해 PCLR을 교육했습니다. 결과 예측 변수, 주성분 및 회귀 계수는 http://apicoplast.cis.upenn.edu/pclr/에서 온라인으로 사용할 수 있습니다.

로지스틱 회귀

우리는 더 단순한 모델이 동일한 성능을 제공하는지 확인하기 위해 주성분 단계적 로지스틱 회귀와 함께 표준 단계적 로지스틱 회귀를 시도했습니다. R 패키지에서 우리는 PCLR의 경우와 같은 로지스틱 회귀에 동일한 입력을 사용했습니다. 검증 세트 테스트 중에 결정 임계값 0.40을 선택한 다음 TargetP 테스트 세트에서 사용했습니다.

신경망

우리는 S자형 은닉 유닛과 하나의 S자형 출력 유닛(http://www.scs.unr.edu/nevprop)이 있는 표준 피드포워드 신경망인 NevProp4r1을 사용했습니다. 위에서 설명한 PCLR의 경우와 동일한 입력을 사용했습니다. 은닉 유닛의 수는 1에서 12까지 다양하며 4개의 은닉 유닛에서 최고 성능이 발생하고 곧 성능이 감소합니다. 검증 세트 성능을 기반으로 0.005의 가중치 감소가 선택되었습니다. 훈련을 위해 우리는 최대 700번의 반복을 선택했고 NevProp의 자동 훈련 스위치를 사용하여 좋은 중지 지점을 선택했습니다. 검증 세트 성능(정확한 총 수)을 기반으로 분류 임계값 0.59를 선택했습니다.

ChloroP 신경망 아키텍처

ChloroP 아키텍처는 Emanuelsson에 설명되어 있습니다. et al. (3) 그러나 설명과 비교를 위해 간략한 설명이 포함되어 있습니다. ChloroP는 서로 다른 입력 세트에 대한 첫 번째 네트워크의 출력이 최종 예측을 위해 두 번째 신경망에 공급되는 두 개의 신경망으로 구성됩니다. 첫 번째 네트워크에 대한 입력은 단백질의 처음 100개 위치에서 51개 아미노산의 슬라이딩 창으로 구성됩니다. 단백질당 100개의 정렬된 창이 있으며 첫 번째 창이 단백질 서열의 처음 51개 아미노산으로 구성되도록 시작됩니다. 이전 창을 오른쪽으로 한 위치 이동하면 각 후속 창이 형성됩니다. 창이 위치 100을 지난 영역과 겹치면 '빈' 아미노산이 예측기로 공급됩니다. 이 창 중 100개는 첫 번째 레이어에 제공되므로 100개의 예측이 수행됩니다.

첫 번째 네트워크는 1020개의 입력 유닛, 2개의 은닉 유닛 및 1개의 출력 유닛으로 구성됩니다. 다소 많은 수의 입력 단위는 신경망에서 범주형 데이터를 사용한 결과입니다. 한 위치에 20개의 가능한 속성(아미노산)이 있으므로 각 위치에는 20개의 입력 단위가 있습니다. 이 장치 중 하나만 켜져 있습니다('1.0'으로 표시됨). 나머지 19개는 '0.0'에 남아 있습니다. 따라서 51개 위치의 창에는 51 × 20 = 1020개의 입력 단위가 필요합니다. 입력 크기의 이러한 폭발적인 증가는 첫 번째 계층 네트워크에 공급되는 단백질 시퀀스당 100개의 창입니다. 단일 단백질에 대한 예측을 수행하려면 모두 함께 첫 번째 계층 네트워크에 102,000개의 총 입력이 필요합니다. 두 번째 계층 네트워크에는 100개의 입력 유닛, 10개의 은닉 유닛 및 1개의 출력 유닛이 있습니다. 두 네트워크 모두에서 S자형 단위는 은닉층과 출력층에 사용됩니다.

http://www.cbs.dtu.dk/services/ChloroP/에 있는 웹 액세스 가능 ChloroPv1.1 릴리스를 사용하여 ChloroP 모델을 벤치마킹했습니다. Emanuelsson이 제안한 분류 임계값 0.50을 사용했습니다. et al. ( 3).


재료 및 방법

파이토플라스마 상동 서열의 식별은 NCBI 웹사이트의 기본 매개변수를 사용하여 ‘non-redundant’ 데이터베이스(NCBI Resource Coordinators, 2018)에 대해 BLASTP 소프트웨어(Camacho et al., 2009)를 사용하여 수행되었습니다. SAP54 데이터 세트의 경우 Iwabuchi et al.의 phyl-B 그룹의 시퀀스입니다. (2020)은 여전히 ​​기능적 신호 펩타이드와 아직 발견되지 않은 기능을 가지고있을 수 있지만 다른 구성원에서 관찰 된 phyllody 유도 표현형을 나타내지 않아 제외되었습니다. 매우 가변적일 수 있는 Amp와 Imp의 경우, 우리는 먼저 초안 또는 완전한 파이토플라즈마 게놈에서 다음 사이에 위치한 코딩 서열을 추출했습니다. 으르렁 그리고 네드, 그리고 DNA 그리고 PyrG 각기. 그런 다음 번역된 시퀀스를 BLASTP 쿼리로 사용하여 Amp 및 Imp 상동 시퀀스의 전체 데이터 세트를 검색했습니다. 데이터 세트가 가능한 한 철저하도록 하기 위해 키워드 검색(각각 𠇊ntigenic membrane protein phytoplasma” 및 “imp”)도 Genbank에서 수행되었으며 두 전략의 검증된 히트가 병합되었습니다.


신호 펩타이드의 영향을 받는 분비 단백질 생산 과정의 단계

위에서 언급했듯이 신호 펩타이드는 세포질에 남아있는 단백질과 내보낸 단백질을 구별합니다. 신호 펩타이드는 세포질 막에서 각각의 단백질 트랜스로카제에 대한 내보낸 전구체 단백질의 표적화 및 결합을 매개합니다[49]. 번역 후 내보내기 모드를 매개하는 Sec 신호 펩타이드의 또 다른 중요한 역할은 부착된 성숙한 단백질 부분의 접힘을 늦추어 번역 후 상호작용하는 단백질(예: SecB)과의 효율적인 상호 작용을 허용하고 수출 가능 상태에 있는 각각의 수출 단백질 [50, 51]. 더욱이, Sec 신호 펩타이드의 유전자 영역은 최적화되지 않은 코돈에 대한 강한 편향을 가지고 있는데, 이는 번역의 역학을 늦춤으로써 분비 생산 과정의 수출 효율과 전반적인 생산성에 상당한 긍정적인 영향을 미치는 특징입니다[52] . 신호 펩타이드의 유전자 영역에서 최적이 아닌 코돈을 최적 코돈으로 대체 대장균 maltose-binding protein[53] 또는 β-lactamase[54]는 여러 프로테아제에 결함이 있는 균주 또는 더 낮은 온도에서 부분적으로 증가할 수 있는 더 낮은 단백질 생산을 초래했습니다. 이것은 Sec 신호 펩티드에 존재하는 희귀 코돈을 통해 번역 속도를 늦추는 것이 수출 기계의 구성 요소와 수출 단백질의 효율적인 상호 작용을 보장하고 분해를 방지하는 데 매우 중요하다는 것을 나타냅니다. 또한 Sec 신호 펩티드는 Sec 트랜스로카제의 알로스테릭 활성제로 기능하는 것으로 밝혀졌습니다[55].

단백질을 표적으로 하고 세포질막을 가로질러 전위되는 효율 및 동역학을 직접적으로 결정하는 분비 단백질 생산 경로의 이러한 단계 외에도 신호 펩티드는 또한 전체 생산 과정에 간접적으로 영향을 미칩니다. 예를 들어, 다른 신호 펩티드를 주어진 표적 단백질에 융합하면 이차 구조 및/또는 안정성이 다를 수 있는 다른 mRNA 전사체를 생성할 수 있으며, 이로 인해 각각의 전구체 단백질의 양에 상당한 영향을 미칠 수 있습니다. 합성 [56, 57].


결과

10겹 교차 검증을 사용하여 개발 데이터 세트에서 Philius의 성능을 평가했습니다. 우리는 모델의 성능과 세 가지 유형의 신뢰 점수의 정확도를 모두 측정했습니다. 신호 펩티드를 포함하는 단백질의 경우 절단 부위가 국소화되는 정확도도 고려했습니다.

신호 펩타이드와 완전한 막횡단 토폴로지를 동시에 예측하는 유일한 방법이기 때문에 우리의 방법을 Phobius와 비교하기로 결정했습니다. MemBrain [29] 및 P roteus [30]와 같은 여러 방법은 막횡단 나선 및 신호 펩티드를 예측하지만 토폴로지(내부/외부) 정보는 없습니다. 웹 서버 PONGO[31]는 개별 예측자를 결합하지 않고 개별 막횡단 토폴로지 및 신호 펩타이드 예측자로부터 예측을 제공합니다.

단백질 유형 분류

처음에 우리는 Philius가 G, SP+G, TM 또는 SP+TM으로 주어진 단백질 클래스를 얼마나 정확하게 식별하는지 평가합니다. 표 1은 정확도, 정밀도, 민감도, 특이성 및 Matthews 상관 계수를 메트릭으로 사용하여 이 작업에서 Phobius와 Philius의 성능을 보여줍니다. SP+TM 하위 집합은 개발 세트의 2654개 단백질 중 2% 미만인 45개의 예제로 구성되어 있기 때문에 때때로 더 의미 있는 통계를 제공하기 위해 다른 TM 단백질과 함께 그룹화합니다. 이 수준에서 Philius와 Phobius의 가장 큰 차이점은 TM 및 SP+TM 범주의 정밀도에 있으며 Philius는 이 범주에 대해 Phobius보다 가양성을 29% 더 적습니다. (Phobius는 동일한 데이터에서 292개의 참 긍정 중 265개를 찾고 2362개의 참 부정 중 82개를 잘못 호출하고 Philius는 268개의 TP를 찾고 58개의 TN을 잘못 호출합니다.) 전반적으로 G 및 SP+G 하위 집합의 성능은 교환으로 약간 감소했습니다. 가장 관심 있는 TM 하위 집합에 대한 개선을 위해. 이 데이터세트의 클래스 크기는 편향되어 있으며(48% SP+G, 41% G, 11% TM 및 SP+TM), 완전한 프로테옴과 비교하여 막횡단 단백질은 이 데이터세트에서 요인에 의해 과소 표현됩니다. 2에서 3.


ORIGINAL RESEARCH 기사

파이토플라스마 연구는 무균 배양 방법의 부족으로 인해 여전히 방해를 받고 있지만, 게놈 서열의 이용 가능성은 파이토플라스마에 의해 배치된 독성 메커니즘의 특성화에서 극적인 발전을 허용하고 파이토플라스마에 의해 분비되는 이펙터를 식별하기 위한 중요한 단계로서 신호 펩타이드의 검출을 강조했습니다. . 그러나, 파이토플라즈마 게놈을 채굴하기 위해 다양한 신호 펩타이드 예측 방법이 사용되었으며, 파이토플라즈마 서열에 대한 이러한 방법에 대한 일반적인 평가는 지금까지 이용 가능하지 않습니다. 이 작업에서 우리는 기탁된 모든 파이토플라스마 시퀀스에서 비롯된 여러 시퀀스 데이터 세트에서 SignalP 버전 3.0, 4.0, 4.1, 5.0 및 Phobius의 예측 성능을 비교했습니다. 특정 매개변수가 있는 SignalP 4.1이 가장 철저하고 일관된 예측 능력을 보여주었습니다. 그러나 증가된 감도를 위한 SignalP 4.1의 구성은 N-말단에 위치한 막횡단 도메인에서 훨씬 더 높은 비율의 위양성을 유도했습니다. 더욱이, 민감한 신호 펩티드 예측은 신호 펩티드와 막횡단 영역 사이의 관련성으로 인해 TMHMM 및 Phobius의 막횡단 도메인 예측 능력에 의해 유사하게 달성될 수 있다. 여기에 제시된 결과 외에도 이 연구에서 수집된 데이터 세트는 분비에 대한 실험적 증거가 부족한 분야에서 신호 펩타이드 예측자를 비교하고 평가하기 위한 귀중한 벤치마크를 형성합니다. 또한, 이 연구는 생물정보학적 예측에 대한 확신을 강화하기 위한 비교 유전체학의 유용성을 보여줍니다.


재료 및 방법

세포 배양, mRNA 처리 및 라이브러리 조립

세포는 f/2 AlgaBoost(AusAqua, Australia)가 보충된 Tropic Marin PRO-REEF(트로픽 마린, 독일)에서 16시간 명암 주기로 25°C에서 성장했습니다. 800ml 배양 세포(약 5 × 10 5 cells/ml)의 세 가지 다른 시점(빛이 켜지기 1시간 전에 시작하여 8시간마다)을 3,000 × g에서 20분 동안 원심분리하여 수확했습니다. 이 세 가지 샘플의 RNA는 제조 프로토콜에 따라 다음과 같이 수정된 제조 프로토콜에 따라 TRIzol(Invitrogen, Germany)을 사용하여 별도로 분리되었습니다. RNA 정량화 후, 샘플은 각각 동일한 양이 존재하도록 풀링되었고 추가 처리를 위해 GATC-Biotech(독일)로 보내졌습니다. GATC에서 RNA는 "True-Full-Length cDNA"에 대한 표준 프로토콜을 사용하여 증폭된 다음 Titanium GS FLX(Roche)에서 2백만 리드를 시퀀싱하기 전에 추가로 정규화되었습니다. 어댑터 시퀀스 트리밍, 기본 클러스터링 및 읽기 어셈블리는 GATC-Biotech에서 수행했습니다. 시퀀싱 결과 평균 길이가 239개 염기인 2502269개의 읽기가 생성되었으며 29,856개의 contig로 조립되었습니다. 또한 우리는 2,854 C. 벨리아 GenBank의 표현된 서열 태그(EST)(Benson et al. 2009). 여러 복제 단백질이 통합되었고 100nt보다 짧은 EST-contig가 제거되었습니다. 또한, BlastN이 있는 이러한 EST-contig는 다음의 색소체 게놈에 적중합니다. C. 벨리아 (이자형 값 컷오프 10 − 10 , RefSeq, Pruitt et al.에서 다운로드 2007) 또는 Rfam 데이터베이스(Gardner et al. 2009)는 엽록체로 인코딩된 전사체 및 비코딩 RNA 패밀리의 잔여물을 제거하기 위해 삭제되었습니다. 모든 시퀀스는 JO786643–JO814452에 기탁되었습니다.

데이터베이스 준비

단백질 데이터베이스 서열은 EuPathDB(Aurrecoechea et al. 2007) RefSeq 또는 시아니디오스키존 메롤라에 (Matsuzakiet al. 2004), 외카푸스 실리쿨로수스 ( Cock et al. 2010), 그리고 에밀리아니아 헉슬리 (http://genome.jgi-psf.org/Emihu1/Emihu1.download.ftp.html) 해당 게놈 프로젝트 홈페이지에서. 다운로드한 파일에서 C-말단 정지 코돈을 제거하고 셀레노시스테인을 X로 대체했습니다. 적절한 수의 단백질 서열을 사용할 수 없는 경우 EST-contig가 대신 또는 추가로 사용되었습니다. 이를 위해 GenBank에서 항목이 1,000개 이상인 모든 계보에 대한 EST를 다운로드하여 EST-contig 데이터베이스를 만들었습니다. 갈디에리아 에서 다운로드한 EST 갈디에리아 설푸라리아 게놈 프로젝트 홈페이지(Weber et al. 2004). 추가 정보 및 유기체 목록은 보충 정보( 온라인 보충 자료)를 참조하십시오. EST-contigs는 아래에 설명된 방법으로 단백질로 번역되었고 단백질 데이터베이스와 병합되었습니다.

크로메라 EST-contigs는 Min et al.에 기술된 방법과 유사하게 단백질 서열에서 번역되었습니다. (2005). EST 서열은 다음을 사용하여 폭파되었습니다(BlastX Altschul et al. 1997). 이자형 값 임계값 ≤ 1 × 10 - 5를 단백질 데이터베이스 및 SwissProt 데이터베이스에 적용합니다(Boeckmann et al. 2003). 폭발 적중이 있는 시퀀스의 경우 BBH(최고 폭발 적중)의 판독 프레임을 사용하여 EST-contig를 번역했습니다. 블라스트 히트가 없는 서열은 가장 긴 폴리펩타이드(센스 및 안티센스 모두 사용)를 생성하는 오픈 리딩 프레임(ORF)을 검색하여 새로 예측했습니다. N-말단 메티오닌이 없는 ORF에서 EST-contig의 첫 번째 코돈은 첫 번째 아미노산으로 번역되었습니다. C-말단 STOP 코돈이 없으면 EST-contig의 마지막 코돈이 마지막 아미노산으로 번역됩니다. 번역된 EST-contigs C. 벨리아 느린 모드(-g 1)를 사용하여 임계값으로 95% 아미노산 서열 동일성을 갖는 CDHIT(Weizhong and Godzik 2006)에 의해 거의 동일한 EST-contig의 동족으로 클러스터링되었습니다. 나머지 EST-contigs에 대해 이자형 각 종/속의 단백질/EST 데이터 세트에 대해 <1 × 10 - 10의 값 컷오프를 수행했습니다. 동일한 BBH가 여러 개 있는 경우 이자형 값, 모든 조회수가 유지되었습니다. 이 경우 rBBH 접근법을 사용하여 동일한 유전자의 EST 내 중복 적중을 줄였습니다. 의 쌍별 정렬 크로메라 EST-contigs 및 그들의 rBBH는 Needle(EMBOSS Rice et al. 2000)을 사용하여 Needleman 및 Wunsch 정렬 알고리즘(Needleman 및 Wunsch 1970)으로 재구성되었습니다. 전체 아미노산 동일성이 ≥25%인 쌍(외부 갭 위치 제외)은 추가 분석을 위해 유지되었습니다. 1개당 동일하게 유사한 조회수가 여러 개인 경우 크로메라 EST-contig 또는 단백질 내 크로메라 EST-contigs, 가장 높은 전역 유사성을 갖는 rBBH가 사용되었습니다. 상동 단백질의 클러스터는 다음을 위해 구성되었습니다. 크로메라 모든 종 데이터 세트에서 EST-contig 및 이들의 상동체. EST-contig로만 구성된 359개의 클러스터를 제외하면 총 3,151개의 클러스터가 생성되었습니다.

계통 발생 나무 및 분할 네트워크

계통수를 재구성하기 위해 하나의 아웃그룹을 제외한 모든 "비염색계" 시퀀스( 크로메라 EST-contigs)는 클러스터에서 제외되었습니다. 나머지 구성원이 4개 미만인 클러스터는 생략되었습니다. 총 3,151개의 상동 단백질 클러스터가 기본 매개변수를 사용하여 MAFFT(Katoh and Toh 2008)에 의해 정렬되었습니다. 다중 정렬 품질은 Guidance를 사용하여 평가되었습니다(Penn et al. 2010). 갭 정렬 위치가 제거되었고 86개의 짧은 정렬(<10개 위치)이 추가 분석에서 제외되었습니다. Akaike 정보 기준( Akaike 1974) 측정을 사용하여 ProtTest 3( Darriba et al. 2011)에 의해 추론된 최적 적합 모델을 사용하여 PhyML(Guindon and Gascuel 2003)을 사용한 2,258개의 다중 서열 정렬에서 계통 발생 수를 재구성했습니다. 분할 네트워크의 재구성을 위해 계통 발생 트리 내의 모든 분할은 Perl 스크립트를 사용하여 추출되고 37자리를 포함하는 이진 패턴으로 변환되었습니다. 분할에 분류군이 포함된 경우 NS 그런 다음 숫자 NSNS 해당 패턴에서 "1"로 설정되고, 그렇지 않으면 "0"으로 설정되었습니다. 나무에서 누락된 분류군은 "?"로 표시되었습니다. 결과 패턴은 SplitsTree를 사용하여 분할 네트워크에 요약되었습니다(Huson and Bryant 2006).

찾다 크로메라 녹색 또는 적색 기원의 서열에서 Rhodophyta 및 Chloroplastida의 단백질을 포함하는 1,174개의 클러스터만 사용되었습니다. 모든 nonrhodophyta 및 nonchloroplastida 서열은 다음을 제외하고 클러스터에서 제거되었습니다. 크로메라. 각 나무에 대한 외부 그룹으로서 BBH는 C. 벨리아 Rhodophyta, Chloroplastida, 번역된 EST-contig 또는 2차 내공생체로서 홍조류를 갖는 유기체에 속하지 않는 것이 사용되었습니다. 위에서 설명한 것과 동일한 방법을 사용하여 결과 정렬(50개 이상 위치)에서 계통 발생 나무를 재구성하여 총 아웃그룹이 있는 813개의 나무를 생성했습니다. 가장 가까운 이웃 크로메라 각 트리 내에서 다음을 포함하는 가장 작은 clade를 검색하여 결정되었습니다. 씨샵. 벨리아 그리고 rhodophyta(빨간색 신호) 또는 chloroplastida(녹색 신호)만 있고 외부 그룹은 포함하지 않았습니다. 의 위치 결정을 위해 C. 벨리아 자매 그룹으로 나무에서 또는 빨강 또는 녹색 clades 내부에서 우리는 외부 그룹으로 나무를 뿌리 뽑고 Newick Utilities 패키지를 사용하여 두 번째로 가까운 이웃을 검색했습니다( Junier and Zdobnov 2010). 긴 가지의 인력을 평가하기 위한 가장 긴 가지의 추출은 동일한 패키지로 수행되었습니다. 추가 2개의 분할 네트워크는 각 단일 트리의 외부 그룹 ID에 관계없이 복합 외부 그룹을 사용하여 빨간색 또는 녹색 가장 가까운 이웃으로 정렬된 트리에서 재구성되었습니다.

다른 종의 상동체의 부재/존재

rBBH 접근법 외에도 크로메라 각 종 내의 EST-contigs는 클러스터링된 Blasting에 의해 식별되었습니다. 크로메라 종 데이터 세트에 대한 EST-contig. BBH 이자형 값 ≤ 1 × 10 -10 크로메라 바늘을 사용한 상동체(EMBOSS Rice et al. 2000). 외부 갭 위치를 제거한 후 ≥25% 아미노산 동일성을 초래하는 전체 쌍별 정렬을 현재 상동체로 분류했습니다. 그림 2에 표시된 전체 아미노산 동일성은 쌍 정렬에서 추출되었습니다. 함께 표시되는 클러스터 와이 축은 다음과 같이 정렬됩니다: 1) apicomplexan 문에 특정한 모든 클러스터, 2) 모든 구성원의 클러스터, 3) 다음을 제외한 클러스터 C. 벨리아, apicomplexa 바로 외부에 구성원이 있습니다. 세 가지 범주 내에서 클러스터는 Apicomplexa 내의 현재 상동체의 오름차순 수와 비-Apicomplexa 내의 현재 상동체의 내림차순으로 정렬되었습니다.

핵암호화 된 색소체 단백질의 BTS의 서열 로고. 로고는 255개의 서열을 기반으로 선별되었으며, 이 서열은 N-말단 신호 펩티드와 그 뒤를 잇는 수송 펩티드를 인코딩합니다. BTS의 두 부분 사이의 절단 부위(빨간색 화살표)에 대한 -20/+20 위치가 표시됩니다. 분비 및 색소체 단백질은 모두 거의 동일한 신호 펩티드를 암호화하지만 후자의 경우에만 통과 펩티드가 뒤따릅니다. 전이 펩타이드의 N-말단 부분은 세린 잔기가 풍부하고 C-말단은 양전하를 띤 아르기닌 잔기로 끝납니다.

핵암호화 된 색소체 단백질의 BTS의 서열 로고. 로고는 255개의 서열을 기반으로 선별되었으며, 이 서열은 N-말단 신호 펩티드와 그 뒤를 잇는 수송 펩티드를 인코딩합니다. BTS의 두 부분 사이의 절단 부위(빨간색 화살표)에 대한 -20/+20 위치가 표시됩니다. 분비 및 색소체 단백질은 모두 거의 동일한 신호 펩티드를 암호화하지만 후자의 경우에만 통과 펩티드가 뒤따릅니다. 전이 펩타이드의 N-말단 부분은 세린 잔기가 풍부하고 C-말단은 양전하를 띤 아르기닌 잔기로 끝납니다.

핵으로 암호화된 존재/부재 패턴 및 아이덴티티 크로메라 벨리아 34개의 유기체와 비교한 EST. (NS) 3,151개의 시퀀스는 다른 Apicomplexa 시퀀스에 대한 특이성과 빈도에 따라 정렬됩니다. 151개의 서열은 Apicomplexa에만 상동체를 가지고 있는 반면, 1,316개의 서열은 Apicomplexa 이외의 유기체에서만 상동성을 갖는다. Apicomplexa 외부, C. 벨리아 가장 많은 양의 전체 정체성을 공유합니다. 퍼킨서스 마리누스. 에 (NS), 분석에 사용된 게놈 내에 암호화된 단백질의 잠재적 양.

핵으로 암호화된 존재/부재 패턴 및 아이덴티티 크로메라 벨리아 34개의 유기체와 비교한 EST. (NS) 3,151개의 시퀀스는 다른 Apicomplexa 시퀀스에 대한 특이성과 빈도에 따라 정렬됩니다. 151개의 서열은 Apicomplexa에서만 상동체를 가지고 있는 반면, 1,316개의 서열은 Apicomplexa 이외의 유기체에서만 상동체를 가지고 있습니다. Apicomplexa 외부에서, C. 벨리아 가장 많은 양의 전체 정체성을 공유합니다. 퍼킨서스 마리누스. 에 (NS), 분석에 사용된 게놈 내에 암호화된 단백질의 잠재적 양.

색소체 및 분비성 단백질의 예측

신호 펩타이드의 예측을 위해 메티오닌으로 시작하는 단백질로 번역된 EST-contig만 사용되었습니다. SignalP V3.0(Emanuelsson et al. 2007)은 잠재적인 색소체 신호 펩티드가 있는 서열을 찾는 데 사용되었습니다. 크로메라 색소체를 표적으로 하는 것으로 주석이 달린 상동체("데이터베이스 준비" 참조)를 갖는 서열도 색소체 단백질로 분류되었습니다. All 657 detected sequences were then manually inspected, and an analysis including BlastP, SignalP, and TargetP ( Emanuelsson et al. 2007) was used to determine the cleavage sites and distinguish plastidal from other secretory proteins. A sequence logo of the targeting signal was created using Weblogo ( Crooks et al. 2004) from positions −20 to +20 in respect to the predicted cleavage site.

Annotation of Sequences

KEGG annotations were determined by using KAAS ( Moriya et al. 2007) using translated Chromera sequences as query against the KEGG maps of 27 eukaryotes including (for the complete species name, see http://www.genome.ad.jp/tools/kaas/): hsa, dme, cel, ath, osa, olu, cme, sce, ddi, ehi, pfa, pyo, pkn, tan, tpv, bbo, cpv, cho, tgo, tet, ptm, tbr, tcr, lma, tva, pti, and tps. Protein functional categories were summarized as follows: KOs were mapped to the corresponding annotations obtained from KEGG FTP Server (http://www.genome.jp/kegg/download/). The main categories “Cellular Processes” and “Environmental Information Processing” were merged into “Cellular Processing and Signaling.” Proteins in the “Unclassified, poorly characterized” category were classified as “Unclassified.” All other “Unclassified” categories were added to subcategory “Other” of the corresponding main classification. Genes potentially associated with photosynthetic were identified by searching for the KEGG categories “Photosynthesis” and “Photosynthetic.”


Prediction of signal peptides and signal anchors by a hidden Markov model.

  • 아파
  • 작가
  • 빕텍스
  • 하버드
  • 기준
  • RIS
  • 밴쿠버

ISMB-98 Proceedings. 권. 6 AAAI Press, 1998. p. 122-130 (International Conference on Intelligent Systems for Molecular Biology. Proceedings).

Research output : Chapter in Book/Report/Conference proceeding › Article in proceedings › Research › peer-review

T1 - Prediction of signal peptides and signal anchors by a hidden Markov model.

AU - Krogh, Anders Stærmose

N2 - A hidden Markov model of signal peptides has been developed. It contains submodels for the N-terminal part, the hydrophobic region, and the region around the cleavage site. For known signal peptides, the model can be used to assign objective boundaries between these three regions. Applied to our data, the length distributions for the three regions are significantly different from expectations. For instance, the assigned hydrophobic region is between 8 and 12 residues long in almost all eukaryotic signal peptides. This analysis also makes obvious the difference between eukaryotes, Gram-positive bacteria, and Gram-negative bacteria. The model can be used to predict the location of the cleavage site, which it finds correctly in nearly 70% of signal peptides in a cross-validated test--almost the same accuracy as the best previous method. One of the problems for existing prediction methods is the poor discrimination between signal peptides and uncleaved signal anchors, but this is substantially improved by the hidden Markov model when expanding it with a very simple signal anchor model.

AB - A hidden Markov model of signal peptides has been developed. It contains submodels for the N-terminal part, the hydrophobic region, and the region around the cleavage site. For known signal peptides, the model can be used to assign objective boundaries between these three regions. Applied to our data, the length distributions for the three regions are significantly different from expectations. For instance, the assigned hydrophobic region is between 8 and 12 residues long in almost all eukaryotic signal peptides. This analysis also makes obvious the difference between eukaryotes, Gram-positive bacteria, and Gram-negative bacteria. The model can be used to predict the location of the cleavage site, which it finds correctly in nearly 70% of signal peptides in a cross-validated test--almost the same accuracy as the best previous method. One of the problems for existing prediction methods is the poor discrimination between signal peptides and uncleaved signal anchors, but this is substantially improved by the hidden Markov model when expanding it with a very simple signal anchor model.

KW - artificial intelligence

KW - artificial neural network

KW - Artificial Intelligence

KW - Neural Networks (Computer)

KW - Protein Sorting Signals

M3 - Article in proceedings

T3 - International Conference on Intelligent Systems for Molecular Biology. 소송 절차



코멘트:

  1. Arashilkree

    이미 보았습니다

  2. Tsidhqiyah

    나는 당신이 오류를 저지른 것이라고 생각합니다. 나는 그것을 증명할 수있다.

  3. Prentiss

    죄송합니다만 제 생각에는 당신이 옳지 않다고 생각합니다. 나는 확신한다. 논의할 것을 제안합니다. 오후에 나에게 편지를 보내면 이야기 할 것입니다.

  4. Bari

    놀랍게도, 매우 귀중한 문구



메시지 쓰기