banner
홈페이지 / 블로그 / 다중
블로그

다중

Mar 11, 2024Mar 11, 2024

Scientific Reports 12권, 기사 번호: 10487(2022) 이 기사 인용

1174 액세스

3 인용

2 알트메트릭

측정항목 세부정보

이 기사가 업데이트되었습니다.

단백질 단백질 상호작용(PPI)은 단백질 기능에 매우 중요하지만, 그럼에도 불구하고 단백질 서열로부터 PPI 인터페이스의 잔기를 예측하는 것은 여전히 ​​어려운 문제로 남아 있습니다. 또한 PPI 인터페이스 주석과 같은 구조 기반 기능 주석은 거의 없습니다. 모든 단백질 구조 중 약 1/3에 대해서만 잔기 기반 PPI 인터페이스 주석을 사용할 수 있습니다. 딥러닝 전략을 사용하려면 제한된 데이터 가용성 문제를 극복해야 합니다. 여기서는 누락된 데이터를 처리할 수 있는 다중 작업 학습 전략을 사용합니다. 우리는 다중 작업 모델 아키텍처로 시작하여 비용 함수에서 누락된 데이터를 주의 깊게 처리하도록 조정했습니다. 관련 학습 과제로는 2차 구조 예측, 용매 접근성 및 묻힌 잔류물 예측이 포함됩니다. 우리의 결과는 다중 작업 학습 전략이 단일 작업 접근 방식보다 훨씬 뛰어난 것으로 나타났습니다. 또한 다중 작업 전략만이 추가 PPI 주석 없이 구조적 특징 데이터로 확장된 데이터 세트에 대해 효과적으로 학습할 수 있습니다. PPI 주석의 비율이 매우 작아지면 다중 작업 설정이 훨씬 더 중요해집니다. 데이터 확장을 통해 PPI 주석의 1/8만 훈련한 다중 작업 학습자는 단일 작업 학습자와 동일한 성능에 도달합니다. 모든 PPI 주석에. 따라서 우리는 다중 작업 학습 전략이 관심 있는 단백질의 기능적 특성이 부분적으로만 주석이 달린 소규모 훈련 데이터 세트에 유용할 수 있음을 보여줍니다.

단백질 서열 데이터베이스1는 계속해서 빠르게 성장하고 있으며 구조 정보는 더욱 쉽게 이용 가능해지고 있습니다2. 그럼에도 불구하고 단백질 결합 부위3와 같은 단백질 구조를 기반으로 한 정확한 기능 주석은 여전히 ​​부족하고 예측하기 어렵습니다. 따라서 컴퓨터 기술은 단백질 서열을 기반으로 단백질의 여러 기능적 구조적 특성을 예측하는 데 사용됩니다. 이러한 특성 중 하나는 단백질 기능에 중요한 단백질 간의 물리적 상호 작용 인터페이스입니다4. 단백질 간의 상호작용은 DNA 복제, RNA 전사, 신호 전달, 세포 과정 제어, 단백질 수송 및 대사5,6,7,8,9와 같은 많은 생물학적 과정에서 필요합니다. 더욱이, 많은 질병은 단백질 경계면의 변형과 관련될 수 있습니다10,11. 다른 단백질과 상호작용하는 단백질의 잔기 세트를 예측하는 것은 중요하지만 여전히 어려운 작업입니다12. 더욱이 경계면을 구성하는 잔여물에 대한 구조적 정보도 부족합니다. PPI 주석이 달린 데이터베이스의 크기는 구조적 주석이 달린 데이터베이스 크기의 작은 부분에 불과합니다. 구조적 주석이 달린 데이터베이스의 크기는 단백질 서열 데이터베이스 크기의 작은 부분입니다(그림 1 참조). 또한 에피토프(항체 결합) 인터페이스 예측과 같은 문제가 있으며, 이에 대한 라벨이 붙은 데이터는 훨씬 적습니다13. PPI 인터페이스 예측 및 주석 가용성이 거의 없는 기타 작업을 위한 심층 신경망을 효율적으로 훈련하려면 훈련 데이터 세트의 제한된 크기 문제를 극복해야 합니다.

단백질 서열, 단백질 구조 및 특정 구조 기반 기능 주석에 대한 데이터베이스에서 사용 가능한 항목 수 비교: 단백질-단백질 상호 작용(PPI) 인터페이스. 이러한 결과는 각각 UniProtKB/TrEMBL 데이터베이스에서 사용할 수 있는 단백질 항목, Protein Data Bank(PDB)에서 사용할 수 있는 단백질 항목 및 PPI 인터페이스 주석이 있는 단백질 항목을 기반으로 합니다. y축은 로그입니다.

자연어 처리와 같은 분야에서 딥러닝의 성공으로 인해 딥러닝 접근 방식이 점점 더 많이 사용되고 있으며 단백질 구조 특징 예측에 큰 성공을 거두었습니다14,15,16,17. 딥러닝에서는 여러 개의 연결된 레이어가 해당 매개변수와 함께 해당 입력 기능의 출력을 예측합니다18. 최근 구조 예측 방법에는 CNN(Convolutional Neural Network), ResNet(Residual Neural Network), RNN(Recurrent Neural Network), LSTM(Long Short Term Memory Network), 변환기 및 다중 작업 학습기와 같은 접근 방식 및 모델이 등장합니다15,16 ,19,20,21,22. Hanson et al.16은 SPOT-1D 모델에서 매우 깊은 ResNet을 사용하여 단백질 서열이 아닌 단백질 구조에서만 가까운 잔기 사이의 비국소적 상호작용을 포착할 수 있었습니다16. Heffernan et al.21은 LSTM 양방향 RNN을 사용했으며 이 방법이 장거리 상호 작용, 특히 장거리 접촉이 많은 잔류물에 대해 캡처하는 데 유용하다는 것을 보여주었습니다. 우리는 최근 단백질 인터페이스 예측을 위해 다양한 신경망 아키텍처의 사용을 비교했습니다. 또한, 변환기는 단백질 언어로 성공적으로 사용되었습니다. 변환기에서는 단백질 서열과 같은 일반 도메인 데이터에서 학습된 정보가 2차 구조 예측과 같은 도메인별 데이터로 전송됩니다. 정보가 전달되는 또 다른 전략은 다중 작업 학습입니다.