Introduction
- non-small cell lung cancer에서 면역치료 반응을 예측하는 데 굉장히 중요한 바이오마커 PD-L1, PD-L1 expression은 높은 연관성을 가지고 있음
- PD-L1 expression을 IHC 이미지 분석에서 추정하는데, 딥러닝 알고리즘 적용 연구가 늘고 있음
- 하지면 여전히 low PD-L1 expression에 대해서 poor specificity, accuracy tumor를 가지고 있는데, 특히 proportion score (TPS) cutoff value 1%에서 더 그렇다.
Related Works:
- Tian P, He B, Mu W, Liu K, Liu L, Zeng H, et al. Assessing PD-L1 Expression in non-Small Cell Lung Cancer and Predicting Responses to Immune Checkpoint Inhibitors Using Deep Learning on Computed Tomography Images. Theranostics (2021) 11(5):2098–107. doi: 10.7150/thno.48027
- Wiesweg M, Mairinger F, Reis H, Goetz M, Kollmeier J, Misch D, et al. Machine Learning Reveals a PD-L1-Independent Prediction of Response to Immunotherapy ofnon-Small Cell Lung Cancer by Gene Expression Context. Eur J Cancer (2020) 140:76–85. doi: 10.1016/j.ejca.2020.09.015
- Wu J, Liu C, Liu X, Sun W, Li L, Gao N, et al. Artificial Intelligence-Assisted System for Precision Diagnosis of PD-L1 Expression in non-Small Cell Lung Cancer. Mod Pathol (2021) 35(3):403–11. doi: 10.1038/s41379-021-00904-9
- Baxi V, Edwards R, Montalto M, Saha S. Digital Pathology and Artificial Intelligence in Translational Medicine and Clinical Practice. Mod Pathol (2021) 35(1):23–32. doi: 10.1038/s41379-021-00919-2
- Pan B, Kang Y, Jin Y, Yang L, Zheng Y, Cui L, et al. Automated Tumor Proportion Scoring for PD-L1 Expression Based on Multistage Ensemble Strategy in non-Small Cell Lung Cancer. J Transl Med (2021) 19(1):249. doi: 10.1186/s12967-021-02898-z
- Liu J, Zheng Q, Mu X, Zuo Y, Xu B, Jin Y, et al. Automated Tumor Proportion Score Analysis for PD-L1 (22C3) Expression in Lung Squamous Cell Carcinoma. Sci Rep (2021) 11(1):15907. doi: 10.1038/s41598-021-95372-1
Materials And Methods
Materials
Data Collection
total 1288 FFPE Lung Cancer Samples
- 1,204 samples (stained using 22C3 assays)
- 84 samples (stained using SP263 assays)
- All slides were digitized by a KFBIO FK- Pro-120 slide scanner at ×20 magnification (0.475 mm/pixel). Furthermore, 627 PD-L1 (22C3)-staining whole-slide images (WSIs)
Data Configuration for Model Development
- training set: 627 slides (22C3) (manually annotated by two graduate students majoring in pathology, confirmed by pathologists)
- validation set: 577 slides (22C3), 84 slides (SP263)
- TPSs of all slides were estimated by one trained pathologist and confirmed by another
TPS Algorithm
two-stage workflow based on DL
- 1 stage - DL-based classification for detecting patches containing tumor cells
- 2 stage - DL-based object detection for locating and counting the tumor cells
TPS, CPS 설명 그림
- de Ruiter, Emma J., et al. "Comparison of three PD-L1 immunohistochemical assays in head and neck squamous cell carcinoma (HNSCC)." Modern Pathology 34.6 (2021): 1125-1132.
Classification Model
models
- 256 x 256 (Binary classifiers via two steps) categories
-
category 1 (124,459): 종양 세포는 있고 PD-L1 양성 면역 세포는 없는 patch들
-
category 2 (14,069): PD-L1 음성 종양세포와 PD-L1 양성 면역 세포 둘 다 있는 patch들 (macrophage와 lymphocyte 포함)
-
category 3 (131,672): 종양 세포가 없는 patch들 다양한 no-tumor 조직으로 구성됨
- negative immune cells: macrophages, lymphocytes
- hemorrhage, necrosis tissue, and stromal cells
classification process (256 x 256)
-
1+2 vs 3 (종양세포 있니 없니) → 1 vs 2 (PD-L1 양성 면역 세포 있니 없니)
- 128 x 128 (Multi-class classification at Once) categories
- category 4 (37,583): PD-L1 양성 종양 세포
- category 5 (45,107): PD-L1 음성 종양세포
- category 6 (38,912): PD-L1 양성 면역 세포
- category 6 (65,786): 나머지
- negative immune cells: macrophages, lymphocytes
- hemorrhage, necrosis tissue, and stromal cells
- training and validation sets in a ratio of 8:2
- MobileNetV2 (pre-trained on ImageNet) 마지막 fc layer만 dropout + dense layer로 바꿈
Cell Detection
- YOLO head 기반으로 our own object detection model을 built
- backbond으로는 CSPDarknet53을 사용하고 BiFPN을 닮은 feature network를 사용했음
- Cell tags는 128 x 128 patch 사이즈의 patch에서 labeled되었고 PD-L1 음성 종양 세포 (105,508), PD-L1 양성 종양 세포 (24,523), PD-L1 양성 면역세포 (10,429)로 그룹화되었음
- 5-fold cross validation and label smoothing (0.1) to avoid overfitting
WSI Inference Workflow
3 different workflow 비교
- M1: 1+2 vs 3 → tumor patch → YOLO → tumor positive cell / tumor negative cell → TPS
- M2: 1+2 vs 3→ tumor patch → 1 vs 2 → YOLO (respectively) → tumor positive cell / tumor negative cell (1), tumor negative cell (2) → TPS
- M3: 4 / 5 / 6 / 7 → tumor positive patch, tumor negative patch, immune positive patch → YOLO → tumor positive cell / tumor negative cell → TPS
Evaluation Metrics and Statistical Analyses
- linear correlation coefficient (LCC) → TPS 비교 (AI vs pathologist)
- Cohen’s kappa → 일치도 비교 (AI vs pathologist)
- Specificity, Sensitivity, Precision, Accuracy, and F1 score → Accuracy evaluation
- Statistical significance, p <0.05
Results
Clinicopathological Characteristics of Patients With Lung Cancer
- 57.1% from male patients, 42.9 % from female patients
- surgical operation (617), needle biopsy (466), other biopsy (141), pleural effusion (31)
- adenocarcinoma (989), squamous cell carcinoma (185)
- PD-L1 TPS (<1, 1-49 and ≥ 50%) and combined positive score (CPS) (<1 and ≥ 1%)
- M2와 M3가 TPS calculation에서 성능을 개선함
LCC (Linear Correlation Coefficient) in 22C3 and SP263 Assays
Examples of Tumor Detection and PD-L1
PD-L1-Positive Immune Cell Patch Filter Module
- M2 (1+2 vs 3 → 1 vs 2), immune cell filter module이 있어서 PD-L1 positive immune cell이 tumor cell로 혼동되는 걸 줄여준 것을 보여줌
- false positive가 많아지고 CPS >= 1 도 늘었음
Discussion & Conclusion
- 2 stage workflow를 3가지 classifiaction 시나리오로 실험해 비교하였음
- M1: tumor vs no-tumor
- M2: tumor vs no-tumor -> tumor positive/no immune positive vs tumor negative/immun positive로 쉬운 문제에서 어려운 문제로 binary classifier를 tree 형태로 설계하는 방식
- c-MET 쪽에서도 tumor positive/tumor negative를 하나의 tumor로 segmentation하면서 tumor negative에 대한 성능과 덩달아 tumor positive에 대한 성능도 저하하는데, 이런 식의 접근 방식을 응용해보는 아이디어도 나쁘지 않을 것 같음
- 다만, 2개의 network를 개발한다는 비용이 발생 ㅠ
- M3: tumor positive/tumor negative/immune positive/others로 한 번에 풀어버리는 multi-classification 문제로 설계하는 방식을 비교했는데, 둘 다 괜찮은 성능을 보였음
- class imbalance에 더 취약할 가능성이 있음
- 우리 쪽엔 immune을 고려하지 않고 있긴 한데, 추후에 고려해야될 것 같기도 하다.
- 둘 다 잘 나왔는데, M1과 M2를 비교하며 immnue filter module의 효과를 분석하고 최종적으로 M2가 좀 더 성능을 올렸다고 결론 짓고 있음
- 그리고 다양한 subtype에 대해서 성능을 비교하려고 노력했음
- Staining Type: 22C3 염색에서만 훈련시켰는데, 22C3, SP263 염색 둘 다에서 좋은 성능을 냈다
- 두 stain에 대한 stain 차이가 얼마나 나는 지 보여주면 좋았을 것 같다
- stain normalization이 적용 안 된 것 같은데, 그게 필요없을 정도로 비슷했을런지..
- Patch Size: 128/256 패치 사이즈 비교했고 128 사이즈가 같은 타입일 확률이 커서? tumor cell이 있는 patch에서 stromal cell에 대한 오진단을 낮출거라 예상했는데, 실제론 둘 다 잘 나오더라
- network가 해당 task의 pattern을 효과적으로 학습하는 차원에서 local context만으로도 판단가능한 task면 slide에서 추출하는 patch size를 충분히 줄여도 되지만, 그것을 모두 훈련에 사용하는 것이 옳은 지는 또 생각해봐야할 문제다.
- slide에서 patch를 어느 크기로 뽑을 지는 sample의 수, GPU 메모리에 올리는 batch size가 줄어드는 양적인 trade-off가 존재한다.
- tumor area segmentation은 좀 더 global context를 봐야한다고 생각하여 256 -> 512로 키우고 sampling하는 방식을 256 grid에서 1024 grid, 512 random crop으로 바꿨는데, 훈련 속도도 훨씬 빨랐고 성능도 괜찮은 경험이 있다.
- Tuomr Type: adenocarcinoma/squamous caner cell 둘에 대해서도 성능 차이가 별로 없었음
- Sampling Type: pleural effusion sample이 적다보니 18개중 4개의 negative sample가 FP, 1개의 positive sample이 FN이 발생함