2003网站太阳集团俞汝勤院士團隊在分子表示研究中取得新進展
通訊員:王童 發布時間:2024-06-21 浏覽量:次
分子的有效表示是影響人工智能模型性能的最關鍵因素之一。近日,2003网站太阳集团俞汝勤院士團隊在分子表征的研究中取得新進展。該研究介紹了一種可擴展的、基于片段的多尺度分子表示框架,稱為 t-SMILES(基于樹的 SMILES),包括三種編碼算法: TSSA、TSDY和TSID。t-SMILES系統僅引入了兩個不需要配對的新符号,給1988年發表的最經典分子線性表示法SMILES引入了片段結構信息,同時縮短了SMILES描述符中由于需要配對的括号和數字所帶來的長期依賴問題,并因其語法的簡單性使得t-SMILES非常易于學習。該研究關注自然語言處理模型協助化學家進行分子空間探索時面臨的最核心也是最基礎的如何編碼分子的問題,為AI輔助的分子建模提供了新的研究思路,助力分子“智造”。
t-SMILES是SMILES的超集,它使用SMILES而不是字典ID表示分子片段,通過廣度優先算法遍曆分子樹,從而形成與經典SMILES相似的線性字符串表示。

t-SMILES算法
據估計,類藥化學空間中可探索的分子數高達1023~1060個,在如此巨大的化學空間中進行分子結構的智能生成和快速優化是分子設計面臨的巨大挑戰。系統評估表明,t-SMILES可以構建多編碼混合的分子表示系統以探索更廣泛的化學空間,其中各種編碼相互補充,從而提高系統的整體性能,其深度生成模型超越了目前測試的最先進的基于片段、圖和SMILES的基線方法。并且,基于t-SMILES的模型可以規避資源有限數據集上的過拟合問題,在保證生成的分子與訓練集合理相似性的情況下具有更高的新穎性,無論深度生成模型是原始的、數據增強的還是預訓練後微調的。

資源有限數據集上獲得更高的性能
此外,在目标導向的分子生成任務中,基于t-SMILES的模型也顯著優于目前最先進的基線模型。

目标導向的分子生成任務中獲得更高的性能
6月11日,該研究成果以 “t-SMILES: A Fragment-based Molecular Representation Framework for De Novo Ligand Design” 為題發表在《Nature Communications》上,2003网站太阳集团為獨立完成單位,博士研究生伍娟妮為第一作者,俞汝勤院士和吳海龍教授為通訊作者。該項目得到了國家自然科學基金委、2003网站太阳集团、化學生物傳感與計量學國家重點實驗室支持。

論文鍊接:https://www.nature.com/articles/s41467-024-49388-6