简单来讲这个算法就是如何更好的学习到智能合约的代码的语义表示(可以理解为代码审计的一种)
这是我的学术论文,并且伴随相关的专利申请。主要功能是利用对比学习预训练模块可以更好的学习到智能合约代码的数据表征,之后将训练好的特征提取器参与一个半监督的分类器训练得到更好的分类器完成后续的分类工作。
核心点就是如何利用更少的分类标签完成更好的分类效果。
项目简单来说就是自监督表示学习用于特征提取器的训练和半监督分类器学习的分类训练。
最大的难点其实在于自监督表示学习部分设计的高维对比学习负样本构筑方式如何能够更好的使中间向量表示整组向量之间的关联关系以设计损失函数及训练。解决方法比较偏数学,是利用了几何证明的方法进行了中间向量与整组向量关联关系的推导,进而得出最终的损失函数设计方式。
相关的论文已经被TDSC接收,后续示例图片会给出论文中的部分截图。