清华大学深圳国际研究生院肖喜副教授:基于深度学习的钓鱼网站识别方法

来源:发布时间:2020-06-12

  报 告 人:肖喜

  主 持 人:姜青山 研究员

  日 期:2020年06月12日

  时 间:11:00-12:00

  地 点:F栋9楼919会议

  简历: 肖喜博士现任清华大学深圳国际研究生院副教授。2011年07月获中国科学院研究生院信息安全专业博士学位。2011年10月-2016年12月,清华大学深圳研究生院,讲师;2016年12月至今,清华大学深圳国际研究生院,副教授。主要研究方向为网络安全和机器学习,包括深度学习算法、强化学习算法及其在钓鱼网站识别、谣言检测、网络流量识别、漏洞挖掘等安全问题上的应用和区块链技术。在国际学术期刊和会议发表论文50余篇,其中SCI检索20多篇,包括Information Sciences, Neutral Networks, JSS,IET IS等国际著名期刊,并担任多个期刊的审稿人;在顶级学术会议AAAI, CVPR, SIGIR,ICCASP, ESORICS, IWQOS等发表论文多篇。申请专利20多项。主持科研项目多项,包括国家重点研发计划子课题、国家自然科学基金项目、国家863计划子课题、广东省自然科学基金项目等。

  摘要:钓鱼网站是一种网络攻击的手段。攻击者往往会模仿一些知名网站的URL和网页外观来构造钓鱼网站,并诱导用户进入伪造的网站填写个人信息或用户名和密码。随着互联网的飞速发展,钓鱼网站的数量越来越多,页面风格复杂多变,对网络用户的财产和隐私都构成了极大的威胁。针对现有方法检测准确度不高,我们利用深度学习网络和注意力机制构建了新的钓鱼网站模型,包括四个部分:预处理模块、特征提取模块、注意力模块和输出模块。预处理模块将网站URL转换成拥有固定维度的模型输入矩阵,使用独热编码和词嵌入等手段。特征提取模块使用卷积网络对输入矩阵进行特征提取,最终得到一个特征矩阵。注意力模块则会计算输入矩阵的注意力参数,得到注意力参数矩阵。输出模块通过注意力公式将特征矩阵和注意力参数矩阵进行融合,通过全连接网络得到分类结果,即钓鱼网站或合法网站。此外,由于现实网络的合法网站数量远多于钓鱼网站数量,因此钓鱼网站识别中存在严重的数据不平衡问题。我们通过生成对抗网络来对钓鱼网站进行数据增广,从而在不破坏现实网络分布的情况下得到含有等量钓鱼网站和合法网站的训练数据集。在此数据上训练的分类器获得了很高的检测准确度。