3月17日,信息技术和材料科学交叉领域期刊InfoMat(影响因子:24.798)在线刊发了集成电路学院李祎副教授、缪向水教授团队题为“Self-selective memristor-enabled in-memory search for highly efficient data mining”的研究论文,李祎副教授和缪向水教授为论文共同通讯作者,集成电路学院博士研究生杨岭和黄晓弟为共同第一作者,香港智能晶片与系统研发中心陈佳博士以及华为公司参与了本工作。
相似性搜索是一类基础的计算问题,其本质是通过衡量数据之间的相似性,从大量数据中定位与查询对象最相关的信息,是数据挖掘、信息检索等技术的核心。该过程涉及庞大的高维向量计算,对计算机的算力和能效有极高要求,由于传统冯·诺伊曼架构的“存储墙”瓶颈和集成电路摩尔定律的放缓,计算机系统的性能提升十分有限,难以满足海量数据相似性搜索的需求。
针对此问题,团队将忆阻存内计算(In-memory computing)的思想进一步发展聚焦,提出了存内搜索(In-memory search)的创新方案(图1),针对相似性搜索难题,首先提出利用忆阻器电导的本征随机性构造高斯随机矩阵的编码策略及编码硬件(Encoder),并基于忆阻器模拟计算能力设计构建高紧凑、低功耗的非易失三态内容可寻址存储器(nvTCAM),从而实现相似性搜索的两大核心流程—特征编码和相似度计算的原位并行执行。该方案将随机数产生器、矩阵运算单元、存储器三者的功能集成在同一忆阻电路中一步实现。此外,团队基于信息熵理论改进了经典局部敏感哈希算法,使得特征编码更加紧凑,降低了计算和存储开销。通过上述软硬件协同设计,忆阻存内搜索系统在分类、聚类等数据挖掘场景中能耗降低至CPU的1/168和专用集成电路(ASIC)的1/18.8。
图1.基于忆阻器的存内搜索系统
此项工作是李祎副教授、缪向水教授团队在存内搜索方向的阶段性研究成果。团队长期从事忆阻器及存内计算技术的相关研究,近年将存内计算思想引入相似性搜索驱动的机器学习,从器件、电路、架构、算法四个层次对存内搜索这一新兴技术开展了系统研究,在图像检索、类脑竞争学习、小样本学习等场景下进行了验证(图2),研究成果发表在IEEE Electron DeviceLetters、Advanced Intelligent Systems、Science China Information Sciences等期刊。
图2.基于忆阻器的欧氏距离、余弦距离计算引擎及其在机器学习中的应用探索
上述系列研究工作得到了科技部国家科技创新2030“脑科学与类脑研究”重大项目、国家重点研究计划、国家自然科学基金“后摩尔时代新器件基础研究”重大研究计划培育项目、面上项目以及华为公司的资助。
论文链接:https://onlinelibrary.wiley.com/doi/full/10.1002/inf2.12416