脸书结合多种资料信号、可扩展的系统基础架构,以及机器学习技术,构建了一个人信息料分类系统,以侦测语义类型,脸书提到,这对于以多种格式存储资料的组织特别重要,先以分类系统分类资料,后续才能让组织得以执行像是访问控制政策等,自动化隐私与安全相关的政策。
传统的资料外泄防护(Data Loss Prevention,DLP)系统,是利用资料指纹进行识别,通过监控端点以侦测与指纹相符的资料,但脸书表示,这种方法对于拥有大量且不断变化资料资产的组织来说,不只难以扩展,而且也无法有效率的探索资料的所在。而脸书的新系统,强调采用可缩放的基础架构,以多种信号以及机器学习技术,通过持续训练模型来解决这个问题,且可扩展应用到持久性与非持久性用户资料,处理各种资料类型和格式。
脸书提到,资料通常以两种形式进入组织,因此需要使用两种不同的策略,来侦测和分类这些资料。对于脱机存储的持久性资料,系统必须了解资料资产的范围,该系统会在不使客户端和其他资源重载的情况下,收集每个人信息料存储的元资料,并且创建成目录,使得资料检索更有效率。该系统会根据目录中需要扫描的资产,个别启动工作程序对资料资产进行实际的扫描。
每个工作程序都是已编译的二进制文件,并对可用的新资料进行采样,这些资料会被分成几列,并以列为单位截取特征,预测服务会根据这些特征,激活基于规则的机器学习分类,预测每列资料的标签,所有下游程序都能够从资料集读取这些预测结果,也可以从即时资料目录API读取预测结果。
而线上的非持久性资料,也需要受到保护,因此系统提供了一个线上API,可对非持久性流量产生即时的分类预测,该即时预测系统可对流出的流量、流入机器学习模型的流量,以及任何的即时资料进行分类。另外,脸书也设计了特别的机器学习系统,来处理非结构化资料分类。
脸书提到,企业通常需要制定一套明确的隐私政策,以保护人们的个人资料隐私,因此企业需要了解哪些元资料与特定消息相关联,以加快政策执行并且减少错误发生。脸书的新系统为自家数十个来源的资料资产,进行资料类型分类,以确保隐私与安全策略的执行,而且比传统资料外泄防护服务更灵活,能够简单增加对其他资料类型的侦测支持,并在有限的内存使用下,进行低延迟分类。