大数据足以满足网络安全中的机器学习需求吗？_新闻中心

乔恩·奥利弗（Jon Oliver）现在数据比以往任何时候都更加相关和普遍-作为消费者，我们现在的数据量为2.5兆字节 -每日数据级别。威胁数据也不例外：网络罪犯通过调整旧的和创建新的威胁来逃避检测，从而不断提高自己的游戏水平，从而增加了数量。为了应对大量威胁数据，安全提供商转向了机器学习来自动化流程并改善安全解决方案。

由于可用的威胁数据种类繁多且数量巨大，因此机器学习对于有效地浏览数据集，从中学习并增强对网络威胁的防御是必不可少的。威胁数据数量的重要性显而易见。但是数据量是有效的机器学习的最终目标吗？大数据集足以增强网络安全防御能力吗？

网络安全中的数据和机器学习

在野外可获得的大量威胁数据是由于网络活动的数量和质量持续增长所致。仅去年一年，趋势科技™智能防护网络™安全基础架构就阻止了超过650亿个威胁破坏我们客户的环境。

网络安全性在威胁数据上运行。就像企业如何基于对销售数据的研究来分析客户的需求一样，网络安全供应商和研究人员也需要威胁数据来了解如何最好地处理传入的新信息，例如确定未知文件是良性还是恶意。

从根本上讲，机器学习要求数据是可操作的。威胁数据对于零时间抵御网络攻击是必不可少的，例如去年席卷全球并继续影响全球组织的范围广泛的勒索软件攻击就是这种情况。野外已经存在的勒索软件变种应该存在于网络安全公司的威胁数据存储库中。这样的历史威胁数据使网络安全系统可以预测并防御未来的类似或经过修改的威胁。

通过机器学习，可以对庞大的数据量进行聚类和分析，而使用传统方法则无法实现。威胁数据（足够多）对于机器学习系统在网络安全解决方案中的成功至关重要。

威胁数据问题：什么使大数据更好？

大数据和机器学习与网络安全息息相关。威胁数据为网络安全解决方案有效运行提供了必要的信息。大型威胁数据集使机器学习系统可以发现更广泛的威胁（甚至是变体），并决定如何在威胁感染端点和网络之前最好地缓解它们。看来，安全供应商拥有的数据越多，其用于防御网络攻击的威胁情报就越好。此断言值得仔细研究，我们必须问，是否所有数据集都是一样创建的？

尽管大数据对于分析必不可少，但收集和处理不仅可能很难进行，而且也可能无效，尤其是在大量数据被证明是“脏污”的情况下。脏数据是指信息不完整或错误的数据。在分析大型威胁数据之前，通常必须进行数据清理或数据整理：如果数据集的格式或标签有缺陷，或者其中包含冗余或不准确的数据，则机器学习系统可能无法对其进行最佳处理。目的是使数据可被系统使用；并且此任务需要大量的威胁专业知识。

数据清理是大数据分析中的问题之一。在将脏数据用于准确的数据分析之前，清理它很费力。根据一些估计，数据科学家的时间中有50％到80％用于数据清理。未经整理的低质量数据不仅耗费时间-而且也不经济。一项估算表明，仅经济每年的损失就高达3.1万亿美元。因此，需要强调的是：机器学习在提供经过净化的数据时会更加有效。

趋势科技了解此威胁数据事实。这就是为什么我们专注于使用机器学习收集和分析的数据集的质量和数量的原因。我们多年的安全研究为我们提供了广泛且准确标记的威胁和恶意软件数据，以及为继续准确理解和标记新数据而提供的专业知识。我们还专注于确保训练数据集的质量，以进一步优化我们的机器学习系统的性能。

我们在改善大数据方面所做的工作之一就是为电子邮件提供支持向量机（SVM）。为了使机器学习技术能够从合法电子邮件中正确识别垃圾邮件，我们的机器学习模型需要使用带有正确标签的电子邮件进行培训。培训和测试数据集经过认真处理，以确保对电子邮件进行正确分类并删除重复项。重复的数据可能会导致数据偏斜，从而影响生成的模型，进而导致假阴性和假阳性。至关重要的是，构建的数据集可以令人满意地表示当前的电子邮件情况，并包含来自所有相关来源的样本。

趋势科技云安全智能防护网络基础结构关联了超过160亿个威胁查询，并分析了100 TB以上的威胁数据。为了进一步努力确定数据集的质量，同时解决海量数据的挑战，我们一直在探索围绕聚类的项目。群集-使用机器学习算法将相似对象分组在一起-使我们能够自动将恶意软件威胁家族分组。然后，可以将生成的群集转换为实际的解决方案/模式，以保护我们的客户，甚至可以将其用作高质量的数据集，以进行进一步的研究。这些用例适用于文件和网络数据包。此外，生成的群集数据还提供了宝贵的威胁数据/情报，可用于改进现有解决方案。

趋势科技机器学习解决方案

甚至在大肆宣传之前（特别是从2005年开始），我们一直在将机器学习用于我们的安全解决方案。从检测垃圾邮件到通过分析用户的写作风格甚至检测企业电子邮件泄露，机器学习一直是我们网络安全产品不可或缺的工具。我们的目标是创建更智能，更准确的机器学习系统-可从各种来源和样本中学习的系统。

作为安全提供者，我们的威胁数据来自威胁生命周期的多个点，包括电子邮件和Web网关，沙箱，网络数据包扫描，漏洞利用和端点保护以及C＆C保护。这种多层方法使我们能够从多个独立位置收集威胁数据，从而为我们提供威胁数据多样性，从而有助于我们的机器学习解决方案的准确性和准确性。

机器学习是增强企业网络安全状况的有效层。我们庞大而又更好的数据集可提高检测率，降低误报率，并为端点以及虚拟和云基础架构提供总体上更强大的保护。最终，安全公司可以通过机器学习提供的网络安全保护级别不仅取决于威胁数据的数量，还取决于威胁数据的质量。趋势科技XGen安全性提供了跨代的威胁防御技术组合，可以保护系统免受不同类型的威胁。它具有高保真机器学习功能，可保护网关和端点并保护物理，虚拟和云工作负载。借助Web / URL过滤，行为分析和自定义沙箱等功能，XGen可以防御绕过传统控件，利用已知，未知或未公开漏洞，窃取或加密个人身份数据或进行恶意加密货币挖掘的当今威胁。 XGen具有智能，优化和连接功能，可为趋势科技的安全解决方案套件提供支持：混合云安全性，用户保护和网络防御。由Brian Cayanan贡献。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时候联系我们修改或删除，多谢

济南鑫奎化工有限公司

表面活性剂|芳香烃|硫醇|羧酸|磺酸|淀粉

1371

0

0

近期更新文章

主推文章

创作者推荐