目的与规则泛化

2016-08-19 专题阅读：

目的与规则泛化(一)
汉语作为第二语言习得过程中语言规则的泛化现象

浅析汉语作为第二语言习得过程中语言规则的泛化现象

【摘要】在汉语作为第二语言习得过程中，学习者常采用推理的方法，把新获得的语言规则不适当地扩大使用，而在语音、词汇、语法、语用等方面出现泛化现象。泛化的产生有其独特的心理机制，在教学过程中要注意克服和引导，避免不必要泛化的产生。

【关键词】汉语；第二语言习得；语言规则；泛化

一、引言

泛化，是第二语言学习过程中应用上的一种偏误，是指学习者把他所学的有限的、不充分的目的语规则，用推理的方法不适当地套用在目的语的新语言现象上，也称为过度概括或过度泛化，一般出现在学习的中级或高级阶段。把汉语作为第二语言学习的大部分都是成年人，这些人抽象思维的能力比较强，在他们学习第二语言的过程中，经常根据自己的内在理解去类推运用已学到的语言规则，例如学习者学了“一个月”、“一个星期”，就会说出 “一个年”、“一个天”这样的词组。这类现象出现的类型多样，它的根源不在其母语中，因为不同母语背景的学习者常常出现同样的现象，它有其产生的独特心理机制。

二、泛化的类型

在汉语作为第二语言习得过程中，学习者的现泛化现象出现在语音、词汇、语法、语用各个方面。下面就泛化的不同类型做简单分析：

1、语音的泛化

目的与规则泛化(二)
防火墙规则的泛化方法译文

防火墙规则的泛化方法

摘要--现代防火墙越来越复杂，并且在他们的规则集中可能存在着异常。安全日志数据，比如防火墙日志和由入侵检测系统生成的日志，可以为已有的防火墙规则集的更新和添加提供有效信息。在这篇文章里，我们将着重介绍防火墙规则生成中一种有效机制的发展，并提出一种称为特殊域名规则生成算法（DSRG）的计算程序。该算法集成域特定的网络配置信息以帮助基于安全日志数据防火墙规则的泛化。这些广义的规则能够有助于异常检测或者被用做已有规则集的添加项。关键词：规则泛化，防火墙，安全

Ⅰ、引言

防火墙是一种在网络流量中作为边界滤波技术广泛使用的流行安全机制。防火墙基本上是以规则为基础的访问控制系统，处理基于组织安全政策的网络流量的输入和输出。虽然过去的几十年里防火墙的基础机制并没有发生变化，但是由于网络流量的复杂性和攻击不断增加，防火墙规则在范围和管理两方面更加复杂。2009年一项近期研究表明今天的防火墙规则集可能包括上千种规则。管理规则对于很多大的机构来说是复杂的、易出错的、代价高的。

在这篇文章中，我们将着重介绍防火墙规则泛化中的一种有效机制的发展。在许多机构里，有必要采取一种规则集使之能够有效并及时反映近期的网络流量模式。许多情况下，仅仅依赖内部进程而与实际网络配置数据无关的这种规则集是不能得以发展的。造成的后果是即使采用规则优化技术，防火墙规则集可能会过时、配置不当、结果不一致。这项研究是基于假设正确的网络配置和安全日志在包级别（比如：从入侵检测系统、系统事件或网络流量日志中获取到的）提供必要的附加信息以助于当前防火墙规则集的一致性和异常检查。此方法不是为了替换全部防火墙规则集，而是更倾向于为使规则集成为最新的而使用附加信息修改现有规则集。研究重点是涉及到防火墙规则泛化问题。

已经有使用机器学习和数据挖掘方法来处理规则泛化问题的方法，该研究是扩展过滤规则生成方法（FRG），它是在防火墙日志中基于聚集算法生成防火墙规则中最小数的方法[2]。过滤规则泛化方法的问题是它提供的是一种粗略泛化技术。尽管这种泛化可能是正确的因为该泛化是基于有限的网络日志数据（注意对于任一种防火墙系统观测所有合法的和不合法的网络流量几乎是不可能的），在很多情况下这种泛化是不正确的。在我们的方法中，我们提出了根据如网络管理员这样的领域专家分配的参数来泛化防火墙规则。该方法被称为特定域名规则泛化方法（DSRG）。在该方法中，泛化为终端用户提供交互式进程去调试基于感知的网络特性的参数，会更有效。

文章分为以下几个章节。第2节提供在文献上相关工作的简要概述。第3节是对FRG算法的评价，说明它不能很好的执行的原因。第4节介绍我们的特定域名规则泛化（DSRG）算法，以及一些相关论述。第6节介绍该研究的成果和未来工作。

Ⅱ 相关工作

大量文献致力于防火墙规则的有效管理。研究课题的范围从实用方法如检测

和解决规则异常[3、4、5]、优化规则集[6]到正规方法验证防火墙规则的有效性

[7]。防火墙规则集管理与基于签名的入侵检测系统也有一些相似之处，类似于已经使用的优化和泛化技术[8、9、10]。一些研究工作与我们密切相关。FRG算法是一种基于决策树的方法，适用于相同的防火墙规则泛化领域[2]。FRG和DSRG最大的区别是用于泛化的属性层次的定义。我们的方法是更细粒度的，可以根据网络的具体配置。我们使用一种不同的泛化机制，这种泛化机制与用于根源分析的入侵检测系统产生的警报泛化有一些相似之处[9、10、]。我们的方法和[9、10]中方法不同之处在于，我们研究的是不同（尽管相关）的问题区域并且网络属性的泛化层次有不同的定义。

Ⅲ 基于过滤规则泛化（FRG）算法的规则泛化

此节开始讲述规则泛化问题，介绍FRG算法。

A、规则泛化问题

防火墙中的基本组成部分是规则集，规则集实质上是一个用于执行访问控制策略的知识库。防火墙规则r可以定义如下：

r:{协议、命令、源IP、源端口、目的IP、目的端口}→执行

该规则的条件部分是一组条件属性。条件集合通常由6个元素组成，它对应于一个IP数据包报头，还表示这是否是输入输出流量的一部分。规则集通常是由若干规则组成。规则的执行部分通常是拒绝和允许，表示网络流量是否应该被允许在限定情况下传输[2、4]。

许多情况下，通配符（例如，带有一个“*”标志或端口号域的一个IP地址代表“任何”）被广泛用于防火墙规则。例如，172.0.1.*表示的IP地址的范围是172.0.1.0到172.0.1.255.通配符以紧凑的方式提供了定义大量的相似防火墙规则的方法。另一种增加防火墙规则的表现是使用无类别域间路由代理

图1、Linux防火墙日志例子

图1表示在Linux操作系统中的防火墙日志例子。虽然实际的日志文件可能有所不同，但是它包括的方面基本上类似于防火墙规则中的那些方面。应当指出，由于防火墙规则的泛化，一台主机或一个网络的防火墙日志可用于另一台主机或另一个网络。

同样，被用于基于签名的入侵检测系统（IDS）的规则集还包括和防火墙规则中一样的重要领域。现代的防火墙和IDS有时集成并称为入侵防御系统（IPS）。其结果是，一台主机的IDS规则可能被用于它的防火墙规则泛化，或可用于另一台主机或另一个网络的防火墙泛化。

B、过滤规则生成（FRG）算法

过滤规则生成（FRG）算法是一种聚合技术生成的减少（广义上）从安全日志数据中获取的个人防火墙的规则集[2]。我们在上一节中提到的日志文件中会

生成一棵决策树，每一层或每一个分支表示一个属性（例如，命令、协议、源IP、源端口、目的IP、目的端口）。每个被检查分支和聚合的规则联合通用字符来获取与一些特殊规则匹配的超集[2]。决策树在文献中也被称为策略树[11]。

与FRG算法相关的重要挑战之一是IP地址与端口号的聚合。两种方法是为了IP地址的泛化而提出的。传统的方法中，FRG聚合尽可能多的通过足够长的时间的数据挖掘。不幸的是在这种环境下自定义是不明确的。在积极的聚合中，FRG用蛮力简化使用给定的日志数据。例如，IP地址为10.110.96.255和255.255.255.255在聚合方法中将被聚合成为*.*.*.*。保护方法要被限制的更多，上述两个IP地址不能一概而论。

对于端口号的聚合，FRG算法采用了类似方法。例如，它可以设置端口号的一层的范围是1-1023，1024-1999，2000-2999，在这些范围的任一类中将任一端口号聚合到它所属的层的范围内。一些关键的端口号（例如，那些被使用的重要的服务器。如SMTP或HTTP）可以预定义以避免过度泛化。

需要注意的是，因为实际上不可能遵守所有的合法的和不合法的网络流量日志，一些泛化技术可能受到不准确的概括，更何况安全日志可能包含不正确的信息，如错误配置的防火墙规则、误报或不正确的日志。

C、与FRG相关的典型问题

根据前面对FRG算法的描述，由于过分简化的泛化策略，显然是FRG使用的泛化技术可能会获取到不正确的防火墙规则。可能出现的问题包括以下内容。注意，这里的术语“数据点”可以代表防火墙规则中的任一属性（IP地址、端口号或协议）。

1）过度泛化：一些少量的数据点被作为数据属性的整个范围进行泛化。这有可能发生在侵略性的聚合方法下。

2）少泛化：代表整个范围内数据的一些数据点不能被泛化，或是作为整个范围内的数据属性的子集被泛化。这些情况在保持聚合方法时发生。

3）错误泛化：几个数据点被泛化成数据字段中不正确的类。这可能发生在分层方式下的端口号泛化。

所有的这些问题可以归因于缺少针对特定域的细粒度的泛化层次体系。如果防火墙规则是不正确的泛化，规则集可能是危险的，因为它们可能允许不合法的网络流量在实际网络中进行传输。它们也可能通过阻止合法请求使正常的网络服务不能使用。这样的粗粒度过程设立防火墙时很难优于手动检查安全日志，更何况是帮助优化现有防火墙。

以上提到的问题有几个关键原因。首先，FRG算法没有考虑特定域的信息，如其他的IP地址的内外分离、指定特殊端口号。其次，它没有考虑到泛化过程中的日志数据的概率分布。为了使方法更有效，在基于单个数据项的特定网络字段泛化之前，整体视图的泛化引擎应该聚集足够的网络日志数据。

Ⅳ 特定域规则泛化（DSRG）方法

本节我们将FRG算法扩展为特定域规则泛化（DSRG）方法。规则泛化问题被视为在观察到的历史数据中基于特定域的知识和网络域的分配，如在防火墙日志文件、IDS日志文件或网络包层次中的其他安全日志文件中看到的那些。它基于【目的与规则泛化】

这样的假设，给定足够大的数据，可以充分覆盖可被获取的单个防火墙规则的层次泛化。我们开始讨论以下正式定义。

A、定义

由网络属性组成的防火墙规则被定义为集合{A1,A2,...,An}。用表1所示的例子，这些字段可以是协议、源IP地址、源端口、目的IP地址、目的端口，并且我们规定n=5。对于每一个Ai,当1≤i≤n时，域Dom(Ai)被定义为Ai的一列可能值。由特定防火墙规则假定的Ai属性的值被定义为r[Ai].给定的属性Ai，泛化的属性概念可以根据像内网这种结构的特定域的知识通过对Ai的特殊值分组获得。例如，IP5和IP6的IP地址可以泛化为在图2中被称为“WEB_SERVER”的概念。然后，我们可以定义General(Ai)为Ai泛化值的集，扩展域extDom(Ai)作为域组和泛化属性集。

即

。和可以表示为一棵单根的树Ti来表示

泛化层次体系。泛化的防火墙规则是被提及的DRSG算法的最终产物。

图表2显示了网络结构的例子以及它的泛化字段，如IP地址和端口号。值得注意的是在这种方法中，目的IP地址和源IP地址遵循同一泛化层次体系，源端口和目的端口也一样。对某些网络来说，我们可以通过区分这些网络属性来采用不同的策略。我们的方法重要特征之一是包含特定域的知识。其中一个例子是IP地址根据同一组织（图表2（a）和图表2（b）展示的Dept1和Dept2）内不同的部门进行泛化的。有时，不同部门在网络中分配不同的保护优先级。因此，它们可能被分配不同的防火墙策略。在端口号泛化中可以看到类似原则。例如，一个组织可能选择使用VoIP 请求来使用端口号5060~5070。因此，这一范围的端口号应该与其他非特权端口号分开，如图2（c）所示。

图2、网络体系和泛化层次

B、 DSRG算法

根据4.2节给出的定义，现在我们可以给出距离度量的定义。在泛化层次Ti中的两个元素x和y的距离被表示为x和y同属一个祖先的最短距离。显然，树的根节点是所有节点的共同祖先。更正式地说，假设P表示x和y的一组共同的祖先。然后当p∈P时，dist(x,y)=dist(x,p)+dist(y,p)。在本研究的范围内，x和y表示两个防火墙规则。距离度量可以由一个未加权法（x和y共享同一权的边）计算出，或者是我们在通过入侵检测系统[10、11]产生的聚类警报这样的类似研究结果中观察到的加权法（假设x和y之间的不同权的边）计算得出。距离度量可用于恰当的评估一组不同的防火墙规则。防火墙泛化问题的目的最终成为寻找最大限度的减少泛化规则及其子女间平均距离的树，与给定的最小树大小相同。

警报聚类问题的经典形式已被证明是NP完备。它可以通过减少CLUQUE问题来证明。同样，规则泛化问题的一般形式也是NP完备。因此，我们扩展了以前的近似警报聚类算法并开发了我们的DSRG算法，如图3所示。

目的与规则泛化(三)
“了”的偏误分析

“了”的偏误

一、“了”的语法意义

1. 了1作动态助词，附在动词后，表示动作已完成：

例：他喝了一瓶啤酒。

2. 了2作语气词：

用在陈述句句尾，表示新情况和变化；

例：春天了，树叶绿了。

用在陈述句句尾，表示认识、主张、想法、行动等有变化；

例：我同意你的意见了。

用在句尾，表示催促、劝告等；

例：行了，别说了。

二、“了”的常见偏误情况

1.“了1”的常见偏误

1.1否定句中的偏误

对于动态助词“了”的使用的偏误情况，表现的第一个方面就是在否定句中出现偏误。比如：

（1） A：英子买花了没有？

B：英子没买了花。

在否定句中，动态助词“了”不能和“没”共现。因为否定词“没”已经否定了动词或者形容词所发出的动作和所表示的性状、状态，因此，也就不存在结束不结束的情况了。

例1，A问B的是英男买花还是没有买花，也就是说A想知道的是“买”的这个动作，英男有没有付诸行动，B想回答英男没有买花，也就是英男没有实施“买”的这个动作。既然英男没有实施“买”的动作，所以也就不存在完成不完成的情况了。

正确的应该是：

（1）A：英子买花了没有？

B：英子没买花。

1.2误加动态助词“了”

（2）她当老师了三年了。

（3）他们结婚了五年了。

例2说的是“她”从三年前开始当老师，并且一直持续到现在。而“当老师”后面的动态助词“了”的作用是表示动作已经结束，很显然“他当老师”到现在还在进行中，并没有完成，所以应该把句中的这个动态助词“了”省掉。例3也一样，这里的“结婚”是一个持续性的状态，要表达的是他们从五年前到现在一直处于己婚状态，而不是一个短暂的动作。所以，应该取掉这个句子中的动态助词“了”。

1.3遗漏动态助词“了”

动态助词“了”表达的是行为或者动作的完成，这种完成即有现在完成，又有过去和将来完成。但留学生（尤其是成年学生）在学习时，误认为动态助词“了”表达的是现在完成而不是过去完成，也不是将来完成。我们再看看下面几个例子：

（4）昨天，他喝三杯冰水，吃三个雪糕。

（5）直美说她毕业，就去中国上大学。

例4是一个表达过去完成的语句，例5表达的是将来完成。学习者在学习时认为动态助词“了”不能用在过去完成和将来完成的句子中，所以没有给这两个句子加动态助词“了”，因此出现了这种错误。在动态助词“了”的定义中，它被放置在动词或者形容词之后，表达的是动作、状态的结束，并与过去、现在和将来都是无所谓的关系。

再回到例句中，动词分别是“喝”“吃”“毕业”，都是表示动作行为的词语，而且是这种动作行为都是短暂的，发出之后很快就消失了，因此应该给这几个动词后面加上动态助词“了”表示完成。所以正确的句子应该改为“昨天，他喝了三杯冰水，吃了三个雪糕”和“直美说她毕了业，就去中国上大学。”

1.3有补语时产生的偏误

当遇到趋向补语和结果补语时，很易发生错误。

（6）看到直美，鲍勃迅速跑了上三楼。

（7）晚上十点，小元做了完数学作业。

这两个例句，第一个有趋向补语而第二个是结果补语。在给留学生讲动态助词时，说动态助词要放在动词或者形容词的后面，因此学生在碰到任何需要加动态助词“了”的时候，只要看到动词或者形容词，就会给它们后面加，于是就有了上面的错误（目的语规则泛化）。关于动态助词的位置，如果动词后面有结果补语或者趋向补语时，动态助词“了”应该加在补语之后，所以正确的语序应该是：动词或者形容词加上结果补语或者趋向补语再加上动态助

词“了”最后加上宾语。所以这部分应该变成“跑上了三楼”。例7的“完”是结果补语，说明的是前面的动作“做”的结果，而数学作业是宾语，所以这部分的正确语序应该变成“做完了数学作业”。所以这两个句子的应该变成是“看到直美，鲍勃迅速地跑上了三楼”和“晚上十点，小元做完了数学作业。”

1.4“了”的错序

“错序”是指动态助词“了”的位置不当，例如：

（8）刚才我看看了她写的文章。