tn是desert和tan共同开发的一种用于匹配,转写和抽取文本的语言。解释器使用Python实现,代码不超过1000行。
github地址:
前言
本文将利用引擎实现一个自然语言计算器,支持加减乘除和平方的计算。如下面的测试样例:
三平方加上四平方如果2乘以3大于4的平方且3>8,那么输出5+4,否则输出12如果今天下雨,则发送微博3.4的7次方加上五分之一3.4*2.7二百八十除以五分之一三点五乘以三十七二十七+15*15十四点五的平方加上八十三除以三点五
基本的思路,是将整个文本,转换为一个Python的表达式,传递给Python的eval函数执行。这是一种取巧的办法,如果需要,可以修改引擎,实现自定义的脚本解析器。
运算符实现
下面的代码定义了计算符,非常容易理解:
#%Include% Rules/cnextadd = (/加上?|\+|+/ : /+/) ;sub = (/减去?|\-|-/ : /-/);mul = (/乘以?|\*|×/ : /*/);div = (/除以?|/|÷/ : ///); pow2 = (/的?平方/ : /**2/);pow3 = (/的?立方/ : /**3/);pown= (/的?/ : //) $(digit) (/次方/ : /**/) : $3 $2 $1; divpow = $(digit) $(divpow0) $(digit) ;powx= $(pow2) | $(pow3) | $(pown);pow = $(digit) $(powx);
#%Include% Rules/cnext
引入了外部的一个规则文件,这个文件定义了中文和数字的表达方法。因此在本规则中,可直接引用cnext文件中定义的规则。
逻辑运算符
or = (/或/ : / or /);and = (/且/ : / and /);not = (/不是/ : / not /);equal = (/等于|=/ : /=/);bigger = (/大于|>/ : />/);less = (/小于|
值得一提的是,我们将逻辑转换成了or and 和not, 这是为了能够转写
运算符组合
addsub0= $(add) | $(sub) ; logic0 =$(or) | $(and) ;divpow0 = $(mul) | $(div);equalcheck = $(bigger) |$(less) | $(noequal);operator= $(addsub0) | $(equalcheck) | $(logic0);
非终结符和终结符
低优先级的表达式可以表示如下:
addsub= $(noterminator) $(operator) $(noterminator);
由于乘除和n次方的的优先级比加减和逻辑运算符优先级高,所以我们将运算符分为两类:终结符 terminator = $(digit) | $(ifelse) | $(pow) | $(divpow);
非终结符
#%Order% 28noterminator = $(terminator) : "eval(m.rstr)" | $(addsub) : "eval(m.rstr)";
此处需要解释脚本的含义,
- m在此处代指前面匹配的实体
- m.rstr为m的转写后的字符串
- m.mstr为m匹配的字符串 eval是引擎内置的函数,代指对转写后的字符串求值。
例子
三平方加上四平方
匹配路径如下TODO 最后eval(32+42),结果为5无法消除的左递归
如果希望支持计算类似'3加5的和乘以3'的表达式,那么terminator表达式需要这样写:
terminator = $(digit) | $(ifelse) | $(pow) | $(divpow) | $(function)| $(noterminator) $(add) $(noterminator) $(addresult)| $(noterminator) $(sub) $(noterminator) $(subresult);
但是,注意第二条子表达式
$(noterminator) $(add) $(noterminator) $(addresult)
$(noterminator)
又引用了terminator
,因此会导致无穷递归。 目前还没有找到合适的方法解决这个问题。 完整的代码
#计算引擎#尝试解决 三点五乘以八点三的功能#%Include% Rules/cnextadd = (/加上?|\+|+/ : /+/) ;sub = (/减去?|\-|-/ : /-/);mul = (/乘以?|\*|×/ : /*/);div = (/除以?|/|÷/ : ///); pow2 = (/的?平方/ : /**2/);pow3 = (/的?立方/ : /**3/);pown= (/的?/ : //) $(digit) (/次方/ : /**/) : $3 $2 $1; result= (/的?结果/);addresult0= (/的?和/);subresult0= (/的?差/);addresult = $(result) $(addresult0);subresult = $(result) $(subresult0);addsub0= $(add) | $(sub) ; logic0 =$(or) | $(and) ;divpow0 = $(mul) | $(div);equalcheck = $(bigger) |$(less) | $(noequal);operator= $(addsub0) | $(equalcheck) | $(logic0);divpow = $(digit) $(divpow0) $(digit) ;powx= $(pow2) | $(pow3) | $(pown);pow = $(digit) $(powx); #functionsprint = (/打印/ : /print/);send = (/发送/ : /send/);functions = $(print) | $(send);function = $(functions) $(noterminator) : "invoke(m[0].rstr,m[1].rstr)";addsub= $(not) $(noterminator) | $(noterminator) $(operator) $(noterminator); terminator = $(digit) | $(ifelse) | $(pow) | $(divpow) | $(function);#暂时无法分析 3加5的和乘以3,因为会造成循环递归,从左向右推导不可行# | ) $(add) $(noterminator) $(addresult)# | $(noterminator) $(sub) $(noterminator) $(subresult);#%Order% 28noterminator = $(terminator) : "eval(m.rstr)" | $(addsub) : "eval(m.rstr)";or = (/或/ : / or /);and = (/且/ : / and /);not = (/不是/ : / not /);equal = (/等于|=/ : /=/);bigger = (/大于|>/ : />/);less = (/小于|