Python中的词法分析：lex()函数的实际应用案例

发布时间：2023-12-25 18:35:09

词法分析是编译原理中的一个重要概念，它负责将源代码的字符串转化为一个个的词法单元，也称为记号(token)。Python中的词法分析可以通过使用ply库中的lex模块实现。

下面将介绍一个实际应用案例，演示如何使用lex()函数进行词法分析。

假设我们要编写一个简单的计算器，可以对四则运算进行求值。我们先定义一些基本的运算符和操作数，并创建一个词法分析器来将输入的表达式转化为词法单元。

首先，我们需要安装ply库，可以使用以下命令进行安装：

pip install ply

然后，我们创建一个lex.py文件，编写以下代码：

import ply.lex as lex

# 定义词法单元的元组
tokens = (
   'NUMBER',
   'PLUS',
   'MINUS',
   'MULTIPLY',
   'DIVIDE',
   'LPAREN',
   'RPAREN',
)

# 定义运算符对应的正则表达式
t_PLUS = r'\+'
t_MINUS = r'-'
t_MULTIPLY = r'\*'
t_DIVIDE = r'/'
t_LPAREN = r'\('
t_RPAREN = r'\)'

# 定义NUMBER的正则表达式
def t_NUMBER(t):
    r'\d+'
    t.value = int(t.value)
    return t

# 忽略空格和换行
t_ignore = ' 
'

# 定义错误的处理方式
def t_error(t):
    print("Illegal character '%s'" % t.value[0])
    t.lexer.skip(1)

# 创建词法分析器
lexer = lex.lex()

# 测试
data = "3 + 4 * 2 / ( 1 - 5 )"
lexer.input(data)
for token in lexer:
    print(token)

在上面的代码中，我们首先指定了词法分析器的词法规则。这些规则由正则表达式定义，并与对应的记号名字进行匹配。例如，t_PLUS = r'\+'定义了加号运算符的正则表达式。t_NUMBER函数定义了匹配数字的规则，并将其转化为整数。

然后，我们定义了需要忽略的字符，即空格和换行符。

接着，我们定义了错误的处理方式。如果遇到无法识别的字符，词法分析器会调用t_error函数，并输出错误信息。

最后，我们创建了一个词法分析器对象，并将输入的表达式传入，通过遍历词法分析器的输出，我们可以得到每个词法单元的信息。

在上述代码的测试中，我们将输入的表达式设为"3 + 4 * 2 / ( 1 - 5 )"，运行后将输出如下结果：

LexToken(NUMBER,3,1,0)
LexToken(PLUS,'+',1,2)
LexToken(NUMBER,4,1,4)
LexToken(MULTIPLY,'*',1,6)
LexToken(NUMBER,2,1,8)
LexToken(DIVIDE,'/',1,10)
LexToken(LPAREN,'(',1,12)
LexToken(NUMBER,1,1,14)
LexToken(MINUS,'-',1,16)
LexToken(NUMBER,5,1,18)
LexToken(RPAREN,')',1,20)

每个词法单元都有以下属性：

- type：词法单元的标识符，也称为记号名字。

- value：词法单元的实际值。

- lineno：词法单元在源代码中的行号。

- lexpos：词法单元在源代码中的位置。

通过以上的演示，我们了解了lex()函数的实际应用案例，并通过一个简单的计算器程序进行了使用例子。词法分析器将输入的表达式转化为了一系列的词法单元，为后续的语法分析和语义分析提供了基础。