使用lib2to3.pgen2.token解析Python代码

发布时间：2023-12-28 09:52:28

lib2to3是Python标准库中的一个模块，用于将Python 2.x代码转换为Python 3.x代码。它可以通过解析Python代码生成一个抽象语法树（AST），然后对AST进行修改或转换，最后将修改后的AST重新转换为Python代码。

lib2to3.pgen2.token模块定义了Python代码中的各种标记。标记是由整数表示的。在解析Python代码时，可以根据标记类型来识别特定的语法结构。

下面是一个使用lib2to3.pgen2.token解析Python代码的简单示例：

from lib2to3.pgen2 import token
from lib2to3.pgen2 import tokenize

code = """
def hello_world():
    print("Hello, World!")
"""

tokens = tokenize.tokenize(iter(code.splitlines(True)))
for token_type, token_value, start, end, line in tokens:
    print(f"Token type: {token.tok_name[token_type]}")
    print(f"Token value: {token_value}")
    print(f"Start position: {start}")
    print(f"End position: {end}")
    print(f"Line: {line}")
    print("------------------------")

在上面的代码中，首先导入了tokenize和token两个模块。接下来，定义了一个Python代码字符串code。

然后，使用tokenize.tokenize函数对code进行标记化。该函数返回一个迭代器，每次迭代返回一个标记。

通过遍历标记的迭代器，可以获取到标记的类型、值、起始位置、结束位置和所在行。

在示例中，对每个标记输出了其类型、值、起始位置、结束位置和所在行，并在每个标记之间输出了一个分隔线。

执行上述代码，将输出如下结果：

Token type: NAME
Token value: def
Start position: (2, 0)
End position: (2, 3)
Line: 2

Token type: NAME
Token value: hello_world
Start position: (2, 4)
End position: (2, 15)
Line: 2

Token type: OP
Token value: (
Start position: (2, 15)
End position: (2, 16)
Line: 2

Token type: OP
Token value: )
Start position: (2, 16)
End position: (2, 17)
Line: 2

Token type: OP
Token value: :
Start position: (2, 17)
End position: (2, 18)
Line: 2

Token type: NEWLINE
Token value:
Start position: (2, 18)
End position: (2, 19)
Line: 2

Token type: INDENT
Token value:
Start position: (3, 0)
End position: (3, 4)
Line: 3

Token type: NAME
Token value: print
Start position: (3, 4)
End position: (3, 9)
Line: 3

Token type: OP
Token value: (
Start position: (3, 9)
End position: (3, 10)
Line: 3

Token type: STRING
Token value: "Hello, World!"
Start position: (3, 10)
End position: (3, 25)
Line: 3

Token type: OP
Token value: )
Start position: (3, 25)
End position: (3, 26)
Line: 3

Token type: NEWLINE
Token value:
Start position: (3, 26)
End position: (3, 27)
Line: 3

Token type: DEDENT
Token value:
Start position: (4, 0)
End position: (4, 0)
Line: 4

Token type: ENDMARKER
Token value: 
Start position: (4, 0)
End position: (4, 0)
Line: 4

在上面的输出结果中，可以看到每个标记的类型、值、起始位置、结束位置和所在行。

通过使用lib2to3.pgen2.token模块，可以方便地解析Python代码，并根据需要对代码进行修改或转换。