- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在编写一个程序,可以解析以 .tex 文件编写的数学论文。这是我想要的:
该程序应该检测数学论文中的开头、结尾、章节、小节、小节、定理、引理、定义、猜想、推论、命题、练习、符号和示例,并忽略其余内容生成摘要。
一开始,程序应该保留所有字符,直到到达标记 MT
。在这种情况下,杠杆应保留 token 并输入 ig
模式。然后它应该忽略所有字符,除非它检测到定理/引理/定义/猜想/推论/示例/练习/符号/命题,在这种情况下它会暂时输入 INITIAL
模式并保留它或(子/子子)部分,在这种情况下它应该暂时进入 sec
模式。
\newtheorem{<name>}{<heading>}[<counter>]
和\newtheorem{<name>}[<counter>]{<heading>}
被检测为TH ptext THCC ptext THC ptext
和TH ptext THCS ptext THSC ptext THC
分别在哪里ptext
是一堆TEXT
.
import sys
import logging
from ply.lex import TOKEN
if sys.version_info[0] >= 3:
raw_input = input
tokens = (
'BT', 'BL', 'BD', 'BCONJ', 'BCOR', 'BE', 'ET', 'EL', 'ED', 'ECONJ', 'ECOR', 'EE', 'SEC', 'SSEC', 'SSSEC', 'ES', 'TEXT','ITEXT','BIBS','MT','BN','EN','BEXE','EEXE','BP','EP','TH','THCS','THSC','THCC','THC',
)
states = (('ig', 'exclusive'), ('sec', 'exclusive'), ('th', 'exclusive'), ('tht','exclusive'),('thc','exclusive'))
logging.basicConfig(
level = logging.DEBUG,
filename = "lexlog.txt",
filemode = "w",
format = "%(filename)10s:%(lineno)4d:%(message)s"
)
log = logging.getLogger()
th_temp = ''
thn_temp = ''
term_dic = {'Theorem':'','Lemma':'','Corollary':'','Definition':'','Conjecture':'','Example':'','Exercise':'','Notation':'','Proposition':''}
idb_list = ['','','','','','','','','']
ide_list = ['','','','','','','','','']
bb = r'\\begin\{'
eb = r'\\end\{'
ie = r'\}'
def finalize_terms():
global idb_list
global ide_list
if term_dic['Theorem'] != '':
idb_list[0] = bb + term_dic['Theorem'] + ie
ide_list[0] = eb + term_dic['Theorem'] + ie
if term_dic['Lemma'] != '':
idb_list[1] = bb + term_dic['Lemma'] + ie
ide_list[1] = eb + term_dic['Lemma'] + ie
if term_dic['Corollary'] != '':
idb_list[2] = bb + term_dic['Corollary'] + ie
ide_list[2] = eb + term_dic['Corollary'] + ie
if term_dic['Definition'] != '':
idb_list[3] = bb + term_dic['Definition'] + ie
ide_list[3] = eb + term_dic['Definition'] + ie
if term_dic['Conjecture'] != '':
idb_list[4] = bb + term_dic['Conjecture'] + ie
ide_list[4] = eb + term_dic['Conjecture'] + ie
if term_dic['Example'] != '':
idb_list[5] = bb + term_dic['Example'] + ie
ide_list[5] = eb + term_dic['Example'] + ie
if term_dic['Exercise'] != '':
idb_list[6] = bb + term_dic['Exercise'] + ie
ide_list[6] = eb + term_dic['Exercise'] + ie
if term_dic['Notation'] != '':
idb_list[7] = bb + term_dic['Notation'] + ie
ide_list[7] = eb + term_dic['Notation'] + ie
if term_dic['Proposition'] != '':
idb_list[8] = bb + term_dic['Proposition'] + ie
ide_list[8] = eb + term_dic['Proposition'] + ie
print(idb_list)
print(ide_list)
以下是一些解析函数:
def t_TH(t):
r'\\newtheorem\{'
t.lexer.begin('th')
return t
def t_th_THCS(t):
r'\}\['
t.lexer.begin('thc')
return t
def t_tht_THC(t):
r'\}'
if term_dic.has_key(thn_temp) == False:
print(f"{thn_temp} is unknown!")
elif len(th_temp) == 0:
print(f"No abbreviation for {thn_temp} is found!")
else:
term_dic[thn_temp] = th_temp
print(f"The abbreviation for {thn_temp} is {th_temp}!")
th_temp = ''
thn_temp = ''
t.lexer.begin('INITIAL')
return t
def t_th_THCC(t):
r'\}\{'
t.lexer.begin('tht')
return t
def t_thc_THSC(t):
r'\]\{'
t.lexer.begin('tht')
return t
@TOKEN(idb_list[0])
def t_ig_BT(t):
t.lexer.begin('INITIAL')
return t
@TOKEN(ide_list[0])
def t_ET(t):
t.lexer.begin('ig')
return t
def t_INITIAL_sec_thc_TEXT(t):
r'[\s\S]'
return t
def t_th_TEXT(t):
r'[\s\S]'
th_temp = th_temp + t.value()
return t
def t_tht_TEXT(t):
r'[\s\S]'
thn_temp = thn_temp + t.value()
return t
def t_ig_ITEXT(t):
r'[\s\S]'
pass
import ply.lex as lex
lex.lex(debug=True, debuglog = log)
错误如下: ERROR:
/Users/CatLover/Documents/Python_Beta/TexExtractor/texlexparse.py:154: No regular expression defined for rule 't_ET'
我不知道为什么使用 @TOKEN 为“t_ET”等定义的正则表达式不起作用。
最佳答案
Ply 是一个解析器生成器。它获取您的解析器/词法分析器描述并从中编译解析器/词法分析器。您无法在解析过程中更改语言的描述。
在这种特殊情况下,您最好编写一个流式(“在线”)扫描器。但如果你想使用 Ply,那么你最好不要尝试修改语法来忽略部分输入。只需解析整个输入并忽略您不感兴趣的部分。您可能会发现代码要简单得多。
关于python - 使用动态 token 的 PLY,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52804505/
在 ms sql 2008 中编写一些存储过程时,当我输入一些变量名称时,我注意到 PLI 被突出显示为关键字。 有谁知道 PLI 的用途是什么? 最佳答案 您可以在 MSDN 上查看此类信息: 请参
我想使用 plyr 的并行功能函数内封装。 我原以为导出在函数体内创建的对象的正确方法(在本例中,对象是 df_2 )如下 # rm(list=ls()) library(plyr) library(
我是 3D 重建的新手,我有点云。我把它写在 .ply 文件上。但是当我按下它文件时 Meshlab 为我提供了一个 Error 。请找到以下内容,meshlab 可以允许打开该文件 Unespec
我正在使用一个简单的 .txt 文件测试层,其中包含:value = 0.4。解析器按预期工作,但是当我向该文件添加第二行时,出现错误: 错误:解析“LexToken(VALUE_KEY,'value
全部, 我正在用 python PLY 编写一个非常简单的解析器。它大部分完成了这项工作,但对于许多输入行,我从yacc收到语法错误。这是词法分析器和解析器代码,稍作修改以方便测试: tokens =
有没有办法对层词法分析器规则进行特殊处理? t_IDENT = r'[a-zA-Z_][0-9a-zA-Z_]*' t_OPERATOR = r'[<>=/*+-]+' t_DEFINE
我正在 python 中使用 PLY 构建解析器,当我运行解析器时,它会创建 3 个文件:parsetab.py、lextam.py 和 parse.out 如何才能不创建这些文件?有一个参数可以做到
我试图四处寻找这个问题的答案,但似乎找不到。我正在尝试使用 PLY 在 Python 中编写一个解析器作为一种编造的语言。我的 BNF 的简化版本如下所示: statement-list -> sta
我正在使用 Python 和 PLY 来解析类似 LISP 的 S 表达式,并且在解析函数调用时可以有零个或多个参数。我怎样才能将它放入 yacc 代码中。到目前为止,这是我的功能: def p_EX
所以我在 Ply 上编写了一个语法来识别基本的 C 语句,例如变量声明或 while 语句。现在,我想要做的是能够连接所有标记,然后打印它或让它在树上传播,如下所示: def p_whileStm
我正在尝试创建一个将我的脚本作为输入的解释器。我在编写正则表达式时遇到了一些问题。定义的标记之一是将所有字符串视为标记。 import ply.lex as lex import ply.yacc a
我想使用Python的PLY分析大量文本,其大小可能达到 1GB。 是否可以让 PLY 读取文本并将其解析为流,这样我就不必将整个内容加载到内存中?我想逐行检查文本,并让 PLY 对其进行分析。那可能
我正在尝试使用PLY lex / yacc解析PDF,而我却遇到了有关yacc解析规则的问题,该规则控制NUMBER标记,数组和indirect_references。 相关资料来源: def p_v
简而言之,我们如何区分使用了哪个规则 - 例子:- ''' p : a b | c | d '''所以假设我们需要为不同的规则编写不同的代码。那么有什么优雅的方法可以做到这一点。手册中给出的一种方法是
我在 PLY 中使用一个相当简单的解析器,我的规则之一采用以下形式: def p_things(p): ''' things : thing things things : t
我正在尝试构建一个 .PLY 解析器,以将存储为 .ply 文件的 3d 模型加载到半边数据结构网格中。 抱歉问了这么大的问题,我很冗长,我想确保我列出了所有的细节。因此,我将立即重申我的最终目标,以
我正在进入 .ply 文件的世界。我已经阅读了一些关于它们的内容,但是关于它们的格式的文档似乎与我的文件中的内容不太一致。我一直在尝试理解这篇文章 here,但我运气不佳。 这是我的 .ply 文件的
出于某种目的,我需要读取带有嵌入纹理的 PLY 文件(斯坦福三角格式)。我看到了 PLY 文件的几个规范,但找不到指定纹理映射语法的单个来源。似乎有很多库可以读取 PLY 文件,但大多数库似乎不支持纹
我使用 ply 作为我的 lex 解析器。我的规范如下: t_WHILE = r'while' t_THEN = r'then' t_ID = r'[a-zA-Z_][a-zA-Z0-9_]*'
我使用 ply 解析数据.我尝试使用空格作为词素的一部分。这里有一个简化的例子: from ply.lex import lex from ply.yacc import yacc tokens =
我是一名优秀的程序员,十分优秀!