gpt4 book ai didi

python - 子进程调用失败,来自 Web 表单输入的 unicode 数据 - 适用于来自其他地方的相同输入

转载 作者:太空宇宙 更新时间:2023-11-04 01:28:45 24 4
gpt4 key购买 nike

我有一个库,其中包含一个函数,该函数根据大量正则表达式检查各种输入数据以确保数据有效。对于 CGI 脚本从 Web 表单(通过 lighttpd)接收的输入和从 sqlite 数据库读取的输入(根据 gammu-smsd 接收到的 SMS,将输入放在那里)调用该函数。

输入有时是英语,有时是印地语,即 Devnagari 脚本。它应该始终使用 UTF-8 编码。我一直在努力使用 python 的 re 和 regex 模块,当涉及到正确匹配字符类与 Devnagari 字符时,它们似乎有问题(你可以看到一个例子 here - 在这种情况下使用 regex 而不是 re 解决了问题,但我从那以后也遇到了正则表达式的问题)。命令行“grep”似乎更加可靠和准确。因此,我求助于使用子进程调用将必需的字符串通过管道传递给 grep,如下所示:

def invalidfield(datarecord,msgtype):
for fieldname in datarecord:
if (msgtype,fieldname) in mainconf["MSG_FORMAT"]:
try:
check = subprocess.check_output("echo '" + datarecord[fieldname] + "' | grep -E '" + mainconf["MSG_FORMAT"][msgtype,fieldname] + "'",shell=True)
except subprocess.CalledProcessError:
return fieldname
return None

现在,让我们尝试使用以下字符串作为输入:न्याज अहमद् 和以下正则表达式来检查它:^[[:alnum:] .]*[[:alnum :]][[:alnum:] .]*$

奇怪的是,完全相同的输入,当从数据库中读取时,清除了这个正则表达式(它应该)并且函数正确返回。但是当通过网络表单输入相同的字符串时,subprocess.check_out 失败并出现此错误:

File "/usr/lib/python2.7/subprocess.py", line 537, in check_output
process = Popen(stdout=PIPE, *popenargs, **kwargs)
File "/usr/lib/python2.7/subprocess.py", line 679, in __init__
errread, errwrite)
File "/usr/lib/python2.7/subprocess.py", line 1259, in _execute_child
raise child_exception
TypeError: execv() arg 2 must contain only strings

我不明白这是怎么回事。我已经使用 this script 修改了我的 lighttpd.conf至少应该确保 lighttpd.conf 使用的是 utf-8 字符集。我也用过 chardet模块并在来自网络表单的输入上运行 chardet.detect。我明白了:{'confidence': 1.0, 'encoding': 'ascii'}{'confidence': 0.99, 'encoding': 'utf-8'}

根据this answer我尝试用 unicode(datarecord[fieldname]).encode('utf8') 替换上面的 datarecord[fieldname] 并且首先尝试解码 datarecord[fieldname]使用“ascii”编解码器。后者因常见的“序号不在范围内”错误而失败。

这里出了什么问题?我就是想不通!

最佳答案

在这种情况下你要避免使用echo;将您的输入直接写入 Popen() 对象的 stdin 管道。

请确保您的环境设置为正确的语言环境,以便 grep 知道将输入解析为 UTF-8:

env = dict(os.environ)
env['LC_ALL'] = 'en_US.UTF-8'
p = subprocess.Popen(['grep', '-E', mainconf["MSG_FORMAT"][msgtype,fieldname]], stdin=subprocess.PIPE, env=env)
p.communicate(datarecord[fieldname])
if p.returncode:
return fieldname

关于python - 子进程调用失败,来自 Web 表单输入的 unicode 数据 - 适用于来自其他地方的相同输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15598010/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com