gpt4 book ai didi

python - suds 请求中的嵌套文本编码

转载 作者:太空宇宙 更新时间:2023-11-03 18:59:21 27 4
gpt4 key购买 nike

环境:Python 2.7.4(部分在 Windows 上,部分在 Linux 上,见下文),suds(SVN HEAD 稍作修改)

我需要调用一个采用单个参数的 Web 服务,该参数是一个 XML 字符串(是的,我知道……),即请求在 WSDL 中声明为以下类型:

<s:complexType>
<s:sequence>
<s:element minOccurs="0" maxOccurs="1" name="actionString" type="s:string"/>
</s:sequence>
</s:complexType>

我使用 cElementTree 构建此内部 XML 文档,然后将其作为唯一参数传递给 client.service.ProcessAction(request) 方法,该方法会产生泡沫生成。

有一段时间,这工作正常:

root = ET.Element(u'ActionCommand')
value = ET.SubElement(root, u'value')
value.text = saxutils.escape(complex_value)
request = u'<?xml version="1.0" encoding="utf-8"?>\n' + ET.tostring(root, encoding='utf-8')
client.service.ProcessAction(request)

我在某个时候添加了 saxutils.escape 来解决第一个编码问题,但几乎无法理解为什么我到底需要它以及它会带来什么差异。

现在(可能是由于井号第一次出现),我突然遇到以下异常:

Traceback (most recent call last):
File "/app/module.py", line 135, in _process_web_service_call
request = u'<?xml version="1.0" encoding="utf-8"?>\n' + ET.tostring(root, encoding='utf-8')
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 137: ordinal not in range(128)

这里的位置137对应于内部XML请求中特殊字符的位置。显然,即使给出了编码,cElementTree.tostring()也会返回“str”类型,而不是“unicode”。所以Python尝试将这个字符串str解码为unicode(为什么用'ascii'?),以便它可以将它与unicode文字连接起来。这失败了(当然,因为 str 实际上是用 UTF-8 编码的,而不是 ASCII)。

所以我想,好吧,我自己将其解码为 un​​icode:

root = ET.Element(u'ActionCommand')
value = ET.SubElement(root, u'value')
value.text = saxutils.escape(complex_value)
request_encoded_str = ET.tostring(root, encoding='utf-8')
request_unicode = request_encoded_str.decode('utf-8')
request = u'<?xml version="1.0" encoding="utf-8"?>\n' + request_unicode
client.service.ProcessClientAction(request)

只不过现在,它在 suds 内部爆炸,由于某种原因,它试图解码外部 XML 请求:

Traceback (most recent call last):
File "/app/module.py", line 141, in _process_web_service_call
raw_response = client.service.ProcessAction(request)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 542, in __call__
return client.invoke(args, kwargs)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 602, in invoke
result = self.send(soapenv)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/client.py", line 643, in send
reply = transport.send(request)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/https.py", line 64, in send
return HttpTransport.send(self, request)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/http.py", line 118, in send
return self.invoke(request)
File "/app/.heroku/python/lib/python2.7/site-packages/suds/transport/http.py", line 153, in invoke
u2response = urlopener.open(u2request, timeout=tm)
File "/app/.heroku/python/lib/python2.7/urllib2.py", line 404, in open
response = self._open(req, data)
File "/app/.heroku/python/lib/python2.7/urllib2.py", line 422, in _open
'_open', req)
File "/app/.heroku/python/lib/python2.7/urllib2.py", line 382, in _call_chain
result = func(*args)
File "/app/.heroku/python/lib/python2.7/urllib2.py", line 1222, in https_open
return self.do_open(httplib.HTTPSConnection, req)
File "/app/.heroku/python/lib/python2.7/urllib2.py", line 1181, in do_open
h.request(req.get_method(), req.get_selector(), req.data, headers)
File "/app/.heroku/python/lib/python2.7/httplib.py", line 973, in request
self._send_request(method, url, body, headers)
File "/app/.heroku/python/lib/python2.7/httplib.py", line 1007, in _send_request
self.endheaders(body)
File "/app/.heroku/python/lib/python2.7/httplib.py", line 969, in endheaders
self._send_output(message_body)
File "/app/.heroku/python/lib/python2.7/httplib.py", line 827, in _send_output
msg += message_body
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 565: ordinal not in range(128)

此处的位置 565 再次对应与上面相同的字符,只不过这次它是嵌入到 suds 创建的外部 XML 请求 (SOAP) 中的内部 XML 请求的位置。

我很困惑。谁能帮我摆脱这个困境吗? :)

更糟糕的是,这一切都只发生在 Linux 下的服务器上。在我的 Windows 开发环境中,这些都没有引发异常。 (解释为什么会这样的奖励积分,只是因为我很好奇。我怀疑它与不同的默认编码有关。)但是,它们都不被服务器接受。在 Windows 上有效的是,如果我删除 saxutils.escape ,然后将正确的 unicode 对象传递给 suds 。然而,这在 Linux 上仍然会导致相同的 UnicodeDecodeError

更新:我开始在 Windows 上调试它(它工作正常),并且在 httplib.py 的第 827 行中,它确实尝试连接 unicode 对象 msg (包含 HTTP header )和 str 对象 message_body,导致隐式 unicode 解码使用不正确的编码。我想它只是由于某种原因在 Windows 上没有失败。我不明白为什么当我将 unicode 对象放在顶部时,suds 会尝试发送 str 对象。

最佳答案

事实证明,这简直是荒谬至极。我仍然只了解整个问题和情况的一小部分,但我设法解决了我的问题。

所以让我们回顾一下:我相信我的最后一次尝试是最理智的一次。那么让我们从这里开始:

msg += message_body

Python 的 httplib.py 中的这一行尝试连接一个 unicode 和一个 str 对象,这会导致 str 的隐式 .decode('ascii'),即使 str 是 UTF8 编码的。这是为什么?因为 msg 是一个 unicode 对象。

msg = "\r\n".join(self._buffer)

self._buffer 是 HTTP header 列表。检查发现,其中只有一个 header 是 unicode,“感染”了结果字符串:操作和端点。

问题来了:我正在使用来自 __future__unicode_literals (使它更加面向 future ,对吧?对吧???)并且我正在传递我的将自己的端点转​​化为肥皂水。

只需在 URL 上执行 .encode('utf-8'),我所有的问题就消失了。甚至不再需要整个 saxutils.escape (尽管奇怪的是它也没有造成伤害)。

tl;dr:我猜,请确保您没有将任何 unicode 对象传递到 httplib 或 suds 中。

root = ET.Element(u'ActionCommand')
value = ET.SubElement(root, u'value')
value.text = complex_value)
request = ET.tostring(root, encoding='utf-8').decode('utf-8')
client.service.ProcessAction(request)

关于python - suds 请求中的嵌套文本编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16404164/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com