- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
下面这段话让我觉得很有趣。
首先,几个月来我一直在抓取网站。其中包括 hebrew
站点,并且在从 http
服务器接收 hebrew
字符时没有任何问题。
出于某种原因我很好奇整理了一下,下面这个站点是个异常(exception)。我无法正确编码字符。我尝试通过 Fiddler
模拟我所做的工作请求,但无济于事。我的 c#
请求 header 看起来完全一样,但字符仍然不可读。
我不明白的是为什么我总是能够从其他站点检索到 hebrew
字符,而从这个站点我却不能。这是什么设置导致的。
尝试以下示例。
HttpClient httpClient = new HttpClient();
httpClient.DefaultRequestHeaders.TryAddWithoutValidation("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0");
//httpClient.DefaultRequestHeaders.TryAddWithoutValidation("Accept", "text/html;q=0.9");
//httpClient.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Language", "en-US,en;q=0.5");
//httpClient.DefaultRequestHeaders.TryAddWithoutValidation("Accept-Encoding", "gzip, deflate");
var getTask = httpClient.GetStringAsync("http://winedepot.co.il/Default.asp?Page=Sale");
//doing it like this for the sake of the example
var contents = getTask.Result;
//add a breakpoint at the following line to check the contents of "contents"
Console.WriteLine();
如前所述,此类代码适用于我尝试的任何其他以色列网站 - 例如 Ynet news site ,例如。
更新:我在使用 Fiddler
进行“调试”时发现,对于 ynet 站点(一个有效的站点),响应对象返回 header
Content-Type: text/html; charset=UTF-8
虽然这个 header 在 winedepot.co.il 的响应中不存在
我尝试添加它,但仍然没有任何区别。
var getTask = httpClient.GetAsync("http://www.winedepot.co.il");
var response = getTask.Result;
var contentObj = response.Content;
contentObj.Headers.Remove("Content-Type");
contentObj.Headers.Add("Content-Type", "text/html; charset=UTF-8");
var readTask = response.Content.ReadAsStringAsync();
var contents = readTask.Result;
Console.WriteLine();
最佳答案
您遇到的问题是网络服务器对其内容类型撒谎,或者说不够具体。
第一个站点用这个标题响应:
Content-Type: text/html; charset=UTF-8
第二个有这个标题:
Content-Type: text/html
这意味着在第二种情况下,您的客户端将不得不假设文本实际采用的编码方式。要了解有关文本编码的更多信息,请阅读 The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) .
.NET 的内置 HTTP 客户端在这方面做得并不好,这是可以理解的,因为这是一个难题。阅读链接文章,了解 Web 浏览器为猜测编码而必须经历的麻烦,然后尝试理解为什么您不希望在可编程 Web 客户端中使用此逻辑。
现在这些网站确实为您提供了一个<meta http-equiv="Content-Type" content="actual encoding here" />
标记,这是一个不需要正确配置网络服务器的讨厌的解决方法。当浏览器遇到这样的标签时,它将不得不重新开始解析具有指定内容类型的文档,然后希望它是正确的。
大致的步骤是,假设一个 HTML 负载:
<meta http-equiv="Content-Type" />
时 header ,丢弃所有解码的文本,然后通过将二进制缓冲区解释为以指定编码编码的文本重新开始。C# HTTP 客户端在第 2 步停止,这是理所当然的。它们是 HTTP 客户端,而不是显示 HTML 的浏览器。他们不关心您的有效负载是 HTML、JSON、XML 或任何其他文本格式。
当内容类型响应头中没有给出字符集时,.NET HTTP 客户端默认为 ISO-8859-1
编码,无法显示字符集Windows-1255 (Hebrew)
中的字符该页面实际上是用什么编码的(或者更确切地说,它在相同的代码点有不同的字符)。
一些 C# 实现尝试从元 HTML 元素进行编码检测在 Encoding trouble with HttpWebResponse 中提供。 .我无法保证它们的正确性,因此您必须自行承担尝试的风险。我确实知道当前投票最高的答案实际上在遇到元标记时重新发出请求,这很愚蠢,因为不能保证第二次响应与第一次相同,这只是一种浪费带宽。
您还可以假设您知道某个网站或页面使用的编码,然后强制使用该编码:
using (Stream resStream = response.GetResponseStream())
{
StreamReader reader = new StreamReader(resStream, YourFixedEncoding);
string content = reader.ReadToEnd();
}
或者,对于 HttpClient:
using (var client = new HttpClient())
{
var response = await client.GetAsync(url);
var responseStream = await client.ReadAsStreamAsync();
using (var fixedEncodingReader = new StreamReader(responseStream, Encoding.GetEncoding(1255)))
{
string responseString = fixedEncodingReader.ReadToEnd();
}
}
但是假设特定响应、URL 或站点的编码是完全不安全的。无法保证此假设每次都是正确的。
关于c# - 一个 Http 响应(希伯来文)字符未进行属性编码的特定站点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36327747/
我找到了 this excellent question and answer它以 x/y(加上 center x/y 和 degrees/radians)开始并计算旋转- 到 x'/y'。这个计算很
全部: 我已经创建了一个 Windows 窗体和一个按钮。在另一个线程中,我试图更改按钮的文本,但它崩溃了;但是如果我尝试更改按钮的颜色,它肯定会成功。我认为如果您更改任何 Windows 窗体控件属
本网站的另一个问题已证实,C 中没有缩写的字面后缀,并且可以执行以下操作: short Number = (short)1; 但是转换它和不这样做有什么区别: short Number = 1; 您使
我有下表: ID (int) EMAIL (varchar(50)) CAMPAIGNID (int) isSubscribe (bit) isActionByUser (bit) 此表存储了用户对事
也就是说,无需触发Javascript事件即可改变的属性,如何保留我手动选中或取消选中的复选框的状态,然后复制到另一个地方? 运行下面的代码片段并选中或取消选中其中的一些,然后点击“复制”: $('#
我在网上找到的所有关于递增指针导致段错误的示例都涉及指针的取消引用 - 如果我只想递增它(例如在 for 循环的末尾)并且我不在乎它是否最终进入无效内存,因为我不会再使用它。例如,在这个程序中,每次迭
我有一个 Spring MVC REST 服务,它使用 XStream 将消息与 XML 相互转换。 有什么方法可以将请求和响应中的 xml(即正文)打印到普通的 log4j 记录器? 在 Contr
做我的任务有一个很大的挑战,那就是做相互依赖的任务我在这张照片中说的。假设我们有两个任务 A 和 B,执行子任务 A1、A2 和 B1、B2,假设任务 B 依赖于 A。 要理想地执行任务 B,您应该执
通过阅读该网站上的几个答案,我了解到 CoInitialize(Ex) should be called by the creator of a thread 。然后,在该线程中运行的任何代码都可以使
这个问题已经困扰我一段时间了。我以前从未真正使用过 ListViews,也没有使用过 FirebaseListAdapters。我想做的就是通过显示 id 和用户位置来启动列表的基础,但由于某种原因,
我很难解释这两个(看似简单)句子的含义: “受检异常由编译器在编译时检查” 这是什么意思?编译器检查是否捕获了所有已检查的异常(在代码中抛出)? “未经检查的异常在运行时检查,而不是编译时” 这句话中
我有一个包含排除子字符串的文本文件,我想迭代该文件以检查并返回不带排除子字符串的输入项。 这里我使用 python 2.4,因此下面的代码可以实现此目的,因为 with open 和 any 不起作用
Spring 的缓存框架能否了解请求上下文的身份验证状态,或者更容易推出自己的缓存解决方案? 最佳答案 尽管我发现这个用例 super 奇怪,但您可以为几乎任何与 SpEL 配合使用的内容设置缓存条件
我有以下函数模板: template HeldAs* duplicate(MostDerived *original, HeldAs *held) { // error checking omi
如果我的应用程序具有设备管理员/设备所有者权限(未获得 root 权限),我如何才能从我的应用程序中终止(或阻止启动)另一个应用程序? 最佳答案 设备所有者可以阻止应用程序: DevicePolicy
非常简单的问题,但我似乎无法让它正常工作。 我有一个组件,其中有一些 XSLT(用于导航)。它通过 XSLT TBB 使用 XSLT Mediator 发布。 发布后
我正在将一个对象拖动到一个可拖放的对象内,该对象也是可拖动的。放置对象后,它会嵌套在可放置对象内。同样,如果我将对象拖到可放置的外部,它就不再嵌套。 但是,如果我经常拖入和拖出可放置对象,则可拖动对象
我正在尝试为按钮和弹出窗口等多个指令实现“取消选择”功能。也就是说,我希望当用户单击不属于指令模板一部分的元素时触发我的函数。目前,我正在使用以下 JQuery 代码: $('body').click
我从 this question 得到了下面的代码,该脚本用于在 Google tasks 上更改 iframe[src="about:blank"] 内的 CSS使用 Chrome 扩展 Tempe
我有一些 @Mock 对象,但没有指定在该对象上调用方法的返回值。该方法返回 int (不是 Integer)。我很惊讶地发现 Mockito 没有抛出 NPE 并返回 0。这是预期的行为吗? 例如:
我是一名优秀的程序员,十分优秀!