- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试从网页中抓取一些数据,我设法发布了一个请求并获得了正确的数据。问题是我得到类似的东西:
“Kannst du bitte noch einmal ... erzýhlen, wie du wýhrend der Safari einen Lýwen verjagt hast?”
通常 erzählen - während,所以 Ä,Ö,ß,Ü 没有正确显示。
这是我的代码:
var querystring = require('querystring');
var iconv = require('iconv-lite')
var request = require('request');
var fs = require('fs');
var writer = fs.createWriteStream('outputBodyutf8String.html');
var form = {
id:'2974',
opt1:'',
opt2:'30',
ref:'A1',
tid:'157',
tid2:'',
fnum:'2'
};
var formData = querystring.stringify(form);
var contentLength = formData.length;
request({
headers: {
'Content-Length': contentLength,
'Content-Type': 'application/x-www-form-urlencoded'
},
uri: 'xxxxxx.php',
body: formData,
method: 'POST'
}, function (err, res, body) {
var utf8String = iconv.decode(body,"ISO-8859-1");
console.log(utf8String);
writer.write(utf8String);
});
如何使用正确的字母获取 HTML 正文?
最佳答案
我去了你试图抓取的网站,发现了这个:
还有另一个字符编码声明:
本网站定义了两种不同的字符编码! 我用哪个?
嗯,这不适用于你。当从本地机器读取 HTML 文件时,元标记中定义的 charset
或 content-type
将用于编码。
由于您正在通过 HTTP 检索此文档,因此文件将根据响应 header 进行编码。
这是我访问该网站后收到的响应 header 。
如您所见,它们没有定义的字符集。它应该位于 Content-Type
属性中。像这样:
由于他们在响应头中没有任何指示的charset
,那么,根据这个post , 它应该使用 meta
声明。
但是等等,有两个meta
charset
声明。
由于编译器从上到下读取文件,因此应使用第二个声明的 charset
。
UTF-8
此外,我认为您不需要转换。我可能错了,但您应该能够访问响应。
request({
headers: {
'Content-Length': contentLength,
'Content-Type': 'application/x-www-form-urlencoded'
},
uri: 'xxxxxx.php',
body: formData,
method: 'POST'
}, function (err, res, body) {
console.log(body);
writer.write(body);
});
编辑:我不认为错误在他们一方。我相信它就在你身边。试一试:
删除作者:
var writer = fs.createWriteStream('outputBodyutf8String.html');
在 request
回调中,将所有内容替换为:
function (err, res, body) {
console.log(body);
fs.writeFile('outputBodyutf8String.html', body, 'utf8', function(error) {
if(error)
console.log('Error Occured', error);
);
}
所有的代码应该是这样的:
var querystring = require('querystring');
var iconv = require('iconv-lite')
var request = require('request');
var fs = require('fs');
var form = {
id:'2974',
opt1:'',
opt2:'30',
ref:'A1',
tid:'157',
tid2:'',
fnum:'2'
};
var formData = querystring.stringify(form);
var contentLength = formData.length;
request({
headers: {
'Content-Length': contentLength,
'Content-Type': 'application/x-www-form-urlencoded'
},
uri: 'xxxxxxx.php',
body: formData,
method: 'POST'
}, function (err, res, body) {
console.log(body);
fs.writeFile('outputBodyutf8String.html', body, 'utf8', function(error) {
if(error)
console.log('Error Occured', error);
);
}
关于javascript - 来自 Request NodeJS 的 body 的正确编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46272845/
当调用 func didBegin(_ contact: SKPhysicsContact) 的 SKScene 中发生接触时,需要确定哪个 SKPhysicsBody 是contact.bodyA
HTML: CSS: body { width : 1000px ; } header { width : 100% ; } 如果有这样的代码, 我认为页眉的宽度将与主体的
我刚刚通过网站完成设计,现在我正在尝试将整个 body 布置成一个整体,而不是不断重复的瓷砖。请问我该怎么做? 我不确定我说的是否有道理,但就像一张墙纸在拉伸(stretch),而不是 30 个小瓷砖
我试图在我的内部包装器上获得一个滚动条,而不是主体本身: CSS body { overflow: hidden; } #body_wrap { overflow-y: auto;
body { margin: 0px; border: 1px solid black; } #head { text-align: center; background: linea
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improv
我试图了解此 CSS 规则将应用于哪些元素: body h1, body .h1 { font-family: 'Open Sans', sans-serif !important;
此问题与使用 Jade templates 有关与 Express.js . 我知道当我写 layout.jade其中包含: !!! html body != body hea
我正在尝试为 body 设置不透明度。但是,我遇到了一个问题。 在body 上设置不透明度时,只有它的内容会受到影响。 背景不受不透明度的影响。 $("button").click(function(
我的游戏中有两个对象:球和星星 球是静态或动态的物体。 对于明星: 我需要知道星星何时与球相撞 但它需要穿过小球并且不受碰撞影响 我应该怎么做? 谢谢 袜套 最佳答案 您想使用 Sensors (6.
我以前问过这个问题,但所有答案都不起作用,所以我有一个示例页面,webpage .我有一个重新调整大小的菜单,我想在菜单外单击时关闭菜单,以及在第一次切换下拉菜单时让主体向下动画,这样下拉菜单就不会隐
我有一个漂浮在我其余内容上的井。我遇到的问题是,当它加载页面时,它会下推其余内容。我该如何更改它以便它悬停在所有内容上并且不会在页面加载时将内容下推。 这是页面加载的图像。 这是向下滚动页面的图片 请
在我的代码中我有这个: #body { background-color: #efeeef; clear: both; padding-bottom: 35px; } 还有这个
我想做以下事情。 $("a").click(function (event) { event.preventDefault(); $.get($(this).attr("href"),
在documentation在其他地方,我看到使用了 Body 但不知道它是什么。 谁能解释一下这三个选项是什么意思? from fastapi import Body from pydantic i
我试图在 body 加载后触发一个功能。我知道你可以从 body 标签中做到这一点,但如果可能的话,我更愿意从 JS 中做到这一点。 例如:document.getElementsByTagName(
在 Pymunk 中,当我旋转一个物体时,它的形状并没有旋转。当我施加一个冲动时,形状会如预期的那样同步移动。我的谷歌搜索表明 body 的形状应该在 body 旋转时旋转。我是否从根本上误解了旋转?
在我的移动网站/应用程序中使用 jQueryMobile 时,我刚刚开始遇到非常奇怪错误 编辑 我正在添加图片,可能更容易理解问题 edit2 我发现了这个问题。仍然好奇为什么会这样 如果您想查看原
我正在使用 Phaser.js 及其 p2 物理来模拟“流体”。你可以在this中看到创建一种流体体的示例(归功于 John Watson)。唯一可能的交互是鼠标移动。 我注意到一些有趣的特性可能有助
我认为是后一项, :not(body> element) 说明 body 标签中的所有“元素”元素。这是否与 同义 body >:not(element) ?? 最佳答案 body >:not(ele
我是一名优秀的程序员,十分优秀!