gpt4 book ai didi

R:从使用 RCurl 抓取的网页中提取 "clean"UTF-8 文本

转载 作者:行者123 更新时间:2023-12-03 20:51:47 24 4
gpt4 key购买 nike

使用 R,我试图抓取一个网页,将日语文本保存到一个文件中。最终,这需要扩展到每天处理数百页。我已经在 Perl 中找到了一个可行的解决方案,但我正在尝试将脚本迁移到 R 以减少在多种语言之间切换的认知负担。到目前为止,我还没有成功。相关问题好像是this one on saving csv filesthis one on writing Hebrew to a HTML file .但是,我并没有成功地根据那里的答案拼凑出一个解决方案。编辑:this question on UTF-8 output from R is also relevant but was not resolved.

这些页面来自雅虎! Japan Finance 和我的 Perl 代码看起来像这样。

use strict;
use HTML::Tree;
use LWP::Simple;
#use Encode;
use utf8;

binmode STDOUT, ":utf8";

my @arr_links = ();
$arr_links[1] = "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7203";
$arr_links[2] = "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7201";

foreach my $link (@arr_links){
$link =~ s/"//gi;
print("$link\n");
my $content = get($link);
my $tree = HTML::Tree->new();
$tree->parse($content);
my $bar = $tree->as_text;
open OUTFILE, ">>:utf8", join("","c:/", substr($link, -4),"_perl.txt") || die;
print OUTFILE $bar;
}

这个 Perl 脚本生成一个 CSV 文件,看起来像下面的屏幕截图,带有可以离线挖掘和操作的正确汉字和假名:

CSV file produced by Perl script

我的 R 代码如下所示。 R 脚本不是刚才给出的 Perl 解决方案的完全重复,因为它不会去掉 HTML 并留下文本( this answer 建议使用 R 的方法,但在这种情况下对我不起作用)和它没有循环等等,但意图是相同的。
require(RCurl)
require(XML)

links <- list()
links[1] <- "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7203"
links[2] <- "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7201"

txt <- getURL(links, .encoding = "UTF-8")
Encoding(txt) <- "bytes"
write.table(txt, "c:/geturl_r.txt", quote = FALSE, row.names = FALSE, sep = "\t", fileEncoding = "UTF-8")

此 R 脚本生成如下屏幕截图所示的输出。基本都是垃圾。

CSV file produced by R script

我假设有一些 HTML、文本和文件编码的组合可以让我在 R 中生成与 Perl 解决方案类似的结果,但我找不到它。我试图抓取的 HTML 页面的标题说图表集是 utf-8,我已经在 getURL 中设置了编码。调用并在 write.table函数到 utf-8,但这还不够。

问题
如何使用 R 抓取上述网页并将文本保存为“格式正确”的日语文本中的 CSV 文本,而不是看起来像行噪声的内容?

编辑:我添加了一个进一步的屏幕截图来显示当我省略 Encoding 时会发生什么步。我得到了 Unicode 代码的样子,但不是字符的图形表示。这可能是某种与语言环境相关的问题,但在完全相同的语言环境中,Perl 脚本确实提供了有用的输出。所以这仍然令人费解。
我的 session 信息:
R 版本 2.15.0 已修补 (2012-05-24 r59442)
平台:i386-pc-mingw32/i386(32位)
语言环境:
1 LC_COLLATE=English_United Kingdom.1252
2 LC_CTYPE=English_United Kingdom.1252
3 LC_MONETARY=English_United Kingdom.1252
4 LC_NUMERIC=C
5 LC_TIME=English_United Kingdom.1252
附带的基础包:
1统计图形 grDevices utils 数据集方法基础

enter image description here

最佳答案

我似乎已经找到了答案,但没有其他人发布过答案,所以就这样吧。

早些时候@kohske 评论说,一旦 Encoding() 代码对他有用电话已被删除。这让我想到他可能有日语语言环境,这反过来表明我的机器上存在语言环境问题,以某种方式影响 R - 即使 Perl 避免了这个问题。我重新校准了我的搜索并找到了 this question关于采购原始海报遇到类似问题的 UTF-8 文件。答案涉及切换语言环境。我进行了试验,发现将我的语言环境切换为日语似乎可以解决问题,如下图所示:

Output from updated R code

更新的 R 代码如下。

require(RCurl)
require(XML)

links <- list()
links[1] <- "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7203"
links[2] <- "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7201"

print(Sys.getlocale(category = "LC_CTYPE"))
original_ctype <- Sys.getlocale(category = "LC_CTYPE")
Sys.setlocale("LC_CTYPE","japanese")

txt <- getURL(links, .encoding = "UTF-8")

write.table(txt, "c:/geturl_r.txt", quote = FALSE, row.names = FALSE, sep = "\t", fileEncoding = "UTF-8")
Sys.setlocale("LC_CTYPE", original_ctype)

所以我们必须以编程方式处理语言环境。坦率地说,我有点尴尬,我们显然需要在 2012 年在 Windows 上使用这样的 R 语言。正如我上面提到的,相同版本的 Windows 和相同语言环境中的 Perl 以某种方式解决了这个问题,而无需我更改我的系统设置。

当然,上面更新后的 R 代码的输出是 HTML。对于那些感兴趣的人,下面的代码在剥离 HTML 和保存原始文本方面相当成功,尽管结果需要大量整理。
require(RCurl)
require(XML)

links <- list()
links[1] <- "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7203"
links[2] <- "http://stocks.finance.yahoo.co.jp/stocks/detail/?code=7201"

print(Sys.getlocale(category = "LC_CTYPE"))
original_ctype <- Sys.getlocale(category = "LC_CTYPE")
Sys.setlocale("LC_CTYPE","japanese")

txt <- getURL(links, .encoding = "UTF-8")
myhtml <- htmlTreeParse(txt, useInternal = TRUE)
cleantxt <- xpathApply(myhtml, "//body//text()[not(ancestor::script)][not(ancestor::style)][not(ancestor::noscript)]", xmlValue)

write.table(cleantxt, "c:/geturl_r.txt", col.names = FALSE, quote = FALSE, row.names = FALSE, sep = "\t", fileEncoding = "UTF-8")
Sys.setlocale("LC_CTYPE", original_ctype)

关于R:从使用 RCurl 抓取的网页中提取 "clean"UTF-8 文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11069908/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com