gpt4 book ai didi

java - 修复并规范来自互联网的奇怪数据

转载 作者:行者123 更新时间:2023-12-01 05:36:00 25 4
gpt4 key购买 nike

我做了一个网络爬虫,下载了很多页面,现在我需要处理它下载的数据。

问题是我的数据来自许多具有各种格式和错误类型的页面。

我希望能够修复一些错误的编码,删除所有不可打印的字符并用其他字符替换一些字符(例如:有很多引号字符。我想用常见的“替换”)。

还有很多事情要做。我想知道是否有一个库或一些我可以使用的东西,或者我需要我的解决方案来满足我的需求。

最佳答案

我知道您已经进行了一些抓取,但我仍然建议您在抓取时确保使用正确的编码存储数据。否则数据可能会在处理之前丢失。

对于字符替换,我会编写自己的实用程序类,其中包含内部使用正则表达式的较小的可测试过滤器方法。这些方法应该有自己的测试用例,以确保它们按预期工作。

关于java - 修复并规范来自互联网的奇怪数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8201845/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com