gpt4 book ai didi

html - 以纯文本格式从小节中获取数据

转载 作者:行者123 更新时间:2023-12-02 22:02:47 25 4
gpt4 key购买 nike

我正在使用Apache Nuch来爬网网站。当我使用readseg命令读取段中的内容时,我的格式如下:



有什么方法可以获取纯文本格式的网络数据?
when I am using readseg command on parse text I am getting in this way

最佳答案

readseg命令转储(默认情况下)从URL提取的原始内容。这是传输的整个HTML内容。如果要获取文本内容,则需要等到解析内容之后再进行操作。这意味着您需要执行整个爬网周期(或./bin/nutch parse命令)。

检查readseg命令(https://wiki.apache.org/nutch/bin/nutch_readseg)上的其他选项,如果您已经在执行解析步骤,则可能只关心解析后的内容,因此可以避免打印其他所有内容。

关于html - 以纯文本格式从小节中获取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50277420/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com