gpt4 book ai didi

读取SGML文件的Java代码

转载 作者:行者123 更新时间:2023-11-30 05:05:52 25 4
gpt4 key购买 nike

我正在做关于文本分类的项目。我为我的信息检索项目准备了一个名为Reuters-21578 的文本分类测试集合。它分布在 22 个文件中。前 21 个文件(reut2-000.sgm 到 reut2-020.sgm)均包含 1000 个文档,而最后一个文件(reut2-021.sgm)包含 578 个文档。这些文件采用 SGML 格式。这 22 个文件中的每一个都以文档类型声明行开头: DTD 文件 lewis.dtd 包含在发行版中。文档类型声明行后面是标有 SGML 标签的个别路透社文章。

我需要帮助编写一个 java 程序来读取这 21578 个文档或将它们转换为 21578 个单独的文本文件。

有人可以帮我吗???

最佳答案

经过大约五分钟的谷歌搜索,似乎没有免费的 Java SGML 解析器。这相当令人惊讶,但就是这样。

我建议您获取 James Clark 的 SX工具,来自SP包,它不是 Java,而是 portable C ,并使用它将 SGML 转换为 XML。然后您可以使用 Java XML 解析器解析 XML。

关于读取SGML文件的Java代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5114076/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com