gpt4 book ai didi

java - 我不能只取字符串的一部分

转载 作者:行者123 更新时间:2023-12-01 13:12:00 25 4
gpt4 key购买 nike

我有C和java的基础知识。我必须创建一个java项目来读取这种形式的html文件

该文件采用 HTML 格式,我想要 <pre> 中包含相同的信息标签。文件内容如下:

<html>
<pre>


Extraction of Roots by Repeated Subtractions for Digital Computers<-- i wand to take this line the title

CACM December, 1958

Sugai, I. <--- and this line

CA581202 JB March 22, 1978 8:29 PM

2 5 2
2 5 2
2 5 2

</pre>
</html>

如果文件中有标题和作者,我只想获取它们。

我写了这段代码,但我无法接受作者。我得到了无用的信息

StringBuilder builder = new StringBuilder();
Element link;
String text,str,name,title,name2=null;
Document doc;
File in = new File("path");
doc = Jsoup.parse(in, null);
link = doc.select("pre").first();
text = doc.body().text();
String []lines = text.split("[\r\n]+");
for (String string : lines) {
if (builder.length() > 0) {
builder.append(" ");
}
builder.append(string);
}
str = builder.toString();
String[] strings = str.split(",");
title=strings[0];
name=strings[2];

最佳答案

只要您的所有文件都具有相同的格式,您就可以执行此操作。运行 getTxt 后,您可以访问数组中的第三个和第五个元素。或者您可以解析该文件。捕获 pre> 和日期之间的所有内容。然后捕捉数据和 CA581202 JB 1978 年 3 月 22 日晚上 8:29 的某种形式之间的关系。

static public ArrayList<String> getTxt(String urlString){
ArrayList<String> list=new ArrayList<String>();
//Access the page
try {
// Create a URL for the desired page
URL url = new URL(urlString);

// Read all the text returned by the server
BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream()));
String str;
while ((str = in.readLine()) != null) {
list.add(str);
// str is one line of text; readLine() strips the newline character(s)
}
in.close();
} catch (MalformedURLException e) {
} catch (IOException e) {
}
return list;
}

关于java - 我不能只取字符串的一部分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22780375/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com