- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我需要从包含至少 100K 记录的 PSV 文件中读取数据并将每一行映射到 DTO 对象。
例如我有一个管道分隔的字符串 SampleData|1111|9130|23||1257|2014-04-01 18:00:00|2014-04-12 09:00:00||软件开发人员|20|Vikas| |PATIL
将根据 DTO 值解析并提取每个标记。
我从 String Tokenizer 开始,它给了我正确的结果,直到我收到上面的字符串作为输入。
该字符串的特殊之处在于它在几个管道之间没有任何字符,例如|23||1257|
和 Vikas||PATIL
当我尝试使用标记器拆分它时,它给出的标记比我预期的要少。它只是忽略了空字符,结果是我将 1257 值分配给了phoneNumber,将InsertDaate 值分配给了regionCode。
我应该分配值,比如将 exampleData 分配给 dto 字段 dataType ,将 1111 分配给 recordID .. 并将 ''
分配给 phone Number
因为输入数据没有数据电话号码
,但在23
标记器将下一个标记读取为1257
,所以我为phonenumber分配了错误的值
字段。1257
谢天谢地,我只在测试环境中意识到了这个错误。
我尝试了几个选项,最终用 String.split() 方法解决了这个问题。
import java.util.StringTokenizer;
public class TestSpitingOfString {
public static void main(String args[]) throws Exception {
//DTO dataType|recordID|employeeid|deptID|phoneNumber|regionCode|InsertDate|StartDate|hobby|designation|age|firstName|middleName|lastName
String str = "SampleData|1111|9130|23||1257|2014-04-01 18:00:00|2014-04-12 09:00:00||Software Developer|20|Vikas||PATIL";
System.out.println("Original String -> "+str);
StringTokenizer tokenizer= new StringTokenizer(str,"|");// skips empty values between tokens
System.out.println("Words With StringTokenizer ");
while(tokenizer.hasMoreElements()){
System.out.print(tokenizer.nextToken()+",");
}
System.out.println();
String distributedWithPipe[] =str.split("|");// disaster :( it splitted every character
System.out.println("Words With String.split() distributedWithPipe character ->");
for(String split : distributedWithPipe){
System.out.print(split+",");
}
System.out.println();
String distributedWithEscapedPipe[] =str.split("\\|"); // This worked for me
System.out.println("Words With String.split() distributedWithEscapedPipe ->");
for(String split : distributedWithEscapedPipe){
System.out.print(split+",");
}
}
}
当我运行这个时,我得到输出(我在每个标记之间保留 , 只是为了理解目的):
Original String -> SampleData|1111|9130|23||1257|2014-04-01 18:00:00|2014-04-12 09:00:00||Software Developer|20|Vikas||PATIL
Words With StringTokenizer
SampleData,1111,9130,23,1257,2014-04-01 18:00:00,2014-04-12 09:00:00,Software Developer,20,Vikas,PATIL,
Words With String.split() distributedWithPipe character ->
,S,a,m,p,l,e,D,a,t,a,|,1,1,1,1,|,9,1,3,0,|,2,3,|,|,1,2,5,7,|,2,0,1,4,-,0,4,-,0,1, ,1,8,:,0,0,:,0,0,|,2,0,1,4,-,0,4,-,1,2, ,0,9,:,0,0,:,0,0,|,|,S,o,f,t,w,a,r,e, ,D,e,v,e,l,o,p,e,r,|,2,0,|,V,i,k,a,s,|,|,P,A,T,I,L,
Words With String.split() distributedWithEscapedPipe ->
SampleData,1111,9130,23,,1257,2014-04-01 18:00:00,2014-04-12 09:00:00,,Software Developer,20,Vikas,,PATIL,
我为什么问这个问题:
最佳答案
StringTokenizer
在其 javadoc 中说明了这种行为(尽管我承认它可能更清楚,取决于您如何解释“连续字符”):
An instance of StringTokenizer behaves in one of two ways, depending on whether it was created with the returnDelims flag having the value true or false:
If the flag is false, delimiter characters serve to separate tokens. A token is a maximal sequence of consecutive characters that are not delimiters.
If the flag is true, delimiter characters are themselves considered to be tokens. A token is thus either one delimiter character, or a maximal sequence of consecutive characters that are not delimiters.
阅读this bug in JDK Bug Database的评论(或this one):
StringTokenizer defines a token to be a maximal sequence of consecutive characters that are not delimiters. Thus there are no tokens in substring ",,".
然后您可以使用构造函数 StringTokenizer(String str, String delim, true)
但请注意,这将返回分隔符作为每个标记的一部分,因此您需要自己删除它们,这是一个很大的负担。
出于所有这些原因,最好只使用 String.split
。
关于java - 字符串标记化的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28630950/
虽然我在 reactjs 组件(组件名称为 renderLocationLink)的渲染方法返回的 html 中包含了 a 标签的 onclick 处理程序,但渲染正确地发生了 onclick 处理程
我必须以 docx 格式存储一些文档,但无法忍受使用 msword:我想编辑某种纯文本标记,除了基于 XML 的东西(我也不喜欢那样)和从/到那个到/从 docx 转换。 有什么选择吗? 编辑:由于人
有一个页面,其 anchor 标记在延迟后变得可点击。我想使用用户脚本在可点击后点击它。 页面加载时,HTML 源代码为: Download 延迟一段时间后,#button 变
我正在将 XML 文件解析为 pandas 数据帧。使用下面的代码我可以成功获取所有内容,但是这使用了完整 XML 的编辑版本。完整的 XML 在主数据表之上有一堆摘要数据,请参阅完整的 XML he
目前我正在研究 xml.sax 解析器来解析 xml 文件 假设我有以下代码 filepath = 'users/file.xml' try: parser = xml.sax.make_pa
我正在尝试构建一种语法来解释用户输入的文本,搜索引擎风格。它将支持 AND、OR、NOT 和 ANDNOT bool 运算符。我几乎所有东西都在工作,但我想添加一个规则,将引用字符串之外的两个相邻关键
我遇到了 Terraform EKS 标记的问题,并且似乎没有找到可行的解决方案来在创建新集群时标记所有 VPC 子网。 提供一些上下文:我们有一个 AWS VPC,我们在其中将多个 EKS 集群部署
我是xpath的新手,对此了解不多。我知道有一种方法可以使用xpath在xml / xhtml文件中查找特定标签。就我而言,我试图找到第一个(a)链接元素。不幸的是,我的xpath字符串[// a [
我在索引页上的产品卡上遇到问题。在产品卡内部,我有 Vue 组件来渲染表单(数量和添加到购物车按钮)。当我单击“添加到购物车”按钮时,我得到了预期的结果。响应被发送到根 vue 组件,然后我看到产品已
html setMouse(true)} onMouseEnter={() => setMouse(false)} className='resume-container'> CSS .resum
我在组件中有一组枚举,如下所示: type TOption = (clVisible, clVisibleAlways, clRenderable, clEditable); TOptions
是否有出于性能考虑的javadoc标签? 人们可以想象: /** * ...other javadoc tags... * @perform Expected to run in O(n) tim
html setMouse(true)} onMouseEnter={() => setMouse(false)} className='resume-container'> CSS .resum
我有一个包含多个小子图的图。目标是当且仅当子图中的所有节点都是蓝色时,才将子图中的所有蓝色节点标记为红色。如果子图中的一个节点具有不同的颜色,绿色,那么我们将不会更改该子图中节点的颜色。 这是我正在使
我正在使用 json-ld 开发事件标记以包含在确认电子邮件中。 我的一些事件会定期重复发生。但是,最新的 Schema.org 规范不支持重复发生的事件,因此我遵循了此处提供的建议:http://l
我创建了一个插件,可以添加带有相应行号的标记。现在,这很棒,因为它现在显示在“标记” View 中。有没有办法当我双击标记上的一行时,它会转到标记指示的行? 谢谢。 最佳答案 双击“标记” View
是否有一个插件具有与 Facebook 标记类似的行为? 它的特别之处在于它具有: 在键入的单词之间自动完成 特殊输出的 html(与另一个输入字段同步) 最佳答案 您可以使用jquery提及输入pl
有没有更好的方法来读取java文件中的 token ?我目前正在使用 StringTokenizer 来分割 token 。但在大多数情况下,它的效率可能非常低,因为您必须逐个 token 地读取 t
我想知道是否有某种方法可以标记文件来识别该文件是否包含x。 考虑以下示例: 在批量转换过程中,我正在创建一个日志文件,其中列出了各个转换的成功/失败。 所以流程如下: 开始转换过程 创建名为batch
我一直在尝试模拟点击标签,但这并没有像我需要的那样工作。我的 anchor 标记看起来像这样 Download this pic 正常的 $("a").click() 或 trigger('cli
我是一名优秀的程序员,十分优秀!