java - 如何修复 Java OutOfMemoryError : Java heap space from DataImportHandler?-6ren

java - 如何修复 Java OutOfMemoryError : Java heap space from DataImportHandler?

转载作者：搜寻专家更新时间：2023-10-30 19:44:52

我正在尝试将大型数据集(4100 万条记录)导入到新的 Solr 索引中。我已经设置了核心，它可以工作，我插入了一些测试文档，它们可以工作。我已经设置了 data-config.xml 如下，然后我开始完全导入。大约12小时后!导入失败。

文档大小可能会变得非常大，错误可能是由于文档(或字段)很大或由于进入 DataImportHandler 的数据量造成的？

我怎样才能使这个令人沮丧的导入任务正常工作!？!

我在下面包含了 tomcat 错误日志。

如果有任何我遗漏的信息，请告诉我!

日志:

Jun 1, 2011 5:47:55 PM org.apache.solr.handler.dataimport.JdbcDataSource$1 call
INFO: Creating a connection for entity results with URL: jdbc:sqlserver://myserver;databaseName=mydb;responseBuffering=adaptive;selectMethod=cursor
Jun 1, 2011 5:47:56 PM org.apache.solr.handler.dataimport.JdbcDataSource$1 call
INFO: Time taken for getConnection(): 1185
Jun 1, 2011 5:48:02 PM org.apache.solr.core.SolrCore execute
INFO: [results] webapp=/solr path=/dataimport params={command=full-import} status=0 QTime=0
...
Jun 2, 2011 5:16:32 AM org.apache.solr.common.SolrException log
SEVERE: Full Import failed:org.apache.solr.handler.dataimport.DataImportHandlerException: java.lang.OutOfMemoryError: Java heap space
    at org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:664)
    at org.apache.solr.handler.dataimport.DocBuilder.doFullDump(DocBuilder.java:267)
    at org.apache.solr.handler.dataimport.DocBuilder.execute(DocBuilder.java:186)
    at org.apache.solr.handler.dataimport.DataImporter.doFullImport(DataImporter.java:353)
    at org.apache.solr.handler.dataimport.DataImporter.runCmd(DataImporter.java:411)
    at org.apache.solr.handler.dataimport.DataImporter$1.run(DataImporter.java:392)
Caused by: java.lang.OutOfMemoryError: Java heap space
    at java.lang.StringCoding$StringDecoder.decode(Unknown Source)
    at java.lang.StringCoding.decode(Unknown Source)
    at java.lang.String.<init>(Unknown Source)
    at java.lang.String.<init>(Unknown Source)
    at com.microsoft.sqlserver.jdbc.DDC.convertStreamToObject(DDC.java:419)
    at com.microsoft.sqlserver.jdbc.ServerDTVImpl.getValue(dtv.java:1974)
    at com.microsoft.sqlserver.jdbc.DTV.getValue(dtv.java:175)
    at com.microsoft.sqlserver.jdbc.Column.getValue(Column.java:113)
    at com.microsoft.sqlserver.jdbc.SQLServerResultSet.getValue(SQLServerResultSet.java:1982)
    at com.microsoft.sqlserver.jdbc.SQLServerResultSet.getValue(SQLServerResultSet.java:1967)
    at com.microsoft.sqlserver.jdbc.SQLServerResultSet.getObject(SQLServerResultSet.java:2256)
    at com.microsoft.sqlserver.jdbc.SQLServerResultSet.getObject(SQLServerResultSet.java:2265)
    at org.apache.solr.handler.dataimport.JdbcDataSource$ResultSetIterator.getARow(JdbcDataSource.java:286)
    at org.apache.solr.handler.dataimport.JdbcDataSource$ResultSetIterator.access$700(JdbcDataSource.java:228)
    at org.apache.solr.handler.dataimport.JdbcDataSource$ResultSetIterator$1.next(JdbcDataSource.java:266)
    at org.apache.solr.handler.dataimport.JdbcDataSource$ResultSetIterator$1.next(JdbcDataSource.java:260)
    at org.apache.solr.handler.dataimport.EntityProcessorBase.getNext(EntityProcessorBase.java:78)
    at org.apache.solr.handler.dataimport.SqlEntityProcessor.nextRow(SqlEntityProcessor.java:75)
    at org.apache.solr.handler.dataimport.EntityProcessorWrapper.nextRow(EntityProcessorWrapper.java:238)
    at org.apache.solr.handler.dataimport.DocBuilder.buildDocument(DocBuilder.java:591)
    ... 5 more

Jun 2, 2011 5:16:32 AM org.apache.solr.update.DirectUpdateHandler2 rollback
INFO: start rollback
Jun 2, 2011 5:16:44 AM org.apache.solr.update.DirectUpdateHandler2 rollback
INFO: end_rollback

数据配置.xml:

<dataConfig> 
  <dataSource type="JdbcDataSource" 
        driver="com.microsoft.sqlserver.jdbc.SQLServerDriver" 
        url="jdbc:sqlserver://myserver;databaseName=mydb;responseBuffering=adaptive;selectMethod=cursor"   
        user="sa" 
        password="password"/> 
  <document> 
    <entity name="results" query="SELECT fielda, fieldb, fieldc FROM mydb.[dbo].mytable WITH (NOLOCK)"> 
      <field column="fielda" name="fielda"/><field column="fieldb" name="fieldb"/><field column="fieldc" name="fieldc"/> 
    </entity> 
  </document> 
</dataConfig>

solrconfig.xml 片段:

<indexDefaults>
    <useCompoundFile>false</useCompoundFile>
    <mergeFactor>25</mergeFactor>
    <ramBufferSizeMB>128</ramBufferSizeMB>
    <maxFieldLength>100000</maxFieldLength>
    <writeLockTimeout>10000</writeLockTimeout>
    <commitLockTimeout>10000</commitLockTimeout>
  </indexDefaults>
  <mainIndex>
    <useCompoundFile>false</useCompoundFile>
    <ramBufferSizeMB>128</ramBufferSizeMB>
    <mergeFactor>25</mergeFactor>
     <infoStream file="INFOSTREAM.txt">true</infoStream>
  </mainIndex>

Java 配置设置:初始内存 128mb，最大 512mb

环境: 解决方案 3.1 Tomcat 7.0.12 window 服务器 2008 java: v6 更新 25 (build 1.6.0_25-b06) (数据来自:sql 2008 r2)

/admin/stats.jsp - DataImportHandler
    Status : IDLE
    Documents Processed : 2503083
    Requests made to DataSource : 1
    Rows Fetched : 2503083
    Documents Deleted : 0
    Documents Skipped : 0
    Total Documents Processed : 0
    Total Requests made to DataSource : 0
    Total Rows Fetched : 0
    Total Documents Deleted : 0
    Total Documents Skipped : 0
    handlerStart : 1306759913518
    requests : 9
    errors : 0

编辑:我目前正在运行一个 sql 查询来找出最大的单个记录的字段长度，因为我认为这可能是异常的原因。此外，使用 jconsole 再次运行导入以监控堆使用情况。

编辑:阅读solr performance factors page .将 maxFieldLength 更改为 1000000 并更改 ramBufferSizeMB = 256。现在进行另一次导入运行(耶...)

最佳答案

Caused by: java.lang.OutOfMemoryError: Java heap space
    at java.lang.StringCoding$StringDecoder.decode(Unknown Source)
    at java.lang.StringCoding.decode(Unknown Source)
    at java.lang.String.<init>(Unknown Source)
    at java.lang.String.<init>(Unknown Source)
    at com.microsoft.sqlserver.jdbc.DDC.convertStreamToObject(DDC.java:419)

很明显，MS JDBC 驱动程序内存不足。许多 JDBC 驱动程序可以默认在内存中一次获取所有结果。所以看看这是否可以调整或考虑使用开源 JTDS 驱动程序，它通常表现得更好

我不相信 maxfieldlength 会对你有帮助 - 这会影响 Lucene 截断的量，但不会影响最初传输的量。另一种选择是一次只传输一个选择，比如 100 万，使用 TOP 和 ROWNUMBER 等进行分页。

关于java - 如何修复 Java OutOfMemoryError : Java heap space from DataImportHandler?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/6208797/

文章推荐： java - Android/Java -- 如何创建HTTPS连接？

文章推荐： database - db4o 问题

文章推荐： database - 你如何实现截断的 sha1 数据库 key ？

docker - 为什么 "Data Space Used"+ "Data Space Available"!= "Data Space Total"在 docker 中？
我系统上的docker info命令输出如下: # docker info Containers: 0 Images: 0 Storage Driver: devicemapper ..... D
c++ - 如何捕获 CTRL + SPACE + SPACE 按键
我如何捕获用户按下 ctrl + space + space？我用这段代码成功测试了ctrl + space: RegisterHotKey(0, 1, MOD_CONTROL, VK_SPACE)
Matlab cdfplot : how to control the spacing of the marker spacing
我有一个 Matlab 图，我想在论文中使用。此图包含多个 cdfplots。现在的问题是我不能使用标记，因为在情节中变得非常密集。如果我想让样本稀疏，我必须从 cdfplot 中删除一些样本，这将导
linux - grep:字符类语法是 [[:space:]]，而不是 [:space:]
我正在尝试获取我将用于备份的服务器上所有数据库的列表。以下是我尝试打印数据库列表但出现错误的代码片段。如何解决？添加双方括号并不能解决问题。我已经研究了一些类似的问题，但我无法弄清楚。 grep:字
java - jmap中显示的 "From Space"和 "To Space"是什么意思？
我了解 new gen/old gen/perm gen 之间的区别，但我不知道“To Space”和“From Space”是什么。我看到我的“From Space”使用率达到 99.8%，而“To
c# - 使用正则表达式迭代字符串并搜索 3 个连续的连字符并将其替换为 [space][hyphen][space]
我当前有一个返回时看起来像这样的字符串: //This is the url string // the-great-debate---toilet-paper-over-or-under-the-r
regex - 正则表达式查找破折号的实例，但不是 dash 的实例
我太亲密了。我正在尝试编写用于Notepad++的正则表达式表达式，以用空格替换破折号，而忽略已经用前置/后置空格代替的破折号。我知道我可以用“foobarfoo”搜索/替换“-”，然后搜索“-”替换
ANTLR : How to replace all characters defined as space with actual space
我的 ANTLR 代码如下: LPARENTHESIS : ('('); RPARENTHESIS : (')'); fragment CHARACTER : ('a'..'z'|'0'..'9'|)
javascript - 3d 数学 : screen space to world space
在过去的 6 个小时里，我一直在尝试在我的 webgl 应用程序中实现点击，但我找不到任何关于这个主题的足够清晰的内容。到目前为止，我想出的是伪代码: screenSpace = mousePosi
regex - 正则表达式 : find spaces (tabs/space), 但不是换行符
如何使用正则表达式来测试空格或制表符，但不测试换行符？我尝试了 \s，但我发现它也测试换行符。我使用C# (.NET) 和 WPF ，但这应该不重要。最佳答案使用字符类:[\t] 关于rege
c - 如何让 Ragel 解析由 (space* ":"space*) 分隔的两个名称？
我想解析以下内容: name:name 名称以字母开头和结尾，并且可以包含字母和空格的任意组合。它们也可以是空白的。我的规则是: identifier = alnum (space* alnum)*;
java - 如何使 Eden Space 大小加倍 Tenured Space
有什么办法可以让 Eden 空间按比例大于 Tenured 空间吗？有 NewRatio 但它以相反的方式工作(Tenured 比 Eden 大几倍)。我知道有 -XX:NewSize= 和 -XX
java - : Allow only letters and spaces but not start with space? 的正则表达式是什么
我正在编写一个程序，让人们输入他们的信息(姓名，年龄......)。对于姓名输入，我不希望他们留空，只允许字母和空格，但不能以空格开头。合适的正则表达式是什么？我尝试使用: ^[a-zA-Z\\s]*
java - 使用 for 循环更新总和(例如 spaces = spaces + 2)
好的，我正在制作一个程序，它也可以制作垂直线、水平线和对角线!我对我的一个没有任何意义的输出感到困惑。所以我的伪代码是这样的: //enter a char //enter a number
linux - 如何操作名为 [space][space]. 的 linux 文件？
当我使用 scp 从服务器复制文件时，我错误地使用了命令 scp xxx@xxxx:xx.zip . 当我完成后，我发现该文件的名称是 .我无法解压这是目录列表。 http://pfil
Windows批处理文件获取C :\drive total space and free space available
我需要一个 bat 文件来获取 Windows 系统中 C:\驱动器的总空间和可用空间(以 GB(千兆字节)为单位)，并创建一个包含详细信息的文本文件。注意:我不想使用任何外部实用程序。最佳答案
python : replacing a space after numbers keeping space after letters
作为预处理我的数据的一部分。我希望能够替换空格后跟数字，同时保留空格后跟一个字符。例如: Input String: '8.1.7 Sep 2000 Dec 2004 Dec 2006 Indefin
xpath - normalize-space(.) 和 normalize-space(text()) 有什么区别？
我正在编写一个 XPath 表达式，但我修复了一个奇怪的错误，但是以下两个 XPath 表达式之间有什么区别？ "//td[starts-with(normalize-space()),'Posted
我可以从 C 中的文本文件中读取 int 吗，如果我知道会有 (space)###(space)
在 C 中，当读取文本文件时，是否有可能接受一个未知大小的整数值(假设它适合 int)，因为它在数字之前和数字之后都有一个空格。例如。 363 865我想分别存储 363 和 865，因为它们有自己的
ios - osx 上的 ‘I Space’ 和 ‘D Space’ 是什么以及它们之间的区别
在 sys/ptrace.h 中，我看到类似这样的内容: @define PT_READ_I 1 /* read world in child's I space*/ @define PT_READ

搜寻专家

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

java - 如何修复 Java OutOfMemoryError : Java heap space from DataImportHandler?