python - Writer.add_document() 函数错误 Whoosh

python - Writer.add_document() 函数错误 Whoosh - mysql 循环

转载作者：行者123 更新时间：2023-11-28 23:56:01

34

4

我正在尝试从以 latin1 编码的数据库中索引大量文章。我已经解决了字符集的编码问题，但我无法将每一行添加到索引中。

我试过:1)

writer.add_document(Id = unicode(row["Id"]),Body = unicode(row["Body"]), Name = unicode(row["Name"]), Brand = unicode(row["Brand"]), Familia = unicode(row["Familia"]))

这索引文档但不尊重索引标签。

2)

writer.add_document(doc)

此报告 add_document() 正好接受 1 个参数(给定 2 个)错误

完整代码:

# Open a writer for the index
with ix.writer() as writer:

con= mdb.connect(host="myhost",
                      user="myuser",
                      passwd="pass",
                      db="db",
                      charset="utf8",
                      use_unicode=True)
with con:

    cur = con.cursor(mdb.cursors.DictCursor)
    #cur.execute("SELECT  Id, Body, Name, Brand, Familia FROM articles")
    rows = cur.fetchall()
    for row in rows:
        print row
        doc6 = row["Brand"]
        doc2 = row["Name"]
        print doc2
        print 'body'
        doc3 = row["Body"].replace("&aacute;", "a")
        doc3 = doc3.replace("&eacute;", "e")
        doc3 = doc3.replace("&iacute;", "i")
        doc3 = doc3.replace("&oacute;", "o")
        doc3 = doc3.replace("&uacute;", "u")
        doc3 = doc3.replace("&ntilde;", "n")
        doc3 = doc3.replace("&quot;", "")
        print doc3
        print 'familia'
        doc4 = row["Familia"]
        print doc4
        print 'id'
        doc5 = row["Id"]
        print doc5

        writer.add_document(Id = unicode(row["Id"]),Body = unicode(row["Body"]), Name = unicode(row["Name"]), Brand = unicode(row["Brand"]), Familia = unicode(row["Familia"]))
       #
       # doc = unicode(doc5),unicode(doc3), unicode(doc2), unicode(doc6), unicode(doc4)
       # writer.add_document(doc) #reports add_document() takes exactly 1 argument (2 given) Error
       #writer.add_document(Id = unicode(doc5),Body = unicode(doc3), Name = unicode(doc2), Brand = unicode(doc6), Familia = unicode(doc4))


numdocs = ix.doc_count_all()
print "docs indexed =", numdocs

提前谢谢大家!

最佳答案

这样解决的:

with con:

   cur = con.cursor(mdb.cursors.DictCursor)
   #cur.execute("SELECT  Id, Body, Name, Brand, Familia FROM articles")
   rows = cur.fetchall()
   for row in rows:
         #print row
         row["Body"]= row["Body"].replace("&aacute;", "a")
         row["Body"]= row["Body"].replace("&eacute;", "e")
         row["Body"]= row["Body"].replace("&iacute;", "i")
         row["Body"]= row["Body"].replace("&oacute;", "o")
         row["Body"]= row["Body"].replace("&uacute;", "u")
         row["Body"]= row["Body"].replace("&ntilde;", "n")
         row["Body"]= row["Body"].replace("&quot;", "")

         writer.add_document(Id=unicode(row["Id"]),
                        Body=unicode(row["Body"]),
                        Name=unicode(row["Name"]),
                        Brand=unicode(row["Brand"]),
                        Familia=unicode(row["Familia"]),
                        Relevancia=row["Relevancia"])

numdocs = ix.doc_count_all()
print "docs indexed =", numdocs

特别感谢Whoosh团队，耐心友好的解决了我所有的疑惑。

关于python - Writer.add_document() 函数错误 Whoosh - mysql 循环，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31651906/

34

4

0

文章推荐： ios - 如何更新模型类？

文章推荐： c# MySqlConnector 查询和 FOUND_ROWS()

文章推荐： php - 将第二个数据库表添加到查询并输出与另一个同名的列

文章推荐： PHPWord 用mysql 表数据填充.docx 模板

python whoosh 索引大文件的时间太长
我有一个包含约 900 万行的 CSV 文件。我希望能够快速从该文件中搜索一行。我决定使用 python whoosh 来索引这些数据，然后搜索它，如下所示。 schema = Schema(cont
python - Whoosh 返回空值
我正在使用 Whoosh 索引和搜索各种编码的各种文本。但是，在对我的索引文件执行搜索时，一些匹配结果没有出现在使用“突出显示”功能的输出中。我觉得这与编码错误有关，但我无法弄清楚是什么阻止了所有结果
Python:Whoosh 似乎返回不正确的结果
此代码直接来自 Whoosh 的 quickstart docs : import os.path from whoosh.index import create_in from whoosh.fie
Python Whoosh - 合并结果
感谢您花时间提前回答这个问题。我对 Python (3.6) 和 Whoosh (2.7.4) 都比较陌生，所以如果我遗漏了一些明显的东西，请原谅我。 Whoosh 2.7.4 — 合并结果错误我正
python - Whoosh 有多快？
Whoosh 是一个用纯 Python ( official website) 实现的快速、功能强大的全文索引和搜索库。但我找不到与其他搜索引擎相比的任何速度/性能比较，尤其是基于 Lucene 的
python - Whoosh 索引查看器
我正在使用带有 whoosh 的 haystack 作为 Django 应用程序的后端。有什么方法可以查看whoosh生成的索引的内容(以易于阅读的格式)？我想看看索引了哪些数据以及如何索引，以便更
Django haystack 和 whoosh
有没有人有使用django-haystack的经验与 whoosh后端？我希望将它用于分类的实时搜索类型工具。在生产环境中是否足够快速/高效以避免设置 solr或 xapian ? 最佳答案作为一
Django Haystack Whoosh 后端和部分搜索
我正在使用 django haystack 1.27。我可以搜索。那太棒了。但我怎样才能搜索部分单词呢？例如: 搜索:OREM、OR、EM 单词:LOREM 结果:LOREM 搜索索引.py cla
Django-Haystack + Whoosh - 重建索引后的空索引
我正在尝试结合使用 Haystack 和 Whoosh 在我的应用程序中编制索引和搜索。当我重建索引时，我得到了这个结果: All documents removed. Updating backen
python - Haystack Whoosh 拼写建议太贪婪
这个问题是关于 Django Haystack 的，带有 Whoosh 后端。我想在搜索中使用拼写建议。问题是它暗示的太多了。假设我有两个模型:苹果和橙子。如果我有这样的东西: result =
python - 构建 Whoosh 索引时超出最大递归深度
我正在尝试使用 Whoosh 索引一些文档。然而，当我尝试将文档添加到 Whoosh 索引时，Python 最终返回以下错误: RecursionError: maximum recursion de
python - Whoosh (Python) 在哪里物理存储索引内容？
我开始研究内容索引的实现，并且看了一下 Whoosh ( https://pypi.python.org/pypi/Whoosh/ )。我很想知道 Whoosh 将其内容物理存储在哪里 - 它使用文
python - 精确匹配 whoosh 中的多个单词
默认情况下，多词搜索被拆分成文件，每个词单独存在。我怎样才能覆盖这个默认值并快速搜索完全匹配的内容？尽管它很可能受支持，但我在 google/whoosh 文档中找不到。此外，与相同的多词搜索相比，
python - 无法安装 whoosh alchemy
我似乎一辈子都无法安装 whoosh alchemy。引用:http://pythonhosted.org/Flask-WhooshAlchemy/ .不管怎样，我在关注http://blog.mig
python - 用数字搜索 - python - whoosh
我已经用这样的模式为我的所有文档编制了索引: ID = ID(stored=True) Body = TEXT(analyzer=StemmingAnalyzer(), stored=False,fi
python - 我可以在搜索时得到每个文档的 whoosh 计算的分数吗？
我正在尝试实现 Okapi BM25 以使用 python 通过查询搜索文档 whoosh图书馆。我的理解是whoosh根据query使用BM25计算每篇文档的score，然后排序得到最好的结果。
python whoosh IndexingError 中断时出现
这个奇怪的错误是在我中断了 whoosh 提交过程后出现的。当我现在尝试 promise 时，我得到了 File "/usr/local/lib/python2.7/dist-packages/w
python - Whoosh NestedChildren 搜索未返回所有结果
我正在创建一个必须支持嵌套数据层次结构的搜索索引。出于测试目的，我正在制作一个非常简单的架构: test_schema = Schema( name_ngrams=NGRAMWORDS(min
python - 如何在 Whoosh 上突出显示搜索
我使用了来自 pythonhosted.org 的示例代码，但似乎没有发生任何事情。这是我使用的代码: results = mysearcher.search(myquery) for hit in
python - 如何使用 Whoosh 获取文档内容的词袋表示？
我有一个如下所示的索引架构: schema = Schema( title=TEXT(stored=True), content=TEXT, id=ID, topicI

首页

博学

6Ren·AI

商城

python - Writer.add_document() 函数错误 Whoosh - mysql 循环