gpt4 book ai didi

python - 在 C 中使用 scrapy 嵌入 Python 时出现段错误

转载 作者:行者123 更新时间:2023-11-30 16:56:14 25 4
gpt4 key购买 nike

我目前正在尝试从 C 代码运行一些 scrapy 蜘蛛(在 Python 中),但在测试时我不断遇到段错误。

我有这段代码,允许我从 c 运行一个简单的 python 函数:

    int main() {
PyObject *retour, *module, *fonction, *arguments;
char *resultat;

Py_Initialize();
PySys_SetPath(".");
module = PyImport_ImportModule("test");
fonction = PyObject_GetAttrString(module, "hellowrld);

arguments = Py_BuildValue("(s)", "hello world");
retour = PyEval_CallObject(fonction, arguments);
PyArg_Parse(retour, "s", &resultat);
printf("Resultat: %s\n", resultat);

Py_Finalize();
return 0;
}

如果我调用 test.py 中的 hellowrld 函数

def hellowrld(arg):
return arg + '!!'

它会正常工作,但我正在尝试从此代码运行函数 runningpider_with_url :

    # -*- coding: utf-8 -*-
import scrapy
from scrapy.crawler import CrawlerProcess
import lxml.etree
import lxml.html

class GetHtmlSpider(scrapy.Spider):
name = "getHtml"
def __init__(self, var_url=None, *args, **kwargs):
super(GetHtmlSpider, self).__init__(*args, **kwargs)
self.start_urls = [var_url]
def parse(self,response):
root = lxml.html.fromstring(response.body)
print lxml.html.tostring(root)
def runspider_with_url(var_url):
process = CrawlerProcess({
'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})
process.crawl(GetHtmlSpider,var_url=var_url)
process.start()
return "It works!!"

当我尝试执行它时,我不断收到段错误错误

我尝试将其添加到我的 python 末尾

foo = runspider_with_url("http://www.google.com/")
print foo

当我使用以下命令在 bash 中执行此调用时,此调用有效:

python -c 'import get_html; get_html.runspider_with_url("https://www.wikipedia.org")'

所以我可以要求我的 C 程序用 bash 执行 python,并将结果写入 .txt,但我不愿意。

谢谢

最佳答案

PyArg_Parse(retour, "s", &resultat); 处存在段错误,因为脚本引发异常且 retour 为 NULL。将其包装在一些错误检测中后,问题是 PySys_SetPath("."); 替换了现有的 sys.path 所以像 scrapy无法再导入。因此,我通过快速调用插入 sys.path 中的 python 代码来解决这个问题。在此过程中添加额外的错误处理,您将得到

#include <stdio.h>
#include <stdlib.h>
#include <Python.h>

int main() {
PyObject *retour, *module, *fonction, *arguments;
char *resultat;

printf("starting\n");

Py_Initialize();
//PySys_SetPath(".");
if(PyRun_SimpleString("import sys;sys.path.insert(0, '.')"))
{
printf("path expansion failed\n");
return(2);
}

module = PyImport_ImportModule("test");
if(module == NULL) {
printf("import failed\n");
PyErr_Print();
return(2);
}

fonction = PyObject_GetAttrString(module, "runspider_with_url");
if(fonction == NULL) {
printf("could not find function\n");
return(2);
}

arguments = Py_BuildValue("(s)", "hello world");
if(arguments == NULL) {
printf("arg parsing failed\n");
return(2);
}

printf("Calling\n");
retour = PyEval_CallObject(fonction, arguments);
printf("Returned\n");

// note: need to release arguments
Py_DECREF(arguments);

if(retour == NULL) {
printf("It all went wrong\n");
PyErr_Print();
return(2);
}

PyArg_Parse(retour, "s", &resultat);
printf("Resultat: %s\n", resultat);

Py_Finalize();
return 0;
}

关于python - 在 C 中使用 scrapy 嵌入 Python 时出现段错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39981373/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com