- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用Scrapy从网站和mongodb获取数据以实现持久性,并使用Elasticsearch进行搜索。
我的问题是,当Scrapy将数据插入Mongodb时,即使将侦听器设置为插入,更新和删除,Elasticsearch也不知道。
我是否应该为Scrapy添加一个新插件以直接与Elasticsearch通信,如果是,为什么监听器不监听数据库发生了什么?谢谢!
最佳答案
elasticsearch中的河流已弃用。
试试这个,您可以使用transporter在mongodb和elasticsearch之间同步数据。
How To Sync Transformed Data from MongoDB to Elasticsearch with Transporter
安装Go
为了安装compose传输器,我们需要安装Go语言。
sudo apt-get install golang
在$ HOME目录中为Go创建一个文件夹:
mkdir ~/go; echo "export GOPATH=$HOME/go" >> ~/.bashrc
更新路径:
echo "export PATH=$PATH:$HOME/go/bin:/usr/local/go/bin" >> ~/.bashrc
现在转到$ GOPATH目录并创建子目录src,pkg和bin。这些目录构成Go的工作空间。
cd $GOPATH
mkdir src pkg bin
安装传输器
mkdir -p $GOPATH/src/github.com/compose
cd $GOPATH/src/github.com/compose
这是将安装compose / transporter的位置。
git clone https://github.com/compose/transporter.git
移至新目录:
cd transporter
取得/ usr / lib / go目录的所有权:
sudo chown -R $USER /usr/lib/go
确保已为GCC安装了build-essential:
sudo apt-get install build-essential
运行go get命令以获取所有依赖项:
go get -a ./cmd/...
此步骤可能需要一段时间,因此请耐心等待。一旦完成,就可以构建Transporter。
go build -a ./cmd/...
如果一切顺利,它将完成而不会出现任何错误或警告。通过运行以下命令,检查传输器是否正确安装:
transporter
至此安装完成。
cd ~/go/src/github.com/compose/transporter
配置文件
mv test/config.yaml test/config.yaml.00
新文件与此类似,但是更新了一些URI和其他一些设置以匹配我们服务器上的内容。让我们从此处复制内容,然后粘贴到新的config.yaml文件中。再次使用nano编辑器。
nano test/config.yaml
将以下内容复制到文件中。完成后,如前所述保存文件。
# api:
# interval: 60s
# uri: "http://requestb.in/13gerls1"
# key: "48593282-b38d-4bf5-af58-f7327271e73d"
# pid: "something-static"
nodes:
localmongo:
type: mongo
uri: mongodb://localhost/foo
tail: true
es:
type: elasticsearch
uri: http://localhost:9200/
timeseries:
type: influx
uri: influxdb://root:root@localhost:8086/compose
debug:
type: file
uri: stdout://
foofile:
type: file
uri: file:///tmp/foo
申请文件
nano test/application.js
用下面显示的内容替换文件的样本内容:
Source({name:"localmongo", namespace:"foo.bar"})
.transform({filename: "transformers/addFullName.js", namespace: "foo.bar"})
.save({name:"es", namespace:"foo.bar"});
转换文件
nano test/transformers/addFullName.js
将以下内容粘贴到文件中。如前所述保存并退出。
module.exports = function(doc) {
console.log(JSON.stringify(doc)); //If you are curious you can listen in on what's changed and being copied.
doc._id = doc.data._id['$oid'];
doc["fullName"] = doc["firstName"] + " " + doc["lastName"];
return doc
}
第一行是解决Transporter处理MongoDB的ObjectId()字段的方式所必需的。第二行告诉Transporter将mongoDB的firstName和lastName串联起来以形成ES的fullName。
cd ~/go/src/github.com/compose/transporter
执行以下命令以同步数据:
transporter run --config ./test/config.yaml ./test/application.js
关于mongodb - Scrapy MongoDB和Elasticsearch同步,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21634527/
我正在实现 IMAP 客户端,但 IMAP 邮箱同步出现问题。 首先,可以从 IMAP 服务器获取新邮件,但我不知道如何从邮箱中查找已删除的邮件。 我是否应该从服务器获取所有消息并将其与本地数据进行比
我研究线程同步。当我有这个例子时: class A { public synchronized void methodA(){ } public synchronized void met
嗨,我做了一个扩展线程的东西,它添加了一个包含 IP 的对象。然后我创建了该线程的两个实例并启动它们。他们使用相同的列表。 我现在想使用 Synchronized 来阻止并发更新问题。但它不起作用,我
我正在尝试使用 FTP 定期将小数据文件从程序上传到服务器。用户从使用 javascript XMLHttpRequest 函数读取数据的网页访问数据。这一切似乎都有效,但我正在努力解决由 FTP 和
我不知道如何同步下一个代码: javascript: (function() { var s2 = document.createElement('script'); s2.src =
关闭。这个问题需要更多focused .它目前不接受答案。 想改进这个问题吗? 更新问题,使其只关注一个问题 editing this post . 关闭 7 年前。 Improve this qu
一 点睛 1 Message 在基于 Message 的系统中,每一个 Event 也可以被称为 Message,Message 是对 Event 更高一个层级的抽象,每一个 Message 都有一个
一 点睛 1 Message 在基于 Message 的系统中,每一个 Event 也可以被称为 Message,Message 是对 Event 更高一个层级的抽象,每一个 Message 都有一个
目标:我所追求的是每次在数据库中添加某些内容时(在 $.ajax 到 Submit_to_db.php 之后),从数据库获取数据并刷新 main.php(通过 draw_polygon 更明显)。 所
我有一个重复动画,需要与其他一些 transient 动画同步。重复动画是一条在屏幕上移动 4 秒的扫描线。当它经过下面的图像时,这些图像需要“闪烁”。 闪烁的图像可以根据用户的意愿来来去去和移动。它
我有 b 个块,每个块有 t 个线程。 我可以用 __syncthreads() 同步特定块中的线程。例如 __global__ void aFunction() { for(i=0;i #
我正在使用azure表查询来检索分配给用户的所有错误实体。 此外,我更改了实体的属性以声明该实体处于处理模式。 处理完实体后,我将从表中删除该实体。 当我进行并行测试时,可能会发生查询期间,一个实体已
我想知道 SQLite 是如何实现它的。它基于文件锁定吗?当然,并不是每个访问它的用户都锁定了整个数据库;那效率极低。它是基于多个文件还是仅基于一个大文件? 如果有人能够简要概述一下 sqlite 中
我想post到php,当id EmpAgree1时,然后它的post变量EmpAgree=1;当id为EmpAgree2时,则后置变量EmpAgree=2等。但只是读取i的最后一个值,为什么?以及如何
CUBLAS 文档提到我们在读取标量结果之前需要同步: “此外,少数返回标量结果的函数,例如 amax()、amin、asum()、rotg()、rotmg()、dot() 和 nrm2(),通过引用
我知道下面的代码中缺少一些内容,我的问题是关于 RemoteImplementation 中的同步机制。我还了解到该网站和其他网站上有几个关于 RMI 和同步的问题;我在这里寻找明确的确认/矛盾。 我
我不太确定如何解决这个问题......所以我可能需要几次尝试才能正确回答这个问题。我有一个用于缓存方法结果的注释。我的代码目前是一个私有(private)分支,但我正在处理的部分从这里开始: http
我对 Java 非常失望,因为它不允许以下代码尽可能地并发移动。当没有同步时,两个线程会更频繁地切换,但是当尝试访问同步方法时,在第二个线程获得锁之前以及在第一个线程获得锁之前再次花费太长时间(比如
过去几周我一直在研究java多线程。我了解了synchronized,并理解synchronized避免了多个线程同时访问相同的属性。我编写此代码是为了在同一线程中运行两个线程。 val gate =
我有一个关于 Java 同步的简单问题。 请假设以下代码: public class Test { private String address; private int age;
我是一名优秀的程序员,十分优秀!