mysql - 通过 mysql 删除 mediawiki 垃圾邮件用户-6ren

mysql - 通过 mysql 删除 mediawiki 垃圾邮件用户

转载作者：行者123 更新时间：2023-11-30 21:30:10

25

4

与 MediaWiki 1.31 一样，没有用于批量删除垃圾邮件用户的扩展(仅 manual merge & delete)。我们会通过 MySQL 删除用户，但是有警告说这种方法可能会因为引用表而破坏你的数据库。删除用户表/行时，有没有办法确保没有引用受到损害？有什么经验或建议吗？

最佳答案

今天我遇到了旧 Mediawiki 1.23 的问题，并进行了一些搜索。

根据上面的信息，我做了一些实验。

首先我想评估一下损失:

外部链接

select  count(*) from externallinks

select convert(el_to using utf8) as href 
from externallinks l

那里有大约 150.000 个外部链接

查询用户信息的 SQL 查询

select 
  convert(user_name using utf8) as name,
  convert(user_touched using utf8) as time,
  user_editcount 
from user 
order by 2 desc

在我的案例中，所有 SPAM 用户都在同一时间段内创建。

通过页面、修订、文本和用户表进行联接的 SQL 查询。

select 
  convert(u.user_name using utf8) as username,
  p.page_id,
  convert(p.page_title using utf8) as pagetitle,
  r.rev_user as userid,
  convert(t.old_text using utf8) as text
from page p
inner join revision r
  on p.page_id=r.rev_page
inner join user u
  on r.rev_user=u.user_id  
inner join text t
  on r.rev_text_id=t.old_id

用于查找每个用户的修订数量的 SQL 查询:

select count(*),u.user_id,convert(u.user_name using utf8) as username
from revision r
inner join user u
on r.rev_user=u.user_id
group by 2
order by 1 desc

在我的例子中，幸运的是，所有“好”的页面都是由一个 user_id=1 的用户创建的，所以我可以通过以下方式评估损害:

select count(*) as textcount from text where old_id in (select rev_text_id from revision where not rev_user in (1));

结果给我超过 50 万次点击，这意味着最好逐步删除:

select count(*) as textcount from text where old_id in (select rev_text_id from revision where not rev_user in (1)); 
set autocommit=0;
start transaction;
delete from text where old_id in (select rev_text_id from revision where not rev_user in (1)) limit 2000; 
commit;

请注意，2000 的限制已经导致大约 2 分钟的运行时间。所以我必须运行上面的 SQLStatement 大约 250 次，每次等待 2 分钟......

如果您遇到删除时间问题，您可以考虑以下提示:

> How can I improve DELETE FROM performance on large InnoDB tables?

您可以通过以下方式查看我们的表状态:

show table status from <wiki-databasename>;

在我的例子中，使用 INNODB 的表。

我尝试将 innod_buffer_pool_size 增加到 128 MByte，但这并没有产生积极的效果。删除还是很慢。

我仍然会尝试通过删除中的相关行来完成这个并按我的方式工作

外部链接
修订
页面

我还检查了/var/lib/mysql/中的文件。因为我在每个表上都有 innodb 文件，所以我看到相当多的表变得非常大。

所以调查

> https://www.percona.com/blog/2013/09/25/how-to-reclaim-space-in-innodb-when-innodb_file_per_table-is-on/

开始

optimize table text

这需要 8 个小时才能完成。

幸运的是，就我而言，它并不是真正的生产 wiki。我只是想检查该方法的可行性，它看起来很大程度上取决于所涉及的行数。

根据具体情况，基于 API 和维护的方法可能更有效。

关于mysql - 通过 mysql 删除 mediawiki 垃圾邮件用户，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56699830/

25

4

0

文章推荐： c# - 如何从动态对象中获取反序列化的xml属性

文章推荐： c - 我的程序不能很好地执行搜索功能。为什么？

文章推荐： c# - WPF 中 OnInitialized 和 OnSourceInitialized 的区别

文章推荐： php - 由于遇到错误，该网站目前处于离线状态 - Mautic

c - 如何防止c中的悬空指针/垃圾？
我是 C 新手，还没有真正掌握 C 何时决定释放对象以及何时决定保留对象。 heap_t 是指向结构堆的指针。 heap_t create_heap(){ heap_t h_t = (heap
文件末尾的 C++ 垃圾
我有一个问题，我不知道如何解决。问题是: char * ary = new Char[]; ifstream fle; fle.open(1.txt, ios_base::binary); fle.s
algorithm - 如何从字符串中删除这些符号(垃圾)？
假设我在 C# 中有字符串:“我看不到你……” 我想删除(替换为空等)这些“â€™”符号。我该怎么做？最佳答案那个“垃圾”看起来很像有人将 UTF-8 数据解释为 ISO 8859-1 或 Wi
python - 垃圾。开始爬行后如何更改蜘蛛设置？
我无法在解析方法中更改蜘蛛设置。但这绝对是一种方式。例如: class SomeSpider(BaseSpider): name = 'mySpider' allowed_domains
JVM是如何和“垃圾”发生关系的
在开始之前，我们先回顾一下堆是个什么玩意，大家可能都知道，我们每天创建的Java对象几乎都存放在堆上面，所以说堆是一个巨大的对象池一点都不过分，在这个对象池里面管理者数据巨大的对象实例。在对
c - printf() 无格式字符串打印字符和整数数组 --> 垃圾
我想知道为什么 printf() 在提供数组且没有格式化选项时成功打印字符数组，但在使用整数数组时编译器会抛出警告并打印垃圾值。这是我的代码: #include int main() { c
python - 垃圾。 LinkExtractor 中的意外符号
我正在研究 Scrapy 库并尝试制作一个小爬虫。这是爬虫的规则: rules = ( Rule(LinkExtractor(restrict_xpaths='//div[@class="w
c++ - stringstream 的第一个字符串参数被保存为指针/垃圾
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Printing a string to a temporary stream object in C++
javascript - 是否收集了 WebGLTextures 垃圾？
这个问题在这里已经有了答案: Are WebGL objects garbage collected? (2 个答案) 关闭 3 年前。在 WebGL 中，纹理的创建和销毁使用: WebGLTex
java - 未记录的神秘类——垃圾，还是我不知道的设计模式？
我继承了以下代码: (为保护无辜者更改了一些名称。) package foo.bar.baz; import javax.swing.JPanel; //Main panel in the GUI c
java - 是否收集了 lambda 垃圾？
如果我没记错的话，在某些情况下，Java 中的 lambda 会生成为匿名类实例。例如，在这段代码中，lambda 需要从外部捕获一个变量: final int local = 123456; lis
c# - 是否收集了不安全的 C# 垃圾
我正在阅读托管代码中的内存泄漏，想知道是否可以在 C# 不安全代码中创建它？ unsafe { while(true) new int; } 我不确定如果它作为不安全代码运行，是否会被 GC
javascript - 替换文档正文时是否收集了内联 javascript 垃圾？
假设我有以下用 HTML 编写的网页(仅正文部分): ... function fn() { // do stu
shell - 编译后自动删除生成的 latex (垃圾)文件？
我想知道是否有简单的命令可以删除在 latex 编译过程中生成的所有不必要的文件，例如.aux、.log 等最好将它链接到常规的 Latex 构建命令，这样在我点击“编译”后，垃圾文件就会被删除。
java - 在 Java 中用字符串切换大小写 - 垃圾？
Java 在 Java7 中引入了带有字符串的 switch case。我想知道使用这样的开关盒是否会产生垃圾。例如在我的程序中， String s = getString(); switch(s)
c++ - Cevelop 对象到未初始化的变量 char 垃圾
Cevelop将 char junk 作为“未初始化的变量”对象。在这种情况下，解决问题的正确方法是什么？ friend std::ostream& operator>(std::istream&
css - 删除类似样式 =""的 html 垃圾
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and t
c++ - 从客户端收到所有数据后提升 asio streambuf 垃圾
我正在编写一个发送和接收纯文本的小型 boost asio tcp 服务器和客户端。通信或多或少是请求响应。在测试期间，我想我只是向服务器发送垃圾数据，向它发送 100.000 个请求。客户端发
java - 文档元素后的 Android java XML 垃圾
我正在使用 SAX 来读取/解析 XML 文档，并且它工作正常，除了这个特定的站点，在该站点中 eclipse 告诉我“文档元素之后的垃圾”并且我没有返回任何数据 http://www.zachblu
python - 垃圾/ python : Replace empty string
这是我的 Scrapy 爬虫代码。我正在尝试从网站中提取元数据值。没有元数据在一个页面上出现多次。 class MySpider(BaseSpider): name = "courses"

首页

博学

6Ren·AI

商城

mysql - 通过 mysql 删除 mediawiki 垃圾邮件用户