gpt4 book ai didi

nlp - 如何自动判断文本质量?

转载 作者:行者123 更新时间:2023-12-02 03:37:10 25 4
gpt4 key购买 nike

许多自然语言处理 (NLP) 算法和库都很难处理来自网络的随机文本,通常是因为它们以干净、清晰的写作为前提。我可以理解为什么这比解析 YouTube 评论更容易。

我的问题是:给定一段随机文本,是否有一个过程来确定该文本是否写得好,是否适合在 NLP 中使用?这些算法的通用名称是什么?

我希望有文章、算法或代码库的链接,但我会选择好的搜索词。

最佳答案

“写得好”和“有利于 NLP”可能会同时出现,但并非必须如此。对于“有利于 NLP”的文本,它可能应该包含完整的句子,末尾有一个动词和一个点,并且它应该传达一些含义。一篇写得好的文本还应该结构良好、衔接、连贯、正确地用名词代替代词等。您需要什么取决于您的应用程序。

NLP 工具正确处理句子的机会通常可以通过一些简单的启发法来估计:它是否太长(> 20 或 30 个单词,具体取决于语言)?过短?里面是不是有很多奇怪的字符?它包含网址或电子邮件地址吗?它有主要动词吗?它只是一个列表吗?据我所知,这种过滤没有通用名称,也没有任何特定的算法 - 它被称为“预处理”。

对于一个写得好的句子:在自动评估可读性、衔接性和连贯性方面已经做了一些工作,例如: Miltsakaki(Evaluation of text coherence for electronic essay scoring systemsReal-time web text classification and analysis of reading difficulty)或 Higgins(Evaluating multiple aspects of coherence in student essays)的文章。这些方法都基于一种或另一种话语结构理论,例如中心理论。这些文章的理论含量相当高,并假设读者具备中心理论和机器学习的知识。尽管如此,其中一些技术已被 ETS 成功应用。自动对学生的论文进行评分,我认为这与您正在尝试做的事情非常相似,或者至少,您可以适应一些想法。

综上所述,我相信在未来几年内,NLP 将必须开发出处理相对于当前标准而言良好的语言的技术。网络上有大量极其有值(value)的数据,其中包括您提到的文本类型:youtube 评论、聊天消息、twitter 和 Facebook 状态消息等。所有这些都可能包含非常有趣的信息。那么,谁应该适应——以这种方式写作的人还是 NLP?

关于nlp - 如何自动判断文本质量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2264806/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com