- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在攻读硕士学位。计算机科学专业,刚刚完成源代码的第一年。 (这是一个为期两年的类(class))。很快我就必须提交硕士学位提案。项目。我选择了以下主题。
“机器学习对信息检索系统中文档排序的适用性”。研究人员一直在使用各种机器学习算法对文档进行排名。因此,作为该项目的第一阶段,我将进行完整的文献调查并找出当前方法的优点/缺点。在项目的第二阶段,我将提出一种新的(修改后的)算法,以克服当前方法的局限性。
其实我的问题是这种类型的项目是否适合作为硕士。项目?此外,如果有人在信息检索领域有一些有趣的想法,是否可以与我分享这些想法。
谢谢
最佳答案
排名始终是任何信息检索系统中最难的部分。我认为这是一个非常好的主题,但你必须注意 - 尽快 - 定义工作范围。您可能无法开发新的 IR 引擎,而是构建一个基于 apache lucene 等的原型(prototype)。
目前有很多数据集,包括 stackoverflow 数据转储,它们为您提供定义丰富特征向量所需的所有信息(点数、时间、您可以挖掘上一个问题的主题等、标签的流行度)为您提供机器学习排名算法。在这部分工作中,您可以对特征类型(例如,用户特定的语义特征 - 标题中的软件名称)进行分类,并执行一系列实验来了解哪些特征最重要,哪些不适合给定的数据集。
此类项目的第二个方向是如何高效地进行学习。背后的原因是网络或社区论坛中的数据量以及论坛中的变化(如果您采用社区特定功能,这将很重要),例如技术的变化、新软件的发布等。
还有许多其他与搜索和机器学习相关的主题。最好的办法是在 scholar.google.com 上搜索最近有关排名、机器学习和搜索的调查论文,以了解最先进的技术。下一步是与您的理学硕士导师交谈。
祝你好运!
关于machine-learning - 机器学习/信息检索项目,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3820707/
我只是信息检索的初学者。 我正在寻求解决一个问题,即用户在输入单词时错误地在字符之间添加空格或将两个单词合并为一个,由于简单的倒排索引查找,该问题目前无法处理。 假设我对以下文档进行了倒排索引: ja
if ($cuser->loggedin()){ if (!empty($_POST['returnto'])) { header("Location: ".htmls
这是一个相当广泛的问题,我不是在寻找具体的实现(好吧,如果解决这个问题的东西已经存在,那就太棒了)。如果有人能告诉我如何检索请求的信息,那将是完美的。 让我用一个例子来描述这个问题。我有大学的名称(例
假设我有一个 FILETIME,当我在 timezone1 时它有一些值(我们可以通过将它转换为系统时间来查看)。假设我将时区更改为 timezone2。现在我想获得时区 1 中的小时和分钟(格式)时
人们经常使用 IR、ML 和数据挖掘等术语,但我注意到它们之间有很多重叠。 对于在这些领域有经验的人来说,这之间的界限到底是什么? 最佳答案 这只是一个人(受过 ML 正式培训)的观点;其他人可能会以
这个问题与不同数据库引擎对 IR 和 AI 研究的适用性有关。下面的两个重要问题以粗体显示。 我正在使用 python 将 17 gig 纯文本语料库加载到 sqlite3 中。行项目填充三个表,单个
假设我有一个用户搜索查询,如下所示:"the happy bunny" 我已经计算了 tf-idf 并且对于我正在搜索的每个文档(当然 idf 总是相同的)有这样的东西(以下是组成示例值):
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improve
我是一名优秀的程序员,十分优秀!