作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一堆文本文件。我的应用程序要求是搜索在语义上与我通过的搜索短语匹配的句子(或段落)。
例如:让我们说一句话“快速的棕色狐狸跳过了懒狗”。
我希望以下搜索短语可以搜索我的文本文件并列出上面的句子(有时与上一句话和下一句话一起显示上下文)
from nltk.tokenize import sent_tokenize
f = open("fileName")
mytext = f.readline()
sent_tokenize(mytext)
最佳答案
依存关系:
pip install autocorrect
代码(search.py):
from autocorrect import spell
def lcs(X, Y):
mat = []
for i in range(0,len(X)):
row = []
for j in range(0,len(Y)):
if X[i] == Y[j]:
if i == 0 or j == 0:
row.append(1)
else:
val = 1 + int( mat[i-1][j-1] )
row.append(val)
else:
row.append(0)
mat.append(row)
new_mat = []
for r in mat:
r.sort()
r.reverse()
new_mat.append(r)
lcs = 0
for r in new_mat:
if lcs < r[0]:
lcs = r[0]
return lcs
def spellCorrect(string):
words = string.split(" ")
correctWords = []
for i in words:
correctWords.append(spell(i))
return " ".join(correctWords)
def semanticSearch(searchString, searchSentencesList):
result = None
searchString = spellCorrect(searchString)
bestScore = 0
for i in searchSentencesList:
score = lcs(searchString, i)
if score > bestScore:
bestScore = score
result = i
return result
result = semanticSearch("fox jump over dog", ["The quick brown fox jumped over the lazy dog", "This is one more string which contains fox bron"])
print result
关于python - 语义搜索-从一堆文本文件中检索与传入的搜索词组非常匹配的句子,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47605377/
我想用 Java 编写一个正则表达式来匹配一个单词字符和空格序列,然后是一个单词字符和空格序列的“子类”字符序列: 应该匹配的示例字符串: a subclass of b a and b subcla
考虑到我们有以下输入数据表。 import pandas as pd #Pandas settings to see all the data when printing pd.set_option(
我们如何在同义词集中找到单词短语?特别是,将此同义词集用于形容词“booked”: booked, engaged, set-aside -- (reserved in advance) 我用的是Ri
我是一名优秀的程序员,十分优秀!