- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在处理分配在目录中的多个 .txt
文件。从所有这些文件中,我应该如何提取特定的单词或文本 block (即正则表达式定义的句子、段落和标记)并将它们放入 pandas 数据框(即表格格式)中,并保留一个包含每个名称的列文件?到目前为止,我创建了这个函数来完成这个任务(我知道......它并不完美):
在:
import glob, os, re
import pandas as pd
regex = r'\<the regex>\b'
ind = 'path/dir'
out = 'path/dir'
f ='path/redirected/output/'
def foo(ind, reg, out):
for filename in glob.glob(os.path.join(in_directory, '*.txt')):
with open(filename, 'r') as file:
stuff = re.findall(a_regex, file.read(), re.M)
#my_list = [str([j.split()[0] for j in i]) for i in stuff]
lis = [t[::2] for t in stuff]
cont = ' '.join(map(str, lis))
print(cont)
with open(out, 'a') as f:
print(filename.split('/')[-1] + '\t' + cont, file = f)
foo(directory, regex, out)
然后输出被重定向到第三个文件:
输出:
fileName1.txt
fileName2.txt stringOrChunk stringOrChunk stringOrChunk stringOrChunk stringOrChunk stringOrChunk stringOrChunk stringOrChunk stringOrChunk stringOrChunk stringOrChunk
fileName3.txt stringOrChunk stringOrChunk stringOrChunk stringOrChunk stringOrChunk stringOrChunk stringOrChunk stringOrChunk
....
fileNameN.txt stringOrChunk
这就是我从之前的文件创建数据框的方式(是的,我知道这很糟糕):
import pandas as pd
df = pd.read_csv(/path/of/f/, sep='\t', names = ['file_names','col1'])
df.to_csv('/pathOfNewCSV.csv', index=False, sep='\t')
最后:
file_names col1
0 fileName1.txt NaN
1 fileName2.txt stringOrChunk stringOrChunk stringOrChunk...
2 fileName3.txt stringOrChunk stringOrChunk stringOrChunk...
3 fileName4.txt stringOrChunk
.....
N fileNameN.txt stringOrChunk
那么,知道如何以更 Pythonic 和更高效的方式做到这一点吗?
更新
我上传了一个带有一些文档的 .zip 作为 data ,所以如果我们想从文档中提取所有副词,我们应该这样做:
a_regex = r"\w+ly"
directory = '/Users/user/Desktop/Docs/'
output_dir = '/Users/user/Desktop/'
foo(ind, reg, out)
然后,它应该创建一个包含文档的所有副词的表:
Files words
doc1.txt
doc2.txt
doc3.txt DIRECTLY PROBABLY EARLY
doc4.txt
知道如何增强上述功能吗?此外,我不知道这是否是执行此操作的最佳方法 information extraction task (即仅使用正则表达式)。使用像 woosh 这样的字符串索引器怎么样?项目或者 nltk 呢?
更新
例如,考虑创建一个 dataframe提取所有包含单词的句子:JESUITS
:
Files words1 words2 words3 words4
0 doc1.txt A GOVERNMENT SPOKESMAN HAS ANNOUNCED THAT WITH... NaN NaN NaN
1 doc2.txt 11/12/98 "THERE WAS NO TORTURE OR MISTREATMENT... NaN NaN NaN
2 doc3.txt WHAT WE HAD PREDICTED HAS OCCURRED. CRISTIANI ... SO, THE QUESTION IS: WHO GAVE THE ORDER TO KIL... THE MASSACRE OF THE JESUITS WAS NOT A PERSONAL... LET US REMEMBER THAT AFTER THE MASSSACRE OF TH...
3 doc4.txt IN 11/12/98 OUR VIEW, THE ASSASSINS OF THE JES... THE ASSASSINATION OF THE JESUITS AGAIN CONFIRM... NaN NaN
最佳答案
我不完全确定我是否理解这个问题,但此处的代码片段是使用 nltk
解决此问题的最佳努力。
from glob import glob
from os.path import join, split
import nltk
import pandas as pd
dir_name = '/tmp/stackovflw/Docs'
file_to_adverb_dict = {}
nltk_adverb_tags = {'RB', 'RBR', 'RBS'} # taken from nltk.help.upenn_tagset()
for full_file_path in glob(join(dir_name, '*.txt')):
with open(full_file_path, 'rb') as f:
_, file_name = split(full_file_path)
tokens = nltk.word_tokenize(f.read().lower()) # lower -> seems that nltk behaves differently when the text is uppercase - try it...
adverbs_in_file = [token for token, tag in nltk.pos_tag(tokens) if tag in nltk_adverb_tags]
# consider using a "set" here to remove duplicates
file_to_adverb_dict[file_name] = ' '.join(adverbs_in_file).upper() #converting it back to uppercase (your input is all uppercase)
print pd.DataFrame(file_to_adverb_dict.items(), columns=['file_names', 'col1'])
# file_names col1
# 0 doc4.txt PROBABLY ABROAD ALFONSO HOWEVER ALWAYS ALREADY...
# 1 doc1.txt NOT
# 2 doc3.txt DIRECTLY NOT SO SOLELY NOT PROBABLY NOT EVEN N...
# 3 doc2.txt
请注意,如果您只是想在特定文件夹中查找以“ly”结尾的单词,grep
是您的 friend :
$ grep -o -i -E '\w+ly' *.txt
doc3.txt:DIRECTLY
doc3.txt:SOLELY
doc3.txt:PROBABLY
doc3.txt:EARLY
doc4.txt:PROBABLY
-o
只给你匹配而不是整行-i
忽略大小写-E
扩展正则表达式
使用awk按文件名归约:
$ grep -o -i -E '\w+ly' *.txt | awk -F':' '{a[$1]=a[$1] " " $2}END{for( i in a ) print i,"," a[i]}'
doc4.txt , PROBABLY
doc3.txt , DIRECTLY SOLELY PROBABLY EARLY
关于python - 尝试从正则表达式生成 pandas 数据框列时出现问题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40073691/
说真的,你怎么能在不发疯的情况下处理所有这些异常呢?我是不是读了太多关于异常处理的文章或什么?我尝试重构了几次,但每次似乎都以更糟糕的结果告终。也许我应该承认确实会发生异常(exception)情况,
背景 两者 try/rescue和 try/catch是 Elixir 中的错误处理技术。根据 corresponding chapter在介绍指南中。 Errors can be rescued u
每当我尝试在 Raspberry PI 上运行此 python 脚本时,我都会遇到问题: import socket import sys # Create a TCP/IP socket sock
我想知道一些关于 PHP 的 try , catch声明。 让我们考虑以下示例。 abstract class ExceptionA extends Exception {} class Except
我的 laravel v5.4 项目中有两个模型,user 和 admin。 在 config/auth.php 中,我向守卫和提供者添加了管理员,如下所示: 'guards' => [ 'w
try: r = requests.get(url, params={'s': thing}) except requests.ConnectionError, e: print e
我有以下代码。 但是,它并不能捕获所有错误,而我仍然会收到“throw er;//未处理的'错误'事件”。 为什么是这样? app.post('/api/properties/zip/:zip/bed
问题与细节 我正在使用自定义错误处理,遇到的错误之一是“路径中的非法字符”。我有一个自定义函数,旨在通过路径字符串查找此类非法字符,并在找到它们时引发自定义错误。但是我发现,取决于非法字符,Test-
This question already has answers here: How do I catch a numpy warning like it's an exception (not j
我正在使用其他人的代码,但我不熟悉try/catch,因此我举了一个类似的小例子。在第11行上,如果我写了error(''),似乎没有发现错误并增加了索引j。但是,编写error(' ')或error
我在我的一个程序中遇到了这个问题,在这种情况下,尝试/异常(exception)的错误使程序变得更好,以防用户意外输入了他们不应该输入的内容。它仍然给我错误,我为为什么感到困惑。如果对我的问题确实很重
我在尝试TRY ... CATCH块时遇到问题。有人可以解释为什么以下代码无法执行我的sp吗? DECLARE @Result int SET @Result = 0 BEGIN TRY SE
我有一个相当大的 powershell 脚本,其中包含许多(20 多个)执行各种操作的函数。 现在所有代码实际上都没有任何错误处理或重试功能。如果某个特定的任务/功能失败,它就会失败并继续。 我想改进
为什么我尝试时需要导入 inputmismatchException catch(InputMismatchException e){ System.out.println("
我对此感到困惑 - 我为辅助方法编写了一个 try/catch 。它的目的是捕获任何无效输入(任何不是“男性”或“女性”的内容(没有特定情况)。如果输入无效,它将通知用户,然后让他们重试。如果有效,则
我有时会发现自己处于如下场景。尽可能简单地陈述问题 “有时我会创建一段代码,Java 让我将其包含在 try/catch 语句中。我没有使用 catch,所以我将其留空。为什么这是错误的?” boo
我有点困惑为什么当我不使用 Try block 时会出现 Try block 错误。 我在代码块底部附近收到错误通知。如果我不使用 try/catch,有人可以向我解释为什么会发生这种情况吗? 它是否
我已经盯着我的电脑两个小时了,我不知道我做错了什么。谁能帮助我看到光明? package blackjack; import java.util.Random; import java.util.Sc
我想将方法保存在 Enum 中,但 Class.getDeclaredMethod 抛出 NoSuchMethodException,那么我该如何处理呢?我的代码: public enum Car
这个问题已经有答案了: Executing multi-line statements in the one-line command-line (18 个回答) 已关闭 3 年前。 如何使用try.
我是一名优秀的程序员,十分优秀!