gpt4 book ai didi

python - 如何在 Azure ML 执行 Python 脚本步骤中从文本列中删除 HTML

转载 作者:太空宇宙 更新时间:2023-11-03 15:46:39 26 4
gpt4 key购买 nike

如果传入的 Azure ML 数据集中有一列字符串类型的数据,其中包含搞乱结果的 HTML 标签,我该如何删除这些标签?

最佳答案

像这样:

def azureml_main(dataframe1 = None, dataframe2 = None):
dataframe1[1] = dataframe1['text'].str.replace('<[^<]+?>', ' ', case=False)
return dataframe1,

请记住在执行Python脚本步骤之前添加清理缺失数据步骤,并更改操作以删除整行(如果适用)。这很重要,因为执行 Python 脚本 步骤无法返回空的数据帧。在这种情况下,只有您知道您的数据。

我还要指出,预处理文本步骤允许您应用正则表达式。这是另一种可能适合您情况的选择。

关于python - 如何在 Azure ML 执行 Python 脚本步骤中从文本列中删除 HTML,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41686871/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com