gpt4 book ai didi

c# - 去除 Excel 工作表的非法字符

转载 作者:行者123 更新时间:2023-12-04 21:39:30 28 4
gpt4 key购买 nike

我编写了一个程序来抓取网站以获取数据并输出到 Excel 表。该程序使用 Microsoft Visual Studio 2010 用 C# 编写。
大多数时候,我从网站获取内容、解析内容并将数据存储在 excel 中都没有问题。
但是,一旦遗嘱我会遇到问题,说有非法字符(例如 )阻止输出到 excel 文件,这会使程序崩溃。
我也手动上网站,发现其他非法字符如Ú .
我试着做一个 .Replace()但代码似乎无法找到这些字符。

string htmlContent = getResponse(url); //get full html from given url
string newHtml = htmlContent.Replace("▶", "?").Replace("Ú", "?");
所以我的问题是,有没有办法从 html 字符串中去除所有这些类型的字符? (网页的html)下面是我得到的错误信息。
我尝试了安东尼和沃兹的解决方案,但没有奏效......
enter image description here

最佳答案

System.Text.Encoding.Convert

示例用法:

var htmlText = // get the text you're trying to convert.

var convertedText = System.Text.Encoding.ASCII.GetString(
System.Text.Encoding.Convert(
System.Text.Encoding.Unicode,
System.Text.Encoding.ASCII,
System.Text.Encoding.Unicode.GetBytes(htmlText)));

我用字符串 ▶Hello World 对此进行了测试它给了我 ?Hello World .

关于c# - 去除 Excel 工作表的非法字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20527984/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com