gpt4 book ai didi

spell-checking - 你如何拼写检查网站?

转载 作者:行者123 更新时间:2023-12-03 10:05:01 25 4
gpt4 key购买 nike

我知道拼写检查器并不完美,但随着文本数量的增加,它们变得越来越有用。如何拼写检查一个有数千页的网站?

编辑:由于复杂的服务器端处理,我可以通过 HTTP 获取页面的唯一方法。也不能外包给第三方。

编辑:我有我需要检查的站点上所有 URL 的列表。

最佳答案

Lynx 似乎擅长只获取我需要的文本(正文内容和替代文本)而忽略我不需要的文本(嵌入的 Javascript 和 CSS)。

lynx -dump http://www.example.com

它还列出了页面中的所有 URL(转换为它们的绝对形式),可以使用 grep 过滤掉这些 URL:
lynx -dump http://www.example.com | grep -v "http"

如果我使用 wget 镜像站点,URL 也可以是本地的( file:// )。

我将编写一个脚本,该脚本将使用此方法处理一组 URL,并将每个页面输出到一个单独的文本文件。然后我可以使用现有的拼写检查解决方案来检查文件(或组合所有小文件的单个大文件)。

这将忽略标题和元元素中的文本。这些可以单独进行拼写检查。

关于spell-checking - 你如何拼写检查网站?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/585583/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com