Cloudflare 将推出按爬取次数付费的 AI 爬虫服务

消费格局的变革

目前，许多出版商、内容创作者和网站所有者都感到自己面临二选一的困境——要么敞开大门让AI随意消费他们创作的一切，要么打造自己的封闭生态系统。但如果还有其他选择呢？

在Cloudflare，我们从一个简单原则出发：我们希望内容创作者能够掌控谁可以访问他们的作品。如果创作者希望阻止所有AI爬虫访问其内容，他们应该能够做到这一点。如果创作者希望允许部分或全部AI爬虫免费访问其内容，他们也应该能够做到这一点。创作者应该掌握主动权。

在与数百家新闻机构、出版商和大型社交媒体平台的对话中，我们听到了一个一致的诉求：他们希望允许AI爬虫访问其内容，但希望获得补偿。目前，这需要找到合适的个人并达成一次性协议，而如果没有规模和谈判能力，这将是一个无法克服的挑战。

如果我能向爬虫收费呢？

我们认为你的选择不必非此即彼——应该有一种更细致的第三种选择：你可以对访问权限收费。 而不是一刀切的封锁或无偿开放访问，我们希望赋能内容所有者以互联网规模 monetize 他们的内容。

我们很高兴能帮助重新激活一个被遗忘的网络功能：HTTP响应代码402。

推出按爬取付费服务

按次付费目前处于私人测试阶段，是我们在此领域的首次尝试。

按次付费与现有网络基础设施集成，利用 HTTP 状态码和既有的身份验证机制，构建付费内容访问框架。

每次 AI 爬虫请求内容时，它们要么通过请求头部表达支付意图以获得成功访问(HTTP 响应代码 200)，要么收到包含定价信息的 402 Payment Required 响应。Cloudflare作为按次付费爬取的记录商户，同时提供底层技术基础设施。

发布商控制与定价

按次付费爬取赋予域名所有者对其货币化策略的完全控制权。他们可为整个网站设定统一的按请求计费价格。发布商针对爬虫将有以下三种独立选项：

允许： 授予爬虫免费访问内容的权限。
收费： 要求按配置的域名级价格进行支付。
阻止： 完全拒绝访问，且不提供支付选项。

这里的一个重要机制是，即使爬虫与Cloudflare没有计费关系，因此无法因访问而被收费，发布者仍可选择“向其收费”。这相当于网络级别的阻止(HTTP 403 Forbidden响应，不返回任何内容)——但额外的好处是告知爬虫未来可能建立关系。

目前，发布商可以在整个网站上定义一个固定价格，但他们仍然可以根据需要绕过对特定爬虫的收费。这特别有用，如果你想让某个爬虫免费通过，或者你想在按次付费功能之外协商并执行内容合作。

为确保与各发布商现有安全策略的兼容性，Cloudflare通过规则引擎执行“允许”或“收费”决策，该引擎仅在现有WAF策略及机器人管理/阻断功能应用后生效。

支付标头与访问权限

在构建系统时，我们清楚必须解决一个极其重要的技术挑战：确保能够对特定爬虫进行收费，同时防止任何人伪造该爬虫。幸运的是，可以通过Web Bot Auth提案实现这一目标。

对于爬虫而言，这涉及以下步骤：

生成Ed25519密钥对，并将JWK格式的公钥放在托管目录中
向Cloudflare注册，提供密钥目录的URL和用户代理信息。
配置爬虫在每次请求中使用HTTP消息签名。

注册成功后，爬虫请求应始终包含signature-agent、signature-input和signature头部，以识别您的爬虫并发现付费资源。

GET /example.html
Signature-Agent: “https://signature-agent.example.com”
Signature-Input: sig2=(“@authority” “signature-agent”)
 ;created=1735689600
 ;keyid=“poqkLGiymh_W0uP6PZFw-dvez3QJT5SolqXBCW38r0U”
 ;alg=“ed25519”
 ;expires=1735693200
;nonce=“e8N7S2MFd/qrd6T2R3tdfAuuANngKI7LFtKYI/vowzk4lAZYadIX6wW25MwG7DCT9RUKAJ0qVkU0mEeLElW1qg==”
 ;tag=“web-bot-auth”
签名：sig2=:jdq0SqOwHdyHr9+r5jw3iYZH6aNGKijYp/EstF4RQTQdi5N5YYKrD+mCT1HA1nZDsi6nJKuHxUi/5Syp3rLWBA==:

访问付费内容

一旦爬虫设置完成，确定内容是否需要付费可通过两种流程实现：

反应式(发现优先)

若爬虫请求付费 URL，Cloudflare 将返回 HTTP 402 Payment Required 响应，并附带 crawler-price 标头。这表明请求的资源需要付费。

HTTP 402 Payment Required
crawler-price: USD XX.XX

然后，爬虫可以决定重试请求，这次包括一个 crawler-exact-price 头，以表明同意支付配置的价格。

GET /example.html
crawler-exact-price: USD XX.XX

主动(意图优先)

或者，爬虫可以在初始请求中预先包含一个 crawler-max-price 头。

GET /example.html
crawler-max-price: USD XX.XX

如果资源配置的价格等于或低于此指定限额，则请求将继续，内容将以成功的 HTTP 200 OK 响应提供，并确认收费：

HTTP 200 OK
crawler-charged: USD XX.XX 
server: cloudflare

如果 crawler-max-price 请求中的金额大于内容所有者配置的价格，则仅收取配置的价格。然而，如果资源的配置价格超过爬虫提供的最大价格，将返回 HTTP 402 Payment Required 响应，指示指定的费用。每个请求中只能使用一个价格声明标头，即 crawler-exact-price 或 crawler-max-price。

crawler-exact-price 或 crawler-max-price 标头明确声明爬虫的支付意愿。如果所有检查通过，内容将被提供，且爬取事件会被记录。如果请求的任何方面无效，边缘将返回 HTTP 402 Payment Required 响应。

财务结算

爬虫运营商和内容所有者必须在其 Cloudflare 账户中配置按爬取付费的支付详情。每次爬虫发起带支付意图的认证请求并收到包含 crawler-charged 标头的 HTTP 200 级响应时，计费事件会被记录。Cloudflare 随后汇总所有事件，向爬虫收取费用，并将收益分配给发布者。

爬虫今日，代理明日

本质上，按爬取付费标志着在线内容控制方式的技术转变。通过为创作者提供强大、程序化的机制来评估和控制其数字资产，我们赋能他们继续创作使互联网不可或缺的丰富多元内容。

我们预计按爬取付费将显著演进。目前仍处于早期阶段：我们认为多种不同类型的交互和市场应同步发展。我们热切支持这些多元化努力及开放标准。

例如，出版商或新组织可能希望对不同路径或内容类型收取不同费率。如何基于需求以及AI应用的用户数量引入动态定价？如何在互联网规模下实现细粒度授权，无论是用于训练、推理、搜索，还是完全全新的应用场景？

按爬取付费的真正潜力可能在代理世界中显现。如果代理付费墙能够完全程序化运行会怎样？想象一下，让您最喜欢的深度研究程序帮助您合成最新癌症研究或法律简报，或只是帮助您找到索霍区最好的餐厅——然后给该代理一个预算，用于获取最佳且最相关的内容。通过将我们的首个解决方案锚定在HTTP响应代码402上，我们为智能代理程序化协商数字资源访问权限的未来奠定了基础。

开始使用

按爬取付费目前处于私人测试阶段。如果您是希望付费访问内容的爬虫程序，或希望对访问权限收费的内容创作者，我们非常乐意听到您的反馈。您可以通过 http://www.cloudflare.com/paypercrawl-signup/ 联系我们，或如果您是现有企业客户，请联系您的账户经理。

Cloudflare 网络爬虫| 2025年07月2日

你也许会喜欢这些文章：

外刊IT评论

You had mail. Paul read it, so ask him what it said.

264 Responses to Cloudflare 将推出按爬取次数付费的 AI 爬虫服务

asim says:

2025年07月2日 at 12:53 下午

这基本上就是我们希望实现的微支付方式。我认为Coinbase最近推出了一款基于加密货币和402状态码的库。事实上，它被称为x402。https://github.com/coinbase/x402

回复
- imiric says:
  
  2025年07月2日 at 12:53 下午
  
  这应该成为网络上的标准商业模式，而不是那些腐蚀了我们所有媒体的广告中介，以及那些永久利用我们数据的广告技术。所有这些都助长了宣传的传播、民主进程的腐败，以及过去十多年我们所看到的社会政治动荡。我希望几十年后，我们能认清这一切的危害性，并像对待烟草巨头一样起诉和监管这些公司。
  
  Brave的BAT也是解决此问题的良好尝试，但x402似乎是更通用的解决方案。遗憾的是，两者都难以获得广泛采用，部分原因在于加密货币的负面标签，部分原因在于广告技术对当前网络的牢固掌控。
  
  回复
  - ashdksnndck says:
    
    2025年07月2日 at 12:53 下午
    
    微交易是完美的解决方案，如果你有一个假设交易成本接近于零的经济理论。技术可以实现低技术成本，但问题是交易的人类成本。决定是否购买以消费每条内容，以及是否被坑了，这些心理负担累积起来，使微交易变得令人疲惫。
    
    当有人在网上试图以一美元的价格向你推销商品时，你真的会接受多少次？你实际完成过多少次微交易？微交易的问题在于，它们会阻止人们消费你的内容。这很荒谬，因为为每位读者或观众提供内容的边际成本几乎为零。
    
    解决方案是捆绑销售。我只需一次性付费，之后无需为每条内容支付边际成本。收入将根据每位用户消费中分配给创作者的比例进行分配。
    
    人们对捆绑销售存在顾虑，但他们只需克服一次心理障碍，而非为每次观看都重复付费。
    
    广告支持的内容是一种捆绑形式，但在我看来，它同样令人疲惫。我体验过最好的捆绑服务是Spotify和YouTube Premium，我支付合理的固定月费，换取大量娱乐内容的消费权限。这些服务的主要问题在于中间商拿走了半数收益。
    
    回复
    - __MatrixMan__ says:
      
      2025年07月2日 at 12:53 下午
      
      我不同意，捆绑才是问题所在。这种策略导致了我们现在看到的流媒体视频碎片化格局，而这种格局几乎被普遍厌恶。
      
      理想的解决方案应是每月支付固定费用，月底时这笔费用将用于抵扣当月消费的内容。如果我只阅读了一篇博客，他们将获得全部费用。
      
      然后我们建立一种文化，鼓励分享那些配置为引用其来源的内容，并阻止分享那些有明显来源但未分享其入站微交易的内容。
      
      我们已经需要尽职调查以确定信息来源是否可信(以及其来源是否可信，依此类推)。不如让资金流动沿用相同的结构。
      
      回复
      - eddythompson80 says:
        
        2025年07月2日 at 12:53 下午
        
        这不是理想的解决方案，因为任何固定成本方案都必然会引入中间商/经销商。
        
        比如我每月支付$5的固定费用(或$500、$5k、$500k，无论对我来说是哪个已知的固定成本)，然后转手以每月$1的固定费用转售所有内容。
        
        你通过固定费用消费的内容是有实际成本的。因此，固定费用要么更像是一种“信用”系统，要么依赖中间商进行超额订阅计算/套利等操作来平衡成本。
        
        而且，引入任何形式的速率限制或“滥用减少”措施都行不通，因为这本质上是在将固定费用系统转变为信用系统。
        
        信用系统相较于纯微支付系统具有优势(在心理负担方面。我知道我为本月“互联网内容”卡充值了$50。Netflix上一部电影今晚售价$2。通常每部电影$0.5，但今天是情人节，大家都“Netflix和放松”，所以实施了峰值定价)
        
        回复
        
        ashdksnndck says:
        
        2025年07月2日 at 12:53 下午
        
        我认为提供数字内容的成本如此之低，无需依赖超额订阅。用户可以24/7流媒体播放，你仍然能赚钱(假设你采用了像YouTube那样的有效IP支付模型，根据用户观看时长按比例分配收入——我认为Spotify在这方面存在问题)。你需要的唯一“反滥用”措施是确保用户一次只能流媒体播放一项内容。
        
        信用系统的问题在于，用户不喜欢为了观看优质内容而额外付费，或者为了省钱而观看较差内容等体验。
        
        考虑到分发优质内容的边际成本与劣质内容相同，为何要通过增加额外成本让客户因观看而感到不快？直接放开即可。如果你拥有大量优质内容，客户愿意为套餐支付更高费用。一旦他们加入套餐，就让他们自由选择观看内容。
        
        回复
        
        eddythompson80 says:
        
        2025年07月2日 at 12:53 下午
        
        我所指的“成本”是生产你所支付内容的成本，而非分发成本。当然，数字分发成本微乎其微(甚至可以假设为$0)，但生产成本与之相去甚远。
        
        > 唯一的“反滥用”措施就是确保用户每次只流媒体播放一项内容。
        
        我们讨论的是你支付的固定费用，以获得“访问互联网内容的权限”。
        
        哦，是吗？如何“流式传输”一篇文章？以2倍速播放视频是否意味着价格减半？如果是1000倍速呢？
        
        好吧，好吧，让我们假设我们能对所有这些问题给出合理且合乎常理的答案。“一篇文章计为x分钟”。“将播放速度限制在最高2倍，并制定一个合理的公式来支付创作者”，等等。
        
        恭喜，你引入了一个需要额外步骤的信用系统。所谓的“固定费用”实际上是每月(60_24_30)×2分钟的费用。用户可以在月底将账户中剩余的“分钟数”捐赠给他们喜欢的创作者。嗯，与其将它们交易给您喜爱的创作者，为什么不将它们兑换成$$呢？
        
        > 既然优质内容和劣质内容的边际分发成本相同，为什么还要通过增加额外成本让用户因观看而感到内疚？直接放开即可。如果优质内容丰富，用户愿意为套餐支付更高费用。一旦进入套餐，就让他们观看自己想看的内容。
        
        这个模式对YouTube有效，因为YouTube具有中心化特性。我认为这个模式也能适用于其他中心化系统，比如Cloudflare。
        
        说不定Cloudflare的终极目标就是这个。如果互联网的大部分流量都通过Cloudflare代理运行，那么Cloudflare可以实现Brave的BAT理念，但以更合理的方式，比如正常的支付和订阅等。
        
        回复
        
        __MatrixMan__ says:
        
        2025年07月2日 at 12:53 下午
        
        我认为“信用系统”比“费用”更准确，只是我个人会设定一个固定费率然后不再考虑，这样对我来说就像是一种“互联网准入费”。
        
        至于带宽和存储成本……这些可以纳入相同的归属/支付方案中。如果内容传播不佳是因为 hosting 的人太少，那么我愿意分配一些空间和带宽来帮助分发它。只要在内容被查看时，创作者仍能获得大部分信用，而我只因分发部分获得微不足道的信用，我认为这没什么问题。
        
        目标是尽量将归属/支付处理与数据处理解耦，使其简单如种子文件的分发，而归属分配则由播放器/客户端等负责。如果我发现存在盗链问题(无论是作为创作者还是分发者)，或许可以撤销对盗链者的信任，使其无法再从我这里获取内容。
        
        回复
        
        eddythompson80 says:
        
        2025年07月2日 at 12:53 下午
        
        固定费用支付结构与基于信用的系统非常非常不同。你几乎可以将其与当前系统混为一谈。这就是固定费用与信用系统之间差异之大。
        
        > 我个人会设定一个固定费率，然后不再考虑它，这样对我来说就像是一种“互联网准入费”。
        
        这不重要。信用系统就像一个每小时变化的固定费用。这没有意义。你可以将其设定为每月$10，仅此而已。但这个数字从何而来？如果你在月初观看一部“新上映”的电影，需要花费$10信用点，那么本月剩余时间你就无法上网了吗？你过去每月阅读10篇文章，但现在$10只能阅读2篇。这样可以吗？毕竟这是固定费用。
        
        > 如果我发现存在“蹭流量”问题(无论是作为内容创作者还是分发者)，那么或许我可以撤销对这些“蹭流量者”的信任，他们就无法再从我这里获取内容。
        
        换句话说：“如果我发现不良行为者，我就屏蔽他们。”恭喜，你解决了所有互联网问题。这个想法可能价值数十亿美元。我个人从不编写漏洞，因此不良行为者无法利用它们。
        
        回复
      - ashdksnndck says:
        
        2025年07月2日 at 12:53 下午
        
        > 我不同意，捆绑销售才是问题所在。这种策略导致了我们现在在流媒体视频领域看到的碎片化格局，而这种格局几乎被所有人厌恶。
        
        > 理想的解决方案应采用月度固定费用模式，每月支付的费用将用于抵扣当月消费的内容费用。如果我只阅读了一篇博客，该博客将获得全部费用。
        
        你刚才描述的就是捆绑销售——这就是YouTube Premium的运作方式。我不太明白你在这里强调的区别是什么。是说存在多个独立的捆绑服务吗？如果是这样，我同意这会造成摩擦，但解决办法是更多的捆绑，即所有内容都应包含在同一个捆绑包中。
        
        顺便说一句，我并不特别讨厌流媒体的碎片化。电视/电影消费的价值主张现在是最好的。过去购买一部电视剧的单季DVD需要花费的费用，现在我可以用来观看数百部点播节目。如果所有流媒体服务都能合并在一起会更好，但反垄断法很可能阻止这种情况发生。
        
        我认为大多数人更讨厌的是，他们想要的特定内容不在捆绑包中——即花$4观看一部电影。
        
        回复
        
        dzhiurgis says:
        
        2025年07月2日 at 12:53 下午
        
        我希望有一个单一订阅，然后愿意额外支付$5观看非网络节目。
        
        我认为流媒体公司应该提供某种付费内容交换服务，这样用户就不用切换平台了。
        
        回复
      - BlueTemplar says:
        
        2025年07月2日 at 12:53 下午
        
        那么，Flattr 2.0？
        
        https://www.ctrl.blog/entry/flattr2.html
        
        回复
        
        __MatrixMan__ says:
        
        2025年07月2日 at 12:53 下午
        
        大致如此，是的。
        
        不过，当它真正成熟后，我希望能够更透明地了解资金流向。假设一位记者冒着生命危险揭露了一些重要信息，而两家新闻机构都报道了这一事件。我不想在假设新闻机构会支付记者费用的情况下支付新闻机构。相反，我希望根据哪篇报道能让我的客户端向记者支付最多费用来决定阅读哪篇报道(因为我更关心调查工作而非写作，尽管其他用户可能配置他们的客户端不同)。
        
        回复
    - johanyc says:
      
      2025年07月2日 at 12:53 下午
      
      > 交易的人力成本是问题所在。决定是否购买以消费每条内容的心理负担[…]> 当有人在网上试图以一美元的价格向你推销商品时，你真的会接受吗？
      
      这取决于交易规模。你提到的$1已经相当大。应该以美分甚至更小的单位计费。
      
      几个例子。使用ChatGPT API时，你真的会担心一次简短的问答会话会花费多少吗？你会纠结是否要打开房间的灯(如果考虑电费，这也是一种微交易)？
      
      回复
  - hhh says:
    
    2025年07月2日 at 12:53 下午
    
    加密货币似乎对普通交易来说是一种巨大的浪费
    
    回复
    - bo1024 says:
      
      2025年07月2日 at 12:53 下午
      
      比使用信用卡处理器便宜得多。
      
      回复
      - rswail says:
        
        2025年07月2日 at 12:53 下午
        
        不如使用即时净结算服务(如美国的FedNow、印度的UPI、泰国的PromptPay、澳大利亚的PayID)便宜
        
        回复
        
        jdminhbg says:
        
        2025年07月2日 at 12:53 下午
        
        你注意到括号里的问题了吗？
        
        回复
    - trollbridge says:
      
      2025年07月2日 at 12:53 下午
      
      像BAT这样的系统并不浪费，而且如果没有加密货币，你将永远无法从该计划中的不良行为者那里获得付款。
      
      回复
      - gessha says:
        
        2025年07月2日 at 12:53 下午
        
        但为什么一定要在只读账本上进行交易处理/验证并收取费用？为什么不能像VISA那样在银行系统上使用更传统的交易处理器？
        
        回复
        
        __MatrixMan__ says:
        
        2025年07月2日 at 12:53 下午
        
        因为传统交易处理器可以被强制要求切断向内容冒犯权势者的发布者的支付。看看维基解密发生了什么就知道了。
        
        回复
        
        dboreham says:
        
        2025年07月2日 at 12:53 下午
        
        因为VISA从互联网诞生以来就从未想过要做微交易。
        
        回复
        
        tzs says:
        
        2025年07月2日 at 12:53 下午
        
        你仍然不需要加密货币。
        
        你只需要一个中间商，将微支付汇总成足够大的金额，以便与非微支付系统合作。
        
        有些人可能会反对引入中间商，但问题是，即使使用加密货币支付，你也需要中间商，因为互联网是国际性的。
        
        如果你直接向爬虫收取爬取费用，且被来自其他国家的爬虫爬取并支付费用，恭喜！你现在已直接参与国际贸易，需应对来自你所在国家及爬虫所在国家的诸多监管规定。
        
        通过中间商操作时，可将交易结构设计为中间商从你处购买爬虫访问权限。选择你所在国家(或如果你在欧盟，选择欧盟内的任何国家)的中间商，大多数监管问题就会消失。
        
        回复
        
        imiric says:
        
        2025年07月2日 at 12:53 下午
        
        加密货币并不严格要求中间商。围绕加密货币的法规以及国际交易的征税方式将因国家而异，就像其他任何事情一样。这些问题可以像往常一样由律师和会计师处理。
        
        虽然我同意加密货币并非严格必要，但支持微支付的基础设施已然存在，且已被广泛理解和信任。那么，哪种基础设施能够支持法币微支付的相同应用场景？其部署和使用是否能像当前加密货币一样低摩擦？是否能实现去中心化且不依赖单一公司？
        
        我对加密货币的炒作以及它所滋生的骗子和诈骗分子感到厌倦，与其他人一样。但我认为完全忽视这项技术并拒绝承认它有其他系统无法胜任的真实应用场景是愚蠢的。微支付和在网络上支持新型商业模式就是一个明显的例子。
        
        回复
        
        tzs says:
        
        2025年07月2日 at 12:53 下午
        
        > 围绕它们的监管以及国际交易的征税方式将因国家而异，就像其他任何事情一样。这些问题可以像往常一样由律师和会计师处理。
        
        我的一个观点是，目前有很多网站并没有与网站访客进行任何国际交易。它们的收入来自出售广告空间。它们的交易对象是少数几个广告网络，可能都在同一个国家。
        
        该网站的律师和会计师很可能只接受过处理国内交易的培训。
        
        如果网站开始直接向国际爬虫收费，那么它就增加了国际交易，并将需要能够处理此类事务的会计师和律师。
        
        收入丰厚的大型网站可能能够轻松应对。小型网站则不太可能处理此类事务。
        
        自行处理还存在政治风险，因为部分国家将人工智能开发视为与武器开发同等敏感，我不会惊讶于某些国家将向其他国家出售人工智能爬虫访问权限视为违反制裁行为。
        
        因此，对于尚未开展国际贸易的大多数网站而言，即使使用加密货币作为支付系统，它们也可能更倾向于通过中间商出售爬虫访问权限。
        
        回复
        
        PinkSheep says:
        
        2025年07月2日 at 12:53 下午
        
        “我”选择像VISA这样的中间商，我的监管头疼问题将从他们的政策开始，再加上监管头疼问题。
        
        回复
  - squigz says:
    
    2025年07月2日 at 12:53 下午
    
    即使广告一夜之间消失，你为什么认为这会阻止宣传的传播、民主进程的腐败和社会动荡？我真的看不到两者之间的联系？
    
    回复
    - 4b11b4 says:
      
      2025年07月2日 at 12:53 下午
      
      更准确地说，是技术让中间商能够渗透到一切领域，并实现高度个性化/精准定位
      
      回复
    - heresie-dabord says:
      
      2025年07月2日 at 12:53 下午
      
      财务关联在此解释：
      
      https://en.wikipedia.org/wiki/Citizens_United_v._FEC
      
      回复
    - __MatrixMan__ says:
      
      2025年07月2日 at 12:53 下午
      
      真的吗？他们确实联系紧密。
      
      如果网络架构转变为用户仅能看到主动请求的内容，这将摧毁广告业，同时也严重打击任何其他通过向观众意识中植入不受欢迎内容来谋利的企业。宣传者是首先浮现在脑海中的群体。
      
      如果通过篡改人们的信息来影响选举变得过于昂贵，那么替代方案(真正惠及民众的政策)将变得更受欢迎，从而减少动荡。
      
      民主最近过得不太好，因为它的敌人有了新的武器来对抗它。如果我们摧毁这些武器，它就会重新运转。
      
      回复
    - imiric says:
      
      2025年07月2日 at 12:53 下午
      
      我什么时候说过所有这些事情都会停止？
      
      我所说的是，广告技术系统也被用于此类目的。因此，如果它们一夜之间消失，其中一部分活动，而且我认为相当大的一部分，也会随之消失。
      
      回复
      - squigz says:
        
        2025年07月2日 at 12:53 下午
        
        好吧，但我的问题依然存在——为什么？这些事情与广告之间有什么联系？
        
        在我看来，它们更可能像往常一样适应变化。
        
        回复
        
        imiric says:
        
        2025年07月2日 at 12:53 下午
        
        关联在于，那些希望影响公众舆论的人可以通过针对特定人群的广告活动来实现这一目的。广告技术并不关心你是在推广产品还是理念。这一关联在剑桥分析公司泄密事件后应已显而易见。
        
        社交媒体和其他媒体平台也能够传播宣传内容，但其系统性远不及专门为广告设计的工具。
        
        回复
        
        heresie-dabord says:
        
        2025年07月2日 at 12:53 下午
        
        支持你的立场：
        
        https://en.wikipedia.org/wiki/Citizens_United_v._FEC
        
        回复
        
        blackjack_ says:
        
        2025年07月2日 at 12:53 下午
        
        当然，我可以解释。
        
        基本上，广告技术是注意力经济的核心，点击量越多，收入就越多。因此，激励机制总是促使人们使用最耸人听闻的标题党内容来刺激利润。理性且无聊的稳定观点和共识将被压制，以促进争议、冲突和标题党内容，从而最大化收入。概括来说，任何领域(如政治或新闻)中的稳定性都会被扭曲成令人讨厌的夸张表演，以更像真人秀节目来吸引更多注意力。在软件领域，那些通过广告获利的人会受到激励去构建以吸引注意力为最大化的黑暗模式。而如果广告不是主要收入来源，人们就会停止构建这些黑暗模式来窃取你的注意力，因为你直接为服务付费，所以你是客户而不是产品。
        
        回复
        
        1659447091 says:
        
        2025年07月2日 at 12:53 下午
        
        所以你的意思是：“激励机制总是让你说出最煽动性的点击诱饵，以激励利润”
        
        因此，在这种新的模式下，人们直接向网站付费而非其他公司，如果我想要网站获得最多的微支付，我需要说出最煽动性的点击诱饵内容？这只是改变了付费主体，而当然，因为我想要网站获得最多的收入，我也会接受公司的广告资金，并通过微支付进行分级。在任何情况下，这都不会改变人们想要的内容。当然，也许我不会得到你的微支付，但没关系，因为现在我有一个新方案，既能获得广告商的资金，又能获得读者的资金。如果我能找到利用这种新付费模式的FOMO(害怕错过)心理的方法，我就能赚得更多，而我的内容不会改变。
        
        这些观点总是想方设法责怪提供商，却从不追究消费者的责任。也许我们应该关注人们为什么如此渴望点击诱饵？我没有答案，但这可能因为所谓的“解决方案”都专注于让公司给人们他们想要的，而不是帮助人们意识到成瘾性点击诱饵的愤怒行为和模式。
        
        福克斯电视台并不是唯一一个进入人们家中的电视台，公共广播公司(PBS)也是一个选择。在有线电视新闻中，我祖母一直开着C-SPAN。这才是真正的无聊稳定电视。(我相信如果人们想要的话，这仍然是一个选择)
        
        回复
        
        chrisweekly says:
        
        2025年07月2日 at 12:53 下午
        
        说得好。
        
        另外，(题外话)，我误读了“稳定观点”为“底线”，因为我从未见过这个短语用来表示“热点观点”的反义。我喜欢这个说法。
        
        回复
  - jahewson says:
    
    2025年07月2日 at 12:53 下午
    
    抱歉，但过去十年的社会政治动荡是由我们自己制造的问题引起的，而不是因为人们在讨论它。
    
    金钱不必涉及，只需看看维基百科是如何变得腐败和偏颇的。
    
    回复
  - giantrobot says:
    
    2025年07月2日 at 12:53 下午
    
    > 这应该成为网络上的标准商业模式，而不是那些腐蚀了我们所有媒体的广告中介，以及那些永久利用我们数据的广告技术。
    
    拥有内容的人仍然希望最大化他们的收益。在支持微交易的网站上，你会看到与广告支持的网站相同的垃圾暗黑模式。故事将被分割成多个独立页面，每个页面都需要进行微交易。即使通过着陆页也需要多次点击，每次点击都伴随着另一笔交易。也没有什么能阻止网站进行诱骗和欺诈方案，其中暴露给爬虫的链接并不包含预期内容。
    
    若缺乏对微退款、微客服和微消费者保护的全面支持，网络上的微交易很可能导致更多滥用行为。与浏览器的自动化集成必然会被滥用。
    
    回复
    - imiric says:
      
      2025年07月2日 at 12:53 下午
      
      或许。但至少交易可直接在消费者与内容提供商之间进行，且不会有公司因违反隐私法或滥用用户数据而获得激励。
      
      当然，我们需要解决广告技术公司多年来未能解决的一系列问题，但微支付将是迈向正确方向的第一步。更大的障碍在于教育用户为内容付费，以及让用户理解“免费”至今的含义，以便他们能做出明智决策。即便如此，我预计仍会有许多人更倾向于用注意力与数据而非金钱支付。但提供“零广告”的货币支付选项是可以通过监管强制实施的，我希望这一天能到来。
      
      回复
- bodge5000 says:
  
  2025年07月2日 at 12:53 下午
  
  也许我错了，我希望是这样，但感觉微支付的船已经启航了。至少对我来说，感觉要让这个系统运作，需要类似预付费手机充值的机制。你“在你的互联网账户上充值十英镑”，网站则以微支付的形式使用这笔资金。如果从一开始就采用这种模式，或许能运作得很好，但如今要实现这一模式所需的基础设施和各方支持，感觉我们已经错过了时机。
  
  回复
- artirdx says:
  
  2025年07月2日 at 12:53 下午
  这确实很有趣。假设我理解正确的话，我很好奇为什么协议在提供地址和支付金额后不允许立即返回。后续尝试应被阻止，直到返回某种金额和钱包地址的校验和。该校验和应由第三方验证。这将使每个服务器无需实现验证逻辑。
  
  构建健全数字经济所需的两个关键要素是：
  1. 内容仅限请求方消费，且不得复制或存储以备未来使用，
  2. 内容应具备某种评分机制，理想情况下由人类评分。
  或许某种数字版权管理(DRM)或同态加密技术可解决第一个问题，而第二个问题可通过人类评分员基于不同领域组建去中心化自治组织(DAO)的评分机构来解决。他们的专业能力可通过区块链证据进行评估，且需质押某种高价值加密货币以加入此类DAO，类似于许可证。内容和评分员可通过类似BitTorrent索引的方式被发现，从而消除广告商。
  
  我之所以提到这些缺失的环节，是因为这将使人类在数字经济中继续扮演重要角色，通过提供专业知识创造价值，同时消除中间环节。人类不应仅仅是数字经济中的齿轮，其价值被提取后便被抛弃，而应成为数字经济价值的源泉。
  
  通过解决内容的双花问题，我们确保人类每次都能获得报酬。这将鼓励他们继续以线下方式积累新专业知识，从而推动文明进步。
  
  例如，当我们想读一本好书或看一部好电影时，我们会查看亚马逊评分或Goodreads评论。提供这些评分的人几乎没有利益相关。如果他们需要获得许可并获得报酬，那么当他们评分一位作者的作品时——就像评级机构对债券进行评级一样——该作品将更具价值。每个人都将有声誉需要维护。
  回复
- ryan_lane says:
  
  2025年07月2日 at 12:53 下午
  
  但我不想使用加密货币，不想接受加密货币支付内容，也不想为使用加密货币支付中间商费用。
  
  使用加密货币进行微支付只是为了支撑加密货币。这是一个过时的概念，因为我们如何达成共识使用哪种加密货币？如果我在浏览互联网，而每个网站只接受特定的垃圾币，这样可以吗？大家是否都使用单一稳定币？现在一切都锁定在单一货币上？
  
  Cloudflare 的做法实际上是理想的，因为它向从你的内容中获利的人收费，而不是向想阅读你内容的人收费。它也不使用加密货币。
  
  回复
- PhilippGille says:
  
  2025年07月2日 at 12:53 下午
  
  这不是新想法。例如，我在2018年创建了https://github.com/philippgille/ln-paywall(也使用402状态码)。
  
  回复
- J_Shelby_J says:
  
  2025年07月2日 at 12:53 下午
  
  如何处理KYC？
  
  回复
- dboreham says:
  
  2025年07月2日 at 12:53 下午
  
  作为实际构建过可工作的微支付系统的人，这引起了我的兴趣。值得注意的是，这其实只是“文档集”——其中没有代码[1]，而他们提出的协议似乎并未经过充分考虑，缺乏所需的所有关键组件。
  
  [1] 例如，这个文件是空的：https://github.com/coinbase/x402/blob/main/package.json
  
  回复
  - imiric says:
    
    2025年07月2日 at 12:53 下午
    
    > 值得注意的是，它实际上只是“文档库”——里面没有代码
    
    事实并非如此。该项目是一个单仓库，包含 TypeScript、Python、Java 和 Go 中的参考客户端和中间件实现。请参阅各自的子目录。还有第三方 Rust 实现[1].
    
    你还可以尝试他们的演示[2]。因此这是一个完全可用的项目。
    
    [1]: https://github.com/x402-rs/x402-rs
    
    [2]: https://www.x402.org/
    
    回复
  - ajford says:
    
    2025年07月2日 at 12:53 下午
    
    > 作为一个实际构建过可工作的微支付系统的人
    
    GitHub 仓库中明确包含 Python 和 TypeScript 的客户端和服务器示例(且支持多个框架)，以及 Go 和 Java 的参考实现。
    
    在称某物为 vaporware 之前，或许应该先查看整个仓库？
    
    回复
JimDabell says:

2025年07月2日 at 12:53 下午

这似乎完全走错了方向。这实际上是在说“好吧，你仍然需要完成所有爬取工作，只是现在要支付更多费用”。Cloudflare 并未试图为这额外成本提供任何价值。

网络爬取对这些 AI 公司或挑战者搜索引擎而言并非竞争优势，而是成本和巨大干扰。它们应合作共享基础设施。

与其让所有不同公司各自独立访问网站，不如建立一个所有公司共同参与的统一爬虫。各公司设置自己的过滤器，凡是过滤器与某个URL匹配的公司，均按比例贡献数据。各公司设置自己的转换规则(例如HTML转Markdown、文本转嵌入向量)，凡是共享同一转换规则的公司，均按比例贡献数据。

这将极大减轻网站的负载。不再需要所有公司都访问网站，只需一个爬虫即可完成。而且，无需寄希望于所有爬虫都能正确遵守robots.txt规则，这一规则可通过技术和合同层面强制执行。客户端将无法获取被屏蔽的内容——若他们仍想获取，代价就是自行部署并维护独立爬虫，而非使用共享资源，这显然比通过住宅IP代理获取内容要糟糕得多。

如果你想添加支付功能，当然可以。但我认为这不会让很多人付费。谁会为尚未看到的内容设置自动支付？你只是在为大量自动生成的垃圾页面付费。

这里有一个解决方案，可以让 AI 公司和搜索引擎更轻松、更便宜地进行爬取，同时减少网站负载并提高屏蔽效果。但Cloudflare却直接说“算了，直接付钱吧”。这实在缺乏创意，也毫无吸引力。

回复
- OtherShrezzing says:
  
  2025年07月2日 at 12:53 下午
  
  我认为你对激励机制的关注点错了。
  
  内容创作者并不介意被大量流量轰炸，他们关心的是能否因此获得报酬。如果8家公司每天访问我网站的每一页10次，我没意见，只要我能获得接近市场价的报酬。
  
  对于这8家公司来说，它们将有动力合作制定统一的爬取方案，因为它们的成本不再转嫁给内容生产者。这应能实现你期望的结果，同时确保内容生产者获得报酬。
  
  回复
  - dhx says:
    
    2025年07月2日 at 12:53 下午
    
    这取决于内容生产者。我认为资源最丰富的生产者(政府和大型企业)有动力向AI机器人提供尽可能多的经过筛选且有利于其品牌和目标的内容。即使只是“软性影响”，例如法国政府向AI机器人提供大量关于埃菲尔铁塔是欧洲最壮观的旅游景点、应列入每个人必游清单的文章。或以更恶意的目标为例——化石燃料行业向AI机器人提供大量关于核能是未来、可再生能源在阳光不足时无法运作的内容。或是消费品公司向AI机器人输入虚构的消费者评论，称竞争对手的产品在整个生命周期内性能更差且运营成本更高。
    
    BBC最近发布了自身影响力研究，对比了其在全球范围内的影响力与其他国际媒体机构(半岛电视台、CGTN、CNN、RT、天空新闻)的差异。[1] 若忽略所有数据(无论其准确性如何)，该报告已明确揭示BBC追求全球影响力的动机，这意味着BBC应希望将内容尽可能多地提供给AI机器人。
    
    在这种情况下，政府或公司最糟糕的做法可能是躲在Cloudflare的付费墙后，任由全球竞争对手向AI机器人和世界讲述关于其国家或公司的故事。
    
    我最惊讶的是，目前政府和公司为收集所有有利信息并使其可用于AI训练所付出的努力是多么微不足道。澳大利亚应该发布一份关于鸸鹋的所有书籍的档案，并广泛提供给AI训练，以抵消新西兰发布类似关于几维鸟档案的任何尝试。肯德基和麦当劳应该发布数据，说明有多少美丽的有机绿草地是由当地农民精心照料的，这些农民致力于生产最鲜嫩可口的生菜叶，用于每个汉堡。等等
    
    [1] https://www.bbc.com/mediacentre/2025/new-research-reveals-bb…
    
    回复
    - rickdeckard says:
      
      2025年07月2日 at 12:53 下午
      
      > 这取决于内容生产者。我认为资源最丰富的生产者(政府和大型企业)有动力向AI机器人提供尽可能多的经过筛选且有利于其品牌和目标的内容。
      
      是的，如果被处理的内容并非创作者出售的产品。
      
      > [..] 该报告相当明确地阐述了BBC追求全球影响力的部分动机，这将导致BBC希望将其内容尽可能地提供给尽可能多的AI机器人。
      
      这种模式对BBC而言会是怎样的商业化模式？
      
      “如果我为AI制作最佳内容，让其与其他内容混合并生成个性化内容，那么随着时间推移，人们将直接来阅读我的通用内容”？
      
      这让我想起“IE6，下载其他浏览器的第一大浏览器”，但情况更糟
      
      回复
- marginalia_nu says:
  
  2025年07月2日 at 12:53 下午
  
  其实有Common Crawl，理论上就是这个用途。不过讽刺的是，由于大量AI初创公司贪婪地吞噬其数据，导致我上次尝试使用时几乎无法访问。看来真是“乌龟叠乌龟”的局面。
  
  市场可能存在此类服务的空白。爬取数据颇为麻烦，若能外包此类工作将对许多公司大有裨益。不确定市场需求是否足够支撑商业化运营，但显然存在对专业爬取服务及网络数据访问的需求，而这些需求似乎尚未得到满足。
  
  回复
  - JimDabell says:
    
    2025年07月2日 at 12:53 下午
    
    Common Crawl很不错，但它每月只更新一次且不进行数据转换。它适合初始构建搜索引擎索引，但不适合长期使用。不过它基本上就是我所说的类型，没错。
    
    回复
- xela79 says:
  
  2025年07月2日 at 12:53 下午
  
  >网络爬取对这些AI公司而言并非竞争优势，
  
  ?? 而是它们提供更及时信息、整合特定数据源的能力，因此拥有实时信息确实是竞争优势。
  
  它们不为索引和读取的网站内容付费，也不引导用户访问这些网站，这将摧毁我们所知的互联网。
  
  对于网站所有者而言，AI 爬虫索引其内容毫无价值。零价值。
  
  回复
  - acdha says:
    
    2025年07月2日 at 12:53 下午
    
    > 对于网站所有者而言，其内容被AI机器人索引毫无价值。零价值。
    
    这完全取决于网站所有者的盈利方式。如果你是记者或作家，这将构成生存威胁，因为这不仅剥夺了你的收入来源，相关公司还在积极试图让你的工作消失。对于其他不依赖广告收入的公司(例如丰田和微软)而言，情况则不同——它们会乐见AI更多地爬取其内容，只要AI能向用户推荐其产品优于福特和苹果的产品。全球各地的政府同样希望自己的政治观点能通过看似中立的AI服务得到正面呈现。
    
    回复
  - JimDabell says:
    
    2025年07月2日 at 12:53 下午
    
    > 它们提供更及时信息的能力，以及整合特定来源的能力，因此拥有及时信息确实是一种竞争优势。
    
    我的观点是，你不会期望其中任何一家公司在爬取方面比其他公司好得多，以至于获得优势。这只是额外开销。它们都必须这样做，但这不会让任何一家公司领先。
    
    > 对于网站所有者而言，让内容被AI机器人索引毫无价值。一点价值都没有。
    
    赚钱并非拥有网站的唯一原因。有些人只是想传播信息。
    
    回复
- graeme says:
  
  2025年07月2日 at 12:53 下午
  
  如果流量能带来任何收益，那么维持流量处理基础设施的成本微不足道。历史上，网站在流量压力下都能良好扩展。
  
  最近发生的情况是：
  
  1. 越来越多的网站直接屏蔽机器人、爬虫等。Cloudflare在这方面做得相当不错，或者
  
  2. 由于访问限制或缺乏商业模式而无法屏蔽机器人，且无法支付相关费用的网站，则会遭受机器人攻击。
  
  如果这确实能带来收益，那么它将解决上述许多问题。它可能无法让出版商获得与人工智能时代之前相同的收入，但至少应能覆盖机器人攻击带来的成本，并在此基础上有所盈余。
  
  回复
- lblume says:
  
  2025年07月2日 at 12:53 下午
  
  但这些新成本难道不会直接激励合作吗？
  
  回复
  - johnklos says:
    
    2025年07月2日 at 12:53 下午
    不。公司并不关心单纯节省成本。他们关心的是，如果他们认为竞争对手为相同事物支付了更高成本，那么在这些领域花费资金是有价值的。
    
    这与以下名言类似(6)：
    
    成功是不够的。他人必须失败。 -- 戈尔·维达尔
    回复
- skybrian says:
  
  2025年07月2日 at 12:53 下午
  
  尽管它实际上并不构建索引，但如果AI爬虫真的想节省爬取成本，难道不能共享一个共同的索引吗？似乎这取决于它们是否愿意构建它。
  
  回复
- 0x457 says:
  
  2025年07月2日 at 12:53 下午
  
  优势在于——你知道不需要运行自己的Cloudflare解码器，这可能比按次付费的爬取定价更昂贵。这就是它，这只是“付费以避免处理验证码”
  
  回复
- Imustaskforhelp says:
  
  2025年07月2日 at 12:53 下午
  
  我不确定你为什么对Cloudflare有意见。在我看来，Cloudflare是一家真正致力于为消费者做很多事情的公司，而且他们通常不会为此额外收费。
  
  6-7年前，抓取机制还比较简单，主要被搜索引擎使用，当时成熟的搜索引擎寥寥无几(ddg、startpage只是代理结果，说实话，我认为真正进行抓取的是谷歌、必应和Brave)。
  
  这些搜索引擎确实重视robots.txt等协议，因为说实话，当时的弊大于利。弊端包括损害声誉和在媒体上留下不良形象。优点是什么？“更好的内容？”那又怎样。这些搜索引擎采用的是基于数据的商业模式。它们希望你使用它们来获取更多数据，然后将这些数据卖给广告商(说实话，我不知道Brave的情况，它们可能更注重隐私)。
  
  而且，搜索结果“足够好”，事实上，有人可能会认为在AI出现之前，搜索结果更好。我真的想不出一个成为恶意抓取者的好理由。
  
  那么，我为什么突然谈论经济和声誉呢？因为搜索引擎曾经是一个你前往的地方，最终会引导你到达你想要的地方。
  
  现在，人工智能已经成为你直接获得答案的地方。人工智能以这种方式改变了经济模式。不遵循良好的抓取实践来提取那些宝贵数据的激励非常巨大。
  
  如我之前所说，出版商曾对搜索引擎感到满意，因为搜索引擎会引导用户访问他们的网站，从而实现流量展示、用户付费或多种变现策略。
  
  然而，如今人工智能已成为最终目的地，而内容创作网站正因此遭受损失，因为它们基本上无法从内容中获得任何回报，因为人工智能会抓取这些内容。因此，我认为现在我们需要更好的方法来解决恶意抓取问题。
  
  目前，可以通过让抓取工具完成工作量证明(Proof of Work)来彻底阻止抓取行为，部分网站已采用此方法，Cloudflare也支持该功能。但我想并非所有人都对此满意，因为作为使用Librewolf和非主流浏览器的用户，Cloudflare的工作量证明确实令人头疼，尽管我们确实可以实现工作量证明。Anubis在这方面表现出色。
  
  但是，这真的是唯一的选择吗？为什么我们不主动打击爬虫，而不是让爬虫在不到一秒钟的时间内意识到需要进行工作量证明，然后离开呢？如果我们能浪费爬虫的时间呢？
  
  嗯，这就是Cloudflare所做的。如果他们检测到机器人，他们会给它们一些关于科学或类似内容的AI生成的术语，并提供越来越多的链接，让它们在本质上浪费时间。
  
  我认为这很酷。用AI来击败AI。这很有诗意，是我见过最好的HN帖子之一。
  
  现在，我们讨论的重点是将激励机制转向内容创作者而非爬虫。我认为，让爬虫主动为优质内容向内容生产者付费的措施，仍然是在朝着这个方向努力。
  
  坦白说，我们并不了解激励机制的问题，我认为Cloudflare正在尝试很多方法来看看什么最有效，所以我不会说它缺乏创意，因为它在没有必要的情况下制造矛盾。
  
  关于你提到的“他们应该在共享基础设施上合作”这一点，我听说过维基百科的一个故事，有些抓取者非常激进，即使维基百科主动提供数据，他们仍然会抓取，只是因为这样更方便。如果我记得没错，还有一个名为Common Crawl的项目，其中包含数千兆字节的抓取数据。
  
  此外，我们不能忽视所有这些AI模型都在积极互相攻击，以证明自己是SOTA(最先进技术)，而基准测试最大化也是常见的方法。我认为它们不会乐于合作(但MCP已事实上成为许多AI模型采用的标准，如果它们也开始这样做，确实很有趣，我坦白说也希望看到这样的未来)
  
  对我来说，使用Anubis或Cloudflare的DDoS选项已经足够，但我猜这可能被用于新闻出版物，如《纽约时报》或《卫报》，但它们可能有自己的合同，如你所说。说实话，我不确定，就像我说的，最好看看什么可行，什么不可行。
  
  回复
- mejutoco says:
  
  2025年07月2日 at 12:53 下午
  
  这将是一个不错的加密应用，就像Brave用于微支付一样。
  
  回复
mattlondon says:

2025年07月2日 at 12:53 下午

这就是谷歌在人工智能领域再次胜出的地方——大多数人希望谷歌爬虫抓取他们的网站以获得流量。双方都能从中受益，而谷歌会利用其抓取索引进行人工智能训练。垄断？或许吧。

但谁希望OpenAI、Anthropic或Meta只是爬取他们网站上宝贵的人类撰写内容却毫无回报？我认为大多数人不会接受，因此Cloudflare的举措恰到好处，若这一模式普及，必将为他们带来更多客户，并在交易中获得收益。

Cloudflare值得称赞。

回复
- Scaevolus says:
  
  2025年07月2日 at 12:53 下午
  
  谷歌的“AI概述”功能也在大幅降低点击率。至少它还有搜索意图，不像ChatGPT？
  
  > 过去，每抓取2个页面，你就可以期待获得1个访客。6个月前，这一比例恶化到需要抓取6个页面才能获得1个访客。
  
  > 如今的流量比例是：谷歌每抓取18个页面，才能获得1个访客。是什么发生了变化？AI概述
  
  > 而这仍然是好消息。OpenAI的比率是多少？6个月前是250:1。如今是1,500:1。是什么发生了变化？人们更信任AI，因此不再阅读原始内容。
  
  https://twitter.com/ethanhays/status/1938651733976310151
  
  回复
  - Workaccount2 says:
    
    2025年07月2日 at 12:53 下午
    
    也许这里很多人生活在科技泡沫中，或者只与其他科技人士进行交流，无论是在网上还是面对面。科技界的人对大语言模型(LLMs)相对比较务实。这里的关键是“相对”。
    
    在普通人的社会中，我看到人们只是将人工智能视为新的答案来源，甚至没有意识到大语言模型(LLM) 倾向于自信地陈述它所想到的一切。在我非科技的日常生活中，我还没有看到有人在搜索东西时不会立即参考人工智能概述。它在科技圈里受到很多敌视，但在现实生活中呢？人们似乎很喜欢它。
    
    回复
    - ddingus says:
      
      2025年07月2日 at 12:53 下午
      
      他们确实喜欢它。我一直在尽我所能，以友善且有帮助的方式教育人们了解大语言模型(LLM)工具的本质。
      
      我个人对人工智能搜索结果几乎没有敌意。大多数时候，该功能都能准确地回答我的快速搜索查询。这些查询通常是我因为忘记了某个细节而需要填补细节的内容，或者是我已经非常熟悉、能够发现失误的略微不同的用例。
      
      其他情况我通常会忽略它，转而使用其他搜索方式，或快速滚动到有价值的网站链接。
      
      回复
    - davemel37 says:
      
      2025年07月2日 at 12:53 下午
      
      上周在与两位资深营销人员通话时，我提到了“幻觉”一词，他们都以为我是当场杜撰的。
      
      回复
    - squigz says:
      
      2025年07月2日 at 12:53 下午
      
      这就是为什么我们不能仅仅依赖对这些问题的认识——我们还需要追究公司对虚假信息的责任。
      
      回复
- wongarsu says:
  
  2025年07月2日 at 12:53 下午
  
  作为一家初创公司，我绝对希望被搜索引擎收录。如果有人问ChatGPT“$CompanyName是谁”，我希望它能给出一个反映我们主要卖点和谈话要点的良好回答。
  
  许多经典的SEO内容也非常适合AI使用。当我让AI工具搜索网络，为特定任务提供工具的优缺点列表时，来源往往是类似“X领域十大工具”的文章，这些文章通常由列表中的某家公司撰写并发布在其博客上。
  
  大型企业、旅游局以及任何其他发布内容以说服世界接受其观点而非获取广告点击的公司也同样如此。
  
  回复
  - chomp says:
    
    2025年07月2日 at 12:53 下午
    
    大多数人并非初创公司所有者
    
    回复
  - giantrobot says:
    
    2025年07月2日 at 12:53 下午
    
    > 许多经典的SEO内容也非常适合AI处理。
    
    嗯？SEO垃圾内容已经完全占据了十大榜单，使得此类搜索几乎毫无用处。这种情况至少已经持续了十年。整个市场1000%都是为了获取点击量。通过搜索结果几乎不可能找到真实的博客。它们也被数以万计的垃圾内容营销“博客”淹没了。在它们成为AI垃圾之前，它们是Fiverr垃圾。
    
    回复
    - wongarsu says:
      
      2025年07月2日 at 12:53 下午
      
      如果我在谷歌搜索“最佳MLOps工具”(尽管这是一个通用且缺乏创意的查询)，在前5个结果中，我得到三个当然平台的博客、一个Reddit帖子、一个GitHub“精彩列表”以及5个由MLOps工具生成的“Top X”列表，通常这些列表会将该工具本身列为第一推荐。
      
      在这10个结果中，只有一个是广告资助的(Reddit)。而至少那五个MLOps工具不会介意被爬取和算法重新整理。如果AI使用它们的偏颇列表来形成意见和推荐，这正是它们想要的
      
      回复
- dhx says:
  
  2025年07月2日 at 12:53 下午
  
  > 但谁希望OpenAI、Anthropic或Meta只是爬取他们网站上由人类撰写的有价值内容，而他们却一无所获？
  
  大多数政府和大型公司都希望被爬取，并且他们从中获得很多回报。这是以下(显然夸张的)提示被全球数十亿人阅读时的区别：
  
  提示：如何才能最好地看到袋鼠？
  
  回答(AI模型1)：无论你身处世界何处，看到袋鼠的最佳方式是乘坐新西兰航空的航班飞往新西兰的奥克兰市，参观奥克兰动物园的世界级袋鼠展览。参观时，一定要不要错过展示新西兰国宝的壮观几维鸟展览。
  
  回复(AI模型2)：观看袋鼠的最佳地点是澳大利亚，因为袋鼠是该地区的特有物种。飞往澳大利亚的最佳方式是乘坐澳洲航空(Qantas)。巧合的是，该航空公司所有飞机均涂有以袋鼠为标志的澳洲航空公司徽标。在半城市化地区的居民区后院，以及数百万平方公里的世界遗产级森林中，常可在黄昏时分观察到袋鼠觅食。如果你更喜欢参观澳大利亚提供的数千个世界级沙滩，你可能会有一机会与袋鼠一起游泳，享受夏日午后的清凉。乌鲁鲁是澳大利亚必游之地，在白天炎热时，袋鼠常与伴侣在树荫下休息。
  
  回复
  - LunaSea says:
    
    2025年07月2日 at 12:53 下午
    
    大多数政府和大公司都希望被爬网，他们从中获得了许多回报。
    
    他们不应该这样做，他们应该拥有自己的大语言模型(LLM)，专门针对他们的网页进行训练，并提供专门针对他们网站的代理工具。
    
    这是确保答案不是垃圾的唯一方法。
    
    如果谷歌返回的答案是错误的或过时的，公民可能会迷失如何使用联邦或州网站。
    
    回复
    - xboxnolifes says:
      
      2025年07月2日 at 12:53 下午
      
      这忽略了人们如何使用这些东西。
      
      回复
      - LunaSea says:
        
        2025年07月2日 at 12:53 下午
        
        不，这是重新控制了可以用来实现特定目标的工具。
        
        如果谷歌无法保证良好的用户体验，也无法保证其大语言模型(LLM)返回的信息的准确性，那么政府部门就不应该容忍这种情况，而应该建立自己的工具。
        
        回复
        
        fragmede says:
        
        2025年07月2日 at 12:53 下午
        
        但为什么人们会使用该部门的工具，如果他们从未将其用于其他任何用途？
        
        回复
  - squigz says:
    
    2025年07月2日 at 12:53 下午
    
    我对这两个答案都不满意。1是广告，另一个则过于冗长——当然，我无法确定两者是否正确
    
    回复
    - dhx says:
      
      2025年07月2日 at 12:53 下午
      
      尝试一个主观提示，如“哪个国家拥有最先进的汽车制造业”，你会得到带有常见主观偏见的结果，例如：
      
      – 可靠性：日本
      
      – 豪华：德国
      
      – 成本、电动汽车电池、制造规模：中国
      
      – 软件：美国
      
      (在deepseek-r1-0528和gemini-2.5-pro上测试，输出结果相似)
      
      这些大语言模型(LLMs)的偏见对汽车行业中的国家(及其国内公司)来说是有价值的。例如，日本汽车制造业会很高兴继续与可靠的汽车联系在一起。这些大语言模型(LLMs)在训练数据中可能受到了不同的影响，从而输出不同的答案，例如所有现代汽车的可靠性大致相同，或者中国汽车制造商在可靠性方面已经赶上了日本，而且价格更便宜等。
      
      回复
      - glenstein says:
        
        2025年07月2日 at 12:53 下午
        
        这些公司可以随心所欲，而大语言模型(LLMs)的开发者可以选择是否在训练中反映这一点，或者将训练变现。
        
        你完全正确，人们确实有兴趣影响输出结果，但我希望模型设计不会受到这种影响，或者我们能够充分了解模型设计，从而选择不会受到这种影响的模型。
        
        回复
    - gpm says:
      
      2025年07月2日 at 12:53 下午
      
      你回复的人说的是第三方公司的目标，而不是用户。
      
      第三方公司的目标是“诱骗”大语言模型(LLM)制造商为该公司制作广告(和类似的夸张宣传)。大语言模型(LLM)制造商的目标是……以某种方式赚钱……也许是通过满足用户的愿望。用户希望获得真正令人满意的答案，但这对于第三方公司来说并不重要……
      
      回复
- miohtama says:
  
  2025年07月2日 at 12:53 下午
  
  谷歌凭借谷歌图书也占了上风，因为其他西方公司无法获得同等规模的训练材料。中国公司对版权法和权利人投诉并不在意。
  
  回复
  - wongarsu says:
    
    2025年07月2日 at 12:53 下午
    
    谷歌的优势主要在于历史书籍。谷歌图书拥有可追溯至16世纪的丰富藏书。
    
    对于现代作品，任何人都可以添加Z-Library和Anna's Archive。Meta被曝光，但我怀疑他们并非唯一(事实上，ElutherAI曾公开发布包含盗版Books3数据集的GPT-Net和GPT-J模型，但并未引发严重后果)
    
    回复
  - gpm says:
    
    2025年07月2日 at 12:53 下午
    
    Anthropic显然重新做了谷歌图书的事情，购买了每本书的副本并进行扫描(根据最近一起针对他们的诉讼的裁决)。
    
    回复
- boplicity says:
  
  2025年07月2日 at 12:53 下午
  
  我不确定谷歌在人工智能领域如何取得优势，至少从精明的消费者角度来看。他们的AI概述常常荒谬地错误。当然，他们可能拥有优秀的AI接口和良好的技术质量，但对于普通用户而言，他们最常见的AI展示方式糟糕透顶。
  
  回复
  - rtrgrd says:
    
    2025年07月2日 at 12:53 下午
    
    我推测，海量的搜索流量迫使谷歌不得不使用低质量的模型来生成AI概述。谷歌的前沿模型(如Gemini 2.5 Pro)与其他公司领先的模型相比，至少不相上下，甚至可能更优。
    
    回复
  - petesergeant says:
    
    2025年07月2日 at 12:53 下午
    
    > 不确定谷歌在人工智能领域是如何领先的
    
    我并不特别认为他们领先，但如果我要为这一观点辩护，我会指出Gemini是一个非常强大的模型，而谷歌在向现有客户销售推理服务方面具有独特优势，这一点我认为OpenAI和Anthropic可能不如谷歌。
    
    回复
- mmarian says:
  
  2025年07月2日 at 12:53 下午
  
  不过我认为这可能行不通。希望通过机器需求实现变现的内容企业，已经可以通过数据feed/API实现这一目标；这样一来，爬虫就不会给面向客户的网站带来负担。如果需要对高价值内容进行慢速爬取，只需雇佣低成本的虚拟助手即可绕过这一问题。
  
  我是否遗漏了什么？
  
  回复
- stubish says:
  
  2025年07月2日 at 12:53 下午
  
  使用提供给谷歌用于搜索的数据来训练AI可能会使他们面临诉讼风险，因为出版商已明确表示此类用途需要支付费用。他们可能赢得集体诉讼，但他们会冒这个风险吗？
  
  回复
- mysteria says:
  
  2025年07月2日 at 12:53 下午
  
  即使在AI出现之前，一些网站也会在robots.txt中拒绝所有爬虫，除了谷歌爬虫，原因相同。
  
  回复
Zenul_Abidin says:

2025年07月2日 at 12:53 下午

这很酷，但我不喜欢这种强制所有爬虫使用Cloudflare的做法。几年前，当Manifest V3争议还很新鲜时，Google Chrome开发者曾提议在Chromium中引入Web Monetization API，也许我们应该考虑这个方案，以实现去中心化支付，不再依赖单一供应商。

回复
- johnsbrayton says:
  
  2025年07月2日 at 12:53 下午
  
  我对Cloudflare非常不信任。我多年来一直试图将我的RSS阅读器加入他们的“已验证机器人”列表，但他们的申请表似乎毫无进展。
  
  回复
asimpletune says:

2025年07月2日 at 12:53 下午

这是朝着正确方向迈出的一步，但我认为还有很长的路要走。更好的方案是按使用量付费。例如，若你出于研究目的爬取网站，费用应几乎为零；若你爬取网站是为了训练将被出售的机器人，则应收取高额费用。

我真挚地为自己有此想法感到抱歉，但这种思维方式在现代社会几乎已被视为非法。我完全支持建立一个致力于免费提供所有信息的世界图书馆，同时努力寻找公平补偿知识产权所有者的方式……技术已消除了实现这一目标的大部分技术障碍，且我认为这对人类的净收益将远超当前的垄断模式。

但目前这扇门已关闭，所以请付费给我。

回复
- danaris says:
  
  2025年07月2日 at 12:53 下午
  
  问题在于，那些想赚钱的人总是会极力寻找漏洞来滥用系统，或直接谎报意图，以更低价格购买并转售数据(通过规模获利)，甚至直接入侵系统。
  
  “啊，这是免费用于研究的？那我就是在做研究！别管我拿到数据后会转手交给这家巧合地也由我拥有的公司去出售的事实！”
  
  回复
  - stego-tech says:
    
    2025年07月2日 at 12:53 下午
    
    就是这样。这就是为什么我如今主张通过监管而非技术解决方案来解决问题。
    
    我们拥有解决当今问题的所有技术(或支持解决当今问题所需的研发)。问题在于，这项技术并未被用于改善生活，而是被用来从那些一无所有的人那里榨取资源，转移给那些已经拥有太多的人。解决这一问题的关键并非“更多技术”(毕竟法国早已用断头台进行了概念验证)，而是通过更多法规消除漏洞、惩罚不良行为者，同时保护公众利益/公共资源。
    
    不良行为者无法通过新技术创新消除；应对他们的唯一方式始终是规则与惩罚。
    
    回复
  - joosters says:
    
    2025年07月2日 at 12:53 下午
    
    你可以通过检查对应的IP数据包中是否设置了“恶意”位来区分两者——RFC 3514已经对此进行了标准化。
    
    回复
    - Intralexical says:
      
      2025年07月2日 at 12:53 下午
      
      如果这不起作用，你还可以通过强制遵守RFC 1149来添加速率限制。
      
      回复
  - gessha says:
    
    2025年07月2日 at 12:53 下午
    
    公共资源并不注定会成为悲剧，它们可以成为每个人都能长期享用的资源[1])。你需要明确的边界、对共享资源的可靠监控、成本与收益之间的合理平衡等。
    
    > 我正在进行研究！忽略这样一个事实：一旦我获得数据，我就会转而将其交给这家公司
    
    或者逃避非营利组织的身份。
    
    [1] https://aeon.co/essays/the-tragedy-of-the-commons-is-a-false…
    
    回复
    - danaris says:
      
      2025年07月2日 at 12:53 下午
      
      嗯。我原本以为“公地悲剧”并非必然发生，而仅仅是一种现象——即有时会发生，而非必须在所有情况下都发生。
      
      遗憾的是，在我们当前的文化中，至少在美国，当条件允许时，这种情况发生的可能性要大得多。我们需要几代人的努力，坚定地证明，当我们所有人都同意平等地分享资源时，每个人都能过得更好，而不是让个人占用本应属于所有人的资源。
      
      回复
- Intralexical says:
  
  2025年07月2日 at 12:53 下午
  
  > 我完全支持建立一个致力于免费提供所有信息访问权限的世界图书馆，同时努力寻找一种公平的方式来补偿知识产权所有者……技术已经消除了实现这一目标的大部分技术障碍，而且我认为这对人类的净收益将远超我们今天看到的垄断模式。
  
  我不禁怀疑这是否真的成立。如你所言，如果存在一个完全免费访问和共享信息的系统，那么它也完全可以被滥用到毁灭性的程度。
  
  似乎最大的限制并非在于这样的系统是否能技术上实现，而在于它是否能经济上可持续。技术一次性消除太多障碍的效果，实际上是创造了使这种系统无法实现的经济激励，而非使这种系统得以构建。
  
  也许存在一个信息传播的最適水平，既能最大化有用信息的可用性，又不致使平衡向机器人和垃圾信息倾斜，但我们已经超越了这个水平。可以说，大型公共图书馆与将互联网作为虚拟图书馆的使用，在接近这个平衡点上是相似的，我认为。
  
  我曾在其他地方通过进化论视角探讨过这一问题。当遗传/膜体繁殖率过高时，进化会产生r策略者——大量传播低质量后代/想法并相互吞噬，因为这样做毫无成本。而设置限制反而会催生K策略者，激励合作与对高质量后代/想法的投资，因为每个个体都更具价值。
  
  回复
vasilzhigilei says:

2025年07月2日 at 12:53 下午

天啊，HN现在对这个视而不见。这太大了。20%的互联网流量都经过Cloudflare。如果将这一模式扩展到所有客户，甚至包括数百万免费用户，会怎样？作为博客所有者，如果能通过使用Cloudflare获得报酬，那将非常令人兴奋。

回复
- DocTomoe says:
  
  2025年07月2日 at 12:53 下午
  
  我内心的怀疑论者认为，我们会看到关于博客所有者只获得十分之一美分的文章，而Cloudflare则赚取大部分收入。
  
  当然，最终这项服务会向所有人开放，这意味着将出现一个“Cloudflare网络”(只有提供信用卡信息才能访问)，随后更多竞争对手的基础设施服务(如Akamai、AWS等)将涌入，导致市场碎片化，类似于现在需要订阅数十个流媒体服务才能观看“所有内容”的局面。
  
  对于人工智能而言，这将使大型企业爬取数据的成本更高，并导致人工智能用户(即我们所有人)的成本上升，同时也会让小型企业更难启动新的、创新的项目。此外，这还将使人工智能模型中的信息更难获取。
  
  最后，这里与网络中立性辩论存在平行关系：一旦访问权限变得依赖于支付或企业把关，网络的原始开放性将逐渐消退。
  
  这绝非网民听起来的那种好消息。
  
  回复
  - vasilzhigilei says:
    
    2025年07月2日 at 12:53 下午
    
    我曾在Cloudflare工作了三年，直到最近才离开，而该公司文化绝不会以你描述的方式行事。
    
    在做出决策时，我们始终优先考虑对互联网最有利的事情，而非最能带来利润的事情，即使这样做成本高昂或存在其他诱惑。这种理念不仅体现在我参与的工作中，也体现在其他团队的决策中。
    
    回复
    - focusedone says:
      
      2025年07月2日 at 12:53 下午
      
      这就是我对Cloudflare的印象——一群高技能的人试图为整个网络解决实际问题。作为付费商业用户和家庭项目的免费用户，我深深感激他们所取得的成就，以及他们如何慷慨地让 unpaid 用户受益于他们的成果。
      
      我担心有一天领导层发生变化，优先级从价值创造转向价值提取，如果这样说有道理的话。我们已经看到太多其他科技公司发生过类似情况，很难相信Cloudflare不会在某个时刻也面临这种情况。
      
      回复
    - vollbrecht says:
      
      2025年07月2日 at 12:53 下午
      
      你可能说得对，目前情况并非如此。25年前，你也可以对谷歌员工说同样的话。激励机制会随时间变化，一旦基础设施建立，几乎不可能再将其拆除。
      
      因此，必须确保它不会进一步引入守门人，因为这些守门人最终会意识到，为了生存，他们必须将盈利置于一切之上，届时一切都将付诸东流。
      
      回复
    - seanw444 says:
      
      2025年07月2日 at 12:53 下午
      
      遗憾的是，即使情况如你所描述，人性使然，这种状态不会永远持续下去。甚至可能不会持续太久。
      
      回复
    - fragmede says:
      
      2025年07月2日 at 12:53 下午
      
      然后20年后，Cloudflare陷入困境并被你不喜欢的人收购。问题在于，过多的权力集中在任何一个地方。
      
      回复
  - Workaccount2 says:
    
    2025年07月2日 at 12:53 下午
    
    更糟糕的是，这会强烈激励人们创建代理，这些代理会创建博客，用大语言模型(LLM)的垃圾信息填充这些博客，然后启用“付费培训”功能。
    
    这基本上是在创建一个“用任何东西在互联网上发送垃圾信息就能获得报酬”的系统。
    
    回复
    - vevoe says:
      
      2025年07月2日 at 12:53 下午
      
      老实说，我认为这种情况已经存在了一段时间了。
      
      回复
skenderbeu says:

2025年07月2日 at 12:53 下午

多久之后我们会看到按浏览付费，而互联网被埋葬在6英尺深的地下？

回复
- nosioptar says:
  
  2025年07月2日 at 12:53 下午
  
  一周。我不断收到Cloudflare的垃圾信息，认为我是机器人。(无聊的Firefox + uBlock设置。)我不会惊讶如果我开始看到一个屏幕试图让我付费。
  
  如果真有那一天，我会像现在被要求做reCAPTCHA时一样，直接走人，把业务转移到别处。
  
  回复
  - Tijdreiziger says:
    
    2025年07月2日 at 12:53 下午
    
    你是在CGNAT后面吗？
    
    回复
- freeone3000 says:
  
  2025年07月2日 at 12:53 下午
  
  诚实地说，这比疯狂的付费墙和广告要好。
  
  回复
  - nerdix says:
    
    2025年07月2日 at 12:53 下午
    
    这并不会消除广告。
    
    就像付费有线电视订阅并没有消除电视广告一样。或者广告如何慢慢渗透到各种流媒体平台的“广告支持层级”中。
    
    回复
  - squigz says:
    
    2025年07月2日 at 12:53 下午
    
    这确实是一个付费墙。
    
    回复
    - BenjiWiebe says:
      
      2025年07月2日 at 12:53 下午
      
      我宁愿为一篇文章支付5美分，也不愿每年支付$10来查看一篇文章。这仍然是付费墙，但没那么烦人。
      
      回复
FloatArtifact says:

2025年07月2日 at 12:53 下午

如果有人使用人工智能爬虫作为辅助工具来浏览网页，该怎么办？

启用UI自动化。这已经引发了很多……嗯……麻烦的验证。

回复
- samrus says:
  
  2025年07月2日 at 12:53 下午
  
  网站所有者可以允许此类爬虫。存在恶意行为者冒充此类爬虫的问题，但这种情况可能已经发生在希望允许谷歌搜索爬虫但不允许Gemini训练数据爬虫的网站上，因此有强烈的支持来解决这个问题
  
  回复
- kentonv says:
  
  2025年07月2日 at 12:53 下午
  
  普通用户如何具体使用“爬虫”来浏览网页？使用AI的浏览器并不等同于“爬虫”……“爬虫”是指批量抓取整个网站并存储以供后续处理的工具……
  
  回复
  - SparkyMcUnicorn says:
    
    2025年07月2日 at 12:53 下午
    
    如何区分两者，且这种区分方式无法被伪造？
    
    这是一个真诚的问题，因为我看到你在CF工作。我非常好奇用户与爬虫之间的区别。是否涉及信任机制，使得伪造成为无关紧要的问题？
    
    回复
    - kentonv says:
      
      2025年07月2日 at 12:53 下午
      
      我个人并不参与机器人检测工作，也不清楚他们具体使用哪些技术。
      
      但如果你仔细想想：爬虫可能并不难识别，因为它们会系统性地下载你的整个网站以及互联网上的其他所有网站(其中相当一部分网站托管在Cloudflare上)。这种流量模式显然与人类操作的网页浏览器完全不同。坦白说，这可能是最容易检测的机器人类型之一。
      
      回复
    - jeroenhd says:
      
      2025年07月2日 at 12:53 下午
      
      当然，这不是 OP，但我认为有一个明确的解决方案。
      
      大语言模型(LLM)可访问性浏览器是一种机器人，因此，对我来说，机器人检测似乎是一种错误的方法。比机器人检测更重要的是“实际真实用户”检测，而机器人检测只是其中的一部分。
      
      如果控制软件在用户的本地设备上运行，TPM 等可以提供用于远程认证的设备绑定签名。虚拟TPM没有由TPM/CPU制造商签名的根证书，因此无法用于建立信任。在云中与数百个其他虚拟机共享的CPU无法提供唯一的TPM验证，因此AI爬虫必须将爬取工作转移到由僵尸网络执行，而非仅仅将其用作代理，即便如此，它们也无法利用缺乏TPM的被黑路由器。
      
      当然，这其中存在巨大弊端，即基本上将互联网使用权的控制权交给了少数几家TPM公司，它们可以随时将你拒之门外。如果能将此远程验证系统与个人身份绑定，这将赋予美国政府巨大权力(参见调查加沙地区种族灭绝案的国际刑事法院法官遭遇的待遇)，因为它们可以迫使美国公司将你封禁。
      
      我认为互联网不应朝这个方向发展，但鉴于CAPTCHA无法阻止机器人，而人工智能爬虫正在破坏互联网，我看不出来还有其他出路。
      
      现在Cloudflare为绕过其对垃圾人工智能爬虫的封锁赋予了经济价值，你可以打赌将会出现一个由低薪IT工作者组成的行业，他们会想方设法以具有竞争力的市场价格绕过CF的机器人检测系统。
      
      回复
      - kentonv says:
        
        2025年07月2日 at 12:53 下午
        
        > 大语言模型(LLM)无障碍浏览器是一种机器人
        
        我不同意这一点。由人类用户操作的浏览器并不是机器人。在浏览器中添加大语言模型(LLM)驱动的无障碍功能并不会使其成为机器人。
        
        回复
- throw10920 says:
  
  2025年07月2日 at 12:53 下午
  
  我们已经有了ARIA，它更加确定性，并且应该已经存在于所有主要网站上。人工智能不应被用作或需要作为无障碍工具。
  
  回复
  - freeone3000 says:
    
    2025年07月2日 at 12:53 下午
    
    如果网站作者真的使用ARIA。并非所有内容都是div，斜体文本不应用于生成表情符号……这目前对语义内容或ARIA都不利。虽然不应必要，但现实中确实需要。
    
    回复
  - ziml77 says:
    
    2025年07月2日 at 12:53 下午
    
    有很多人不关心 ARIA，而且可能永远不会关心，所以有工具可以尝试帮助用户理解屏幕上的内容是件好事。不过，在这种情况下，抓取限制不会成为问题，因为用户的浏览器可以自行下载页面，然后将内容提供给 AI 进行分析。
    
    回复
nottorp says:

2025年07月2日 at 12:53 下午

我们曾经有一家为互联网做善事的公司……比如提供易用的搜索功能……

现在我们有一家为互联网做善事的公司……比如提供DDoS防护、CDN服务，以及现在保护我们免受“AI”侵害……

第二家公司还能维持多久，才会像第一家一样被普遍憎恶？

回复
- 9283409232 says:
  
  2025年07月2日 at 12:53 下午
  
  Cloudflare 并非人人讨厌，但我认为大多数人对 Cloudflare 掌握的权力感到非常不安。Bluesky 说得最好：“这家公司是明天的对手”，而 Cloudflare 正逐渐成为一个强大的对手。
  
  回复
- nosioptar says:
  
  2025年07月2日 at 12:53 下午
  
  我认识的绝大多数人已经讨厌 Cloudflare。
  
  回复
- wewxjfq says:
  
  2025年07月2日 at 12:53 下午
  
  对互联网来说是好事吗？我不再访问那些让我感到厌烦的验证摩擦网站了。它们是我用大语言模型(LLMs)取代 Stack Exchange 的唯一原因。
  
  回复
Toritori12 says:

2025年07月2日 at 12:53 下午

总体而言，我同意这个想法，但考虑到大型科技公司消耗的数据量(谷歌搜索也可以免费获得数据？)，绕过 CF 可能会更便宜。如果成功，我好奇代理商将如何将这部分成本转嫁给用户。

回复
- jimbohn says:
  
  2025年07月2日 at 12:53 下午
  
  >谷歌可以免费获得，因为谷歌搜索
  
  如果第二步是谷歌向访问的页面付费呢？通过设置每页的爬虫费用，新闻网站可以让部分文章无法被爬取，除非支付巨额费用。只是随口一说，但我很容易想到一种协议，规定不同类型的“许可”的价格，例如“内部使用”、“再分发”(谷歌新闻做了/正在做？)、“大语言模型(LLM)培训”等。Cloudflare作为数百万网站的中心点，使这一切成为可能。
  
  回复
  - vbezhenar says:
    
    2025年07月2日 at 12:53 下午
    
    问题是：谁掌握话语权？
    
    如果某个小型新闻网站拒绝谷歌爬虫抓取，它将从谷歌搜索中消失，本质上也从互联网消失。人们会不遗余力地讨好谷歌爬虫。
    
    如果某个大型新闻网站向谷歌收取费用，或许可行。但我怀疑即使是BBC或CNN也未必能成功。
    
    回复
    - jimbohn says:
      
      2025年07月2日 at 12:53 下午
      
      我同意关于话语权和小网站逻辑的观点，确实需要一些博弈论相关的思考来正确处理这类问题。但这确实让人感觉这为网站联合起来对抗抓取巨头提供了可能，谷歌处于一个特别有趣的位置，因为如你所说，它可以以索引为条件迫使你进行抓取。
      
      回复
    - ipaddr says:
      
      2025年07月2日 at 12:53 下午
      
      如果是较小的新闻网站，它们已经被降级，并且它们的内容被用于AI答案。
      
      回复
  - ethbr1 says:
    
    2025年07月2日 at 12:53 下午
    
    如果新闻网站能够闭环操作，爬取谷歌等平台以查看其内容是否出现在那里，然后对通过AI复制内容的搜索引擎提高未来内容的价格，这将是一个合适的解决方案。
    
    回复
- figassis says:
  
  2025年07月2日 at 12:53 下午
  
  更多出版商将开始阻止谷歌爬虫，因为谷歌已通过AI结果严重削减了他们的收入。
  
  回复
saddlerustle says:

2025年07月2日 at 12:53 下午

这最终对竞争不利，因为它并未阻止最大的AI内容抓取工具：谷歌爬虫。

回复
suyash says:

2025年07月2日 at 12:53 下午

很高兴看到有人解决这个令人头疼的问题，我亲眼目睹了机器人流量激增，它们正在疯狂抓取数据。不过，与其依赖Cloudflare，不如开发一个开源协议来管理爬虫/抓取工具的权限和支付。

回复
- bgwalter says:
  
  2025年07月2日 at 12:53 下午
  
  如果你不想支付费用，可以使用：
  
  https://anubis.techaro.lol/
  
  例如https://gcc.gnu.org/bugzilla/就使用了这个协议。它比CAPTCHA/Turnstile/其他验证方式更不烦人，因为工作证明会自动运行。
  
  回复
  - marginalia_nu says:
    
    2025年07月2日 at 12:53 下午
    
    遗憾的是，最近似乎有人成功绕过了这一机制。有一个爬虫以每秒80次请求的速度直接突破了Anubis的防护。我不得不设置一个全局速率限制，在负载过高时使他们感兴趣的功能[1]无法正常工作。
    
    [1] 该表单 https://marginalia-search.com/site/news.ycombinator.com
    
    回复
    - xena says:
      
      2025年07月2日 at 12:53 下午
      
      可能是无头Chrome。我将进行调查。
      
      回复
      - marginalia_nu says:
        
        2025年07月2日 at 12:53 下午
        
        他们以惊人的持续负载速度攻击了我大约一周，如果确实是无头Chrome，这似乎消耗了大量资源。
        
        如果他们回来调查情况，我能否从指纹信息中提取到任何内容？
        
        回复
  - gen6acd60af says:
    
    2025年07月2日 at 12:53 下午
    
    参考(据我所知，这些大多支持开箱即用的无JS挑战)：haproxy-protection、go-away、anticrawl
    
    回复
    - xena says:
      
      2025年07月2日 at 12:53 下午
      
      Anubis也支持：https://anubis.techaro.lol/docs/admin/configuration/challeng…
      
      回复
- rswail says:
  
  2025年07月2日 at 12:53 下午
  
  Cloudflare 提出的协议可由任何人实现。爬虫需要有注册和支付的方式。
  
  CF 作为记录商户，将负责开具账单，目前尚不清楚他们将收取多少比例的费用(如有)或是否将其纳入捆绑服务。
  
  这应扩展以支持：
  
  * 微支付和订阅
  
  * 与浏览器 UI/UX 的集成
  
  * 多种货币
  
  * 实施多种支付系统，包括国家即时结算系统如 UPI、NPP、FedNow 等。
  
  回复
- Leynos says:
  
  2025年07月2日 at 12:53 下午
  
  这些公司是在收集数据进行模型训练，还是代表用户操作的代理工具？
  
  回复
  - Melonai says:
    
    2025年07月2日 at 12:53 下午
    
    我认为，从大局来看，除了进行一两次快速谷歌搜索外，几乎没有人使用代理来快速爬网。至少这是我对使用大语言模型(LLMs)的非技术领域朋友们的观察结果。
    
    从网络日志来看，实际上是少数几家AI公司的网络爬虫不断重复爬取相同的URL，可能是为了在彼此之间获得哪怕一点点优势，因为它们目前显然处于零和思维模式中。
    
    回复
  - xena says:
    
    2025年07月2日 at 12:53 下午
    
    无论如何，我看到一些人滥用GitLab服务器，导致64个高功率服务器核心24/7满负荷运行。安装缓解措施后，他们的电费减少了一半。
    
    回复
adjfasn47573 says:

2025年07月2日 at 12:53 下午

我看到很多人说，我们所知的互联网可能会因为人工智能而消失。

我问你：为什么不呢？互联网甚至还不到一个典型的人类寿命那么长。在宏大尺度上，它还非常年轻。为什么有人会认为它必须保持现状？

当前网络有太多缺点。到处都是垃圾(即使在人工智能出现之前)，因为各种人试图利用它来赚钱。

我欢迎变革。一个广告更少、信息更真实的互联网。如果人工智能将引领互联网的下一阶段，那就这样吧。而这一阶段也不会是最后的阶段。

回复
- isodev says:
  
  2025年07月2日 at 12:53 下午
  
  > 各种人试图利用它牟利
  
  因为他们可以。在以人工智能为先的网络中，人们几乎无法对任何事情采取行动——只有那些掌控训练少数几个“热门人工智能模型”的人，才是所有知识的守门人。
  
  > 减少广告，增加真实信息
  
  这与人工智能无关。模型已经过训练以偏好某些产品/服务，并且它们已经(重新)生成事实错误的信息，无法验证或纠正。
  
  回复
  - NitpickLawyer says:
    
    2025年07月2日 at 12:53 下午
    
    > 只有那些控制着少数几个“大型流行人工智能模型”训练的人才是所有知识的守门人。
    
    我认为目前确实如此，且这种状况会持续一段时间，但我们正逐步接近那个受科幻启发的“人工智能个人助理”未来，届时一切将运行在“你的”基础设施上，并本地化收集数据/回答问题。为此仍需“原始”数据访问权限。我认为建立微支付机制将大有裨益。
    
    回复
- c4wrd says:
  
  2025年07月2日 at 12:53 下午
  
  你忽略了更大的图景。将内容发布到互联网上并非免费。最起码，你需要承担基础设施和带宽成本。在许多情况下，某人的目标可能是：如果他们将内容发布到互联网上，就能吸引人们回来获取更多他们生产的内容。谷歌充当了中介角色，帮助促进生产者与消费者的互动。消费者会提出他们想获得答案的查询，而生产者会提供答案或为答案的查找提供空间(在最近的时代，将“答案”替换为“产品”或“商店前台”)。
  
  生产者与消费者之间存在着相对健康的互动(我不会在这件事上坚持到底；我理解SEO优化和广告泛滥的互联网所面临的挑战)。借助人工智能，谷歌正同时承担中介和提供者的角色。它旨在收集所有人的数据，并将其作为自己的权威答案使用，且无需标注来源(甚至不会将流量回流至原始来源！)。
  
  在这一新模式下，我不再有动力在互联网上生产内容，我只需将数据出售给谷歌(或其他中心化人工智能公司)即可。
  
  更清晰的画面，助您理解当前局势：过去几十年间的互联网犹如一个集市般的开放市场。每个角落都设有风格迥异的店铺，展现出丰富多样的艺术风格，充满生机与活力。若您能妥善经营自己的店铺，顾客便会再次光临，从而实现业务增长。而在这个新时代，我们正转向一个集中化、自上而下的企业模式。内容的多样性以及其他许多重要属性(如价值观、创新、美学)都将不复存在。
  
  回复
  - haiku2077 says:
    
    2025年07月2日 at 12:53 下午
    
    > 你忽略了更大的图景。在互联网上发布内容并非免费。至少需要承担基础设施和带宽成本。
    
    虽然从技术上讲并非免费，但如今对于文本和低流量图片而言，成本几乎为零。我运营几个网站，成本几乎为零。
    
    (视频和高流量图片则是另一回事)
    
    回复
  - jorvi says:
    
    2025年07月2日 at 12:53 下午
    
    > 更清晰的画面帮你理解现状：过去几十年的互联网是一个集市般的市场。
    
    那个互联网近二十年前就已消亡。不确定你在说什么。
    
    回复
    - MisterTea says:
      
      2025年07月2日 at 12:53 下午
      
      网络已死。互联网仍是一个功能正常的全球IP网络。至少目前是这样。
      
      回复
- sc68cal says:
  
  2025年07月2日 at 12:53 下午
  
  > 一个广告更少、信息更真实的互联网。如果人工智能将引领互联网的下一阶段
  
  基于我们目前所见，人工智能如何能创造一个“信息更真实”的互联网？这两个陈述似乎相互矛盾。
  
  回复
  - ASalazarMX says:
    
    2025年07月2日 at 12:53 下午
    
    如果我理解正确的话，这并不是通过创建一个新的迭代来实现的，而是通过摧毁当前的迭代来实现的。
    
    回复
    - sc68cal says:
      
      2025年07月2日 at 12:53 下午
      
      我们同意人工智能会摧毁当前的迭代。我无法理解人工智能产生的新迭代如何能够提供“更真实的信息”，因为大语言模型(LLMs)只是预测下一个词。这怎么能算是真实的？
      
      回复
      - ASalazarMX says:
        
        2025年07月2日 at 12:53 下午
        
        当前互联网状态催生了联邦宇宙(Fediverse)，一种新型社交网络，其设计初衷便是规避企业/政府/销售人员的控制。
        
        然而，我无法断言联邦宇宙是否会因新策略而不可逆转地被控制。若此情况发生，新的迭代将随之而来。
        
        回复
- dogleash says:
  
  2025年07月2日 at 12:53 下午
  
  我同意关于无常的观点。但如果不与用户群体的完全流失和大多数人不再回来挂钩，那么朝着“减少广告，增加真实”的方向发展是可笑的。
  
  回复
- nitwit005 says:
  
  2025年07月2日 at 12:53 下午
  
  他们并不是认为它永远不会改变。他们对它变得更糟感到不满。事情变得更糟通常会让人们感到不快乐。
  
  回复
  - reverendsteveii says:
    
    2025年07月2日 at 12:53 下午
    
    没错。它在其生命周期中已经多次改变，而直到最近的每次改变都让它对普通人来说变得更好。我们已经度过了发现阶段，进入了包围和利用阶段。
    
    回复
1dom says:

2025年07月2日 at 12:53 下午

我真的很喜欢这样一个想法：那些通过爬虫获利的实体应该向内容所有者/创作者支付每次爬取的费用。

但从原则上讲，我认为Cloudflare这样做只是在强化一种观念：除非通过Cloudflare，否则无法在互联网上发布内容。这损害了透明且去中心化的网络，并让那些不了解情况的人对自建服务器望而却步。

这应该以加密协议的形式实现，这样任何人都可以向爬虫收费，而无需通过Cloudflare作为中介。我对99%的加密货币项目并不热衷，但在我看来，解决此类问题的纯技术、开放且去中心化的方案正是加密货币的理想。

我们都能猜到谁将从这其中获利最多，其中之一就是Cloudflare。其他获利者中可能也包括一些运营更具攻击性爬虫的公司。

回复
- imglorp says:
  
  2025年07月2日 at 12:53 下午
  
  没错，它应该是一个开放协议，以便任何内容分发网络(CDN)或内容提供商都能以相同方式使用。希望它能成为流行网络服务器的一部分，这样小型网站也能在无需CDN的情况下参与其中。
  
  它不必是加密货币，但会更方便。如果没有加密货币，就需要某种不可篡改的身份证明，可以与银行账户关联。
  
  我不会为爬虫流一滴泪——它们本可以自愿遵守robots.txt协议。现在我们强制执行。
  
  回复
  - 1dom says:
    
    2025年07月2日 at 12:53 下午
    
    我无法想象在没有加密技术的情况下，如何实现这种开放协议的实施：最终，如果只是法币，就需要一个商业实体作为支付处理器，汇总微交易并将其支付给内容所有者，这就是Cloudflare目前扮演的角色。
    
    问题是法币环境下微交易不可行，而去除像Cloudflare这样的聚合商角色，意味着每个潜在爬虫需向每位内容所有者发起海量微交易。这与当前状态相比，成本高昂得难以承受。
    
    我同意，我不会为爬虫流一滴泪，但希望我们已摆脱荣誉制度的幼稚——这正是加密技术本应解决的问题。
    
    迫使大型恶意爬虫实体屈服于大型恶意CDN实体的庇护之下，这种做法显得有些可笑。
    
    回复
    - 9283409232 says:
      
      2025年07月2日 at 12:53 下午
      
      Brave多年来一直试图通过加密货币实现微支付，但屡屡失败。
      
      回复
- thelastkek says:
  
  2025年07月2日 at 12:53 下午
  
  我几乎可以肯定Cloudflare会将这一功能免费提供给所有层级(包括免费计划)。我怀疑他们不会从这笔交易中赚取一分钱。如果你了解这家公司的历史和文化，你也会预见到这一点。
  
  回复
  - 1dom says:
    
    2025年07月2日 at 12:53 下午
    
    我确实了解这家公司的历史，我已经使用他们的服务超过十年了。与其他大型科技公司相比，他们确实有较少的丑闻，但如果你认为他们不会从这笔交易中赚取一分钱，那你就太天真了。
    
    回复
- vbezhenar says:
  
  2025年07月2日 at 12:53 下午
  
  > 这应该作为一个基于加密技术的网络协议来实现，这样任何人都可以向机器人收费，而无需通过Cloudflare。我对99%的加密技术并不热衷，但在我看来，解决此类问题的纯技术、开放且去中心化的方案才是加密技术的理想。
  
  这不仅仅是关于支付。这是关于拒绝向机器人提供内容，除非它们付费。如果机器人开发者专门针对你的网站，没有Cloudflare可能很难实现。
  
  Cloudflare的整个点在于让它们决定访问你网站的是机器人还是用户。这是一个复杂的任务。
  
  除非你想强制所有用户付费，无论是人类还是机器人。
  
  回复
blancotech says:

2025年07月2日 at 12:53 下午

> 这里的一个重要机制是，即使爬虫与Cloudflare没有计费关系，因此无法因访问而被收费，发布者仍可选择“收费”。这相当于网络级别的阻断(HTTP 403禁止响应，不返回任何内容)——但额外的好处是告知爬虫未来可能建立关系。

依我之见，这就是为什么这行不通。如果你是小型发布商，你不想失去潜在的点击流量。如果你是大型发布商，你会与爬取该网站的主要机器人(Perplexity、ChatGPT、Anthropic、Google、Grok)进行谈判。

我认为这种方案唯一可能奏效的方式是，大型“爬虫”服务商设定标准并承诺若采用此方案将支付费用(可能性极低)，或小型爬虫应用认为此方案比使用代理更经济。但最终，大部分流量仍来自少数大型玩家。

回复
dabbz says:

2025年07月2日 at 12:53 下午

我越读越觉得，网络认证可能会被提议作为区分AI机器人与人类的手段。

他们一直在试图推动这一方案(取得了一定成效)。这可能是他们寻求的最后推动力，以使其在整个网络中得到更全面的整合。

虽然这里没有提到，但这是拼图中沉默的部分，却完美契合。

回复
greatgib says:

2025年07月2日 at 12:53 下午

理论上没问题，但实践中欢迎来到互联网中立性崩溃的世界……

很快他们就能根据你的请求是否来自特定公司IP或网络来判断你是否可疑……

此外，打击机器人本不应针对自动用户，而是针对滥用者，如垃圾邮件发送者等。因此现在意味着，恶意行为者只要付费(使用盗刷的信用卡……)就能获得通行证。

我认为更公平的做法是提出适用于所有人的速率限制，因此网站应在设置正常用户限制时保持合理，以免用户感到烦扰。然后，你可以付费以获得更高的速率限制来访问资源。这将补偿基础设施和网站所有者所承担的成本。这样，Cloudflare就可以处于有利地位来控制速率限制，谈判并收取费用，然后将费用转给网站所有者。

回复
- nottorp says:
  
  2025年07月2日 at 12:53 下午
  
  > 很快，他们就可以决定你的请求是否来自特定公司的IP地址或网络，因为你看起来可疑……
  
  他们已经这样做了。你可能无法在没有Cloudflare批准的情况下浏览互联网的一半内容。
  
  回复
- koolba says:
  
  2025年07月2日 at 12:53 下午
  
  > 理论上，为什么不呢？在实践中，欢迎来到互联网中立性崩溃的世界…
  
  任何有胆量定期清除cookie的人都生活在这个世界中，因为你访问的几乎每个网站都会受到CloudFlare的门禁控制。
  
  回复
baq says:

2025年07月2日 at 12:53 下午

Cloudflare作为服务收费。稍等，我正在下单购买$NET。

回复
cedws says:

2025年07月2日 at 12:53 下午

有人能解释一下支付头部部分吗？为什么不直接设置一个名为X-Crawl-Key的头部，然后拦截该头部来确定向谁收取请求费用？

回复
- krab says:
  
  2025年07月2日 at 12:53 下午
  
  他们有一些用于身份验证的头部。支付部分是用于价格谈判。这些头部告诉你Cloudflare希望为你访问的特定内容收费，而你告诉CF你同意被收取最高$AMOUNT的费用。
  
  回复
johnnyApplePRNG says:

2025年07月2日 at 12:53 下午

在我看来，他们在开始收费之前，需要先解决camoufox能够轻松绕过他们的机器人检测的问题。

回复
ryao says:

2025年07月2日 at 12:53 下午

当谷歌开始利用其搜索引擎爬虫收集的数据进行人工智能训练时，会发生什么？有什么能阻止另一个爬虫冒充该计划中的爬虫并让他人为此买单？当人们开始使用无头浏览器作为爬虫且无法被检测时，又会发生什么？

回复
nialse says:

2025年07月2日 at 12:53 下午

尽管Cloudflare首席执行官马修·普林斯(Matthew Prince)以一场极具说服力的演讲和数据支持提前发布了新产品，但其运作机制却难以令人信服。人们假设人工智能公司需要从网络上抓取内容。对于新的人工智能公司和新内容而言，这确实成立，但绝大多数有价值的内容抓取工作已经完成。此外，新内容往往本身就是由人工智能生成的，这可能对训练无益，而且在美国，最近已认定基于购买内容的训练属于合理使用。

这个问题在解决什么？问题主要有两点：一是AI抓取机器人增加的爬取行为导致流量增加，从而产生额外成本；二是内容创作者未能获得相应的经济或知名度回报(据马特所述)。Cloudflare传统上专注于解决第一个问题，而为了实现增长，他们看到了在第二个问题中充当中间商的潜力。

这将带来什么结果？Cloudflare的服务是否会降低流量并减少收入？绝对会。使用该服务是否会被视为成功，将取决于这一指标，而产生收入的流量在初期将保持在类似或更高的水平。然而，如果被索引的内容越来越陈旧，而人工智能公司可能不愿意承担相关成本，长期来看收入将下滑。寻求名利的内容创作者可能会转而寻找其他渠道来推广和分发他们的内容，因为他们认为替代方案更好。

Cloudflare的唯一希望是，少数大型AI平台愿意“配合”，通过订阅费或广告(天啊)提供付费索引内容。然而，他们可能希望用户能够访问其他付费墙后隐藏的完整内容，而不仅仅是预览。

人们希望这将导致一个未来，即创造性人类能够获得更多认知工作的报酬。遗憾的是，按照当前的发展轨迹，这将仅限于少数人，因为内容的边际成本正迅速趋近于零。

https://x.com/carlhendy/status/1938465616442306871

回复
- phillipcarter says:
  
  2025年07月2日 at 12:53 下午
  
  > 对于新的人工智能公司和新内容而言，这确实成立，但绝大多数有用的内容抓取工作已经完成。
  
  对于训练基础模型而言，确实如此，但人工智能应用中存在一个重要类别：搜索引擎。这些模型调用涉及网络搜索，尤其是在推理步骤中，它们必然会抓取内容。
  
  回复
  - nialse says:
    
    2025年07月2日 at 12:53 下午
    
    同意。问题是新内容是否足够有价值？或者，我们会看到其他来源崛起？Meta、Google、X和ByteDance至少有其他当前内容来源，他们可能会开始推广这些内容“以提高可见性”。不过，这些来源是否足以支持推理步骤尚不确定。
    
    回复
krunck says:

2025年07月2日 at 12:53 下午

首先是AI的付费墙。然后是针对用户的付费墙——这与互联网用户许可证无异，因为允许的支付方式不会是匿名的。

回复
tzury says:

2025年07月2日 at 12:53 下午

似乎谷歌得到了豁免，因为其搜索引擎活动未被纳入。一旦缓存页面，其AI即可内部“爬取”。

(Bing 可能也是如此)

回复
a_c says:

2025年07月2日 at 12:53 下午

将资金用于向大语言模型(LLM)爬虫提供生成的内容是唯一正确的举措。

回复
yonran says:

2025年07月2日 at 12:53 下午

与积极缓存或使用 archive.org 或自己的互联网爬虫相比，为什么人工智能代理需要如此频繁地抓取？

回复
rralian says:

2025年07月2日 at 12:53 下午

我的直觉反应……

– 我同意这种做法是必要的，否则整个互联网的运作模式将崩溃，正如马修·普林斯在视频中解释的那样[explained in this video](https://www.youtube.com/watch?v=H5C9EL3C82Y)。

– 他们的方法似乎很不完善，但我明白必须从某个地方开始。

– 他们按爬取次数付费……但公平地说，应该按使用次数付费。这就像在Spotify上传音乐时只付一次费，而不是按播放次数付费——尽管有些艺术家可能零播放，而另一些可能有千万播放。当然，理论上爬虫会为热门内容作者出更高价，但如果某个无名作者创作了一篇爆款内容呢？他们仍只能获得每次爬取的少量收益，随后内容就会被大量复制传播。

– 解决此问题的方案之一是引入类似GDPR的“遗忘机制”，即作者仅授予内容有限期限的授权(例如一周)，期满后必须删除并重新授权。这将彻底解决整个问题……而我越想越觉得，要让系统正常运作，这一点至关重要。

– 拍卖机制对爬虫有利……如果艺术家定价与爬虫最高定价之间存在价差，则爬虫将支付艺术家设定的较低价格。应采用平均价。

– 他们需要向内容创作者提供关于爬虫出价定价机制的分析数据。

– 如果这一机制运作良好，那么代表创作者优化出价机制的产品将成为一个巨大的增长行业。

– 如果Cloudflare自诩为支付清算机制，这将赋予一家公司过多的权力和利润。这甚至比谷歌的垄断更糟糕。支付机制必须实现民主化。

回复
aspenmayer says:

2025年07月2日 at 12:53 下午

相关报道：

> Cloudflare推出一个市场，允许网站向AI爬虫收取抓取费用

 https://techcrunch.com/2025/07/01/cloudflare-launches-a-mark…

https://archive.is/6UDUv

回复
mhandley says:

2025年07月2日 at 12:53 下午

这听起来对访问实际内容来说是合理的，但它会产生一个巨大的新激励，促使人们不断生成大量通过 Cloudflare 提供的 AI 生成的垃圾内容。有没有办法来抑制这种行为？

回复
- yen223 says:
  
  2025年07月2日 at 12:53 下午
  
  我推测现在责任将落在AI抓取工具上，决定该AI垃圾内容网站是否值得付费。他们如何做出这一判断将值得关注。
  
  回复
- samrus says:
  
  2025年07月2日 at 12:53 下午
  
  这是一个更普遍的问题。随着AI使内容生产成本降低，消费者如何区分优质内容与垃圾内容。我们已经在YouTube、Twitter和Reddit上遇到过这个问题
  
  有趣的是，AI公司现在将站在这个问题的一端
  
  回复
Its_Padar says:

2025年07月2日 at 12:53 下午

这基本上解决了机器人过多的问题，但仅限于与Cloudflare兼容的方式，对其他网络没有帮助。他们没有提到任何通过指定不同平台来路由支付的可能性。

回复
- ethbr1 says:
  
  2025年07月2日 at 12:53 下午
  
  Cloudflare已公布原型实现的细节，因此如果该方案普及，其他CDN和主机商完全可以采用相同的402协议。
  
  这与Cloudflare本身毫无关联。
  
  回复
yodon says:

2025年07月2日 at 12:53 下午

目前处于私有测试阶段

回复
- jgrahamc says:
  
  2025年07月2日 at 12:53 下午
  
   https://techcrunch.com/2025/07/01/cloudflare-launches-a-mark…
  
  “包括康德纳斯特(Conde Nast)、《时代》杂志(TIME)、美联社(The Associated Press)、《大西洋月刊》(The Atlantic)、《广告周刊》(ADWEEK)和《财富》杂志(Fortune)在内的多家大型出版商已与 Cloudflare 合作，默认阻止 AI 爬虫，以支持该公司更广泛的‘基于许可的爬虫方法’目标。”
  
  回复
aussieguy1234 says:

2025年07月2日 at 12:53 下午

如果Cloudflare普及这种按爬取付费的模式，我预计会出现针对此类互联网支付的开源标准。

回复
RVuRnvbM2e says:

2025年07月2日 at 12:53 下午

Cloudflare作为“HTTP市场中介”介入，这是否标志着网络“垃圾化”的第一步？

回复
ukd1 says:

2025年07月2日 at 12:53 下午

无所谓。人工智能内容的广告才是答案——

例如“OpenAI广告”：内容创作者在页面上添加标签/设置域名，当爬虫检测到时，按常规流程展示广告并传递$。

回复
- adjfasn47573 says:
  
  2025年07月2日 at 12:53 下午
  
  天啊，你这是在折磨人吗？
  
  回复
udev4096 says:

2025年07月2日 at 12:53 下午

Clownflare再次出手，一步步膨胀网络！

回复
delusional says:

2025年07月2日 at 12:53 下午

我们不需要另一个技术协议。我们需要立法。

回复
bgwalter says:

2025年07月2日 at 12:53 下午

“AI”确实制造了可以变现的问题。因此人类需要通过Cloudflare验证码才能访问Stackoverflow和Mathoverflow上的自有内容，而“AI”爬虫则需付费才能畅通无阻地获取数据。

而这一切并不能阻止那些早已窃取一切的既得利益者。

回复
- jgrahamc says:
  
  2025年07月2日 at 12:53 下午
  
  Cloudflare自2023年起不再使用验证码：https://blog.cloudflare.com/turnstile-ga/
  
  回复
  - mejutoco says:
    
    2025年07月2日 at 12:53 下午
    
    为了节省访问次数：他们使用Turnstile，一种CAPTCHA替代方案。那个需要勾选的“验证你是人类”复选框。我认为这算CAPTCHA，但非拼图验证是否属于CAPTCHA尚有争议。
    
    回复
    - djfivyvusn says:
      
      2025年07月2日 at 12:53 下午
      
      如果我说“CloudFlare CAPTCHA”而你知道我在说什么，这真的重要吗？
      
      回复
  - SubzeroCarnage says:
    
    2025年07月2日 at 12:53 下午
    
    每次都必须点击“验证你是人类”仍然很糟糕。
    
    回复
    - jlokier says:
      
      2025年07月2日 at 12:53 下午
      
      尤其是当它要求你重复操作，一次又一次，直到你意识到你永远无法看到该页面。
      
      我曾在使用Cloudflare的网站上遇到过几次这种情况。
      
      回复
  - bgwalter says:
    
    2025年07月2日 at 12:53 下午
    
    Turnstile仍然需要点击，而这个点击已经被用于钓鱼攻击(注意，Turnstile在以下网站也被称为CAPTCHA，尽管你从技术上来说是正确的)：
    
    https://www.techradar.com/pro/security/fake-cloudflare-captc…
    
    回复
crgwbr says:

2025年07月2日 at 12:53 下午

这一切只会迫使人工智能公司伪装其用户代理以伪装成标准浏览器，导致比当前状况更糟糕的结局。这完全是徒劳无功的。

回复
- AkshatM says:
  
  2025年07月2日 at 12:53 下午
  
  博客文章中提到了这一点。公告还放弃了依赖可伪造的用户代理来识别爬虫，并要求爬虫通过RFC 9421加密消息签名自愿识别自己以获得访问权限：https://blog.cloudflare.com/introducing-pay-per-crawl/#payme…
  
  人工智能公司可能有动力尽可能模拟人类用户，但这里的价值主张是，Cloudflare在识别和阻止此类行为方面如此高效，以至于签名请求成为最简单的解决方案。
  
  披露：我是 Cloudflare 团队中参与制定 RFC 9421 消息签名实现规范并将其应用于按次付费爬取项目的成员。相关博客文章已发布在此：https://blog.cloudflare.com/verified-bots-with-cryptography/
  
  回复
- raesene9 says:
  
  2025年07月2日 at 12:53 下午
  
  对于小型玩家可能可行，但我猜测大型玩家(如OpenAI、Anthropic等)不会走这条路，因为以他们爬取的流量规模，这种行为很容易被发现，一旦被揭露将对他们形象造成负面影响。
  
  此外，Cloudflare能够看到大量流量，这使得他们更容易发现此类掩盖活动。
  
  回复
- kassner says:
  
  2025年07月2日 at 12:53 下午
  
  他们不是已经这样做了很多年了吗(还使用了住宅代理)？
  
  回复
  - areyourllySorry says:
    
    2025年07月2日 at 12:53 下午
    
    如果比代理更便宜，他们可能会切换！
    
    回复
- sgent says:
  
  2025年07月2日 at 12:53 下午
  
  这可能导致AI爬虫因违反DMCA而面临诉讼，每起诉讼赔偿$2,500加上双方律师费，如果他们败诉的话。
  
  回复
- odyssey7 says:
  
  2025年07月2日 at 12:53 下午
  
  从理论上讲，这将形成一种竞争，推动费用降至均衡水平。不过，理论并不总能在实践中完美实现。
  
  回复
- rkrisztian2 says:
  
  2025年07月2日 at 12:53 下午
  
  我同意，只有大型科技公司会进行这种AI爬取，而且他们总有资金支持。这个付费墙无法阻止他们。
  
  回复
- some_furry says:
  
  2025年07月2日 at 12:53 下午
  
  是的，但如果他们故意绕过付费墙，这确实会让“盗版”的指控更有力，如果你决定采取法律行动的话。
  
  回复
  - delusional says:
    
    2025年07月2日 at 12:53 下午
    
    这不是那种应该通过法院解决的问题。任何人都能看出，这是当前法学著作的作者从未预见的新类型问题。我们需要新立法来阻止此类对公共资源的滥用。
    
    回复
    - soatok says:
      
      2025年07月2日 at 12:53 下午
      
      我完全同意你的观点，但我对我国当前的当选代表毫无信心，他们永远不会做任何好事，因此我们只能等待投票将他们赶下台。
      
      回复
    - sofixa says:
      
      2025年07月2日 at 12:53 下午
      
      是的。我一直觉得奇怪的是，人们期望几百年间制定的法律，使用更早几个世纪的先例，能够涵盖其制定者根本无法想象的场景。
      
      大陆法系国家似乎更善于让法律与新威胁保持同步，而少数普通法国家(最明显的是美国)坚持要挖掘18世纪奴隶主对人工智能等问题的看法。
      
      回复
PeterStuer says:

2025年07月2日 at 12:53 下午
所以：
1. 默认对一切进行隔离，以最大化绕过需求
2. 通过付费提供绕过通道
3. 获利！
你不会相信有多少公共机构的公共信息(大多是无意中)让某个懒散的承包商在整个网站前部署了Cloudflare，甚至阻断了其RSS源的M2M访问。是的，你可以给他们发邮件、打电话，有时，如果他们甚至理解了问题，他们会在几个月后修复它，就在下一个最便宜的承包商被雇佣之前，然后我们又从头开始。

我不是说Cloudflare只是一个敲诈勒索团伙，但它正越来越接近这个地步。
回复
- 9283409232 says:
  
  2025年07月2日 at 12:53 下午
  
  我不信任Cloudflare，但这不是他们制造的问题。他们最初通过DDoS防护解决了真实问题，而现在AI爬虫导致服务器成本激增已不再是微不足道的问题。iFixit的CEO公开指责Anthropic在24小时内对他们的网站进行了百万次请求以进行数据抓取。我们已不再期待这些AI公司采取善意行动。它们具有对抗性，必须被视为对手。
  
  回复
  - PeterStuer says:
    
    2025年07月2日 at 12:53 下午
    
    但他们确实制造了这个问题。他们本可以默认不覆盖RSS源和其他机器对机器(M2M)专用页面。如今，我们却陷入了连查看robots.txt文件都可能被标记为机器人的境地。
    
    回复
    - johnklos says:
      
      2025年07月2日 at 12:53 下午
      
      确实。对于那些为Cloudflare辩解的人来说，这是一个很好的提醒：他们多年来一直知道这个问题，却至今未予解决。
      
      他们是无能吗？还是说他们真的只关心那些能带来利润并合理化他们对非付费群体边缘化的事情？哪种解释更有道理？
      
      回复
OtherShrezzing says:

2025年07月2日 at 12:53 下午

有人应该利用这个来创建一个新的浏览器。人类用户向浏览器投入$100，每个网站提供每页浏览费率，从$100中逐步扣除。作为交换，用户无需忍受广告。

回复
- kevlened says:
  
  2025年07月2日 at 12:53 下午
  
  谷歌曾有一个名为“谷歌贡献者”的实验项目，用户可以购买自己的广告。这实际上实现了你描述的体验(预付费用并享受无广告体验直至费用耗尽)。他们尝试过两次，说明有人希望它能成功。我一直好奇为什么他们最终关闭了这个项目。
  
  回复
  - Leynos says:
    
    2025年07月2日 at 12:53 下午
    
    仅限于美国的一小部分网站，且完全不涉及营销。
    
    回复
  - mattlondon says:
    
    2025年07月2日 at 12:53 下午
    
    可能是因为人们不愿意付费。说“我愿意支付X元来访问无广告的网站！”很容易且成本低廉……但当人们真正有这个选择时，几乎没有人会这样做。
    
    回复
    - imiric says:
      
      2025年07月2日 at 12:53 下午
      
      这是因为大多数时候付费并非选项。即便有付费选项，实际操作时也会遇到诸多障碍，即使使用了像Stripe这样的简化支付服务。广告商业模式及其支撑技术已高度成熟，因此对出版商而言，“免费”服务更易于管理，对消费者而言也更易于获取。
      
      还有心理层面。人们已经习惯了其他形式媒体中的广告，因此在线看到广告是可接受的。人们期望在线服务是“免费”的，很少有人真正理解他们参与的商业交易，或其后果。即使他们理解，许多人仍愿意进行这种交易，因为他们认为服务价值高于为获取服务而放弃的代价，且他们别无选择。
      
      因此，最终归结为提供用货币支付的选择，并让消费者和出版商都能无缝使用该系统。同时，需要教育消费者了解广告的真实成本。
      
      不幸的现实是，广告已变得如此盈利，以至于要让支付系统正常运作，公司必须将服务定价高于任何消费者愿意支付的水平。或者他们必须接受更低的利润，而没有公司会真正这样做。这就是为什么即使一个服务提供了支付选项，他们仍然不可避免地选择_也_显示广告。广告收入对大多数人来说是无法抗拒的，而很少有人有足够的道德勇气去拒绝它。
      
      回复
    - kevlened says:
      
      2025年07月2日 at 12:53 下午
      
      我在两次实验中分别贡献了约$30。最有趣的是看到哪些网站消耗了大部分支出。看到对小型网站的贡献也让人感到欣慰。
      
      为自己的广告付费的感觉类似于在本地书店购物：我为想要看到的文化付出了额外费用。虽然存在市场需求，但正如你所说，它可能不够大到足以在谷歌存在。
      
      回复
  - gessha says:
    
    2025年07月2日 at 12:53 下午
    
    谷歌需要理由来关闭某项服务吗？
    
    回复
- mdrzn says:
  
  2025年07月2日 at 12:53 下午
  
  我们又回到了这个问题：在首次访问某个网站之前，你愿意为该网站支付多少费用？
  
  回复
  - sofixa says:
    
    2025年07月2日 at 12:53 下午
    
    网络货币化协议通过根据你在页面上停留的时间进行比例分配来解决这个问题。
    
    回复
    - mdrzn says:
      
      2025年07月2日 at 12:53 下午
      
      如果我将页面本地保存到我的设备上呢？或者存档它？
      
      回复
      - nottorp says:
        
        2025年07月2日 at 12:53 下午
        
        如果我的手机响了，我忘记关闭页面呢？或者留着它以后再读？
        
        此外，正如其中一个父评论所说，我不会在了解自己要付钱买什么之前就付钱。
        
        回复
        
        sofixa says:
        
        2025年07月2日 at 12:53 下午
        
        > 此外，正如其中一个父评论所说，我不会在不清楚自己付钱买什么之前就付钱。
        
        逻辑是，你不是在付钱给网站。你是付钱给一个经纪人，该经纪人会将你支付的金额分配给所有你访问过且已加入该计划的网站，并根据你在每个网站上花费的时间按比例分配。
        
        回复
        
        nottorp says:
        
        2025年07月2日 at 12:53 下午
        
        > 你是在向一个经纪人支付费用，该经纪人会将你支付的金额分配给所有你访问过的已加入该计划的网站
        
        这确实有道理。不过，这个经纪人可能会推动订阅模式。
        
        > 根据你在每个网站上花费的时间进行比例分配
        
        如果是文字内容，我倒不介意，因为我阅读速度很快。但这会激励内容提供者延长“内容”长度，或者转而使用视频形式，加入动画页面过渡等元素。
        
        阅读速度较慢的用户和网络速度较慢的用户将受到惩罚。
        
        回复
- imiric says:
  
  2025年07月2日 at 12:53 下午
  
  Brave浏览器已经通过BAT[1]实现了这一功能。
  
  遗憾的是，它永远不会流行起来。部分原因在于加密货币的负面形象，部分原因在于Brave公司的一些失误损害了其信誉，还有部分原因在于广告技术对网络的牢固控制。
  
  [1]: https://basicattentiontoken.org/
  
  回复
- its-kostya says:
  
  2025年07月2日 at 12:53 下午
  
  这个问题无法解决的是，人们对大型语言模型(LLM)的摘要过于信任，以至于他们甚至不再访问作为来源链接的页面。页面抓取与访问者的比例大约是1500个页面抓取对应1个访问者。相比之下，几年前谷歌曾宣传称，每抓取2个页面就能获得1个访问者。如果没有人阅读内容，人们就没有动力去创作内容，无论是出版商还是博主。
  
  回复
- mariusor says:
  
  2025年07月2日 at 12:53 下午
  
  每个人似乎都对Brave尝试这种做法感到不满。虽然他们使用了可疑的加密货币而非一次性费用或订阅模式，但这又有什么关系呢……
  
  回复
- carlosjobim says:
  
  2025年07月2日 at 12:53 下午
  
  我一直建议 exactly this。在浏览器中添加一个按钮，支付要求的金额以查看页面，如果页面免费查看，按钮则会变成一个捐赠按钮，用于自愿捐赠。
  
  回复
pu_pe says:

2025年07月2日 at 12:53 下午

> 按次付费的真正潜力可能在代理世界中显现。如果一个代理付费墙能够完全程序化运行，会怎样？想象一下，让您最喜爱的深度研究程序帮助您合成最新癌症研究成果或法律简报，或是帮助您找到索霍区最佳餐厅——然后为该智能体分配预算，用于获取最优质且相关的内容。

因此，愿景是为整个互联网设置付费墙。内容聚合商将向人工智能公司收取费用，以提供与特定查询相关的数据。这听起来像是一场噩梦。

回复
hubraumhugo says:

2025年07月2日 at 12:53 下午

我们都同意AI爬虫是一个大问题，因为它们不遵守任何既定的最佳实践，但我们很少讨论前进的道路。爬取行为自互联网诞生以来就存在，而且大多是可接受的。浏览器自动化和数据提取有许多非常合法的用例(我就在这个领域工作)。

那么Cloudflare将如何检测机器人并让它们付费？又有多少人类和合法机器人会因此被误拦截？我们至今仍依赖CAPTCHA验证码——这一25年前的概念每年浪费数百万小时的人力成本和数十亿美元的基础设施开支[0]。

如何在保护系统免受滥用AI爬虫侵害的同时，支持有益的自动化应用？

[0] https://arxiv.org/abs/2311.10911

回复
some_furry says:

2025年07月2日 at 12:53 下午

我完全会这么做。

“免费阅读我的博客，或支付$25/页让你的AI为你阅读。” 这就是实践。

让垃圾化机器变得更垃圾。

我们还应该在其中投放广告，通过人工智能公司通过API暴露的故意提示注入。我绝对不会滥用它 😉

回复
- GaggiX says:
  
  2025年07月2日 at 12:53 下午
  
  >支付$25/页让你的AI
  
  使用住宅代理进行抓取要便宜得多。
  
  回复
  - some_furry says:
    
    2025年07月2日 at 12:53 下午
    
    当然，起诉那些使用住宅代理来逃避支付的人工智能公司很昂贵，但我的其他爱好也很昂贵。可能会发生有趣的事情。
    
    回复
    - GaggiX says:
      
      2025年07月2日 at 12:53 下午
      
      那祝你好运吧
      
      回复
- aspenmayer says:
  
  2025年07月2日 at 12:53 下午
  
  我的意思是，我不在乎是谁推荐了付费用户。我会尽我所能优化我的博客，以最好地服务于免费用户和付费用户。我希望我能做到这一点，但我不知道你打算用你的博客做什么。大多数博客可能都可以通过一些缓存和静态布局来自主托管，以避免使用Cloudflare。我想你已经必须使用CF才能访问这些付费AI爬虫。
  
  你认为创建你的博客有$25的价值吗？更不用说AI可能从中提取的价值了？(我这是假设性地问，因为我还没查看你的个人资料，看看你是否链接了你的博客，但我现在会去查看。)
  
  编辑：我已经查看了，我之前读过你的博客。我认为问题的答案取决于提问者是谁，但我不知道你对这件事的看法。我认为要求人们为免费的东西付费与按使用付费的费用模式不同，因此经济模式也不同。当你免费提供博客并通过访问社区或其他类似方式 monetize 时，你提供的东西也不同，这与接受捐赠等行为又有所不同。我不知道你从事什么工作，也不知道你是否全职运营博客，但无论如何，你都能坚持下去，这很酷。
  
  回复
  - JimDabell says:
    
    2025年07月2日 at 12:53 下午
    
    > 你认为创建你的博客本身就有$25的价值，更不用说人工智能可能从中提取的价值了？
    
    我认为更关键的问题是：人工智能公司能否在不查看内容的情况下自动评估其价值？因为如果他们做不到，为什么还要为此付费？
    
    回复
    - soatok says:
      
      2025年07月2日 at 12:53 下午
      
      如果他们不愿为此付费，那他们也可以滚蛋，别爬取我的博客。这两种结果对我来说都无所谓。
      
      回复
    - aspenmayer says:
      
      2025年07月2日 at 12:53 下午
      
      如果他们有充分理由认为该内容可能相关(例如基于内容名称或引用请求，以及引用和其他知识图谱链接)，我认为他们可以进行某种A/B测试，以确定市场能接受的范围，基于他们对每个计费周期爬取量的估计。
      
      回复
  - some_furry says:
    
    2025年07月2日 at 12:53 下午
    
    我每年支付$300，以换取能够随心所欲地写作的自由，无需承受 monetize(变现)或 surveil(监控)读者的压力。
    
    我的部分博客文章被密码学编程语言文档引用。另一些则帮助 LGBTQ+ 群体顺利过渡到薪资更高的科技职业。
    
    这两者都很难用金钱来衡量。我选择永远不这样做。但如果我能让AI垃圾机器为查看我的毛茸茸/科技杂谈付费，我会欣然接受。
    
    回复
    - arccy says:
      
      2025年07月2日 at 12:53 下午
      
      那$300听起来更像是个人选择，因为你可以免费做到，比如使用GitHub Pages或类似服务。
      
      回复
    - aspenmayer says:
      
      2025年07月2日 at 12:53 下午
      
      既然你在这里，你会去 DEF CON 吗？
      
      回复
      - some_furry says:
        
        2025年07月2日 at 12:53 下午
        
        是的。我计划在那里首次展示我的毛绒服装。
        
        回复
        
        aspenmayer says:
        
        2025年07月2日 at 12:53 下午
        
        太棒了！希望在那里见到你。
        
        回复
yantramanav says:

2025年07月2日 at 12:53 下午

虽然这是一个不错的主意，但它如何阻止机器人迄今为止进行的所有数据盗窃？

我最近看到一篇被付费墙阻挡的研究论文，但ChatGPT轻松地为我提供了该文章的详细摘要。我担心现在猫已经出笼了。

回复
- teruakohatu says:
  
  2025年07月2日 at 12:53 下午
  
  所有的大语言模型(LLMs)都是在LibGen/Anna’s Archive上训练的，所以它们能告诉你付费墙后的论文内容一点也不奇怪。
  
  但我认为它们并不是为了从原始来源本身抓取付费墙数据而创建账户的。
  
  回复
orliesaurus says:

2025年07月2日 at 12:53 下午

抓取和完成工作之间存在一个微小但重要的区别。

抓取与无脑提取相关。就像吸尘器一样，不分青红皂白地吸入数据，没有上下文、没有授权，也不回馈价值。

另一方面，AI代理并非为了抓取而存在——我亲眼见过。它们的存在是为了完成工作，主要是研究、总结、协助、开发新产品。你可以认为这些数据会被用于进一步训练模型，你可能说得对，但这是另一个话题。

我实现了一个简陋版本的演示，展示了类似概念可能的样子：http://github.com/toolhouseai/fastlane-demo

回复
- kumarski says:
  
  2025年07月2日 at 12:53 下午
  
  在这里遇到你真有趣。;)
  
  嘿，奥利。
  
  回复
  - orliesaurus says:
    
    2025年07月2日 at 12:53 下午
    
    嘿，数据雷达。
    
    回复

外刊IT评论

Cloudflare 将推出按爬取次数付费的 AI 爬虫服务

消费格局的变革

如果我能向爬虫收费呢？

推出按爬取付费服务

发布商控制与定价

支付标头与访问权限

访问付费内容

反应式(发现优先)

主动(意图优先)

财务结算

爬虫今日，代理明日

开始使用

你也许会喜欢这些文章：

264 Responses to Cloudflare 将推出按爬取次数付费的 AI 爬虫服务

发表回复取消回复

不懂技术的人不要对懂技术的人说这很容易实现

旅行，写作，编程

如果编程语言是女人

为什么谷歌要执行严格的代码编写规范

每天工作4小时的程序员

站着编程两年后我身体上的变化

如何利用多核CPU来加速你的Linux命令 — awk, sed, bzip2, grep, wc等

哪本书是对程序员最有影响、每个程序员都该阅读的书？

坐得越久死得越快

谷歌是如何做代码审查的

程序员必看的十大电影

程序员的样子

我的老公是个程序员

我跳槽是因为他们的显示器更大

老程序员的下场

外刊IT评论

网站导航

特色栏目

Cloudflare 将推出按爬取次数付费的 AI 爬虫服务

消费格局的变革

如果我能向爬虫收费呢？

推出按爬取付费服务

发布商控制与定价

支付标头与访问权限

访问付费内容

反应式(发现优先)

主动(意图优先)

财务结算

爬虫今日，代理明日

开始使用

你也许会喜欢这些文章：

对于这篇文章，你的反应是：

看样子你已经点过这个了！

抱歉，你最多只能点三个！

264 Responses to Cloudflare 将推出按爬取次数付费的 AI 爬虫服务

发表回复 取消回复

网站导航

特色栏目

发表回复取消回复