【HN中文日报】MrBeast 翻车?Go 语言放大招?AI 耗电惊人? 今天科技圈大新闻都在这儿啦!

意外富翁 · 4个月前 · News · 58 · 0

今天 Hacker News 社区聊了啥? NO.20250923

今天这期日报信息量超大!MrBeast 被调查,原因竟是广告和儿童数据?Go 语言喜提 Valgrind 支持,内存泄漏不再是噩梦!还有AI耗电量预测大反转,没你想的那么夸张!想知道AI如何改变软件开发?又该如何优雅应对职场“猫屎”工作?快来一探究竟,保证让你收获满满!更多精彩内容等你来解锁!

Hacker News 中文精选


MrBeast 因广告披露和儿童数据收集问题遭 CARU 调查

CARU(儿童广告审查部门)建议 MrBeast 和 Feastables 改进其广告和隐私实践,原因是其 YouTube 频道、抽奖活动和网站在广告标识、信息披露和儿童数据收集方面存在问题,未能完全遵守 CARU 的广告和隐私指南以及儿童在线隐私保护法 (COPPA)。

CARU 的调查发现,MrBeast YouTube 频道上的部分广告内容未明确标识为广告,容易误导儿童观众。在一个被移除的视频中,Feastables 巧克力棒的“盲品测试”被认为具有误导性,因为 CARU 认为儿童可能会认为这是一个有效的口味测试。此外,Feastables 的抽奖活动未能清晰地披露免费参与方式、中奖几率和最低年龄要求,可能导致儿童误以为必须购买巧克力棒才能参与,甚至鼓励过度消费。

在隐私方面,CARU 认为 Feastables 网站是一个混合受众网站,吸引了 13 岁以下儿童,但其抽奖活动未能提供中立的年龄筛选机制,以确保在未获得可验证的家长同意 (VPC) 的情况下,不会收集 13 岁以下儿童的个人身份信息。网站上反复弹出的电子邮件和电话号码征集也引发了隐私担忧。

CARU 建议 MrBeast 和 Feastables 确保广告清晰地标识为广告,以儿童能够理解的语言披露重要信息,并遵守儿童在线隐私保护法,在收集儿童个人信息之前获得家长同意。


Go 语言增强:Valgrind 工具集成

Go 语言现在增加了对 Valgrind 的支持,这是一个非常棒的消息!这意味着开发者可以使用 Valgrind 这一强大的工具来检测 Go 程序中的内存问题,例如内存泄漏和未初始化的内存访问。

文章提到,为了避免引入 Valgrind 的头文件和使用 CGO,Go 团队选择直接添加汇编函数来触发 Valgrind 的客户端请求。这种方式保证了工具链的精简,并尽可能地使用 Go 语言本身的特性。Valgrind 主要用于在开发者的机器上进行测试,帮助发现那些难以察觉的内存错误。它能够分析未初始化的内存,这对于正确识别内存回收问题至关重要。虽然 Valgrind 不仅限于内存泄漏检测,但它在分析此类问题上确实非常有效。

评论区里,大家对这个改进普遍表示欢迎。有人认为 Valgrind 是一项隐藏的超能力,能有效发现内存泄漏等问题。还有人赞赏 Go 团队选择的实现方式,即通过汇编而不是 CGO 来集成 Valgrind。不过,也有人指出,Valgrind 只有在所有包都进行测试的情况下才能发挥最大作用,否则大量的无关警告可能会淹没真正的问题。此外,有人提到这个功能可能对 CGO 代码更有用。总的来说,Valgrind 的集成被认为是 Go 语言在 profiling 和解决内存问题方面的一大进步。


如何更具策略性:提升技术领导力的关键

本文探讨了如何提升技术领导力,尤其是在资源受限的时代,战略思维的重要性。文章强调了战略的本质、要素以及如何在实践中应用,帮助技术人员在组织中发挥更大的作用。

文章首先指出,战略不仅仅是制定目标,更重要的是理解情境,并根据情境的变化调整策略。作者强调,好的战略往往是显而易见的,并且更多地体现在执行上,而不是空谈。在技术领域,那些默默解决问题、为组织创造价值的人,往往被认为“不够有战略性”。

随着职位的晋升,战略成为工作的核心。我们需要制定产品战略、技术战略、团队战略以及个人发展战略,并确保这些战略相互协调。在资源有限的情况下,战略能够帮助我们做出更明智的决策。

文章提出了战略的两个重要原则:一是战略是情境性的,不能生搬硬套;二是时间框架取决于不确定性的程度。作者还强调了“近似目标”的重要性,即通过实现一个个小的目标来验证战略方向,并在失败中学习和调整。

文章进一步指出,战略需要时间、情境、方向和专业知识。缺乏任何一个要素都可能导致问题:过度关注人际关系可能沦为政治操纵,只见树木不见森林可能导致无法把握全局,只关注目标可能导致纸上谈兵,而只关注专业知识可能导致脱离实际。

最后,文章将战略与产品、技术、团队和个人发展联系起来,强调产品战略驱动近似目标,技术战略演化情境,团队战略提供灵活性,而个人发展战略则容易被忽视。

总而言之,战略是一种思维方式,一种解决问题的方法,一种领导力。技术人员需要不断提升自己的战略思维能力,才能在组织中发挥更大的价值。


AI 耗电量预测:没有想象的那么可怕

这篇文章探讨了关于人工智能(AI)发展可能导致电力消耗大幅增长的预测,并对此类预测提出了质疑,认为历史经验表明技术进步往往伴随着效率提升,从而抵消了需求增长。

文章指出,过去对互联网和个人电脑电力消耗的预测都过于夸大,实际情况是,尽管计算能力大幅提升,但能效也在不断提高。作者认为,类似的模式也可能适用于 AI,即使 AI 应用迅速增长,其电力消耗的增长也可能被效率提升所抵消。文章还提到,将大量电力浪费在加密货币挖矿上是一个问题,如果能解决这个问题,可以抵消 AI 增长带来的电力消耗。文章进一步分析了夸大 AI 耗电量预测背后的动机,包括煤炭和天然气生产商希望维持对其产品的需求,以及“去增长”倡导者希望证明信息经济不可持续。

评论区中,@palata 认为,IT 相关产业一直在消耗越来越多的能源,即使新技术更高效,但使用量增加导致总消耗量仍然上升,这就是反弹效应。@bobbyraduloff 指出,由于软件抽象层的增加,计算浪费现象严重,实际消耗可能远高于预期。@sollewitt 则调侃文章似乎鼓励读者随意发表对不熟悉领域的看法。


x402:互联网原生支付的开放协议

x402 旨在通过 HTTP 402 状态码,实现无需注册、邮件、OAuth 或复杂签名的 API 支付方式,为用户提供便捷的资源付费途径。该协议不收取任何费用,客户和商家都可以零成本使用。

x402 实现了即时结算,资金可以在 2 秒内到账,无需等待 T+2。它具有区块链无关性,不依赖于任何特定的区块链或代币,是一个中立的开放标准,可以被广泛集成。

开发者只需一行中间件代码或在现有 Web 服务器堆栈中进行简单配置,即可开始接受付款。客户和代理无需创建帐户或提供任何个人信息,极大地降低了使用门槛。

该协议基于开放标准,任何人都可以实施或扩展 x402,鼓励广泛的社区参与,并与任何 HTTP 堆栈兼容,通过 HTTP 标头和状态代码在现有 HTTP 服务器上简单工作。

x402 旨在激活休眠的 402 HTTP 状态代码,解锁新的货币化模式,为开发者和内容创作者提供了一种无摩擦的方式,通过小额交易赚取收入,而无需强制订阅或展示广告。

该协议适用于多种场景,例如 AI 代理可以使用 x402 协议实时支付 API 请求,云存储提供商可以使用 x402 让客户轻松访问存储服务而无需创建帐户,内容创作者可以使用 x402 实现即时交易,从而实现真正的微支付。

只需在应用程序中添加一行代码,就可以要求对每个传入请求进行 USDC 支付。如果请求未付款,服务器将返回 HTTP 402,提示客户端付款并重试。

x402 允许任何 Web 开发者接受加密货币支付,而无需与区块链进行复杂的交互。

由于没有评论内容,此处省略评论分析。


Launch HN: Strata - 面向 AI 的 MCP 服务器,可处理数千种工具

Strata 是 Jina AI 推出的一个 MCP(多计算进程)服务器,旨在帮助 AI 应用管理和协调大量工具。它通过提供统一的接口和管理机制,简化了 AI 应用的开发和部署流程。

Strata 的核心功能在于其能够处理数千种工具,这意味着开发者可以轻松地集成各种不同的 AI 模型、API 和服务,而无需担心复杂的配置和管理问题。其目标是降低 AI 应用的开发门槛,让开发者能够更专注于核心业务逻辑的实现。

通过提供的链接,用户可以了解 Strata 的具体用法,例如通过 r.jina.ai/YOUR_URL 定向到特定资源,或通过 s.jina.ai/YOUR_SEARCH_QUERY 进行搜索。Jina AI 的官方网站 jina.ai/reader 也提供了更多关于 Strata 的信息。

评论区中,用户 @inkflaw 提到了 Klavis AI 发布了新产品,并猜测这是否与 PyPI 上的 strata-mcp 项目相关。这表明 Strata 可能是 Jina AI 与 Klavis AI 合作或基于 Klavis AI 技术的产品。


从九十年的人生中总结出的九件事

这篇文章总结了作者在九十年人生中领悟到的九个重要原则,旨在帮助读者避免重蹈覆辙,过上更充实的生活。这些原则涵盖了道德、意识、同理心等多个方面,为我们提供了宝贵的人生经验。

文章首先强调了“成为自律者”的重要性,引用哲学家的观点,指出我们需要建立一套道德框架,并坚持按照这套框架行事。 其次,文章强调保持清醒和觉察的重要性, 避免像“梦游者”一样,在无意识的状态下做出错误的决定。作者还提到了考虑他人想法和感受的重要性,强调在言行之前要设身处地为他人着想,避免造成不必要的伤害。 此外,作者还提到了从错误中学习、认识到自己并不总是正确的、避免嫉妒、保持好奇心、认识到幸福并非唾手可得、以及避免过度关注自己等重要的人生经验。 这些原则看似简单,但却蕴含着深刻的智慧,值得我们认真思考和实践。

(由于没有评论内容,跳过评论相关的输出。)


Google 2025 DORA 报告:AI 如何改变软件开发

Google 发布的 2025 年 DORA 报告揭示了 AI 正在如何改变软件开发。报告显示,AI 正在帮助开发者提高效率、改进代码质量,并加速创新。

该报告深入探讨了 AI 在软件开发生命周期的各个阶段的应用。例如,AI 被用于代码生成、测试、调试和部署。报告还强调了 AI 在自动化重复性任务方面的潜力,从而使开发者能够专注于更具创造性和战略性的工作。此外,报告还分析了 AI 对团队协作和知识共享的影响,以及如何利用 AI 来构建更强大的软件开发团队。

DORA 报告还强调了采用 AI 的挑战,例如数据隐私、安全和伦理问题。报告建议企业应制定明确的 AI 使用政策和最佳实践,以确保 AI 的安全和负责任的使用。总的来说,这份报告为软件开发人员和组织提供了一个宝贵的视角,了解 AI 如何塑造软件开发的未来,并帮助他们做好准备,迎接 AI 驱动的软件开发的新时代。它不仅展示了 AI 带来的机遇,也提醒了潜在的风险,为行业提供了重要的指导。


LLM 中的采样和结构化输出

本文探讨了大型语言模型 (LLM) 中采样和结构化输出之间的关系,以及它们如何共同决定模型选择的下一个 token。文章作者分享了自己在 Ollama 中实现结构化输出、使用有限状态机进行即时结构化输出的研究项目,以及为思考模型支持结构化输出的当前工作。

文章首先介绍了采样的概念,即基于概率分布从模型的词汇表中选择一个 token。然后,详细描述了 Ollama 应用于采样的各种转换,包括 topKtemperaturesoftmaxtopPminP。作者还讨论了这些转换的优化方法,以提高采样过程的效率。

接下来,文章深入探讨了结构化输出,它通过将模型的输出限制为特定格式来构建在采样之上。Ollama 使用语法来屏蔽不符合请求格式的无效 token。文章提供了一个 JSON 语法的示例,并解释了模型如何根据语法验证 token,并在必要时重新采样。作者还提到了使用状态机来约束模型输出的实验,并指出 OpenAI 使用 llguidance 进行基于语法的约束采样。

文章还讨论了思考模型和结构化输出的结合,以及如何通过预填充输出来实现结构化输出。作者分享了自己在使用结构化输出时的经验,并强调了模型对系统提示、模板和采样参数的敏感性。

总的来说,这篇文章深入探讨了 LLM 中采样和结构化输出的技术细节,并提供了有关如何优化和使用这些技术的实用见解。作者的分享对于希望更好地理解和控制 LLM 输出的开发者和研究人员来说非常有价值。


美国邮政编码地图可视化

这篇文章介绍了一个美国邮政编码地图,它以可视化的方式展示了美国 50 个州的超过 42,000 个邮政编码。每个邮政编码都用一个点表示,这个点代表该邮政编码的地理中心。

这个交互式地图允许用户输入邮政编码,并在地图上高亮显示该邮政编码的位置。当用户开始输入邮政编码时,地图会突出显示所有以这些数字开头的邮政编码。例如,输入“0”将突出显示美国东北部所有以 0 开头的邮政编码,大约占美国邮政编码的 10%。随着用户输入更多数字,范围会逐渐缩小,直到找到完整的 5 位数邮政编码。地图还会显示该邮政编码所在的城市名称。

用户可以通过输入不同的 1 位或 2 位数字来探索邮政编码在美国的分布情况。此外,用户还可以选择显示或隐藏州边界。

该地图使用 JavaScript 和开源 Leaflet JavaScript 地图库创建。邮政编码数据来自 opendatasoft.com。总的来说,这个地图是一个方便的工具,可以帮助用户了解美国邮政编码的分布情况,并且可以快速定位特定的邮政编码。

这篇文章没有评论,因此无法进行评论分析。


探讨“室友战争”:为何合租变得不合法?

本文讨论了美国各地通过的限制房屋共享的法律,以及这些法律如何影响了低收入人群的住房选择。文章指出,曾经普遍存在的单间出租房(SROs)为城市居民提供了可负担的住所,但由于政策限制,SROs 逐渐消失,导致无家可归现象日益严重。

文章的核心观点是,许多地方的 zoning 法规和建筑规范,例如限制居住人数、要求每间房有独立卫生间、禁止共享厨房以及要求提供充足的停车位等,实际上使合租变得不合法。Pew 的一项研究表明,这些规定严重打击了美国最廉价的住房选择,使得低收入人群难以负担城市生活。文章特别强调,最简单的改革措施是允许非亲属关系的人像亲属一样合住,但许多社区对此设置了严格限制,甚至限制到只有两个人。文章赞扬了 Iowa、Oregon 和 Colorado 等州通过立法,废除禁止房屋共享的地方性法规。作者认为,许多问题都是由于那些阻止人们合理利用自己财产的“好心人”造成的。文章引用数据表明,美国有大量未被使用的卧室,但由于合租限制,无法出租,这既不利于房东的收益,也不利于租户寻找可负担的住所。

评论区主要围绕合租的现状和未来展开讨论。有人认为,即使放开合租限制,也很难恢复到过去 10% 的住房比例,因为人们对居住空间的需求越来越高。另一些人则认为,合租市场仍然存在,特别是在年轻人聚集的大城市,他们愿意通过合租来降低生活成本。还有人指出,随着年龄增长,人们对室友的接受度会降低,认为与人合租可能意味着个人生活存在问题。总的来说,评论反映了对合租的复杂看法,包括经济因素、个人偏好和社会观念等。


Zinc 招聘高级后端工程师 (纽约)

虽然链接返回了 403 错误,无法直接访问招聘信息,但我们可以推测 Zinc (YC W14) 正在纽约招聘一名高级后端工程师。由于无法访问具体页面,我们无法得知职位描述、所需技能、公司背景等详细信息。不过,通常这类职位会要求候选人具备扎实的计算机科学基础,精通至少一种后端编程语言(如 Python, Java, Go 等),熟悉数据库技术(如 PostgreSQL, MySQL, MongoDB 等),并有处理大规模数据和构建高可用性系统的经验。

此外,考虑到 Zinc 是一家 YC (Y Combinator) 孵化的公司,可能还会看重候选人的创业精神、快速学习能力和解决问题的能力。高级工程师通常需要具备独立完成项目、指导初级工程师以及参与技术决策的能力。

由于无法获取更多信息,我们只能根据一般情况进行推测。如果能成功访问招聘页面,我们可以更详细地了解职位要求和公司文化,从而更好地评估是否符合自身条件。

由于没有评论内容,这里就不进行评论分析了。


Kekkai:Go 语言实现的轻量级文件完整性监控工具

Kekkai 是一款使用 Go 语言开发的简单而快速的文件完整性监控工具,它通过比较存储在 S3 中的基于内容的哈希值来检测未经授权的文件修改。该工具主要用于检测由操作系统命令注入和其他攻击引起的文件篡改。

Kekkai 的设计理念是为了解决生产服务器环境中的特定挑战,例如传统工具在比较时包含时间戳等元数据,导致在时间戳发生变化时出现误报。该工具的核心原则包括:只对文件内容进行哈希,忽略时间戳和元数据;排除规则在生成清单时设置,验证期间无法修改,防止攻击者隐藏更改;使用 os.Lstat 正确检测符号链接,并跟踪其目标路径;使用 S3 安全存储哈希值,部署服务器具有只写权限,应用服务器具有只读权限;以及采用单 Go 二进制文件,以实现防篡改分发。

Kekkai 具有以下特点:快速,高效的哈希计算;安全,通过 S3 集成实现防篡改存储;可用于监控,支持多种输出格式;确定性,相同的文件结构始终产生相同的哈希值;以及适用于 EC2,通过 IAM 角色进行身份验证。

使用 Kekkai 的基本方法包括生成清单和验证文件,还可以通过排除特定文件、使用 S3 存储和集成监控系统等高级用法。该工具还提供了 Laravel、Node.js、Rails 和 Python/Django 等框架的预设示例,以及 S3 配置的 IAM 策略和存储桶设置建议。

总而言之,Kekkai 提供了一种轻量级、安全且高效的文件完整性监控解决方案,适用于需要保护其文件免受篡改的生产服务器环境。它的设计着重于内容完整性,并利用 S3 进行安全哈希存储,使其成为现有文件同步工具的有力补充。


更好用的 cd 命令:Zoxide

Zoxide 是一款比 cd 命令更智能的目录跳转工具,它能记住你最常访问的目录,并通过简短的命令快速跳转。Zoxide 的灵感来源于 zautojump,支持所有主流 Shell。

Zoxide 的核心功能在于其智能的目录记忆和匹配算法。它会记录你访问过的目录,并根据访问频率进行排序。当你需要跳转到某个目录时,只需输入 z 加上目录的部分名称,Zoxide 就能自动匹配并跳转到最符合的目录。例如,z foo 会跳转到排名最高的包含 "foo" 的目录。你还可以使用多个关键词进行匹配,例如 z foo bar

除了基本的目录跳转,Zoxide 还支持一些高级用法。你可以使用 z ~/foo 跳转到绝对路径,使用 z foo/ 跳转到相对路径,使用 z .. 返回上一级目录,使用 z - 返回上一次访问的目录。此外,Zoxide 还提供了交互式选择功能,可以使用 zi foo 通过 fzf 进行模糊搜索和选择。从 v0.8.0 版本开始,Zoxide 还支持 Tab 键自动补全。

安装 Zoxide 非常简单,可以通过多种方式进行安装。对于 Linux 和 macOS 用户,可以使用官方提供的安装脚本:curl -sSfL https://raw.githubusercontent.com/ajeetdsouza/zoxide/main/install.sh | sh。此外,还可以通过各种包管理器进行安装,例如 Cargo、Homebrew、apt、dnf 等。Windows 用户可以使用 winget 或 Chocolatey 进行安装。

安装完成后,需要对 Shell 进行配置才能启用 Zoxide。具体的配置方法可以参考官方文档。配置完成后,就可以开始使用 Zoxide 提供的便捷的目录跳转功能了。


StringZilla v4:GPU加速字符串处理,性能提升显著

StringZilla v4版本发布,该版本最大的亮点是引入了CUDA支持,使得字符串处理不仅在CPU上速度飞快,在GPU上也能实现惊人的性能提升。该版本在信息检索、数据库、生物信息学等领域具有广泛的应用前景。

StringZilla最初是作者在2010年代后期展示AVX-512能力的一个项目,后来逐渐发展成一个强大的字符串处理库,可以与GLibC竞争最快的memcpy。现在,v4版本增加了更多功能,包括新的哈希函数、字符串PRNG、字符串集合的交集和排序算法,以及GPU和CPU加速的字符串相似度计算内核,如Levenshtein距离、Needleman-Wunsch和Smith-Waterman得分等。这些新功能在特定实现和输入数据下,性能可能比现有方案快一个数量级。

文章深入探讨了传统字符串相似度计算方法,特别是Levenshtein距离的计算。传统的Wagner-Fischer算法按行填充矩阵,存在数据依赖性,限制了并行处理能力。StringZilla采用了一种更智能的方法,即评估对角线而不是行,从而打破了依赖链,实现了高效的并行计算。

通过对比实验,作者展示了StringZilla在GPU上的卓越性能。例如,在计算约1000字节字符串的Levenshtein距离时,StringZilla在Nvidia H100 GPU上的速度达到了624,730 MCUPS(每秒百万次单元更新),远超Intel Sapphire Rapids CPU上的13,084 MCUPS。与Nvidia的CuDF相比,StringZilla也展现出了明显的优势。

总而言之,StringZilla v4通过引入CUDA加速和优化算法,极大地提升了字符串处理的性能,为大规模数据处理提供了新的解决方案。


职场隐喻:如何优雅地处理“猫屎”工作

这篇文章以一个略带荒诞的故事,讲述了职场中不得不面对的那些令人不快的任务,也就是作者所谓的“猫屎”工作。作者通过朋友Jim吃猫屎的行为,隐喻了人们在工作中处理那些脏活累活的无奈。

文章描述了Jim如何通过吃猫屎来比喻处理工作中令人厌恶的任务。他甚至找到了用Altoids薄荷糖来掩盖猫屎味道的“技巧”,暗示了人们在面对不喜欢的工作时,会寻找各种方法来让自己感觉好一点。作者对Jim的行为感到震惊和不解,但Jim却认为这是每个人都必须面对的现实。作者开始反思自己的工作,意识到自己也在不断地处理各种“猫屎”任务,例如与设计糟糕的自动化工具作斗争。他试图通过将问题分解成小的、可视化的部分来理解它,但最终发现这些任务是不可避免的。

文章的结尾引人深思,暗示了每个人都在以自己的方式处理“猫屎”工作,而关键在于找到适合自己的应对方法,就像Jim用Altoids掩盖猫屎的味道一样。

由于没有评论内容,这里跳过评论分析部分。


使用 ollm 在 8GB GPU 上运行 Qwen3-Next-80B

这个 GitHub 项目 ollm,旨在让你在只有 8GB 显存的 GPU 上运行 Qwen3-Next-80B 模型,并达到大约每秒 1 token 的吞吐量。这对于那些希望在资源有限的设备上体验大型语言模型的人来说,绝对是个好消息。

ollm 项目的核心在于优化内存使用和计算效率,从而使得在低显存环境下运行大型模型成为可能。它可能采用了一些技术,例如量化、剪枝或者其他模型压缩方法,来降低模型的显存占用。此外,针对特定硬件的优化也能提升推理速度。项目使用 MIT 许可证,允许用户自由使用和修改代码。目前项目已经获得了 120 个 star 和 2 个 fork,说明社区对这个项目还是比较感兴趣的。如果你对大模型推理优化感兴趣,或者希望在自己的低配置设备上运行 Qwen3-Next-80B,可以尝试一下这个项目。


智能代理如何提升搜索体验:化繁为简是关键

本文探讨了如何利用智能代理改进传统搜索体验,核心观点是:对于智能代理而言,过于复杂的搜索API反而会降低效率,简单的关键词搜索配合代理的推理能力,往往能取得更好的效果。

传统的RAG(Retrieval-Augmented Generation)系统在搜索方面与我们多年来构建的系统非常相似,大型语言模型(LLM)调用搜索API,底层有查询理解和重排序功能,所有这些都针对用户参与度进行了优化。这种“厚重”的搜索API功能强大,但对于智能代理来说,可能过于复杂,难以有效推理。

文章作者提出了一种更简单的方法:使用一个“愚蠢”的搜索后端,即一个简单的关键词搜索系统,并让智能代理利用自身的智能来正确使用它。作者通过家具搜索的例子展示了这种方法的有效性。通过明确告知GPT-5搜索的工作原理,使其能够以可预测的方式执行搜索,即使搜索本身很简单。

令人惊讶的是,这种方法在解决用户查询方面表现出色,尽管速度较慢。例如,当用户搜索“适合吸血鬼的沙发”或“目录里最丑的椅子”时,代理能够找到相关的产品。

此外,文章还介绍了如何帮助代理在搜索过程中进行记忆。代理可以跟踪工具调用的效果,并存储对每个工具结果的评估。下次搜索时,代理可以回忆起上次喜欢或不喜欢的内容。作者还提到了语义缓存的优势,它可以让代理找到与当前查询相似的过去查询,并了解哪些方法有效,哪些方法无效。

这种方法将代理的搜索过程变成了一个知识图谱,用户查询通过相似性连接到其他用户查询,并记录了调用搜索工具的经验。然而,这种方法的有效性取决于LLM评估结果的能力。


YAML 的复杂性:一个“地狱”级别的 YAML 文档解析

本文深入探讨了 YAML 这种数据格式的复杂性,通过一个具体的 YAML 文档示例,揭示了 YAML 在设计上为了追求“人类友好”而引入的诸多陷阱和不一致性,最终导致其可读性和可预测性降低。

文章首先对比了 JSON 和 YAML 的复杂度。JSON 规范简单明了,而 YAML 规范则冗长且版本繁多,不同版本之间甚至存在不兼容的情况。作者通过一个 YAML 示例,展示了 YAML 在解析过程中可能出现的各种问题。例如,YAML 1.1 中将 "22:22" 解析为六十进制数 1342,而在 YAML 1.2 中则解析为字符串。此外,YAML 中的 tag 功能虽然强大,但也带来了安全隐患,可能导致任意代码执行。

文章还提到了 YAML 中臭名昭著的“挪威问题”,即 YAML 1.1 中将 "no" 解析为布尔值 false,这可能导致意想不到的错误。Go 的 YAML 库为了兼容性,在不同版本之间采用了不同的解析策略,进一步增加了 YAML 的复杂性。总而言之,YAML 旨在成为一种人类友好的数据格式,但其复杂性和不一致性使其难以理解和预测,反而适得其反。

由于文章没有评论区,因此无法进行评论分析。


美国特勤局发现大量SIM卡和服务器,可能用于干扰通信

美国特勤局在纽约联合国总部附近发现了一个包含超过10万张SIM卡和300台服务器的大型通信网络,该网络可能被用于干扰紧急服务和进行加密通信。该机构表示,他们此前从未见过如此大规模的行动。调查源于对三名美国高级政府官员(包括一名特勤局官员和两名白宫工作人员)的匿名电话威胁的调查。

该网络能够每分钟匿名发送3000万条短信。这些设备分布在联合国总部35英里半径内的多个地点。虽然文章暗示该网络与针对政府官员的威胁有关,但并未明确指出。调查人员正在分析SIM卡上的数据,包括通话记录、短信和浏览器历史记录,预计会发现更多高级政府官员也成为了目标。

评论区对该事件的用途和影响提出了多种看法。

  • VoIP诈骗: 一些人认为,这很可能是一个用于VoIP诈骗的大型SIM卡农场,而非针对联合国或政府官员的威胁。他们指出,35英里的半径覆盖了包括纽约市在内的广大区域,居住着数百万人口。

  • 匿名通信: 评论中有人质疑,如此大规模的硬件设施需要人工维护,很难做到完全匿名。他们对为何没有逮捕行动或监视行动来抓捕相关人员表示不解。

  • SIM卡来源: 有人好奇这些SIM卡的来源。

  • 电话号码验证: 有人希望这件事能警醒那些认为电话号码验证足以防止机器人和欺诈的人。

  • 检测SIM卡农场: 还有人思考电信公司如何检测SIM卡农场,认为其特征足够独特,即使不知道确切位置也能识别。

总的来说,评论区对该事件的真实目的和潜在影响持怀疑态度,并提出了许多实际问题。


Postgres CDC 中的行级转换与 Lua

本文介绍了 PeerDB Streams 的一项重要功能:利用 Lua 脚本在 Postgres Change Data Capture (CDC) 过程中进行行级转换。通过这种方式,用户可以在数据流向目标端之前,无缝地对 Postgres 数据执行转换操作。

文章首先列举了行级转换的常见用例,包括:PII 数据脱敏,通过替换敏感信息来增强隐私保护;数据格式转换,例如转换为 Protobuf、JSON、MsgPack 或 Avro,以优化跨系统集成;生成列,基于现有数据计算新列,用于实时数据分析和报告;JSON 解嵌套,将 JSON 对象中的元素提取并扁平化;主题路由,根据规则将 CDC 事件分发到特定的 Kafka 主题;数据加密,在数据写入 Kafka 之前对其进行加密。

文章随后通过示例展示了如何使用 PeerDB 和 Lua 脚本来实现这些用例。例如,展示了如何编写 Lua 脚本来屏蔽 users 表中的 SSN 列,以及如何将数据格式转换为 MsgPack。此外,还演示了如何生成额外的列,例如将美元工资转换为加元工资。文章还提供了快速入门指南,方便读者快速上手体验。PeerDB 提供了一个简单的脚本编辑器,用于创建 Lua 脚本来定义转换。之后,您可以在创建 MIRROR 时通过 UI 添加此转换。

总的来说,PeerDB 通过集成 Lua 脚本,为 Postgres CDC 提供了强大的行级转换能力,极大地提升了数据处理的灵活性和效率。


已复制到剪贴板

评论 0 条

暂无评论,来种下第一颗种子。