大语言模型全自动写作的黑洞观测综述

  1. 3月前

    FatFish

    1楼 3月4日 物理版主, 茶馆馆长, 优秀回答者, 十周年庆典纪念
    2月前FatFish 重新编辑

    本帖的主体是分享和讨论下面这个黑洞观测研究综述:
    感知虚空:黑洞观测综述.pdf (1.8M)
    这本综述是我用大语言模型在几个小时内全自动写作而成的,完成后大致检阅了一下比较熟悉的章节,发现其准确率和写作质量远超我的预期。我于是又找了几个相关专业的坛友,让他们大致审阅一下,同样未能发现显著的问题。因此我认为这种写作经验结果本身都是很有价值的,值得分享一下——此外,限于大模型的特点,这本书确实有些缺陷,如果读者打算真的参考此书入门,最好看完本帖特别是后面的效果评论部分。

    背景介绍
    事实上,我长期以来一直打算做一个关于黑洞观测的系统报告,预备作为哪一年的茶话会,而且这几年黑洞观测有许多突破性进展值得详细介绍。我在思路上打算致敬 John Horton Conway与 Francis Y. C. Fung 所写的著名趣味数学名著 The Sensual (Quadratic) Form (书名也许可以翻译为《声色(二次)型》?),本书把二次型和各种人类感官体验串在在了一起,(当然可能有点生拉硬拽)例如第一章讲用图像展示二次型的取值,标题是Can You See the Values of 3x2 + 6xy − 5y2? 第二章讲格点上的周期函数,标题为Can You Hear the Shape of a Lattice?
    如此等等。基于这个考虑,我计划用如下几个视角串联黑洞观测:

    1.视觉:对黑洞阴影的直接观测,以事件视界望远镜为主线。
    2.听觉:引力波观测,毕竟用声音隐喻引力波是常见比喻。
    3.味觉:黑洞不能尝,于是这部分改为讨论黑洞吃什么,讲述黑洞的生长机制研究。
    4.触觉:黑洞不能摸,不过可以强调摸代表直接接触,来讨论一些贴近视界面的物理。比如黑洞信息悖论或者引力波回声之类的。(当然,把回声放在这纯粹是我个人为了凑感官的主题了,不然应该在引力波那章的)

    由于涉及范围很大,要搜集的资料很多。一个节约时间的办法是让大语言模型帮你写一些综述,然后让他们给你推荐读物。大模型写作的内容本身不可信,但是以此为线索找可信的读物还是比较容易的。考虑到这个只是辅助搜索,我其实一直在用网页版。

    恰好,我的朋友TQ( @dtq1997 )慷慨提供了他的Claude Opus 4.6 编程接口(API),让我免费使用,主要预期是让我测试一下看有什么能极大限度发挥他功能的做法。

    在简单的测试后,我意识到,也许可以让大模型来点大工程。因为小型任务网页版就做得很好,只有比较大的任务才适合本地部署反复修改文件(或者用TQ的说法,让Claude Code在你的电脑里钻来钻去。)
    因此,我决定准备一个大工程。让他写一份长达五十万字的综述。
    ——事实证明他计算的是字符数,所以实际上字数只有三十万字。
    在简短的尝试了几次之后,我大概找到了一个比较成功的流程。

    流程说明

    1.首先,把我规划的章节告诉他,我对每个章节具体讲哪些内容做了大致的说明,然后和他说,让他以此为基础写一篇大纲。在每章都写一点导言。

    2.审阅大纲,按需调整。调整后告诉他你的总字数规划,让他自己安排每个章节的字数,为了好控制最好限定到节。我告诉他45-50万字,然后让他在大纲每一节都标注预期的字数。

    3.让大模型设计一个合适的LaTeX框架,他会自己给你生成的。考虑到我这个任务每节平均都有一万字,我让他每节放置一个单独的TeX文档。

    4.让大模型写一个指令,说明如何按照大纲来写TeX文件,并且注意引用文献。把命令本身保存在一个文本文档里。
    我觉得他写这个很适合参考,就直接分享一下:

    请基于以下项目为我撰写正文。
    
    项目位置:C:\Users\[用户名]\黑洞观测综述\
    大纲文件:C:\Users\[用户名]\黑洞观测综述_大纲.txt
    
    本次写作任务:第 [章号] 章,第 [节号] 节
    
    写作要求:
    1. 先读取大纲文件了解全书结构,再读取目标节的tex文件了解写作提纲
    2. 如果不是本章第一节,读取前一节的tex文件以保持行文连贯
    3. 严格按照tex文件中标注的字数要求写作
    4. 直接将正文写入对应的tex文件中,保留\section命令
    5. 正文中适当插入\cite{}引用,引用键名参照references.bib,如需新增引用条目请同步更新bib文件
    6. 数学公式使用标准LaTeX语法,重要公式用equation环境并编号
    7. 写完后报告实际字数和本节摘要
    
    写作风格:
    - 学术综述体,面向有物理学基础但不一定是黑洞方向的读者
    - 兼顾严谨性与可读性,重要概念首次出现时给出清晰定义
    - 叙事中穿插物理直觉和历史脉络,避免纯粹罗列公式
    - 中文为主,专有名词首次出现时附英文原文
    - 关键数值和结论标注文献来源,便于读者检验准确性

    5.每次让他读取此文档,根据要求撰写指定章节。这个时候你就可以多开几个对话并行写作了。等待他全自动输出。
    注:实际上并行写作的时候如果他们都要写入references.bib会打架,这个可能需要调整一下,不过我没调整。导致其中几个写入的时候会因为占用报错,等一会好了。

    6.这个输出过程他应该会自动统计字数,如果第一次写完字数不够他会设法填补,总之这只需要用户确认几次。

    7.写完之后编译其实还会有各种莫名其妙的小错误,比如他有些公式多打了一个右引号,或者文中的引号都是英文引号,references.bib有重复条目,这些都不要紧,很容易修复。就是这一部分没法很自动,但是也不怎么花时间。

    效果评论

    1.读者可能最关心的问题,这东西耗费多少?
    嗯,鉴于这个接口有好几个人在用,我当时又没有统计,因此没有直接数据。不过这段时间总耗费只有二位数,所以相对其写作质量不算很贵。如果读者能找到比较便宜的渠道,甚至有望在十块钱内完成。我认为你不可能找到任何一百块钱以内的这个质量的中文版专业实体书。

    2.鉴于我的一个目的就是测试大模型的能力,所以一些有问题的地方我故意留着没有修整。
    比如第六章,火墙问题按理说应该是信息悖论的一部分而不是单分出来一节,现在这个组织看起来很奇怪,但是我很想强调一次自动化生成的效果,所以我现在分享的版本保存了这个状态。下面还有更多潜在的问题,如果可能的话,我会尝试探究一下不那么自动化的改进效果如何。

    3.我预定的几章写作内容都很好,我浏览了一遍,基本符合我所知的知识,随机抽查了几篇参考文献,也是正确的。我觉得大家确实可以参考,我不能保证其无错,但是我认为错误率可以接受,毕竟即使是专业人士有时候也会犯一些错误。

    第七、八、九章是留给他自己发挥的,但是这部分表现就不太理想了,
    第七章我就只写了一个其他观测思路,具体其他什么让他自己发挥。虽然每一节大体上没什么问题,但是整体上没什么章法,而且一些内容出现的位置也不对。比如说7.4节应该扔到第四章的相关讨论里。
    第八章是结语,这里面有个别特别离奇的错误,比如宣称“EHT原本聚焦于Sgr A*,而率先成像的却是M87*”实际上第四章里明明写的很清楚M87*本来就是观测目标。
    第九章的表现异常灾难,大家看到的已经是修正版了,他最初在大纲里写了好多伪书,要么张冠李戴作者要么虚构书名。这个问题很难克服,我让大模型推荐书他们会非常普遍的出错,不管是哪一家,大概是大模型原理导致的。例如我能确定的一个搞笑案例里,DeepSeek坚持认为Pathria和Paul D. Beale的《统计力学》是等离子体物理的必读书目,他自己甚至都在说“这个看起来很奇怪”然后疯狂通过“统计力学是理解等粒子物理的基础”之类的牵强理由解释,其难看程度比我中学写作文强行扣题还高。但是从他给的参考文献可以发现,其实是他检索到了一个豆瓣用户的书评页面,而该用户恰好前后脚点评了《统计力学》和一本等离子体物理。
    还有一次,他检索到一本伪书,这本书本来是另一个读者举例吐槽“大模型会生成假书”的,结果他堂而皇之地作为参考资料再次把伪书引入。
    我不太清楚其他场合什么原因触发了这一点,但是此类荒诞表现发生率非常高。一般你让他复查一遍确认会有所改善,但是总会发生。
    此外,他推荐的教材列表也不符合我的个人审美,但是鉴于没有很离谱的错误,我就保留了。

    4.从第三点来看,大模型写作非常依赖人类给他准备的大纲以及他能检索到的领域有没有足够好的综述文献。根据我以前的使用经验,一旦领域比较小众,缺乏此类材料,大模型(无论哪一家)开始胡言乱语的概率都非常高。因此前几章主题比较明确他写作质量就很好。到了第七章自己发挥表现就不太理想了,事实上有些小众选题,我让他自己扩展的时候,他往往都会搜集到一些根本不搭边的材料,然后胡言乱语一些关联,令人无语,如果大家需要担心和大模型对话的筹码消耗,那尽量不要让他们在这个地方自我发挥。
    包括他在第八章突然开始搞笑错误也是这个原因,因为他写感慨不需要参考文献。第九章的话,“推荐书目”本身没啥可参考的,只能他自己整合,于是就这样了。

    5.我没有使用任何本地知识库,同样是为了看看他的默认能力。他引用的所有文献都止于2024年。考虑到2025年没有发生什么对整个领域产生冲击的巨大突破,因此这不是一个很严重的问题,但是如果读者是想要追踪前沿的研究人员,这本书时效性可能需要注意。

    6.第九章推荐的卢米涅《黑洞与暗能量:宇宙的命运交响》其实本来他给出的是旧版《黑洞》,我要求他换成新版之后他居然否认该书有更新版,直到我把豆瓣页面甩给他才承认。这件事和前面的幻觉不太一样,因为这个信息确实比较稀少。卢米涅更新之后把名字换了,而且我在网上没有找到任何详细的更新内容对比。(我最后是自己找了新旧版的PDF做文字识别丢给大模型对比的。)
    好在写作内容里大部分研究进展都是完全公开的,因此主线部分不至于这么卡顿。顺便一说,卢米涅这本书很好,有很多其他科普少见的信息,推荐一下。不知道为啥完全不出名,网上找不到太多信息。

    7.我记得群里之前有人吐槽大模型像个新手研究生,不过至少就这方面,我觉得人类确实起到了导师的作用,而且确实对人类导师有很大帮助。大模型在脱离人类的提纲之后几乎无法有效的梳理体系知识(或者说其梳理方式是完全违反专业内部认知的,毕竟大模型只是一个词语预测系统,什么都不懂),一个新手研究生想让大模型写综述来学习可能会非常困难。但是导师可以快速的设计一个他比较满意的大纲来指导大模型写作。同时,他也具备足够的纠错能力来审查潜在的错误。因此,导师指导研究生可能会轻松很多。

    8.TQ开玩笑说这个东西都可以拿去当评职称用的专著出版了。虽然我不会这么干,但是不得不说,本书写作质量,即使在考虑到这么多缺陷之后,依然要远超许多为了评职称出版的烂教材,甚至在我的认知范围内中文资料里我就没见过哪本专著对黑洞观测能整合的这么全面,至于英文资料可能好一点,但是也多是领域综述论文而不是这种全面覆盖式的专著。(如果读者有谁真的见过类似的专著,请一定要推荐给我)

    ⑨.鉴于本书事实上只诞生了24小时,目前只能初步评估说本书值得一读。我希望更多相关专业坛友能帮忙检阅一下相关的章节,看看其错误率到底如何。这可能为后面整理为人校版,真的达到可靠水平提供帮助——我不会说达到出版水平,因为现在很多出版物就很烂。最近网上时常有人抱怨AI生成电子泔水占领互联网,但是要我说如果AI批量生产这个水平的综述,那他是在拉高整体学术资料水平,各种垃圾教材制造的纸质泔水太拖后腿了。

    10.读者可能好奇封面那三个RNA是什么情况,那个其实是我一气化三清我对大模型辅助科研的一些发散想法。

    我不好说未来科技能发展到什么程度,但是仅就目前来说,大语言模型设计思路有些根本上的问题导致其不具备大家预期的“理解能力”,但是很多工作确实做的比人类好,前提是人类在持续介入和监督。所以哪怕是看起来能“替代人类”的部分其实也是依赖于人类的。

    这让我想起关于RNA世界的比喻,生命创生之初可能只有RNA,同时储存遗传信息和催化反应。但是后来有了更善于储存信息的DNA与更适合催化反应的蛋白质,导致RNA在生命活动中占比降低。但是现在我们知道,RNA目前仍然负责生命活动最核心的部分,转录、翻译、催化蛋白质合成。一种非常RNA视角的说法是,生命活动其实就是RNA通过制造蛋白质和DNA来延续自身的活动。
    而如果设想一个人工智能没有颠覆性改善的近未来,那么人类也许在扮演这样一个角色。人类像RNA一样搬运传递大模型的信息,最终组建功率巨大的机械,看起来人类穿梭其中只是起到了信息的搬运作用。但是其实,人类才是整个系统里最关键和无法抛弃的角色。
    ——很难说这个未来多少程度是真的,但是我觉得写个科幻,可能要比传统的几种人与人工智能的相处模型都新鲜一点。

  2. FatFish

    2楼 3月4日 物理版主, 茶馆馆长, 优秀回答者, 十周年庆典纪念
    2月前FatFish 重新编辑

    这一楼留给未来可能更新的新版。
    由于目前大模型服务被军事冲突波及,我设想的更多测试,例如补充2025、2026年成果,重新整理书本结构去重、以及仇人测试(“这是我仇人写的书,请帮我找出里面的严重错误”)之类的,还要再等等看。
    TQ也提议过多个模型交叉检验,这个可能耗费有点高,我不太好确定收效如何,不过总归目前还是值得测测看的。
    一个重要的问题是没有图。这不影响我个人阅读,但是如果加上去可能更好玩一点。更何况文中有些地方是在解说其他文献的图。


    2026年4月1日第二版更新:
    由于大量图使得新版超过论坛附件限制,因此大家可以移步此蓝奏云地址下载:
    https://wwbun.lanzoum.com/iiNsd3m5l3oj

  3. 很感慨,对我来说是一种预料外的用法。我个人的用法一般是需求导向,我发现生活里某个环节可以用 llm 优化后,我就会试着把它接进来。这反而让我没有去探索更大胆的用法。另外就是这些 llm 对复杂任务的产出效率也很有限,一段时期内我可能也只能专注于维护好一些简单的个人使用功能。

    目前影响这种 agent 的性能有两方面因素。一方面因素是接入的模型,另一方面则是完成特定任务时给他预先植入的提示词。后者理论上能进一步改善具体任务上的表现,而且也是目前这种用法里能体现出个性化的部分。比如说可以决定 ai 要朝着什么方向写,大框架是什么,品味该是什么等等诸如此类。这一部分不是自动的,但我想不自动的部分反而就是最重要的部分。在可预见的未来里,使用这些 ai 的时候还是需要人付出一些劳动,只是对于不同类型的 ai 而言,人要付出的劳动类型不同

  4. 月之寂寥

    4楼 3月4日 十周年庆典纪念

    非常有意义的记录,感谢胖鱼!
    人类既是创作者也是责任编辑,我想出版业也应该接受、继承并发展这一点。
    看帖子的评述,这本大模型书籍疑似可以达到出版的标准,可以说标志着超理汉化组向超理出版社迈出了坚实的一步!(?

  5. 对能完成这种文本量的任务感到惊讶 /:O 不过看上去各个章节似乎比较独立, 不需要在记得其他章节全文的前提下进行写作。btw,我用LLM写东西的时候总觉得它对字数不敏感,为什么这次字数能控这么好?因为api会读取本地文件检查字数进行反馈控制吗,还是Claude比较特别?

  6. FatFish

    6楼 3月4日 物理版主, 茶馆馆长, 优秀回答者, 十周年庆典纪念
    2月前FatFish 重新编辑

    @月之寂寥 看帖子的评述,这本大模型书籍疑似可以达到出版的标准,可以说标志着超理汉化组向超理出版社迈出了坚实的一步!(?

    如果以市面上最低出版标准论,这本书远远超出了出版要求。不过我实在是不想这么糊弄人——但是我觉得这本书对于相关领域的物理系学生非常有用,我自己这两天就获益匪浅。所以我想,如果找合适的人手校对,这书是能够至少作为一个有价值的手册流传的。

    @kamenrider 我用LLM写东西的时候总觉得它对字数不敏感,为什么这次字数能控这么好?因为api会读取本地文件检查字数进行反馈控制吗,还是Claude比较特别?

    网页版因为输出限制他会主动压制字数。我用DeepSeek网页版发现的一个奇怪机制就是,你开了网络搜索,如要求他写几万字的长文,那他会写一万字左右,如果你没开,那么他就会自动压缩到三五千字。其原理完全无法理解,我认为是他们公司内部对网络搜索做了额外的配置。

    不过即使如此大模型网页版也没法输出更长的东西了。而且即使是接口对字数其实也不敏感。他经常第一次写作的结果字数差异很大,但是我在大纲里写出了字数要求,所以他会自己写个小程序统计字数,字数不够再追加。

  7. @FatFish 他经常第一次写作的结果字数差异很大,但是我在大纲里写出了字数要求,所以他会自己写个小程序统计字数,字数不够再追加。

    半自动追加的反馈控制吗 /:D

  8. FatFish

    8楼 3月4日 物理版主, 茶馆馆长, 优秀回答者, 十周年庆典纪念
    2月前FatFish 重新编辑

    @kamenrider 半自动追加的反馈控制吗 /:D

    是的,我感觉这个有点像是Claude专门优化的,时不时会蹦出一些大模型自述“我现在要干什么”的说明,我用Claude Code的DeepSeek接口,就不会有这些声明,而是直接输出结果或者到需要授权的步骤才出现新的提示。


    另外,在Opus经常不好用的时候我测试了一下Sonnet,只能说各方面水平都差远了,他连根据我的要求建立一个合适的大纲都做不到,我完全不信任其写作的水平,所以没有继续测试。

  9. 2月前

    NJU-春风沂水

    9楼 3月5日 优秀回答者
    2月前NJU-春风沂水 重新编辑

    鱼哥十一个月前还在群里说过类似于「感觉人们夸大了当代大模型的革命,从后代来看这些都是稀松平常的没那么令人惊讶」的话,现在也开始拥抱大模型了捏 /^b^

    总之非常Impressive! 我个人预定为本人评价「2026年超理十大神贴」[1]之一

    [1]: 具有之前你坛没有的开创性,以及反映了年度特征的时效性


  10. TOAA

    10楼 3月5日

    @NJU-春风沂水 鱼哥十一个月前还在群里说过类似于「感觉人们夸大了当代大模型的革命,从后代来看这些都是稀松平常的没那么令人惊讶」的话,现在也开始拥抱大模型了捏 /^b^

    总之非常Impressive! 我个人预定为本人评价「2026年超理十大神贴」[1]之一

    [1]: 具有之前你坛没有的开创性,以及反映了年度特征的时效性


    大概可以说去年12月份左右发生了巨大的变化:“所有AI agent一下子就变得好用了”

  11. FatFish

    11楼 3月5日 物理版主, 茶馆馆长, 优秀回答者, 十周年庆典纪念
    2月前FatFish 重新编辑

    @NJU-春风沂水 鱼哥十一个月前还在群里说过类似于「感觉人们夸大了当代大模型的革命,从后代来看这些都是稀松平常的没那么令人惊讶」的话,现在也开始拥抱大模型了捏 /^b^

    总之非常Impressive! 我个人预定为本人评价「2026年超理十大神贴」[1]之一

    [1]: 具有之前你坛没有的开创性,以及反映了年度特征的时效性


    我不记得我在任何语境下说过这个话,我能想到的最接近的东西可能是类似于 “人们很容易对某些人工智能突破大惊小怪,比如当初AI学会下象棋就很多人乐观认为人类级别的智能就要实现了,甚至很久以前巴比奇的差分机也被视为似乎会思考的机器。但是现代人觉得这些东西都不是真正的智能。”但是我只是在强调人工智能距离“人类型智能”还差着不少东西,而不是认为这些进步不重要。我实际上在这个帖子上也表达了类似的意见:

    @FatFish 仅就目前来说,大语言模型设计思路有些根本上的问题导致其不具备大家预期的“理解能力”

    我认为要进入人类形态的智力还需要更多技术突破。

    以及,我很久以前就是大模型的重度用户了,我不知道为啥你会觉得我以前没拥抱大模型。
    你可以翻一下 https://chaoli.club/index.php/11034 这个看看我的评价,总体很正面。这都一年多以前了。而且更早之前我就在高度依赖其翻译功能了(大模型的翻译质量远超任何其他思路的翻译程序),虽然相关分享贴是最近发的:https://chaoli.club/index.php/11707
    但是是我总结了此前的使用经验来说的。看来您老似乎没注意到我之前在论坛讨论大模型的这些帖子。

    我如果经常吐槽大模型,让你感觉我似乎觉得大模型总是缺点,那正是因为我是重度用户所以经常撞到他的能力极限,而且某些顽疾无论如何都修不好。实际上我认为反而目前轻度用户不太容易遇到这些问题。

    @TOAA 大概可以说去年12月份左右发生了巨大的变化:“所有AI agent一下子就变得好用了”

    这个进步我不太确定具体的时间点,但是这几天Opus不好用的时候我测试Sonnet确实觉得各方面都不行,因此可以预期确实只有目前最好的一批大模型有这个水平。

    但是即使现在这个乱聊猫(LLM)的水平也是有极限的,你可以看到本帖有很多内容讨论在脱离大纲和文献后他表现得多失败。
    我这两天和TQ测试了另一个四色定理的综述(也是Opus 4.6),我发现其对于推理写作(包括详细介绍证明与历史叙事)的水平依然不怎么样,很多因果关系是乱加的,某种意义上我认为黑洞观测综述作为我的第一个大规模写作测试,恰巧撞到了大模型现在的舒适区:观测综述主要以列举为主,理论论述也不会太细致的解说,而且新发现往往都有很好的人类作品以参考。因此只有在他自由发挥的地方才表现差劲。


    更新:和@NJU-春风沂水 在群里交流了一下,原来他说的是我讨论AI造谣的一段话,理解错了。其实我当时的意思是本来人类造谣就遍地都是,很难说AI到底对人类社会造成了什么“冲击”。甚至经常有人强调的“AI造谣更难分辨”,我觉得也没说的那么严重,最多说以前一些“看一眼就能看出来”的虚假信息可能长得更有欺骗性了,但是总体来说旧时代的谣言一样可以很有欺骗性,如果只看外表,那就会被精心准备的骗子骗。也许大量增加的AI谣言辨认成本可能在某种意义上从定量效应引发质变了,但是我没有感觉出来。互联网自从诞生起就是一个谣言弥漫的世界,互联网诞生之前的社会谣言网络全都接入了,这些谣言与其说技术上有欺骗性,不如说社会上普遍没有辨识需求(“聊个八卦你就别较真了”)。
    从感情立场看,我的发言其实更类似于给AI辩护。不知道为什么出这个误会。
    我觉得评估AI水平,人类社会的某种“本底噪声”必须纳入,包括本帖我的意见也是“AI综述质量显著超过作为底噪的学术垃圾”。这就很够用了。

  12. NJU-春风沂水

    12楼 3月5日 优秀回答者

    @FatFish 我不记得我在任何语境下说过这个话,我能想到的最接近的东西可能是类似于 “人们很容易对某些人工智能突破大惊小怪,比如当初AI学会下象棋就很多人乐观认为人类级别的智能就要实现了,甚至很久以前巴比奇的差分机也被视为似乎会思考的机器。但是现代人觉得这些东西都不是真正的智能。”但是我只是在强调人工智能距离“人类型智能”还差着不少东西,而不是认为这些进步不重要。我实际上在这个帖子上也表达了类似的意见:

    我认为要进入人类形态的智力还需要更多技术突破。

    以及,我很久以前就是大模型的重度用户了,我不知道为啥你会觉得我以前没拥抱大模型。
    你可以翻一下 https://chaoli.club/index.php/11034 这个看看我的评价,总体很正面。这都一年多以前了。而且更早之前我就在高度依赖其翻译功能了(大模型的翻译质量远超任何其他思路的翻译程序),虽然相关分享贴是最近发的:https://chaoli.club/index.php/11707
    但是是我总结了此前的使用经验来说的。看来您老似乎没注意到我之前在论坛讨论大模型的这些帖子。

    我如果经常吐槽大模型,让你感觉我似乎觉得大模型总是缺点,那正是因为我是重度用户所以经常撞到他的能力极限,而且某些顽疾无论如何都修不好。实际上我认为反而目前轻度用户不太容易遇到这些问题。

    这个进步我不太确定具体的时间点,但是这几天Opus不好用的时候我测试Sonnet确实觉得各方面都不行,因此可以预期确实只有目前最好的一批大模型有这个水平。

    但是即使现在这个乱聊猫(LLM)的水平也是有极限的,你可以看到本帖有很多内容讨论在脱离大纲和文献后他表现得多失败。
    我这两天和TQ测试了另一个四色定理的综述(也是Opus 4.6),我发现其对于推理写作(包括详细介绍证明与历史叙事)的水平依然不怎么样,很多因果关系是乱加的,某种意义上我认为黑洞观测综述作为我的第一个大规模写作测试,恰巧撞到了大模型现在的舒适区:观测综述主要以列举为主,理论论述也不会太细致的解说,而且新发现往往都有很好的人类作品以参考。因此只有在他自由发挥的地方才表现差劲。

    赞!

  13. 看起来opus 4.6还是相对更智能,我用qwen 3.5 plus让他根据pdf的目录部分自动插入对应书签,前后差不多问了20次,还是堪堪能用的水准,而且依旧无法插入嵌套书签

  14. @FatFish 我不记得我在任何语境下说过这个话,我能想到的最接近的东西可能是类似于 “人们很容易对某些人工智能突破大惊小怪,比如当初AI学会下象棋就很多人乐观认为人类级别的智能就要实现了,甚至很久以前巴比奇的差分机也被视为似乎会思考的机器。但是现代人觉得这些东西都不是真正的智能。”但是我只是在强调人工智能距离“人类型智能”还差着不少东西,而不是认为这些进步不重要。我实际上在这个帖子上也表达了类似的意见:

    我认为要进入人类形态的智力还需要更多技术突破。

    以及,我很久以前就是大模型的重度用户了,我不知道为啥你会觉得我以前没拥抱大模型。
    你可以翻一下 https://chaoli.club/index.php/11034 这个看看我的评价,总体很正面。这都一年多以前了。而且更早之前我就在高度依赖其翻译功能了(大模型的翻译质量远超任何其他思路的翻译程序),虽然相关分享贴是最近发的:https://chaoli.club/index.php/11707
    但是是我总结了此前的使用经验来说的。看来您老似乎没注意到我之前在论坛讨论大模型的这些帖子。

    我如果经常吐槽大模型,让你感觉我似乎觉得大模型总是缺点,那正是因为我是重度用户所以经常撞到他的能力极限,而且某些顽疾无论如何都修不好。实际上我认为反而目前轻度用户不太容易遇到这些问题。

    这个进步我不太确定具体的时间点,但是这几天Opus不好用的时候我测试Sonnet确实觉得各方面都不行,因此可以预期确实只有目前最好的一批大模型有这个水平。

    但是即使现在这个乱聊猫(LLM)的水平也是有极限的,你可以看到本帖有很多内容讨论在脱离大纲和文献后他表现得多失败。
    我这两天和TQ测试了另一个四色定理的综述(也是Opus 4.6),我发现其对于推理写作(包括详细介绍证明与历史叙事)的水平依然不怎么样,很多因果关系是乱加的,某种意义上我认为黑洞观测综述作为我的第一个大规模写作测试,恰巧撞到了大模型现在的舒适区:观测综述主要以列举为主,理论论述也不会太细致的解说,而且新发现往往都有很好的人类作品以参考。因此只有在他自由发挥的地方才表现差劲。


    更新:和@NJU-春风沂水 在群里交流了一下,原来他说的是我讨论AI造谣的一段话,理解错了。其实我当时的意思是本来人类造谣就遍地都是,很难说AI到底对人类社会造成了什么“冲击”。甚至经常有人强调的“AI造谣更难分辨”,我觉得也没说的那么严重,最多说以前一些“看一眼就能看出来”的虚假信息可能长得更有欺骗性了,但是总体来说旧时代的谣言一样可以很有欺骗性,如果只看外表,那就会被精心准备的骗子骗。也许大量增加的AI谣言辨认成本可能在某种意义上从定量效应引发质变了,但是我没有感觉出来。互联网自从诞生起就是一个谣言弥漫的世界,互联网诞生之前的社会谣言网络全都接入了,这些谣言与其说技术上有欺骗性,不如说社会上普遍没有辨识需求(“聊个八卦你就别较真了”)。
    从感情立场看,我的发言其实更类似于给AI辩护。不知道为什么出这个误会。
    我觉得评估AI水平,人类社会的某种“本底噪声”必须纳入,包括本帖我的意见也是“AI综述质量显著超过作为底噪的学术垃圾”。这就很够用了。

    想起来陶哲轩前几天的锐评:现在 AI 节约的时间比浪费的时间要多了

  15. FatFish

    15楼 4月1日 物理版主, 茶馆馆长, 优秀回答者, 十周年庆典纪念
    2月前FatFish 重新编辑

    我觉得在愚人节正式发布第二版有某种象征意义。

    总之第二版采用了 @SpacetimeCat 的建议,加了很多插图,所以体积大了很多。导致超过了目前的论坛附件上限。大家可以移步此蓝奏云地址下载:
    https://wwbun.lanzoum.com/iiNsd3m5l3oj

    这些图基本都是从原论文PDF或者TeX源码原汁原味摘取的,当然个别非常离谱的矢量图之类的我给替换成了高清位图。

    这一版主要的麻烦在于使用各种方式清理各种小错误,我现在不敢说我清理干净了,但是肯定比第一版准确多了。

    关于这个版本的更多详细介绍请大家移步我的茶话会报告:https://www.bilibili.com/video/BV1SkXQBFE4g

    我还是比较喜欢我自己搓的这个封面的,等将来有机会可以用在别的书上。

  16. 6周前

    补完了报告,感觉没有搞懂一个关键问题:现在出书有一个稳定的工作流了吗?看上去当前流程的人工干预还不少,那么除了专业人士才能完成的大纲规划和事实性错误判定,其他步骤能不能搞成固定流程(以能优化到让外行接手为目标)?也许可以测试一下重复相同流程能不能稳定生成优质内容,还是说需要抽卡?

    P.S. 注意到未来计划是批量下载文献到本地作为知识库,用来解决乱引用的问题,可惜我的研究方向大部分人不习惯往arxiv上发,抄不了作业了 /##

  17. 5周前

    FatFish

    17楼 4月24日 物理版主, 茶馆馆长, 优秀回答者, 十周年庆典纪念

    @kamenrider 补完了报告,感觉没有搞懂一个关键问题:现在出书有一个稳定的工作流了吗?看上去当前流程的人工干预还不少,那么除了专业人士才能完成的大纲规划和事实性错误判定,其他步骤能不能搞成固定流程(以能优化到让外行接手为目标)?也许可以测试一下重复相同流程能不能稳定生成优质内容,还是说需要抽卡?

    P.S. 注意到未来计划是批量下载文献到本地作为知识库,用来解决乱引用的问题,可惜我的研究方向大部分人不习惯往arxiv上发,抄不了作业了 /##

    如何不考虑专业人士检验这个步骤,目前流程是可以放手给路人的。但是这有一些额外的问题,比如说大模型本身的语言风格问题。我没专门针对这部分调整过。
    至于内容,如果不限于专业性,我觉得没什么可抽卡的,目前来看也就前期搜集资料的时候他挑选资料可以有点不大的随机性,但是这个其实是需要专业监视的,属于专业介入环节。

  18. 3周前

    @FatFish 是的,我感觉这个有点像是Claude专门优化的,时不时会蹦出一些大模型自述“我现在要干什么”的说明,我用Claude Code的DeepSeek接口,就不会有这些声明,而是直接输出结果或者到需要授权的步骤才出现新的提示。


    另外,在Opus经常不好用的时候我测试了一下Sonnet,只能说各方面水平都差远了,他连根据我的要求建立一个合适的大纲都做不到,我完全不信任其写作的水平,所以没有继续测试。

    现在GPT-5.5在做复杂推理方面比opus-4.6/4.7好用

  19. 上周

    发现一处前后矛盾的地方。
    5.9.2 空间探测器与毫赫兹引力波 这一节的 太极计划 小节中有:太极的臂长略长于 LISA(300 万公里 vs. 250 万公里)
    在低频段的灵敏度略优于 LISA

    但在之后的
    空间探测器的互补性与全球格局
    小节中又有:
    LISA 以其最长的臂长和最优的低频灵敏度

  20. FatFish

    20楼 5月21日 物理版主, 茶馆馆长, 优秀回答者, 十周年庆典纪念

    @爬叉号starship 发现一处前后矛盾的地方。
    5.9.2 空间探测器与毫赫兹引力波 这一节的 太极计划 小节中有:太极的臂长略长于 LISA(300 万公里 vs. 250 万公里)
    在低频段的灵敏度略优于 LISA

    但在之后的
    空间探测器的互补性与全球格局
    小节中又有:
    LISA 以其最长的臂长和最优的低频灵敏度

    非常感谢反馈!

    事实上初版只有LISA的介绍,我怀疑是他的知识库里没有其他天基引力波天线,再版补充相关知识后没顾上修改旧的内容。另一个可能是LISA的设计缩水过(一开始是五百万公里)导致大模型的记忆错乱了(而且大模型很不擅长数字比大小)。

 

后才能发言