本帖的主体是分享和讨论下面这个黑洞观测研究综述:
感知虚空:黑洞观测综述.pdf (1.8M)
这本综述是我用大语言模型在几个小时内全自动写作而成的,完成后大致检阅了一下比较熟悉的章节,发现其准确率和写作质量远超我的预期。我于是又找了几个相关专业的坛友,让他们大致审阅一下,同样未能发现显著的问题。因此我认为这种写作经验结果本身都是很有价值的,值得分享一下——此外,限于大模型的特点,这本书确实有些缺陷,如果读者打算真的参考此书入门,最好看完本帖特别是后面的效果评论部分。
背景介绍
事实上,我长期以来一直打算做一个关于黑洞观测的系统报告,预备作为哪一年的茶话会,而且这几年黑洞观测有许多突破性进展值得详细介绍。我在思路上打算致敬 John Horton Conway与 Francis Y. C. Fung 所写的著名趣味数学名著 The Sensual (Quadratic) Form (书名也许可以翻译为《声色(二次)型》?),本书把二次型和各种人类感官体验串在在了一起,(当然可能有点生拉硬拽)例如第一章讲用图像展示二次型的取值,标题是Can You See the Values of 3x2 + 6xy − 5y2? 第二章讲格点上的周期函数,标题为Can You Hear the Shape of a Lattice?
如此等等。基于这个考虑,我计划用如下几个视角串联黑洞观测:
1.视觉:对黑洞阴影的直接观测,以事件视界望远镜为主线。
2.听觉:引力波观测,毕竟用声音隐喻引力波是常见比喻。
3.味觉:黑洞不能尝,于是这部分改为讨论黑洞吃什么,讲述黑洞的生长机制研究。
4.触觉:黑洞不能摸,不过可以强调摸代表直接接触,来讨论一些贴近视界面的物理。比如黑洞信息悖论或者引力波回声之类的。(当然,把回声放在这纯粹是我个人为了凑感官的主题了,不然应该在引力波那章的)
由于涉及范围很大,要搜集的资料很多。一个节约时间的办法是让大语言模型帮你写一些综述,然后让他们给你推荐读物。大模型写作的内容本身不可信,但是以此为线索找可信的读物还是比较容易的。考虑到这个只是辅助搜索,我其实一直在用网页版。
恰好,我的朋友TQ( @dtq1997 )慷慨提供了他的Claude Opus 4.6 编程接口(API),让我免费使用,主要预期是让我测试一下看有什么能极大限度发挥他功能的做法。
在简单的测试后,我意识到,也许可以让大模型来点大工程。因为小型任务网页版就做得很好,只有比较大的任务才适合本地部署反复修改文件(或者用TQ的说法,让Claude Code在你的电脑里钻来钻去。)
因此,我决定准备一个大工程。让他写一份长达五十万字的综述。
——事实证明他计算的是字符数,所以实际上字数只有三十万字。
在简短的尝试了几次之后,我大概找到了一个比较成功的流程。
流程说明
1.首先,把我规划的章节告诉他,我对每个章节具体讲哪些内容做了大致的说明,然后和他说,让他以此为基础写一篇大纲。在每章都写一点导言。
2.审阅大纲,按需调整。调整后告诉他你的总字数规划,让他自己安排每个章节的字数,为了好控制最好限定到节。我告诉他45-50万字,然后让他在大纲每一节都标注预期的字数。
3.让大模型设计一个合适的LaTeX框架,他会自己给你生成的。考虑到我这个任务每节平均都有一万字,我让他每节放置一个单独的TeX文档。
4.让大模型写一个指令,说明如何按照大纲来写TeX文件,并且注意引用文献。把命令本身保存在一个文本文档里。
我觉得他写这个很适合参考,就直接分享一下:
请基于以下项目为我撰写正文。
项目位置:C:\Users\[用户名]\黑洞观测综述\
大纲文件:C:\Users\[用户名]\黑洞观测综述_大纲.txt
本次写作任务:第 [章号] 章,第 [节号] 节
写作要求:
1. 先读取大纲文件了解全书结构,再读取目标节的tex文件了解写作提纲
2. 如果不是本章第一节,读取前一节的tex文件以保持行文连贯
3. 严格按照tex文件中标注的字数要求写作
4. 直接将正文写入对应的tex文件中,保留\section命令
5. 正文中适当插入\cite{}引用,引用键名参照references.bib,如需新增引用条目请同步更新bib文件
6. 数学公式使用标准LaTeX语法,重要公式用equation环境并编号
7. 写完后报告实际字数和本节摘要
写作风格:
- 学术综述体,面向有物理学基础但不一定是黑洞方向的读者
- 兼顾严谨性与可读性,重要概念首次出现时给出清晰定义
- 叙事中穿插物理直觉和历史脉络,避免纯粹罗列公式
- 中文为主,专有名词首次出现时附英文原文
- 关键数值和结论标注文献来源,便于读者检验准确性5.每次让他读取此文档,根据要求撰写指定章节。这个时候你就可以多开几个对话并行写作了。等待他全自动输出。
注:实际上并行写作的时候如果他们都要写入references.bib会打架,这个可能需要调整一下,不过我没调整。导致其中几个写入的时候会因为占用报错,等一会好了。
6.这个输出过程他应该会自动统计字数,如果第一次写完字数不够他会设法填补,总之这只需要用户确认几次。
7.写完之后编译其实还会有各种莫名其妙的小错误,比如他有些公式多打了一个右引号,或者文中的引号都是英文引号,references.bib有重复条目,这些都不要紧,很容易修复。就是这一部分没法很自动,但是也不怎么花时间。
效果评论
1.读者可能最关心的问题,这东西耗费多少?
嗯,鉴于这个接口有好几个人在用,我当时又没有统计,因此没有直接数据。不过这段时间总耗费只有二位数,所以相对其写作质量不算很贵。如果读者能找到比较便宜的渠道,甚至有望在十块钱内完成。我认为你不可能找到任何一百块钱以内的这个质量的中文版专业实体书。
2.鉴于我的一个目的就是测试大模型的能力,所以一些有问题的地方我故意留着没有修整。
比如第六章,火墙问题按理说应该是信息悖论的一部分而不是单分出来一节,现在这个组织看起来很奇怪,但是我很想强调一次自动化生成的效果,所以我现在分享的版本保存了这个状态。下面还有更多潜在的问题,如果可能的话,我会尝试探究一下不那么自动化的改进效果如何。
3.我预定的几章写作内容都很好,我浏览了一遍,基本符合我所知的知识,随机抽查了几篇参考文献,也是正确的。我觉得大家确实可以参考,我不能保证其无错,但是我认为错误率可以接受,毕竟即使是专业人士有时候也会犯一些错误。
第七、八、九章是留给他自己发挥的,但是这部分表现就不太理想了,
第七章我就只写了一个其他观测思路,具体其他什么让他自己发挥。虽然每一节大体上没什么问题,但是整体上没什么章法,而且一些内容出现的位置也不对。比如说7.4节应该扔到第四章的相关讨论里。
第八章是结语,这里面有个别特别离奇的错误,比如宣称“EHT原本聚焦于Sgr A*,而率先成像的却是M87*”实际上第四章里明明写的很清楚M87*本来就是观测目标。
第九章的表现异常灾难,大家看到的已经是修正版了,他最初在大纲里写了好多伪书,要么张冠李戴作者要么虚构书名。这个问题很难克服,我让大模型推荐书他们会非常普遍的出错,不管是哪一家,大概是大模型原理导致的。例如我能确定的一个搞笑案例里,DeepSeek坚持认为Pathria和Paul D. Beale的《统计力学》是等离子体物理的必读书目,他自己甚至都在说“这个看起来很奇怪”然后疯狂通过“统计力学是理解等粒子物理的基础”之类的牵强理由解释,其难看程度比我中学写作文强行扣题还高。但是从他给的参考文献可以发现,其实是他检索到了一个豆瓣用户的书评页面,而该用户恰好前后脚点评了《统计力学》和一本等离子体物理。
还有一次,他检索到一本伪书,这本书本来是另一个读者举例吐槽“大模型会生成假书”的,结果他堂而皇之地作为参考资料再次把伪书引入。
我不太清楚其他场合什么原因触发了这一点,但是此类荒诞表现发生率非常高。一般你让他复查一遍确认会有所改善,但是总会发生。
此外,他推荐的教材列表也不符合我的个人审美,但是鉴于没有很离谱的错误,我就保留了。
4.从第三点来看,大模型写作非常依赖人类给他准备的大纲以及他能检索到的领域有没有足够好的综述文献。根据我以前的使用经验,一旦领域比较小众,缺乏此类材料,大模型(无论哪一家)开始胡言乱语的概率都非常高。因此前几章主题比较明确他写作质量就很好。到了第七章自己发挥表现就不太理想了,事实上有些小众选题,我让他自己扩展的时候,他往往都会搜集到一些根本不搭边的材料,然后胡言乱语一些关联,令人无语,如果大家需要担心和大模型对话的筹码消耗,那尽量不要让他们在这个地方自我发挥。
包括他在第八章突然开始搞笑错误也是这个原因,因为他写感慨不需要参考文献。第九章的话,“推荐书目”本身没啥可参考的,只能他自己整合,于是就这样了。
5.我没有使用任何本地知识库,同样是为了看看他的默认能力。他引用的所有文献都止于2024年。考虑到2025年没有发生什么对整个领域产生冲击的巨大突破,因此这不是一个很严重的问题,但是如果读者是想要追踪前沿的研究人员,这本书时效性可能需要注意。
6.第九章推荐的卢米涅《黑洞与暗能量:宇宙的命运交响》其实本来他给出的是旧版《黑洞》,我要求他换成新版之后他居然否认该书有更新版,直到我把豆瓣页面甩给他才承认。这件事和前面的幻觉不太一样,因为这个信息确实比较稀少。卢米涅更新之后把名字换了,而且我在网上没有找到任何详细的更新内容对比。(我最后是自己找了新旧版的PDF做文字识别丢给大模型对比的。)
好在写作内容里大部分研究进展都是完全公开的,因此主线部分不至于这么卡顿。顺便一说,卢米涅这本书很好,有很多其他科普少见的信息,推荐一下。不知道为啥完全不出名,网上找不到太多信息。
7.我记得群里之前有人吐槽大模型像个新手研究生,不过至少就这方面,我觉得人类确实起到了导师的作用,而且确实对人类导师有很大帮助。大模型在脱离人类的提纲之后几乎无法有效的梳理体系知识(或者说其梳理方式是完全违反专业内部认知的,毕竟大模型只是一个词语预测系统,什么都不懂),一个新手研究生想让大模型写综述来学习可能会非常困难。但是导师可以快速的设计一个他比较满意的大纲来指导大模型写作。同时,他也具备足够的纠错能力来审查潜在的错误。因此,导师指导研究生可能会轻松很多。
8.TQ开玩笑说这个东西都可以拿去当评职称用的专著出版了。虽然我不会这么干,但是不得不说,本书写作质量,即使在考虑到这么多缺陷之后,依然要远超许多为了评职称出版的烂教材,甚至在我的认知范围内中文资料里我就没见过哪本专著对黑洞观测能整合的这么全面,至于英文资料可能好一点,但是也多是领域综述论文而不是这种全面覆盖式的专著。(如果读者有谁真的见过类似的专著,请一定要推荐给我)
⑨.鉴于本书事实上只诞生了24小时,目前只能初步评估说本书值得一读。我希望更多相关专业坛友能帮忙检阅一下相关的章节,看看其错误率到底如何。这可能为后面整理为人校版,真的达到可靠水平提供帮助——我不会说达到出版水平,因为现在很多出版物就很烂。最近网上时常有人抱怨AI生成电子泔水占领互联网,但是要我说如果AI批量生产这个水平的综述,那他是在拉高整体学术资料水平,各种垃圾教材制造的纸质泔水太拖后腿了。
10.读者可能好奇封面那三个RNA是什么情况,那个其实是我一气化三清我对大模型辅助科研的一些发散想法。
我不好说未来科技能发展到什么程度,但是仅就目前来说,大语言模型设计思路有些根本上的问题导致其不具备大家预期的“理解能力”,但是很多工作确实做的比人类好,前提是人类在持续介入和监督。所以哪怕是看起来能“替代人类”的部分其实也是依赖于人类的。
这让我想起关于RNA世界的比喻,生命创生之初可能只有RNA,同时储存遗传信息和催化反应。但是后来有了更善于储存信息的DNA与更适合催化反应的蛋白质,导致RNA在生命活动中占比降低。但是现在我们知道,RNA目前仍然负责生命活动最核心的部分,转录、翻译、催化蛋白质合成。一种非常RNA视角的说法是,生命活动其实就是RNA通过制造蛋白质和DNA来延续自身的活动。
而如果设想一个人工智能没有颠覆性改善的近未来,那么人类也许在扮演这样一个角色。人类像RNA一样搬运传递大模型的信息,最终组建功率巨大的机械,看起来人类穿梭其中只是起到了信息的搬运作用。但是其实,人类才是整个系统里最关键和无法抛弃的角色。
——很难说这个未来多少程度是真的,但是我觉得写个科幻,可能要比传统的几种人与人工智能的相处模型都新鲜一点。