第九章：噪声

更新时间：2026-04-09 09:31:17 | 字数：3618 字

飞书群里，新文档的提示音在周五晚上十点后，又断断续续响了几次。

江述刚结束一套理综模拟题的计时训练，放下笔，揉了揉有些发酸的颈椎。他拿起手机，屏幕的光在昏暗的台灯旁显得有些刺眼。

最新的文档是唐文上传的：《用户预调研初步数据分析报告v0.5》。标题后面跟了个括号（初步描述性统计）。

他点开。报告篇幅不长，但图表不少。

柱状图显示用户对“信息过载”的感知程度（78%认为严重），饼图展示最常使用的信息获取渠道（社交媒体和新闻聚合APP占主导），折线图描绘用户自我评估的“深度阅读”频率（随年级升高显著下降）。

还有词云图，来自那道开放题“描述你心中的深度内容”，出现频率最高的词汇是：“系统”、“逻辑”、“全面”、“有依据”、“引发思考”、“耗时”。

数据干净，图表专业，结论清晰：目标问题存在，用户有明确痛点和需求。

江述的目光在“耗时”这个词上停留了片刻。然后他退出文档，看到下面还有两个更新。

一个是标注数据的共享文件夹链接，来自宋思瑶。

文件夹里已经上传了七八个标注好的文本文件，每个文件不大，但加起来已有近百句对。进度比预期快。

他点开最近的一个文件，快速浏览。标注格式符合规范，核心主张句有特殊标记，证据类型在备注里。一致性看起来不错，但偶尔能看到同一段文本被不同标注者标出了略有差异的主张范围。这是预期中的噪声。

另一个更新，是陈峻在技术群里发的消息，没有文档，只有一句话：“模型pipeline跑通了，在自动标注的测试集上，主张识别F1值0.52，证据识别0.41。噪声很大，但流程通了。”后面附了一个GitHub仓库的链接。

F1值，综合准确率和召回率的指标，0.5左右，意味着模型刚刚比随机猜测好一点，距离实用还很远。但“流程通了”是关键。这意味着从原始文本到标注数据，再到模型训练和评估的完整链条已经建立，可以开始迭代优化了。

江述放下手机，关了台灯，躺到床上。宿舍里很安静，室友有的已经睡了，有的还戴着耳机在看东西。

黑暗放大了一些细微的声音，也让他大脑中关于项目的各种信息、数据、问题更加清晰地浮现。

唐文的数据验证了问题的真实性，也提供了“用户语言”的关键词。这是有价值的信息，但如何将这些模糊的“引发思考”、“有依据”转化为算法可以处理的特征？

标注数据在积累，但其中的不一致性，会成为模型学习的噪声，限制性能天花板。是否需要二次审核？时间是否允许？

陈峻的模型初步结果，在意料之中的不理想。0.52的F1值，可能连筛选出明显糟糕的论证都勉强。

下一个迭代点在哪里？是优化模型结构，还是清洗数据，还是引入更多特征？

这些问题没有立即的答案。它们像夜色中的幢幢暗影，需要一步一步用更具体的工作去照亮、去廓清。

周六上午，团队照例在图书馆研讨室集合。

人比平时齐，连通常周末要回家或上竞赛培训的陈峻和张维也到了。气氛有些不同，少了些初次碰撞时的紧张，多了些埋头推进具体任务后的沉静，以及面对初步结果时的审慎。

“同步进度。”江述坐下，没有寒暄。

唐文先汇报调研数据，展示了核心图表和结论。

“‘耗时’是用户提及的高频词，这很有意思。它可能指向‘深度认知’需要时间投入这一本质，也可能反映出现有工具在提升认知效率上的失败。”他分析道。

“算法可以尝试引入‘阅读预计耗时’作为特征，并与用户历史停留时间对比，作为‘深度投入’的间接信号。”陈峻思考着说。

“但预计耗时怎么算？按字数？”张维问。

“可以结合文章结构和复杂度做一个简单估计，比如包含多少图表、公式、长难句、引用文献。”林薇提出想法。

“这个可以后续尝试。”江述记下一点，“标注数据情况？”

宋思瑶汇报：“目前回收了五个人的标注，总共125句对。平均每人每天标注25对左右。内部一致性检查显示，核心主张句选取的一致性在70%左右，证据识别一致性约65%。主要分歧点在于一些隐含主张的句子，以及举例和数据的区分上。”

“70%的同意率，意味着我们的规范还有模糊空间。”沈昭看向江述，“是否需要开一个短会，把这30%分歧大的案例拿出来，统一裁定，形成补充范例？”

“可以。今天下午就做。”江述同意，“模型初步结果看到了。0.52。瓶颈判断？”

陈峻调出笔记本电脑，连接投影，展示了几张模型评估的细节图表。

“目前看，主要问题在于证据识别。模型容易把一些背景描述、例子中的细节也误判为证据。主张识别稍好，但对于较长、结构松散的主张单元，边界把握不准。”他放大了几个被错误标注的例子，都是文科团队提供的文本。

“这些错误案例，或许正好可以用来反推标注规范需要澄清的地方。”苏晓说。

“而且，”林薇补充，“模型犯的某些错误，很像我们标注时犹豫的地方。也许不是模型笨，是我们的标签体系在某些地方本身就模糊。”

这是一个重要的洞察。模型的局限，映照出人类定义问题时的局限。

“那么，下午的会，目标有三个。”江述总结，“第一，用模型错例和标注分歧案例，修正和细化标注规范V1.2。第二，基于修正后的规范，对已有标注数据进行一轮审核修正。第三，陈峻用清洗后的数据重新训练模型，看提升幅度。”

他顿了顿，看向唐文：“调研数据中‘用户语言’的关键词，整理一份清单，特别是形容‘深度’和‘低质’的词汇。看看能否作为特征，加入模型的文本表示中，或者用于后续的内容质量评估规则。”

“明白。”唐文点头。

“张维，原型界面进展？”

“基础框架搭好了，能上传文本，显示原始内容和简单的高亮，但后台分析结果还没对接。”张维回答。

“下周前，完成与陈峻模型预测接口的对接，实现上传文本后，能展示模型识别出的主张和证据，正确与否先不管，要能可视化出来。”

“没问题！”

任务再次被分解、下达。没有人抱怨周末加班，每个人的表情都很平静，甚至带着点攻克具体问题时的专注。

下午的会比上午更加枯燥和琐碎。投影屏幕上轮流展示有分歧的标注案例和模型错例。

大家逐句讨论，争论某个句子到底算不算主张，某个例子是服务于主干论证还是枝节描述。

过程有时会很胶着，但每当一个案例经过辩论达成共识，并作为范例补充进规范文档时，都能感到一种微小的、推进的实在感。

沈昭是讨论的主力之一，她往往能快速抓住句子在全文论证中的功能。

江述则更关注如何将达成的共识，转化为清晰无歧义的规则描述，以便标注和算法处理。

唐文时不时会从用户调研的角度提出看法：“用户可能更关注论证是否‘有依据’，而不是严格区分‘数据’和‘案例’。” 这为一些过于精细的区分提供了简化理由。

陈峻大多时候沉默地听着，但在涉及模型具体行为时，会给出技术层面的解释或约束。

苏晓和宋思瑶负责记录共识和修改文档。

林薇和张维则不时提出一些被忽略的边角情况。

窗外的光线从明亮转向柔和。研讨室的白板上写满了临时讨论的要点和句子片段，显得有些杂乱，但这份杂乱是思维深入运作的痕迹。

最终，标注规范V1.2定稿，增加了五条补充细则和七个典型范例。

宋思瑶根据新的规范，分配了标注数据审核的任务。

陈峻拿到了清洗数据的具体指示和唐文整理出的第一批关键词列表。

散会时，天色已近黄昏。连续高强度的讨论让人有些疲惫，但心里似乎踏实了一些。问题还在那里，模型依然稚嫩，但前进的路径似乎被清理得稍微清晰了一点。

众人收拾东西离开。江述和沈昭又是最后。他们一起将白板擦干净，将散乱的打印稿收拢。

“下周一，能出第二轮模型结果吗？”沈昭问，将一叠稿纸对齐。

“如果数据审核进度不拖，可以。”江述将白板笔插回笔槽，“但别期待太大提升。迭代需要时间。”

“知道。”沈昭背上书包，“只是需要看到变化，哪怕是微小的。否则……”

“否则会怀疑方向。”江述接上她没说完的话。

沈昭看了他一眼，点了点头。怀疑方向，是这种探索性项目里最消耗心力的情绪。每一个微小的进展，都是对抗这种情绪的弹药。

他们走出研讨室，图书馆里已经亮起了灯。周末的晚上，人比平时少，显得空旷安静。

“下周一见。”在楼梯口，江述说。

“嗯，周一见。”沈昭回答。

两人分开。江述走向自习区，他还有一套数学卷子计划今晚完成。沈昭则走向文史区，她似乎要去还几本参考书。

坐在熟悉的位置上，摊开卷子，江述却没有立刻动笔。他想起下午讨论时，沈昭为了一个句子的论证功能，引用了一段他从未听过的修辞学理论，解释得清晰有力。

那一刻，她身上散发出的，是纯粹的专业领域的自信与光芒。

他也想起陈峻指着模型错例，冷静分析底层特征失效原因时的样子。还有唐文展示数据图表时，那种用事实说话的沉稳。

团队里的每个人，都在用自己的方式，朝着那个尚不明晰的目标挖掘。噪声很多，进展缓慢，但挖掘的动作本身，带着一种扎实的、向前的力度。

他收回思绪，将注意力拉回眼前的数学题。是一道需要多步骤变换的三角函数综合题。他读题，提炼条件，在草稿纸上尝试可能的变换路径。

演算，纠错，再尝试。过程并不轻松，但每一步都建立在确定的公理和公式之上。这是一种令人安心的、在清晰规则内的探索。

而那个关于信息、认知与算法的项目，其规则，正在被他们一点点从混沌中定义出来。

伴随着大量的噪声，和缓慢的、但确实存在的迭代。