第八章：第一次碰撞

更新时间：2026-04-09 08:59:46 | 字数：3574 字

周三下午的自习课，研讨室里弥漫着一种与上次不同的气氛。

依旧是那八个人，依旧分坐长桌两侧。但桌上摊开的东西变了。

不再是各自为政的笔记本和电脑，而是集中在桌子中央的几样物品：一叠打印出来的文章段落，每段都用荧光笔画出了不同的句子；一份刚刚定稿、打印清晰的《论辩结构标注规范V1.0》；一台连接了投影仪的笔记本电脑，屏幕上是一个空白的标注工具界面。

空气有些凝滞。不是因为沉默，而是因为一种过于集中的、指向明确但尚未找到出口的注意力。

“开始吧。”江述说，声音打破了安静。他拿起那叠打印纸，抽出了最上面一张。

“这是从苏晓整理的案例库里选的第一篇样文，一篇关于‘社交媒体算法与公共讨论质量’的时事评论。我们按照标注规范V1.0，现场标注一段，看看理解是否一致。”

他示意了一下投影屏幕。陈峻操作电脑，打开了标注工具。工具界面很简单，左侧是文本显示区，右侧是标签选择区和备注框。标签有“主张”、“证据-数据”、“证据-案例”、“证据-引用”、“推理”、“反驳”等，还有表示关系的连线箭头。

沈昭拿起那份《标注规范V1.0》，又放下。她的目光落在投影出的文章段落上。段落不长，大约两百字。

“我先来。”林薇推了推眼镜，身体前倾，手指点向屏幕上的第一句话，“‘毫无疑问，社交媒体平台基于互动数据优化的推荐算法，正在重塑公共话语的形态。’这句话，我认为是核心主张。”

“同意。”苏晓点头，在旁边的小本子上记下。

唐文看着屏幕，微微皱眉：“但从句法上看，它更像是一个背景陈述或现象描述。主张应该更明确地表达判断或立场。比如，‘这种重塑对公共讨论的质量构成了严重损害。’”

“但原文下一句才是这个意思。”林薇指向第二行。

“所以第一句是铺垫，第二句才是主张？”苏晓问。

“我认为两句结合，构成一个完整的主张：算法在重塑话语，且这种重塑趋向负面。”沈昭开口，声音清晰，“在规范里，我们允许主张由多个句子共同构成，只要它们表达一个核心论断。”

江述看向陈峻。陈峻目光专注地盯着那两句话，手指在触摸板上无意识地移动。

“从算法角度，如果要把这两句识别为一个主张单元，需要定义它们之间的语义连接强度。是并列、递进，还是因果关系？这会影响后续寻找证据的关联范围。”

“规范里写了，主张内部的句子关系，暂时不细分，统一视为‘主张单元’。”林薇指着打印出来的规范说。

“但这对算法训练不利。”陈峻的声音依旧干涩，但很坚持，“模糊的单元边界会导致特征提取噪声增大。最好能明确主张的核心句，其他作为辅助或修饰。”

“可很多时候，核心论断本身就是通过几句话层层递进才表达清楚的，拆开就失去了力量。”苏晓反驳。

讨论从一开始就直接切入最细微、也最根本的分歧：如何用一套统一的、可操作的标签体系，去框定人类复杂多变的论证文本。文科生们思考的是论证的效力与完整性，理科生们思考的是模式的清晰与可识别性。

沈昭拿起笔，在面前的空白纸上快速划了几道线。

“我们是否需要引入层级？第一级，标注核心主张句。第二级，标注围绕核心主张的支撑性句子，并标记支撑关系（如解释、举例、强化）？”

“那会大幅增加标注复杂度。”唐文冷静评估，“而且支撑关系的判断主观性更强，标注一致性会更难保证。”

“但如果不区分，”陈峻说，“算法可能把一些背景介绍或过渡句也错误地归入主张，影响后续的论证质量评估。”

江述没有参与争论。他听着，观察着每个人的反应和逻辑。分歧是预期的。关键在于找到那条既能满足理论需求、又不超出当前技术能力和时间成本的中间线。

“投票。”江述忽然说。所有人都看向他。

“两个方案。方案A：按现有规范，标注主张单元（可包含多个句子），不细分内部结构。优点是标注快，主观性低。缺点是算法识别难度高，噪声大。

“方案B：引入层级，区分核心主张与支撑句。优点是信息更精细，对算法更友好。缺点是标注慢，一致性风险高，且需要扩充标签体系。”江述语速平稳，像在陈述实验条件，“现在表决，支持方案A的举手。”

林薇、苏晓举起了手。唐文犹豫了一下，没有举。

“支持方案B的举手。”

陈峻举起了手。张维也跟着举了。宋思瑶看了看两边，没有动作。

沈昭也没有举手。她看着江述。

“三对二。”江述说，“未表态的，理由？”

唐文开口：“我理解算法需要精确，但也担心引入层级后，我们文科团队在标注时会产生大量分歧，反而拖慢进度。目前样本量需求是200-300句对，如果每句都要判断层级和关系，时间可能不够。”

沈昭接着说：“我同意唐文。另外，我们最终目标不是训练一个完美的论辩结构分析器，而是验证‘识别论证质量’这个思路是否可行。或许，初期用更粗糙但更可靠的标注方式，快速得到一批可用数据，让算法先跑起来，更重要。精细优化可以放在后期，如果有时间的话。”

陈峻沉默了几秒，说：“粗糙的数据可能导致算法无法学到有效模式，等于白跑。而且，如果初期验证结果很差，我们无法判断是思路问题，还是数据质量问题。”

分歧依然存在，但焦点从“哪个方案更好”，转向了“在当前约束下，哪个方案风险更可控、收益更可能实现”。

江述思考了片刻。沈昭和唐文的顾虑是现实的。陈峻的担忧也是合理的。这是一个需要权衡的决策点。

“这样，”江述说，重新掌控讨论方向，“我们折中。标注规范V1.1。主张部分，仍以‘单元’为基础，但要求标注者在每个单元内，用特殊符号标出他们心目中的‘核心主张句’。

“支撑性证据的标注暂时不细分类型，统一标为‘证据’，但必须在备注框里用关键词注明证据类型（如数据、案例、引文）。关系连线暂时只标注‘主张-证据’支持关系。”

他停顿一下，看向陈峻：“这样，算法训练时，可以将核心主张句作为重点特征，同时也能获取证据类型的粗略分布。标注复杂度增加有限，但信息量有所提升。能否接受？”

陈峻快速在心里评估了一下，点了点头：“可以。比纯单元好。”

沈昭也点了点头：“可操作。我们内部需要简单培训一下‘核心主张句’的选取标准。”

“好。”江述拍板，“陈峻，根据这个修改标注工具界面，增加核心句标记功能。沈昭，你们在现有规范上修订，明确核心句选取原则，下午放学前发布V1.1。然后，我们用新规范，再试标两段。”

接下来的半小时，效率高了很多。有了折中方案，争执减少，协作增多。

沈昭和林薇快速地商定了核心句的选取原则（通常包含判断词、价值倾向、结论性表述）。陈峻和张维修改着标注工具的简易界面。唐文和苏晓试着用新规则标注新的段落，遇到模糊处立刻提出，大家快速讨论形成共识。

投影屏幕上，文章段落被不同的颜色高亮、连线。起初生疏，慢慢变得顺畅。当第三段文章被标完，所有人都能清晰地看到论证的骨架被提取出来时，研讨室里那种紧绷的气氛，似乎稍稍松动了一些。

“可以了。”江述看着屏幕上的成果，“就按这个规范开始正式标注。宋思瑶，协调人力，估算时间。陈峻，准备接收标注数据，开始搭建初步的模型管道。标注过程中发现的新问题，随时在文档中记录并同步。”

“明白。”

“收到。”

陆续的回应声响起。

“另外，”江述补充，看向唐文，“你的问卷，今天开始发放了？”

“中午已经发出电子版链接，在高三几个班级群。纸质版也放了三十份在图书馆前台，预计明天能回收大部分。”唐文回答。

“初步数据回收后，先做描述性统计，关键发现同步给所有人。”江述说。

“好的。”

自习课结束的铃声隐约传来。研讨室里的人开始收拾东西。

这次的集中讨论，没有产生任何新的文档，但解决了一个关键的、阻碍项目实质推进的路障。更重要的是，经历了第一次面对面的、关于根本方法论的碰撞，并且找到了一个虽不完美但可行的前进路径。

离开研讨室时，江述和沈昭又是最后两个。关灯，关门。走廊里满是下课的学生。

“标注的培训，你们今晚弄？”江述问，并肩走着。

“嗯，找间空教室，把愿意帮忙的同学集中一下，讲清楚规范，然后分派任务。”沈昭说，语气里有一丝不易察觉的疲惫，但眼神依旧清亮。

“核心句的标准，还可以再细化一两个例子，避免歧义。”江述说。

“正在做。”沈昭点头，从书包侧袋拿出一瓶水，拧开喝了一小口。

他们走下楼梯，汇入离校的人流。夕阳将天空染成淡淡的金红色。

“陈峻的担心有道理。”沈昭忽然说，声音不高，“粗糙的数据，可能给不出我们想要的结果。”

“知道。”江述回答，目视前方，“但先跑起来，比停在原地争论哪种跑姿更完美，更重要。有问题，迭代就是。”

沈昭侧头看了他一眼。江述的脸上没什么表情，依然是那副冷静理性的样子。但这句话，似乎不仅仅是说项目。

“有道理。”她收回目光，轻轻吐出一口气。

校门口，两人自然地向不同方向分开。一个去公交站，一个走向地铁口。没有道别。

江述走上天桥时，回头看了一眼。沈昭的背影在夕阳下显得很清晰，步伐稳定，很快消失在拐角。

他转回身，继续向前。

第一次碰撞，以折中和共识告终。

标注即将开始，数据即将回收，算法管道即将搭建。

项目的轮子，在轻微的颠簸和调整后，终于压下了第一道浅浅的辙痕，开始向前滚动。