AI写作还有救吗?通过编辑减轻特异性并改善写作过程中的人机对齐

成天评科技文化 2024-10-03 21:04:37

这篇论文的标题是《Can AI writing be salvaged? Mitigating Idiosyncrasies and Improving Human-AI Alignment in the Writing Process through Edits》,由 Salesforce AI Research 的 Philippe Laban 和 Chien-Sheng Wu 两位作者撰写。

摘要: 本文探讨了基于大型语言模型(LLM)的应用程序如何帮助人们写作,以及这些模型生成的文本如何进入社交媒体、新闻和课堂。然而,LLM生成的文本与人类写作的文本之间的差异仍然不明确。为了探索这一点,研究者聘请专业作家编辑了几个创意领域的段落。研究发现,作家们一致认为LLM生成的文本中存在一些不良特征,并将这些特征正式归类为一个七类分类法(例如,陈词滥调、不必要的阐述)。其次,研究者策划了LAMP语料库:由专业作家根据我们的分类法编辑的1057个LLM生成的段落。对LAMP的分析表明,在我们的研究中使用的LLM(GPT4o、Claude-3.5-Sonnet、Llama-3.1-70b)在写作质量方面没有相互超越,揭示了不同模型家族的共同局限性。第三,研究者探索了自动编辑方法以改善LLM生成的文本。大规模偏好注释确认,尽管专家更倾向于其他专家编辑的文本,但自动编辑方法在改善LLM生成和人类写作文本之间的一致性方面显示出潜力。

研究背景: 人工智能(AI)有潜力彻底改变我们的写作、沟通和表达思想的方式。最近的研究已经展示了大型语言模型(LLM)在协助各种写作任务方面的潜力,包括争论性(argumentative)、科学(scientific)和创意写作(creative writing)。然而,为了让AI写作助手真正造福社会,它们必须增强人类的创造力和表达能力,而不是使内容同质化或减少语言多样性。

主要贡献:

1. 提出了一个由专家写作实践指导的全面编辑分类法,作为识别和减轻LLM生成文本中特有特征的有用框架。

2. 发布了LAMP(Language model Authored, Manually Polished)语料库,包含1057个由专业作家编辑的指令和响应对,这些响应最初由LLM生成,然后使用上述分类法进行了编辑,产生了8035个细粒度的编辑。

3. 提供了编辑LLM生成文本的详细分析,提供了专业作家如何编辑它们的见解,编辑在数量上的差异程度,编辑类别的分布在不同模型家族生成的文本中的变化,以及LLM生成的文本是否包含任何特定的风格特征。

4. 进行了实证调查,测试LLM是否可以自动检测并重写它们自己的特有特征。统计上显著的结果表明,编辑提高了写作过程中的人-AI一致性。

研究方法: 研究者首先创建了一个基于专家写作实践的全面编辑类别分类法。然后,他们聘请了18位作家使用我们的分类法中的类别编辑LLM生成的文本。研究者将编辑定义为改变、替换或细化文本中特定短语、从句或句子的更改。他们将重点放在生成文学小说和创意非小说的文本上,因为这些体裁以它们的创造力、情感细微差别和复杂语言使用挑战LLM。

实验结果: 研究者发现,尽管专家作家编辑的文本在偏好排名中自然优于原始LLM生成的响应,但自动编辑方法在改善LLM生成和人类写作文本之间的一致性方面显示出希望。大规模偏好注释确认,尽管专家更倾向于其他专家编辑的文本,但自动编辑方法在提高LLM生成文本的一致性方面显示出潜力。

结论: 通过专家编辑可以分析和减少LLM生成文本中的特有特征,但需要自动化方法来解决更大规模的问题。研究者开发的技术可以自动检测和重写LLM生成文本中的不良特征,尽管这些方法在匹配人类专家性能方面还有改进的空间。

一句话总结: 这篇论文研究了如何通过专业编辑和自动化编辑方法来提高LLM生成文本的质量和人-AI在写作过程中的一致性。

论文链接https://arxiv.org/abs/2409.14509

项目链接https://github.com/salesforce/creativity_eval/tree/main/Writing_Alignment

0 阅读:0