盘算机前沿技能-人工智能算法-大语言模子-最新研究进展-2024-10-16
目录
1. Leveraging Social Determinants of Health in Alzheimer’s Research Using LLM-Augmented Literature Mining and Knowledge Graphs
Authors: Tianqi Shang, Shu Yang, Weiqing He, Tianhua Zhai, Dawei Li, Bojian
Hou, Tianlong Chen, Jason H. Moore, Marylyn D. Ritchie, Li Shen
https://arxiv.org/abs/2410.09080
使用加强型大型语言模子的文献挖掘和知识图谱在阿尔茨海默病研究中使用健康社会决定因素
摘要:
本研究提出了一个自动化框架,使用大型语言模子(LLM)和自然语言处理技能从广泛的文献中挖掘健康社会决定因素(SDoH)知识,并将其与通用知识图谱PrimeKG中提取的与阿尔茨海默病(AD)相关的生物实体整合。通过图神经网络进行链接预测使命,评估了加强型SDoH知识图谱的效果。该框架显示出在加强AD知识发现方面的潜力,并且可以推广到其他与SDoH相关的研究范畴。
题目背景:
阿尔茨海默病(AD)是一种常见的神经退行性疾病,其发病机制复杂,涉及多种医疗和非医疗因素。社会决定因素(SDoH)是影响个体AD风险的非医疗因素,但其与疾病发展的基本生物学过程之间的接洽尚不清楚。
算法模子:
研究中使用了图神经网络(GNN)来评估通过LLM加强的文献挖掘得到的SDoH知识图谱。通过链接预测使命来评估知识图谱的性能。
算法创新点:
- 提出了一个联合LLM和NLP技能的自动化框架,用于从文献中提取SDoH知识。
- 将SDoH知识与生物医学实体整合,构建了一个AD相关的SDoH知识图谱。
- 使用GNN进行链接预测使命,以评估知识图谱的性能。
实行效果:
实行效果表明,通过整合SDoH信息,可以明显提高知识图谱在链接预测使命中的性能,显示出在AD研究中应用该框架的潜力。
重要数据结论:
- 知识图谱包含4,058条边和1,364个独特的SDoH实体/节点。
- 在链接预测使命中,SDoH加强的知识图谱在全部选定关系上的MRR值明显高于未加强的图谱。
2. Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs
Authors: Lu Chen, Yuxuan Huang, Yixing Li, Yaohui Jin, Shuai Zhao, Zilong
Zheng, Quanshi Zhang
https://arxiv.org/abs/2410.09083
大型语言模子与人类认知决议逻辑的一致性:以法律LLM为例的案例研究
摘要:
本文提出了一种评估大型语言模子(LLM)决议逻辑与人类认知一致性的方法,以法律LLM为案例研究。研究不但评估了语言天生效果的准确性,还关注了LLM背后的具体决议逻辑的准确性,这是LLM得到人类信托的焦点挑战。
题目背景:
LLM在高风险使命中的部署面临着可信赖性和安全性的巨大挑战,尤其是在需要与人类用户对齐的决议逻辑时。
算法模子:
研究中提出了一种基于交互的解释方法,通过量化LLM编码的交互作为原始决议逻辑,设计了一套评估LLM具体决议逻辑的指标。
算法创新点:
- 提出了一种评估LLM决议逻辑与人类认知一致性的方法。
- 设计了新的指标来量化可靠的和不可靠的交互效应。
实行效果:
实行表明,即使语言天生效果看起来准确,LLM的内部推理逻辑中也有相当一部分存在明显题目。
重要数据结论:
- 在法律LLM的实行中,即使预测的判断效果准确,也有相当比例的内部推理逻辑存在题目。
3. P-FOLIO: Evaluating and Improving Logical Reasoning with Abundant Human-Written Reasoning Chains
Authors: Simeng Han, Aaron Yu, Rui Shen, Zhenting Qi, Martin Riddell, Wenfei
Zhou, Yujie Qiao, Yilun Zhao, Semih Yavuz, Ye Liu, Shafiq Joty, Yingbo Zhou,
Caiming Xiong, Dragomir Radev, Rex Ying, Arman Cohan
https://arxiv.org/abs/2410.09207
P-FOLIO:评估和提高丰富的人类编写推理链的逻辑推理本领
摘要:
本文介绍了P-FOLIO,这是一个由人类解释的数据集,包含了一组实际逻辑推理故事的多样化和复杂的推理链,这些故事也是由人类编写的。P-FOLIO的网络采用了一种解释协议,方便人类以逐步的方式为一阶逻辑推理题目解释结构良好的自然语言证实。
题目背景:
现有的LLM逻辑推理本领评估方法依赖于二元蕴含分类或合成推理,这些方法不足以得当观察模子的逻辑推理本领。
算法模子:
P-FOLIO数据集用于评估和提高大型语言模子(LLM)的推理本领。通过单步推理规则分类和单步推导推理来评估LLM的推理本领。
算法创新点:
- 提出了一种新的数据集P-FOLIO,包含了人类编写的逻辑推理证实。
- 使用P-FOLIO来评估LLM的推理本领,并提出了多种评估使命。
实行效果:
实行效果表明,通过多样本提示和微调,人类编写的推理链明显提高了LLM的逻辑推理本领。
重要数据结论:
- 在三个其他范畴的逻辑推理数据集上,微调Llama3-7B模子的性能提高了10%以上。
4. Natural Language Counterfactual Explanations for Graphs Using Large Language Models
Authors: Flavio Giorgi, Cesare Campagnano, Fabrizio Silvestri and Gabriele
Tolomei
https://arxiv.org/abs/2410.09295
使用大型语言模子为图形天生自然语言反事实解释
摘要:
在这项工作中,我们使用开源的大型语言模子(LLM)在被最新的反事实解释器产生的有效反事实实例提示时,天生自然语言解释。实行表明,我们的方法有效地产生了准确的自然语言表示,通过关键绩效指标验证。
题目背景:
可解释人工智能(XAI)作为研究范畴出现,以揭开(深度)呆板学习模子的不透明内部逻辑。反事实解释作为XAI技能之一,尽管有前景,但这些“如果”解释通常复杂且技能性强,难以为非专家理解。
算法模子:
研究中考虑了用于GNN节点分类使命的通用图形反事实解释器输出的反事实实例。然后,引导多个开源LLM将这些“原始”反事实实例翻译成连贯的自然语言解释。
算法创新点:
- 提出了一种使用LLM将图形反事实解释转换为自然语言的方法。
- 定义了新的指标来得当评估这些解释的有效性。
实行效果:
通过使用两个图形反事实解释器对多个图形数据集和多个开源LLM进行的广泛实行,证实了该方法可以通过天生自然语言解释有效支持决议过程。
重要数据结论:
- 在Cora和CiteSeer数据集上,随着LLM参数数目的增加,全部指标的性能都有明显提高。
5. Equitable Access to Justice: Logical LLMs Show Promise
Authors: Manuj Kant, Manav Kant, Marzieh Nabi, Preston Carlson, Megan Ma
https://arxiv.org/abs/2410.09904
公平获取公理:逻辑LLM显示出渴望
摘要:
美国司法系统的成本和复杂性限制了许多美国人得到法律办理方案的时机。大型语言模子(LLM)有很大的潜力改善得到公理的时机。然而,在法律环境中应用AI和LLMs,此中一致性和可靠性至关重要,需要系统2推理。在本文中,我们探讨了将LLM与逻辑编程相联合,以加强其推理本领,使其战略本领更靠近纯熟状师的本领。
题目背景:
获取法律办理方案的时机在低、中、上中产阶级中变得越来越有限,全部这些阶级都面临着巨大障碍。超过75%的诉讼当事人自行代表,加利福尼亚州陈诉有超过430万自行代表的诉讼当事人。
算法模子:
研究中提出了将LLM与逻辑编程相联合的方法,以提高其推理本领。通过将法律和条约转化为可以应用于特定法律案例的逻辑步伐,专注于保险条约。
算法创新点:
- 提出了一种联合概率和确定性AI办理方案的方法,以有效办理法律规划和推理题目。
- 展示了怎样使用LLM天生逻辑表示,并将特定案例的具体信息应用于基于逻辑的框架。
实行效果:
实行表明,最新的OpenAI o1-preview模子在将保险政策编码为逻辑步伐方面,比其前身GPT-4o有明显优势。
重要数据结论:
- 在十次试验中,o1-preview的均匀准确答案数为7.5,而GPT-4o的均匀准确答案数为2.4。
跋文
如果您对我的博客内容感爱好,欢迎三连击(点赞、收藏、关注和评论),我将连续为您带来盘算机人工智能前沿技能(尤其是AI相关的大语言模子,深度学习,盘算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技能。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
|