本文概要:
1. Arthur Bench 是一个开源工具,用于评估和比较大型语言模型(LLM)的性能。
2. 它可以帮助企业在特定用例上测试不同语言模型的性能,并提供准确性、可读性、避险等指标进行比较。
3. 已有金融服务公司、车辆制造商和媒体平台等企业开始使用 Arthur Bench,加快了分析和提供更准确的答案。
站长之家(ChinaZ.com)8月18日 消息:纽约人工智能创业公司 Arthur 发布了开源工具 Arthur Bench,用于评估和比较大型语言模型(LLM)的性能。
据了解,Arthur Bench 可以帮助企业在特定用例上测试不同语言模型的性能,并提供准确性、可读性、避险等指标进行比较。Arthur 首席执行官兼联合创始人 Adam Wenchel 在一份新闻声明中表示:“通过 Bench,我们创建了一个开源工具,帮助团队深入了解 LLM 提供商之间的差异、不同的激励和增强策略以及定制培训制度。”
Arthur 包含了许多用于比较 LLM 绩效的入门标准,但由于该工具是开源的,因此使用它的企业可以添加自己的标准来满足自己的需求。该工具加速了评估过程,并将学术指标转化为实际业务影响。
目前,已经有金融服务公司已经开始使用 Arthur Bench 来快速生成投资论点和分析报告。车辆制造商利用该工具创建了能够从设备手册中快速准确提取信息并回答客户问题的语言模型。
媒体平台 Axios HQ 在产品开发方面也开始使用 Arthur Bench。Arthur 开源了 Bench,任何人都可以免费使用和贡献,他们相信开源的方式可以带来最好的产品,并通过团队仪表盘来实现商业化。
Arthur 还与亚马逊网络服务(AWS)和 Cohere 合作举办黑客马拉松,鼓励开发人员为 Arthur Bench 构建新的指标。