文章来源:本站整理作者:dianlut小编发布时间:2025/12/19
Grok 4.1已正式发布上线,在情感智能和通用能力方面全面超越同类OpenAI开源大模型GPT应用。它通过融入真实人类情感,使对话风格更加温暖,避免了传统AI的冰冷感。为帮助大家更好地使用Grok 4.1,小编将为您详细解读。

能用。目前,Grok 4.1仅对付费用户开放,最强版本Grok 4.1 Heavy需要订阅每月300美元的SuperGrok Heavy会员,价格高于OpenAI最贵的200美元Pro会员月费。Grok 4.1的价格如下:

Grok 4.1已向所有用户开放,可在Grok官网、X平台以及iOS和Android应用中使用。

Grok 4.1将在Auto模式中自动推送,也可在模型选择器中手动选择。

此次更新在真实世界可用性方面显著提升,尤其在创造力、情感互动和协作交互方面表现出色。Grok 4.1对细微意图的感知能力更强,对话更具吸引力,整体人格更连贯,同时保留了前代模型的强大智能与可靠性。

xAI在支撑Grok 4的大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性,并开发了新方法,利用前沿智能体式推理模型作为奖励模型,大规模自主评估并迭代输出结果。与此前的线上生产模型相比,Grok 4.1在对比评估中被用户偏好选择的概率达到64.78%。

SOTA通用能力
在盲测的人类偏好评估中,Grok 4.1树立了新标杆。在LMArena的TextArena排行榜上,Grok 4.1的推理模式(代号:quasarflux)以1483的Elo分数位居总榜首位,领先最高的非xAI模型31分。其非推理模式(代号:tensor)无需使用思维token即可即时响应,以1465的Elo分数位居第二,即便不启用推理,也超越了其他所有模型的完整推理配置。与Grok 4相比,Grok 4.1的整体表现大幅提升,而Grok 4此前的总排名仅为第33名。

情感智能
为了评估模型在个性与人际互动能力方面的进展,xAI在EQ-Bench3上对Grok 4.1进行了测试。EQ-Bench是一个由大语言模型评判的测试,用于评估主动情绪智能,包括情绪理解、洞察力、同理心以及人际交往技能。测试集包含45个具有挑战性的角色扮演场景,大多数由三轮对话提示组成。该基准通过多项标准验证模型的回答质量,并为排行榜中的每个模型计算归一化的Elo分数。xAI使用官方基准仓库运行测试,并报告评分细则(rubric score)与归一化Elo分数。结果显示,Grok 4.1的推理模式和非推理模式位居榜单前两名。

创意写作
xAI在CreativeWritingv3基准测试上评估了4.1系列模型的表现。模型需要针对32个不同的写作提示生成回答,并进行三轮迭代。评分基于评分细则(rubric)和模型对战的归一化Elo分数计算。结果显示,Grok 4.1的推理模式和非推理模式位居基准测试第二和第三名,仅次于早期的GPT 5.1。
减少幻觉
配备搜索工具的Fast(非推理)模型能够提供即时答案,但由于推理深度受限、工具调用次数有限,它们更容易出现事实性错误。在Grok 4.1的后训练过程中,xAI重点降低了信息查询类提示的事实幻觉。随后,xAI在抽样的生产环境信息查询提示中观察到了幻觉率的显著下降。xAI使用来自生产流量的真实信息查询请求,按类别分层抽样评估模型幻觉率,并评测了FactScore——一个包含500个关于不同人物的传记类问题的公共基准测试。
租房app大全