有没有针对maxkb输出的答案，进行评估准确性和打分的工具

elan.chen · 2025 年9 月 9 日 08:41

将QA数据集里的问题投递到maxkb知识库里，然后把知识库的回答取出来，和数据集里的答案，利用ai做个对比，按照语义和内容的完整性什么的打个分数，最后对所有的分数求一个平均数

Xiao_Cai · 2025 年9 月 9 日 08:45

很好的想法，暂时没有案例，可以自行探索一下~根据命中的分段和结果进行比对

elan.chen · 2025 年9 月 9 日 08:48

假设一下，是否可以通过，工作流这样的方式来实现

Xiao_Cai · 2025 年9 月 9 日 08:53

类似这样吗？你可以多试试

elan.chen · 2025 年9 月 9 日 08:54

现在已经有的工具或者平台，可以实现如上的功能，请各位集思广益！！！
查阅了一些平台，几乎都是利用数据集，对于大模型进行评分的工具，对于Rag+LLM平台的还没有找到

elan.chen · 2025 年9 月 9 日 08:55

非常感谢，我来测试一下