有没有针对maxkb输出的答案,进行评估准确性和打分的工具

将QA数据集里的问题投递到maxkb知识库里,然后把知识库的回答取出来,和数据集里的答案,利用ai做个对比,按照语义和内容的完整性什么的打个分数,最后对所有的分数求一个平均数

很好的想法,暂时没有案例,可以自行探索一下~根据命中的分段和结果进行比对

假设一下,是否可以通过,工作流这样的方式来实现


类似这样吗?你可以多试试

现在已经有的工具或者平台,可以实现如上的功能,请各位集思广益!!!
查阅了一些平台,几乎都是利用数据集,对于大模型进行评分的工具,对于Rag+LLM平台的还没有找到

非常感谢,我来测试一下