将QA数据集里的问题投递到maxkb知识库里,然后把知识库的回答取出来,和数据集里的答案,利用ai做个对比,按照语义和内容的完整性什么的打个分数,最后对所有的分数求一个平均数
很好的想法,暂时没有案例,可以自行探索一下~根据命中的分段和结果进行比对
假设一下,是否可以通过,工作流这样的方式来实现
现在已经有的工具或者平台,可以实现如上的功能,请各位集思广益!!! 查阅了一些平台,几乎都是利用数据集,对于大模型进行评分的工具,对于Rag+LLM平台的还没有找到
非常感谢,我来测试一下