Excel文档命中测试问答问题

我上传了一个关于学生成绩表的Excel文档
学生成绩表.xlsx (8.7 KB)


在命中测试时,发现单独问某个学生的成绩是正常命中的,但问总分最低的分数(266),就无法命中了

给文档“生成问题”也不行,向量模型用的是bmg3,如果需要如上的命中测试准确,是要单独创建这个问题(总分最低的分数)并进行关联吗?如果是这样,一个更复杂的表就不方便操作了。或者说更换向量模型?
另外是不是如果知识库文档中的命中测试不能命中,那么之前再创建简易应用、高级编排,也就回答不出来了吧?请老师给出解决方案,谢谢 :grinning:

命中测试的过程是通过向量模型将跟问题语义相似度高的分段进行召回,这个过程不经过大语言模型,所以问“最低分数”这种问题是不会把答案推理出来的,你想要的结果需要在工作流中实现,工作流中使用关键词把所有分段内容召回,然后把结果丢给“AI 对话节点”,让 AI 基于所有分数推理出最低分。

谢谢老师解答,但在简易应用测试里,也用到了大语言模型,回答也是不准确,如何处理?


这几个大模型都测试了,回答一致不对 :joy:





单独问最低总分的问题,没问题,请问老师我是哪里设置的不对吗?系统/用户提示词如附件。

我知道了,你是不是把表格的每一行都分开了,都是独立的分段。这样的话总分最低的那个分段“王五”即使被命中了,但是因为取的是top-k个分段,它的相似度没有其他的分段高,所以根本没有被用到。

上传的时候,选择的是Excel表格,不是文本文件,所以这个表就是每行一个分段的。


大语言模型检索,一般还是选择的混合检索,但我问的问题算大语言模型的活儿,向量模型可能就不会命中分段,命中了也可能不准或准了也是巧合(试过问最高分数,命中了最高分数的分段,问最低分数,还是命中的最高分数的分段 :rofl:)。所以,我还是自定义“生成问题”,把可能要问的问题都生成并关联对了分段,目前这样解决的。

不过你其实提到了一个关键问题,就是比如像我上传的这样的表格,上传方式是选的“表格”而非“文本文件”,这样就造成命中测试不中或不准确,因为每一行自动成为了一个分段,检索不到就乱套了。如果上传成“文本文件”,即分段只有一个,那就包含了整个表格的内容,命中无异常。用简易应用测试问答就OK了,也不用通过高级编排来设计 :grinning: