回到顶部

利用doc2vec和milvus搭建相似文章召回服务

2020年5月30日 19:00 ~ 2020年5月30日 20:00
不限制人数
线上活动

收起

活动票种
    付费活动,请选择票种
    展开活动详情

    活动内容收起

    当前相似文章召回,较为流行的有 bag of words,average word vectors,tfidf-weighting word vectors,这些方法能都实现文章向量的训练,但是对文章在语义空间中的表达仍有一定的欠缺,主要原因是不能够学习到单词的顺序或者句子的语义。Doc2vec又叫Paragraph Vector是Tomas Mikolov基于word2vec模型提出的,doc2vec 相较于传统的 word2vec 的方法,考虑了文章中单词的顺序,能更好更准确的在向量空间中表示一篇文章的语义,而相比于神经网络语言模型,Doc2vec 的省时省力更适合工业落地。


    文章语义向量化后,利用 Milvus 对特征向量做相似度检索。能极大的提高相似文章的召回速度,做到实时相似文章召回。最后获取召回的相似文章相似度,根据业务场景通过策略加权,最终排序输出符合当前业务的相似文章结果。







    | 直播流程


    首先利用 doc2vec 训练文章向量,简单讲解训练中注意的问题。
    之后将训练好的文章向量储存分区到 milvus,通过 milvus 快速召回相似文章,并返回相似度,milvus 的操作介绍。
    最后将返回的相似文章通过 milvus 查询其标题向量并计算相似度,通过标题和文章相似度加权得分进行排序,得到最终相似文章召回列表。最后的加权排序是与业务强相关的,这里会介绍相似文章召回与业务场景的结合,并简单介绍实例标题与文章相似度的加权。
    答疑







    | 讲师介绍


    松鼠, 推荐算法工程师


    曾多次参加算法比赛,在阿里天池推荐比赛多次 top10%,Kaggle 比赛多次银牌,有较丰富的推荐经验,结合业务场景落地推荐系统。




    | 活动信息


    时间:5/30 (Sat.) 3:00 PM - 4:00 PM


    直播间: 

    https://www.slidestalk.com/m/150

    https://live.bilibili.com/21709450




    | 看直播拿好礼


    我们会从报名的名单中抽出 5 名幸运的童鞋送出限量的 Milvus 不锈钢冰石,有了它今夏的快乐加倍!5/28 前报名才有机会参加抽奖喔,手慢无!



           2020 Milvus.io 夏日限定




    | 技术交流群

    想加入Milvus交流群与AI大牛一同交流吗?加 ZILLIZ Bot 微信:zilliz-tech 并回复暗号 “milvus入群”




    举报活动

    活动标签

    最近参与

    • 报名

      (4年前)

    • 骏哥侃超级APP
      报名

      (4年前)

    • homershen
      报名

      (4年前)

    • 老张
      报名

      (4年前)

    • Sechouer
      报名

      (4年前)

    • 小李
      报名

      (4年前)

    您还可能感兴趣

    您有任何问题,在这里提问!

    为营造良好网络环境,评价信息将在审核通过后显示,请规范用语。

    全部讨论

    还木有人评论,赶快抢个沙发!

    活动主办方更多

    Zilliz

    Zilliz

    Zilliz 是向量数据库系统领域的开拓者和全球领先者,研发面向 AI 生产系统的向量数据库系统。Zilliz 以发掘非结构化数据价值为使命,致力于打造面向 AI 应用的新一代数据库技术,帮助企业便捷地开发 AI 应用。Zilliz 的产品能显著降低管理 AI 数据基础设施的成本,帮助 AI 技术赋能更多的企业、组织和个人。

    微信扫一扫

    分享此活动到朋友圈

    活动日历   04月
    1 2 3 4 5 6 7
    8 9 10 11 12 13 14
    15 16 17 18 19 20 21
    22 23 24 25 26 27 28
    29 30 1 2 3 4 5

    免费发布