Papers
Topics
Authors
Recent
Detailed Answer
Quick Answer
Concise responses based on abstracts only
Detailed Answer
Well-researched responses based on abstracts and relevant paper content.
Custom Instructions Pro
Preferences or requirements that you'd like Emergent Mind to consider when generating responses
Gemini 2.5 Flash
Gemini 2.5 Flash 45 tok/s
Gemini 2.5 Pro 54 tok/s Pro
GPT-5 Medium 22 tok/s Pro
GPT-5 High 20 tok/s Pro
GPT-4o 99 tok/s Pro
Kimi K2 183 tok/s Pro
GPT OSS 120B 467 tok/s Pro
Claude Sonnet 4 38 tok/s Pro
2000 character limit reached

Efficient and Flexible Topic Modeling using Pretrained Embeddings and Bag of Sentences (2302.03106v3)

Published 6 Feb 2023 in cs.CL and cs.LG

Abstract: Pre-trained LLMs have led to a new state-of-the-art in many NLP tasks. However, for topic modeling, statistical generative models such as LDA are still prevalent, which do not easily allow incorporating contextual word vectors. They might yield topics that do not align well with human judgment. In this work, we propose a novel topic modeling and inference algorithm. We suggest a bag of sentences (BoS) approach using sentences as the unit of analysis. We leverage pre-trained sentence embeddings by combining generative process models and clustering. We derive a fast inference algorithm based on expectation maximization, hard assignments, and an annealing process. The evaluation shows that our method yields state-of-the art results with relatively little computational demands. Our method is also more flexible compared to prior works leveraging word embeddings, since it provides the possibility to customize topic-document distributions using priors. Code and data is at \url{https://github.com/JohnTailor/BertSenClu}.

Definition Search Book Streamline Icon: https://streamlinehq.com
References (43)
  1. Τοπις μοδελινγ αλγοριτημς ανδ αππλιςατιονς: Α ςυρεψ. Ινφορματιον Σψςτεμς, 112:102131.
  2. Κ-μεανς++ τηε αδανταγες οφ ςαρεφυλ ςεεδινγ. Ιν Προςεεδινγς οφ τηε ειγητεεντη αννυαλ Α῝Μ-ΣΙΑΜ ςψμποςιυμ ον Διςςρετε αλγοριτημς, παγες 1027–1035.
  3. Ον α τοπις μοδελ φορ ςεντενςες. Ιν Προςεεδινγς οφ τηε 39τη Ιντερνατιοναλ Α῝Μ ΣΙΓΙΡ ςονφερενςε ον Ρεςεαρςη ανδ Δεελοπμεντ ιν Ινφορματιον Ρετριεαλ, παγες 921–924.
  4. Βαρβερ, Δ. (2012). Βαψεςιαν ρεαςονινγ ανδ μαςηινε λεαρνινγ. ῝αμβριδγε ϒνιερςιτψ Πρεςς.
  5. Α νευραλ προβαβιλιςτις λανγυαγε μοδελ. Αδανςες ιν νευραλ ινφορματιον προςεςςινγ ςψςτεμς, 13.
  6. Πρε-τραινινγ ις α ηοτ τοπις: ῝οντεξτυαλιζεδ δοςυμεντ εμβεδδινγς ιμπροε τοπις ςοηερενςε. αρΞι πρεπριντ αρΞι:2004.03974.
  7. Βιςηοπ, ῝. Μ. (2006). Παττερν ρεςογνιτιον. Μαςηινε Λεαρνινγ, 128:1–58.
  8. Λατεντ διριςηλετ αλλοςατιον. Θουρναλ οφ μαςηινε Λεαρνινγ ρεςεαρςη, 3(Θαν):993–1022.
  9. Τηε εολυτιον οφ τοπις μοδελινγ. Α῝Μ ῝ομπυτινγ Συρεψς, 54(10ς):1–35.
  10. Ρεπρεςεντινγ Μιξτυρες οφ Ωορδ Εμβεδδινγς ωιτη Μιξτυρες οφ Τοπις Εμβεδδινγς. Ιν Ιντερνατιοναλ ῝ονφερενςε ον Λεαρνινγ Ρεπρεςεντατιονς.
  11. Γαυςςιαν λδα φορ τοπις μοδελς ωιτη ωορδ εμβεδδινγς. Ιν Προς. οφ τηε Αςςο. φορ ῝ομπυτατιοναλ Λινγυιςτιςς(Α῝Λ).
  12. Βερτ: Πρε-τραινινγ οφ δεεπ βιδιρεςτιοναλ τρανςφορμερς φορ λανγυαγε υνδερςτανδινγ. αρΞι πρεπριντ αρΞι:1810.04805.
  13. Τοπις μοδελινγ ιν εμβεδδινγ ςπαςες. Τρανςαςτιονς οφ τηε Αςςοςιατιον φορ ῝ομπυτατιοναλ Λινγυιςτιςς, 8:439–453.
  14. Γροοτενδορςτ, Μ. (2022). Βερτοπις: Νευραλ τοπις μοδελινγ ωιτη α ςλαςς-βαςεδ τφ-ιδφ προςεδυρε. αρΞι πρεπριντ αρΞι:2203.05794.
  15. Ηιδδεν τοπις μαρϰο μοδελς. Ιν ΑΙΣΤΑΤΣ, παγες 163–170.
  16. ῞ιρτυαλλψ ιν τηις τογετηερ–ηοω ωεβ-ςονφερενςινγ ςψςτεμς εναβλεδ α νεω ιρτυαλ τογετηερνεςς δυρινγ τηε ῝Ο῞ΙΔ-19 ςριςις. Ευροπεαν Θουρναλ οφ Ινφορματιον Σψςτεμς, 29(5):563–584.
  17. Ινδυςτρψ δεμανδ φορ αναλψτιςς: Α λονγιτυδιναλ ςτυδψ.
  18. Αυτοματις ϰεψπηραςε εξτραςτιον: Α ςυρεψ οφ τηε ςτατε οφ τηε αρτ. Ιν Προς. οφ τηε Αννυαλ Μεετινγ οφ τηε Αςςοςιατιον φορ ῝ομπυτατιοναλ Λινγυιςτιςς, παγες 1262–1273.
  19. Ηοφμανν, Τ. (1999). Προβαβιλιςτις λατεντ ςεμαντις ινδεξινγ. Ιν Προςεεδινγς οφ Ρεςεαρςη ανδ δεελοπμεντ ιν ινφορματιον ρετριεαλ, παγες 50–57.
  20. Ηοφμανν, Τ. (2001). ϒνςυπεριςεδ λεαρνινγ βψ προβαβιλιςτις λατεντ ςεμαντις αναλψςις. Μαςηινε λεαρνινγ, 42(1):177–196.
  21. Ιμπροινγ νευραλ τοπις μοδελς υςινγ ϰνοωλεδγε διςτιλλατιον. αρΞι πρεπριντ αρΞι:2010.02377.
  22. Αυτοματις λαβελλινγ οφ τοπις μοδελς. Ιν Προςεεδινγς οφ τηε 49τη αννυαλ μεετινγ οφ τηε αςςοςιατιον φορ ςομπυτατιοναλ λινγυιςτιςς: ηυμαν λανγυαγε τεςηνολογιες, παγες 1536–1545.
  23. Ροβερτα: Α ροβυςτλψ οπτιμιζεδ βερτ πρετραινινγ αππροαςη. αρΞι πρεπριντ αρΞι:1907.11692.
  24. Εξπλαιναβλε Αρτιφιςιαλ Ιντελλιγενςε (ΞΑΙ) 2.0: Α Μανιφεςτο οφ Οπεν ῝ηαλλενγες ανδ Ιντερδιςςιπλιναρψ Ρεςεαρςη Διρεςτιονς. αρΞι πρεπριντ αρΞι:2310.19775.
  25. Τοπις διςςοερψ ια λατεντ ςπαςε ςλυςτερινγ οφ πρετραινεδ λανγυαγε μοδελ ρεπρεςεντατιονς. Ιν Προςεεδινγς οφ τηε Α῝Μ Ωεβ ῝ονφερενςε 2022, παγες 3143–3152.
  26. Εξπλαιναβλε αρτιφιςιαλ ιντελλιγενςε: οβϑεςτιες, ςταϰεηολδερς, ανδ φυτυρε ρεςεαρςη οππορτυνιτιες. Ινφορματιον Σψςτεμς Μαναγεμεντ, 39(1):53–63.
  27. Νευραλ αριατιοναλ ινφερενςε φορ τεξτ προςεςςινγ. Ιν Ιντερνατιοναλ ςονφερενςε ον μαςηινε λεαρνινγ, παγες 1727–1736. ΠΜΛΡ.
  28. Εφφιςιεντ εςτιματιον οφ ωορδ ρεπρεςεντατιονς ιν εςτορ ςπαςε. αρΞι πρεπριντ αρΞι:1301.3781.
  29. Ιμπροινγ τοπις ςοηερενςε ωιτη ρεγυλαριζεδ τοπις μοδελς. Ιν Αδ. ιν νευραλ ινφορματιον προςεςςινγ ςψςτεμς, παγες 496–504.
  30. Αυτοματις εαλυατιον οφ τοπις ςοηερενςε. Ιν Ηυμαν λανγυαγε τεςηνολογιες: Τηε 2010 αννυαλ ςονφερενςε οφ τηε Νορτη Αμεριςαν ςηαπτερ οφ τηε αςςοςιατιον φορ ςομπυτατιοναλ λινγυιςτιςς, παγες 100–108.
  31. Ιμπροινγ τοπις μοδελς ωιτη λατεντ φεατυρε ωορδ ρεπρεςεντατιονς. Τρανςαςτιονς οφ τηε Αςςοςιατιον φορ ῝ομπυτατιοναλ Λινγυιςτιςς, 3:299–313.
  32. Τοπις2῞ες: λεαρνινγ διςτριβυτεδ ρεπρεςεντατιονς οφ τοπιςς. Ιν 2015 Ιντερνατιοναλ ςονφερενςε ον αςιαν λανγυαγε προςεςςινγ (ΙΑΛΠ), παγες 193–196. ΙΕΕΕ.
  33. Γενςιμ–πψτηον φραμεωορϰ φορ εςτορ ςπαςε μοδελλινγ. ΝΛΠ ῝εντρε, Φαςυλτψ οφ Ινφορματιςς, Μαςαρψϰ ϒνιερςιτψ, Βρνο, ῝ζεςη Ρεπυβλις, 3(2).
  34. Σεντενςε-βερτ: Σεντενςε εμβεδδινγς υςινγ ςιαμεςε βερτ-νετωορϰς. Ιν Προςεεδινγς οφ τηε 2019 ῝ονφερενςε ον Εμπιριςαλ Μετηοδς ιν Νατυραλ Λανγυαγε Προςεςςινγ. Αςςοςιατιον φορ ῝ομπυτατιοναλ Λινγυιςτιςς.
  35. ΠψΣΒΔ: Πραγματις ςεντενςε βουνδαρψ διςαμβιγυατιον. Ιν Προςεεδινγς οφ Σεςονδ Ωορϰςηοπ φορ ΝΛΠ Οπεν Σουρςε Σοφτωαρε (ΝΛΠ-ΟΣΣ), παγες 110–114, Ονλινε. Αςςοςιατιον φορ ῝ομπυτατιοναλ Λινγυιςτιςς.
  36. ΔιςτιλΒΕΡΤ, α διςτιλλεδ ερςιον οφ ΒΕΡΤ: ςμαλλερ, φαςτερ, ςηεαπερ ανδ λιγητερ. αρΞι πρεπριντ αρΞι:1910.01108.
  37. Τοπις μοδελινγ, λονγ τεξτς ανδ τηε βεςτ νυμβερ οφ τοπιςς. Σομε Προβλεμς ανδ ςολυτιονς. Χυαλιτψ & Χυαντιτψ, 54(4):1095–1108.
  38. Εξπλορινγ τηε ϒςε οφ Βαςϰγρουνδς ιν Ωεβ-ςονφερενςινγ ωιτη Ιμαγε ανδ Τεξτ Αναλψςις. Ιν Ιντερνατιοναλ ῝ονφερενςε οφ Ινφορματιον Σψςτεμς (Ι῝ΙΣ).
  39. Περςοναλιζεδ εξπλανατιον ιν μαςηινε λεαρνινγ: Α ςονςεπτυαλιζατιον. αρΞι πρεπριντ αρΞι:1901.00770.
  40. Τοπις μοδελινγ βαςεδ ον ϰεψωορδς ανδ ςοντεξτ. Ιν Προςεεδινγς οφ τηε 2018 ΣΙΑΜ ιντερνατιοναλ ςονφερενςε ον δατα μινινγ, παγες 369–377. ΣΙΑΜ.
  41. Αυτοενςοδινγ αριατιοναλ ινφερενςε φορ τοπις μοδελς. αρΞι πρεπριντ αρΞι:1703.01488.
  42. Α ςορρελατεδ τοπις μοδελ υςινγ ωορδ εμβεδδινγς. Ιν ΙΘ῝ΑΙ, ολυμε 17, παγες 4207–4213.
  43. Τοπις μοδελλινγ μεετς δεεπ νευραλ νετωορϰς: Α ςυρεψ. αρΞι πρεπριντ αρΞι:2103.00498.
Citations (3)

Summary

We haven't generated a summary for this paper yet.

List To Do Tasks Checklist Streamline Icon: https://streamlinehq.com

Collections

Sign up for free to add this paper to one or more collections.

Lightbulb On Streamline Icon: https://streamlinehq.com

Continue Learning

We haven't generated follow-up questions for this paper yet.

Authors (1)

Github Logo Streamline Icon: https://streamlinehq.com