date.py 2.1 KB

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061
  1. import pynini
  2. from fun_text_processing.inverse_text_normalization.vi.graph_utils import DAMO_NOT_QUOTE, GraphFst, delete_space
  3. from pynini.lib import pynutil
  4. class DateFst(GraphFst):
  5. """
  6. Finite state transducer for verbalizing date, e.g.
  7. date { month: "1" year: "2012"} -> tháng 1 năm 2012
  8. date { day: "5" month: "10" year: "2021" preserve_order: true } -> 5 tháng 10 năm 2021
  9. """
  10. def __init__(self):
  11. super().__init__(name="date", kind="verbalize")
  12. day = (
  13. pynutil.delete("day:")
  14. + delete_space
  15. + pynutil.delete('"')
  16. + pynini.closure(DAMO_NOT_QUOTE, 1)
  17. + pynutil.delete('"')
  18. )
  19. month = (
  20. pynutil.delete("month:")
  21. + delete_space
  22. + pynutil.delete('"')
  23. + pynini.closure(DAMO_NOT_QUOTE, 1)
  24. + pynutil.delete('"')
  25. )
  26. year = (
  27. pynutil.delete("year:")
  28. + delete_space
  29. + pynutil.delete('"')
  30. + pynini.closure(DAMO_NOT_QUOTE, 1)
  31. + delete_space
  32. + pynutil.delete('"')
  33. )
  34. # (day) month year
  35. # day month
  36. graph_dm = day + delete_space + pynutil.insert(" tháng ") + month
  37. graph_dmy = graph_dm + delete_space + pynutil.insert(" năm ") + year
  38. graph_m = pynutil.insert("tháng ") + month
  39. graph_my = pynutil.insert("tháng ") + month + delete_space + pynutil.insert(" năm ") + year
  40. graph_y = pynutil.insert("năm ") + year
  41. optional_preserve_order = pynini.closure(
  42. pynutil.delete("preserve_order:") + delete_space + pynutil.delete("true") + delete_space
  43. | pynutil.delete("field_order:")
  44. + delete_space
  45. + pynutil.delete('"')
  46. + DAMO_NOT_QUOTE
  47. + pynutil.delete('"')
  48. + delete_space
  49. )
  50. final_graph = (graph_y | graph_m | graph_dm | graph_dmy | graph_my) + delete_space + optional_preserve_order
  51. delete_tokens = self.delete_tokens(final_graph)
  52. self.fst = delete_tokens.optimize()